Rozkład normalny i wyniki Z

Poziom trudności: Średniozaawansowany Czas czytania: 12 minut

Krzywa dzwonowa jest wszędzie

Gdybyś zmierzył wzrost każdej dorosłej osoby w dużym mieście i naniesił wyniki na wykres, zobaczyłbyś znajomy kształt: gładkie, symetryczne wzgórze, które osiąga szczyt pośrodku i opada po obu stronach. Ten kształt nazywa się rozkładem normalnym i jest to prawdopodobnie najważniejsze pojęcie w całej statystyce.

Rozkład normalny pojawia się w zadziwiająco wielu miejscach. Wyniki testów, odczyty ciśnienia krwi, czas dojazdu do pracy, tolerancje produkcyjne na hali fabrycznej, a nawet błędy pomiarów naukowych -- wszystkie te zjawiska mają tendencję do przyjmowania kształtu dzwonowego. Powód jest matematyczny: gdy pomiar jest wynikiem działania wielu małych, niezależnych czynników, wynik ma tendencję do rozkładu normalnego. Ta zasada jest ściśle związana z Centralnym Twierdzeniem Granicznym.

55 70 85 100 115 130 145

Na wykresie powyżej szczyt reprezentuje najczęściej występującą wartość (średnią), a krzywa opada symetrycznie po obu stronach. Większość wartości skupia się blisko środka, a im dalej od niego, tym mniej obserwacji.

Średnia, odchylenie standardowe i kształt

Rozkład normalny jest całkowicie zdefiniowany przez zaledwie dwie liczby: średnią (środek krzywej) i odchylenie standardowe (jak bardzo dane są rozrzucone). Średnia mówi, gdzie na osi liczbowej znajduje się szczyt. Odchylenie standardowe mówi, jak szeroki lub wąski jest dzwon.

Weźmy pod uwagę wyniki IQ, które są zaprojektowane tak, aby podlegały rozkładowi normalnemu ze średnią 100 i odchyleniem standardowym 15. Większość ludzi uzyskuje wynik między 85 a 115. Nieliczni uzyskują poniżej 70 lub powyżej 130. Bardzo niewielu uzyskuje poniżej 55 lub powyżej 145. Zmień odchylenie standardowe na 5, a dzwon staje się znacznie węższy -- prawie wszyscy skupiają się między 90 a 110. Zmień na 25, a dzwon się spłaszcza, a wyniki rozkładają się znacznie szerzej.

Na tym polega piękno rozkładu normalnego: gdy znasz średnią i odchylenie standardowe, znasz cały kształt i możesz obliczyć prawdopodobieństwo wystąpienia dowolnej wartości.

Reguła 68-95-99,7

Jedną z najbardziej praktycznych cech rozkładu normalnego jest reguła empiryczna, zwana również regułą 68-95-99,7. Stwierdza ona, że dla dowolnych danych o rozkładzie normalnym:

  • Około 68% wartości mieści się w obrębie 1 odchylenia standardowego od średniej.
  • Około 95% wartości mieści się w obrębie 2 odchyleń standardowych.
  • Około 99,7% wartości mieści się w obrębie 3 odchyleń standardowych.
-3 -2 -1 0 1 2 3

Ta reguła daje szybki sposób oceny, jak nietypowa jest dana wartość. Jeśli dane mają rozkład normalny i ktoś zgłasza wartość oddaloną o więcej niż 3 odchylenia standardowe od średniej, jest to niezwykle rzadkie -- zdarza się rzadziej niż w 0,3% przypadków. Inżynierowie kontroli jakości stosują tę zasadę codziennie: część fabryczna, która wykracza poza trzy odchylenia standardowe od docelowego wymiaru, jest oznaczana jako wadliwa.

Przykład

Załóżmy, że średni czas dojazdu do pracy w mieście wynosi 35 minut, z odchyleniem standardowym 8 minut. Według reguły 68-95-99,7 około 68% dojeżdżających spędza od 27 do 43 minut. Około 95% spędza od 19 do 51 minut. A prawie wszyscy (99,7%) mieszczą się w przedziale od 11 do 59 minut. Jeśli ktoś mówi, że jego dojazd trwa 65 minut, to jest to ponad 3 odchylenia standardowe powyżej średniej -- naprawdę nietypowy dojazd w tym mieście.

Wyniki Z: uniwersalna miara

Różne rozkłady normalne używają różnych jednostek i skal. Jak porównać wynik testu 82 z egzaminu, na którym średnia wynosi 75 (odchylenie standardowe 5), z wynikiem 720 na egzaminie SAT, na którym średnia wynosi 500 (odchylenie standardowe 100)? Używasz wyniku Z.

Wynik Z mówi, o ile odchyleń standardowych wartość jest powyżej lub poniżej średniej. Wzór jest prosty: odejmij średnią od wartości, a następnie podziel przez odchylenie standardowe. Dla wyniku z egzaminu: (82 - 75) / 5 = 1,4. Dla SAT: (720 - 500) / 100 = 2,2. Wynik SAT jest bardziej imponujący w odniesieniu do swojego rozkładu, ponieważ jest dalej od średniej w jednostkach odchylenia standardowego.

Wynik Z równy 0 oznacza, że wartość jest dokładnie średnią. Dodatni wynik Z oznacza, że jest powyżej średniej. Ujemny wynik Z oznacza, że jest poniżej średniej. Wielkość mówi, jak daleko od średniej się znajduje. Wynik Z równy 2,0 oznacza, że wartość jest wyższa niż około 97,7% wszystkich wartości w rozkładzie.

-3 -2 -1 0 1 2 3

Wyniki Z są potężne, ponieważ przekształcają dowolny rozkład normalny w standardowy rozkład normalny -- krzywą dzwonową ze średnią 0 i odchyleniem standardowym 1. Pozwala to używać jednej tabeli referencyjnej (lub kalkulatora) do znajdowania prawdopodobieństw dla dowolnej zmiennej o rozkładzie normalnym, niezależnie od jej pierwotnej skali.

Zastosowania w świecie rzeczywistym

Rozkład normalny i wyniki Z to nie tylko idee z podręczników. Ocenianie na krzywej oznacza dopasowanie wyników studentów do rozkładu normalnego. Wyniki badań laboratoryjnych są często oznaczane jako nieprawidłowe, gdy wykraczają poza 2 odchylenia standardowe od średniej populacji. Analitycy finansowi modelują stopy zwrotu z akcji za pomocą rozkładów normalnych (choć w rzeczywistości ogony są często grubsze, co stanowi istotne ograniczenie). Firmy ubezpieczeniowe stosują modele normalne do szacowania roszczeń.

Ważne jest również, aby wiedzieć, kiedy rozkład normalny nie ma zastosowania. Rozkłady dochodów są silnie prawostronnie skośne -- kilka bardzo wysokich zarobków odciąga średnią daleko od mediany. Czasy oczekiwania i dane dotyczące przeżywalności są często skośne. Dane licznikowe (jak liczba wypadków dziennie) podlegają zupełnie innym rozkładom. Zawsze sprawdzaj, czy założenie krzywej dzwonowej jest uzasadnione, zanim zastosujesz te narzędzia.

Kluczowy wniosek

Rozkład normalny to symetryczna, dzwonowata krzywa, zdefiniowana całkowicie przez średnią i odchylenie standardowe. Reguła 68-95-99,7 daje szybkie pojęcie o tym, jak dane rozkładają się wokół średniej. Wyniki Z pozwalają przeliczyć dowolną wartość na uniwersalną skalę mierzoną w odchyleniach standardowych, umożliwiając porównywanie wyników z zupełnie różnych kontekstów. Zawsze sprawdzaj, czy dane mają w przybliżeniu rozkład normalny, zanim będziesz polegać na tych narzędziach -- nie wszystkie dane ze świata rzeczywistego mają kształt krzywej dzwonowej.