Czym jest rozkład prawdopodobieństwa?
Rozkład prawdopodobieństwa to sposób opisania wszystkich możliwych wyników pewnego zdarzenia i prawdopodobieństw każdego z nich. To jak mapa, która mówi ci: "oto wszystkie rzeczy, które mogą się zdarzyć, i jak prawdopodobna jest każda z nich."
Rzucasz dwiema kostkami i sumujesz wyniki. Możliwe sumy to od 2 do 12, ale nie każda jest równie prawdopodobna. Suma 7 może powstać na 6 sposobów (1+6, 2+5, 3+4, 4+3, 5+2, 6+1), ale suma 2 tylko na 1 sposób (1+1). Jeśli narysujesz wykres prawdopodobieństw każdej sumy, dostaniesz rozkład prawdopodobieństwa.
Rozkłady dyskretne
Kiedy zmienna może przyjąć tylko określone, oddzielne wartości (jak wynik rzutu kostką lub liczba goli w meczu), mówimy o rozkładzie dyskretnym.
Rozkład dwumianowy (Bernoulliego)
Jeden z najważniejszych rozkładów dyskretnych. Opisuje sytuacje, w której powtarzasz eksperyment o dwóch możliwych wynikach (sukces/porażka) wiele razy.
Na maturze z matematyki zdaje 78% uczniów. W klasie jest 25 uczniów. Ile z nich zda? Rozkład dwumianowy mówi nam, że najczęściej zda około 19-20 uczniów, ale możliwe jest też 15 lub 23. Daje prawdopodobieństwo każdej możliwej liczby zdających.
Rozkłady ciągłe
Kiedy zmienna może przyjąć dowolną wartość w pewnym zakresie (jak wzrost, waga czy temperatura), mamy rozkład ciągły. Zamiast prawdopodobieństwa poszczególnych wartości, mówimy o prawdopodobieństwie przedziałów.
Rozkład normalny - krzywa dzwonowa
To najsłynniejszy rozkład w całej statystyce. Ma kształt symetrycznego dzwonu - większość wartości skupia się wokół środka, a skrajne wartości są coraz rzadsze.
Rozkład normalny pojawia się wszędzie w przyrodzie i w społeczeństwie: wzrost ludzi, wyniki testów, błędy pomiarowe, codzienne temperatury - wszystko to często układa się w krzywą dzwonową.
Wyniki matury z matematyki w całej Polsce. Większość uczniów uzyskuje wynik blisko średniej (powiedzmy 55%). Bardzo mało uczniów dostaje poniżej 20% lub powyżej 90%. Jeśli narysujesz histogram wyników, przybierze kształt dzwonu - to rozkład normalny w praktyce.
Reguła 68-95-99,7
W rozkładzie normalnym możemy powiedzieć dokładnie, jaki procent danych znajduje się w określonym oddaleniu od średniej:
- 68% danych mieści się w granicach 1 odchylenia standardowego od średniej
- 95% danych mieści się w granicach 2 odchyleń standardowych
- 99,7% danych mieści się w granicach 3 odchyleń standardowych
Średni wzrost dorosłego Polaka to około 176 cm z odchyleniem standardowym 7 cm. Według reguły: 68% mężczyzn ma wzrost między 169 a 183 cm. 95% między 162 a 190 cm. 99,7% między 155 a 197 cm. Spotkanie mężczyzny o wzroście 200 cm jest rzadkie - znajduje się poza 3 odchyleniami standardowymi.
Kiedy rozkład NIE jest normalny
Nie wszystkie dane mają rozkład normalny. Zarobki są typowym przykładem - większość ludzi zarabia przeciętnie, ale nieliczni zarabiają astronomicznie dużo. Taki rozkład jest "skośny w prawo" - ma długi ogon po prawej stronie.
Ceny nieruchomości w Polsce też nie są normalnie rozłożone. Większość mieszkań kosztuje między 200 000 a 600 000 zł, ale są mieszkania za 2 miliony i więcej.
Dlaczego to ważne?
Znajomość rozkładu danych jest kluczowa, bo wiele metod statystycznych zakłada rozkład normalny. Jeśli twoje dane nie są normalnie rozłożone, a zastosujesz metody zakładające normalność, wyniki mogą być mylące. To jak używanie mapy Warszawy do nawigacji po Krakowie - narzędzie jest dobre, ale nie pasuje do sytuacji.
Rozkład prawdopodobieństwa opisuje wszystkie możliwe wyniki i ich prawdopodobieństwa. Rozkład normalny (krzywa dzwonowa) jest najważniejszy - reguła 68-95-99,7 mówi, jaki procent danych mieści się w określonym oddaleniu od średniej. Nie wszystkie dane są normalnie rozłożone (np. zarobki) i ważne jest wiedzieć, z jakim rozkładem mamy do czynienia, zanim zastosujemy metody statystyczne.