Najważniejsze twierdzenie w statystyce
Centralne twierdzenie graniczne (CTG) brzmi skomplikowanie, ale jego idea jest zaskakująco prosta i niezwykle potężna. Mówi ono: jeśli weźmiesz wystarczająco dużo losowych prób z jakiejkolwiek populacji i obliczysz średnią każdej próby, to rozkład tych średnich będzie zbliżony do rozkładu normalnego - niezależnie od tego, jak wygląda rozkład oryginalnych danych.
To jest niesamowite. Oryginalne dane mogą mieć dowolny kształt - skośny, płaski, dwuszczytowy - ale średnie z prób i tak układają się w krzywą dzwonową.
Wyobraź sobie, że rzucasz kostką 10 000 razy. Każdy wynik (1-6) jest równo prawdopodobny - to rozkład płaski, nie normalny. Ale teraz: rzuć kostką 30 razy i zapisz średnią. Powtórz to 1000 razy. Rozkład tych 1000 średnich będzie miał kształt krzywej dzwonowej, skupiony wokół wartości 3,5.
Dlaczego to takie ważne?
CTG jest fundamentem statystyki wnioskowej. Dzięki niemu możemy:
- Używać rozkładu normalnego do obliczania przedziałów ufności, nawet jeśli oryginalne dane nie są normalnie rozłożone
- Przeprowadzać testy hipotez
- Szacować prawdopodobieństwo uzyskania określonych wyników z próby
Jak duża musi być próba?
Ogólna zasada mówi, że próba o liczebności 30 lub więcej wystarcza, żeby CTG zaczęło działać. Jeśli oryginalne dane są już blisko normalnego rozkładu, wystarczy mniejsza próba. Jeśli są mocno skośne, może być potrzebna większa.
GUS chce oszacować średnie zarobki Polaków. Zarobki mają rozkład mocno skośny w prawo (większość zarabia przeciętnie, nieliczni bardzo dużo). Ale jeśli GUS zbierze próbę 1000 osób i obliczy średnią, ta średnia będzie miała rozkład normalny. Jeśli powtórzy to wiele razy (różne próby po 1000 osób), średnie ułożą się w krzywą dzwonową.
CTG w praktyce: błąd standardowy średniej
CTG mówi nam też, jak "rozrzucone" będą średnie z prób. Ten rozrzut nazywamy błędem standardowym średniej i obliczamy go jako: odchylenie standardowe populacji podzielone przez pierwiastek z liczebności próby.
To oznacza, że im większa próba, tym mniejszy błąd - średnia z próby jest dokładniejsza.
Odchylenie standardowe wyników matury wynosi 20 punktów. Jeśli weźmiesz próbę 25 uczniów, błąd standardowy = 20 / √25 = 20/5 = 4 punkty. Jeśli weźmiesz próbę 100 uczniów, błąd = 20 / √100 = 20/10 = 2 punkty. Czterokrotne zwiększenie próby zmniejszyło błąd o połowę.
Analogia z codziennego życia
Wyobraź sobie, że próbkujesz zupę. Jeden łyk może być za słony (trafiłeś na kawałek szynki). Drugi za mdły. Ale jeśli wymieszasz zupę i weźmiesz kilka łyków, ich "średni" smak będzie dobrym odzwierciedleniem całości. Im więcej łyków (większa próba), tym dokładniejszy obraz. To jest centralne twierdzenie graniczne w kuchni.
Ograniczenia CTG
- Próba musi być losowa - CTG nie działa dla prób dobranych nielosowo
- Dla bardzo skośnych danych potrzeba większych prób
- CTG dotyczy średnich (i sum), nie pojedynczych obserwacji
Centralne twierdzenie graniczne mówi, że średnie z wystarczająco dużych losowych prób zawsze mają rozkład zbliżony do normalnego - niezależnie od rozkładu oryginalnych danych. Dzięki temu możemy używać narzędzi opartych na rozkładzie normalnym do wnioskowania o populacji na podstawie próby. Im większa próba, tym dokładniejsza średnia z próby.