What are the most common statistical mistakes?

Confusing correlation with causation, ignoring sample size, p-hacking, survivorship bias, and misinterpreting percentages are very common.

P-hacking is manipulating data or analysis until you get a statistically significant result, inflating false positive rates.

What is the base rate fallacy?

The base rate fallacy is ignoring the overall prevalence of an event when judging probability, leading to overestimation of rare outcomes.

What is the ecological fallacy in statistics?

The ecological fallacy assumes that group-level trends apply to individuals. Average income in a city does not tell you any one person's income.

Częste błędy statystyczne

Błędy, które popełnia prawie każdy

Nawet inteligentni ludzie regularnie popełniają błędy w rozumowaniu statystycznym. To nie kwestia inteligencji - nasz mózg po prostu nie jest stworzony do intuicyjnego rozumienia prawdopodobieństwa i danych. Oto najczęstsze pułapki i jak ich unikać.

1. Mylenie korelacji z przyczynowością

Mówiliśmy o tym w lekcji o korelacji, ale warto powtórzyć - to najczęstszy błąd statystyczny na świecie.

Przykład

"Kraje, które jedzą więcej czekolady, produkują więcej noblistów." Nagłówek sugeruje, że czekolada czyni ludzi mądrzejszymi. W rzeczywistości oba zjawiska korelują z zamożnością kraju. Bogatsze kraje stać zarówno na czekoladę, jak i na inwestowanie w naukę.

2. Pułapka hazardzisty

Wiara, że po serii jednego wyniku następny musi być inny. Moneta wypadła orłem 10 razy z rzędu - więc teraz "musi" wypaść reszka. Nie musi. Każdy rzut jest niezależny.

Przykład

W kasynie w Monte Carlo w 1913 roku ruletka wypadła na czarnym 26 razy z rzędu. Gracze stawiali coraz więcej na czerwone, wierząc, że "musi się zmienić". Stracili miliony. Każdy obrót ruletki jest niezależny od poprzedniego.

3. Ignorowanie prawdopodobieństwa bazowego

Ignorowanie tego, jak częsta jest dana rzecz w populacji. Widzieliśmy to w lekcji o twierdzeniu Bayesa.

Przykład

Słyszysz, że test na rzadką chorobę jest "99% dokładny". Masz pozytywny wynik. Większość ludzi pomyśli: "Jestem w 99% chory." Ale jeśli choroba dotyczy 1 na 10 000 osób, prawdopodobieństwo, że naprawdę jesteś chory to około 1%. 99% dokładny test daje setki fałszywych alarmów na każdego prawdziwie chorego.

4. Błąd małych liczb

Wyciąganie wielkich wniosków z małych prób.

Przykład

"3 z 4 stomatologów poleca naszą pastę do zębów!" Brzmi imponująco. Ale jeśli pytano 4 stomatologów, to jeden się nie zgodził. Może następnych 4 stomatologów dałoby zupełnie inny wynik. Małe próby są bardzo niestabilne.

5. Wybieranie wisni (cherry picking)

Prezentowanie tylko tych danych, które wspierają Twoją tezę, a ignorowanie reszty.

Przykład

Polityk mówi: "Od kiedy objąłem urząd, bezrobocie spadło z 6% do 5%!" Nie wspomina, że trend spadkowy zaczął się 3 lata przed jego kadencją, a w środku było 7%. Wybiera punkt początkowy i końcowy, które najlepiej pasują do jego narracji.

6. Ekologiczny błąd wnioskowania

Wyciąganie wniosków o jednostkach na podstawie danych grupowych.

Przykład

"Kraje z wyższym PKB mają niższy poziom szczęścia" (dane zagregowane). Wniosek: "Pieniądze nie dają szczęścia." Ale na poziomie indywidualnym ludzie z wyższymi dochodami są generalnie szczęśliwsi (do pewnego progu). To co jest prawdą dla krajów, nie musi być prawdą dla jednostek.

7. Mylenie istotności statystycznej z praktyczną

Wynik statystycznie istotny nie musi być praktycznie ważny.

Przykład

Badanie na 500 000 osobach: suplement X poprawia pamięć o 0,3% (p < 0,001). Statystycznie istotne! Ale 0,3% poprawy pamięci jest niezauważalne w codziennym życiu. Duża próba "wykryła" efekt tak mały, że nie ma praktycznego znaczenia.

8. Post hoc ergo propter hoc

"Po tym, więc z powodu tego." Jeśli B nastąpiło po A, to A spowodowało B. To klasyczny błąd logiczny.

Przykład

"Zacząłem pić zieloną herbatę i przeziębienie minęło w 3 dni!" Przeziębienie zazwyczaj trwa 3-5 dni bez względu na to, co pijesz. Zielona herbata mogła nie mieć nic do rzeczy.

Kluczowy wniosek

Najczęstsze błędy statystyczne to mylenie korelacji z przyczynowością, pułapka hazardzisty, ignorowanie prawdopodobieństwa bazowego, wyciąganie wniosków z małych prób, cherry picking, błąd ekologiczny i mylenie istotności statystycznej z praktyczną. Świadomość tych pułapek nie gwarantuje, że ich unikniesz - ale znacznie zwiększa Twoje szanse.

Częste błędy statystyczne

Błędy, które popełnia prawie każdy

1. Mylenie korelacji z przyczynowością

2. Pułapka hazardzisty

3. Ignorowanie prawdopodobieństwa bazowego

4. Błąd małych liczb

5. Wybieranie wisni (cherry picking)

6. Ekologiczny błąd wnioskowania

7. Mylenie istotności statystycznej z praktyczną

8. Post hoc ergo propter hoc

Powiązane lekcje