What are the most common statistical mistakes?

Confusing correlation with causation, ignoring sample size, p-hacking, survivorship bias, and misinterpreting percentages are very common.

P-hacking is manipulating data or analysis until you get a statistically significant result, inflating false positive rates.

What is the base rate fallacy?

The base rate fallacy is ignoring the overall prevalence of an event when judging probability, leading to overestimation of rare outcomes.

What is the ecological fallacy in statistics?

The ecological fallacy assumes that group-level trends apply to individuals. Average income in a city does not tell you any one person's income.

Еш очрый торган хаталар

Ни өчен хаталар турында белергә кирәк?

Статистик хаталар - профессионалларда да, яңалык авторларында да, көндәлек тормышта да еш очрый. Аларны танып белү - статистик грамоталылыкның нигезе. Бу дәрестә иң еш хаталарны карыйбыз.

1. Корреляцияне сәбәп дип алу

Иң классик хата. Ике нәрсә бергә үзгәрүе - берсе икенчесенә сәбәп дигәнне аңлатмый.

Мисал

«Сабантуй бәйрәмнәре күбрәк үткәрелгән елларда Татарстанда бодай уңышы югарырак.» Сабантуй уңышка сәбәпме? Юк - ике күренешнең сәбәбе бер: яхшы һава торышы. Яхшы һава - яхшы уңыш + шатлык бәйрәм.

2. Кечкенә сайламадан зур нәтиҗәләр

5-10 кешегә сорау бирү - бөтен популяция турында нәтиҗә ясарга нигез түгел.

Мисал

«Минем 4 дустымның 3 е бу дарудан терелде - 75% эффективлык!» Ләкин 4 кеше - бернәрсә исбатлый алмый. Бәлки алар үзләре терелер иделәр. Кимендә 100 кешелек тикшеренү кирәк.

3. Алдангы ихтималлыкны (base rate) игнорь итү

Байес дәресеннән ятлатма: тест 95% точнослы булса да, сирәк авыру өчен күп ялган уңай бирәчәк.

Мисал

Казан аэропортында террорист ачыклаучы система «99% точнослы» ди. 1 000 000 юлчыдан 1 террорист. Система 1 террористны ачыклый + 10 000 ялган сигнал (1% × 999 999). Уңай сигнал алган кешенең чыннан да террорист булу ихтималлыгы: 1/10 001 ≈ 0.01%.

4. Нисби һәм абсолют саннарны бутау

«Риск 100% арткан» - 0.001% тан 0.002% гамы? Яки 10% тан 20% гамы? Нисби сан кечкенә абсолют аерманы зур итеп күрсәтә.

5. Кушымта (cherry picking)

Бары тик «уңай» мәгълүматны сайлап, «ялгыш» мәгълүматны игнорь итү.

Мисал

Компания: «2023 елда сатулар 20% арткан!» Тулы картина: 2020 елда сатулар 50% төшкән, 2021-2022 елда яваш артуы булган. 2023 ел бары тик 2019 ел дәрәҗәсенә кайткан.

6. Уртачаның ялгыш кулланылышы

Читтән чыгучы кыйммәтләр булганда урта (mean) - ялгыш. Медиана яхшырак.

Мисал

«Безнең компаниядә уртача эш хакы 120 000 ₽!» Чынлыкта: директор 500 000, калган 9 хезмәткәр 50 000-80 000 арасында. Уртача 120 000, ләкин медиана 65 000. Кайсы реальлекне яхшырак сурәтли?

7. Күп чагыштыру проблемасы

20 төрле тест ясасагыз (α = 0.05), кимендә 1 «мәгънәле» нәтиҗә алу ихтималлыгы - 64%. Бу очраклык, ләкин «ачыш» кебек күренә.

Мисал

Тикшерүче 20 төрле ашамлыкның рак белән бәйләнешен тикшерә. Нәтиҗә: «Кыяр рак рискын кими! (p = 0.04)» Ләкин 20 тесттан берендә p < 0.05 чыгу - нормаль очраклык. Бу ялгыш «ачыш».

8. P-hacking

Мәгълүматны «p < 0.05 чыкканчы» кабатлап анализлау: подгруппалар сайлау, читтән чыгучыларны бетерү, үзгәрешлеләр алмаштыру. Бу - фәнни этикага каршы.

9. Экологик ялгышлык

Төркем дәрәҗәсендәге мәгълүматны аерым кешеләргә кулланү. «Бай илләрдә тормыш озынрак» - бу ил дәрәҗәсе. Аерым бай кеше озаграк яшәячәк дигән нәтиҗә юк.

10. Сорау формулировкасы тәэсире

Мисал

«Сез Казанда экология мәсьәләләре турында борчыламысыз?» - 70% «әйе». «Сезнечә, Казанда экология проблемалары зурмы?» - 50% «әйе». Бер тема - ике сорау - ике нәтиҗә.

Төп нәтиҗә

Иң еш хаталар: корреляцияне сәбәп итү, кечкенә сайлама, base rate игнорь итү, нисби/абсолют бутау, cherry picking, уртачаны ялгыш куллану, күп чагыштыру, p-hacking, экологик ялгышлык, сорау тәэсире. Бу хаталарны танып белү - статистик грамоталылыкның нигезе.

Еш очрый торган хаталар

Ни өчен хаталар турында белергә кирәк?

1. Корреляцияне сәбәп дип алу

2. Кечкенә сайламадан зур нәтиҗәләр

3. Алдангы ихтималлыкны (base rate) игнорь итү

4. Нисби һәм абсолют саннарны бутау

5. Кушымта (cherry picking)

6. Уртачаның ялгыш кулланылышы

7. Күп чагыштыру проблемасы

8. P-hacking

9. Экологик ялгышлык

10. Сорау формулировкасы тәэсире

Бәйле дәресләр