Еш очрый торган хаталар

Катлаулылык: Башлангыч Уку вакыты: 10 минут

Ни өчен хаталар турында белергә кирәк?

Статистик хаталар - профессионалларда да, яңалык авторларында да, көндәлек тормышта да еш очрый. Аларны танып белү - статистик грамоталылыкның нигезе. Бу дәрестә иң еш хаталарны карыйбыз.

-3 -2 -1 0 1 2 3

1. Корреляцияне сәбәп дип алу

Иң классик хата. Ике нәрсә бергә үзгәрүе - берсе икенчесенә сәбәп дигәнне аңлатмый.

Мисал

«Сабантуй бәйрәмнәре күбрәк үткәрелгән елларда Татарстанда бодай уңышы югарырак.» Сабантуй уңышка сәбәпме? Юк - ике күренешнең сәбәбе бер: яхшы һава торышы. Яхшы һава - яхшы уңыш + шатлык бәйрәм.

2. Кечкенә сайламадан зур нәтиҗәләр

5-10 кешегә сорау бирү - бөтен популяция турында нәтиҗә ясарга нигез түгел.

Мисал

«Минем 4 дустымның 3 е бу дарудан терелде - 75% эффективлык!» Ләкин 4 кеше - бернәрсә исбатлый алмый. Бәлки алар үзләре терелер иделәр. Кимендә 100 кешелек тикшеренү кирәк.

3. Алдангы ихтималлыкны (base rate) игнорь итү

Байес дәресеннән ятлатма: тест 95% точнослы булса да, сирәк авыру өчен күп ялган уңай бирәчәк.

Мисал

Казан аэропортында террорист ачыклаучы система «99% точнослы» ди. 1 000 000 юлчыдан 1 террорист. Система 1 террористны ачыклый + 10 000 ялган сигнал (1% × 999 999). Уңай сигнал алган кешенең чыннан да террорист булу ихтималлыгы: 1/10 001 ≈ 0.01%.

4. Нисби һәм абсолют саннарны бутау

«Риск 100% арткан» - 0.001% тан 0.002% гамы? Яки 10% тан 20% гамы? Нисби сан кечкенә абсолют аерманы зур итеп күрсәтә.

5. Кушымта (cherry picking)

Бары тик «уңай» мәгълүматны сайлап, «ялгыш» мәгълүматны игнорь итү.

Мисал

Компания: «2023 елда сатулар 20% арткан!» Тулы картина: 2020 елда сатулар 50% төшкән, 2021-2022 елда яваш артуы булган. 2023 ел бары тик 2019 ел дәрәҗәсенә кайткан.

6. Уртачаның ялгыш кулланылышы

Читтән чыгучы кыйммәтләр булганда урта (mean) - ялгыш. Медиана яхшырак.

Мисал

«Безнең компаниядә уртача эш хакы 120 000 ₽!» Чынлыкта: директор 500 000, калган 9 хезмәткәр 50 000-80 000 арасында. Уртача 120 000, ләкин медиана 65 000. Кайсы реальлекне яхшырак сурәтли?

7. Күп чагыштыру проблемасы

20 төрле тест ясасагыз (α = 0.05), кимендә 1 «мәгънәле» нәтиҗә алу ихтималлыгы - 64%. Бу очраклык, ләкин «ачыш» кебек күренә.

Мисал

Тикшерүче 20 төрле ашамлыкның рак белән бәйләнешен тикшерә. Нәтиҗә: «Кыяр рак рискын кими! (p = 0.04)» Ләкин 20 тесттан берендә p < 0.05 чыгу - нормаль очраклык. Бу ялгыш «ачыш».

8. P-hacking

Мәгълүматны «p < 0.05 чыкканчы» кабатлап анализлау: подгруппалар сайлау, читтән чыгучыларны бетерү, үзгәрешлеләр алмаштыру. Бу - фәнни этикага каршы.

9. Экологик ялгышлык

Төркем дәрәҗәсендәге мәгълүматны аерым кешеләргә кулланү. «Бай илләрдә тормыш озынрак» - бу ил дәрәҗәсе. Аерым бай кеше озаграк яшәячәк дигән нәтиҗә юк.

10. Сорау формулировкасы тәэсире

Мисал

«Сез Казанда экология мәсьәләләре турында борчыламысыз?» - 70% «әйе». «Сезнечә, Казанда экология проблемалары зурмы?» - 50% «әйе». Бер тема - ике сорау - ике нәтиҗә.

Төп нәтиҗә

Иң еш хаталар: корреляцияне сәбәп итү, кечкенә сайлама, base rate игнорь итү, нисби/абсолют бутау, cherry picking, уртачаны ялгыш куллану, күп чагыштыру, p-hacking, экологик ялгышлык, сорау тәэсире. Бу хаталарны танып белү - статистик грамоталылыкның нигезе.