Ни өчен хаталар турында белергә кирәк?
Статистик хаталар - профессионалларда да, яңалык авторларында да, көндәлек тормышта да еш очрый. Аларны танып белү - статистик грамоталылыкның нигезе. Бу дәрестә иң еш хаталарны карыйбыз.
1. Корреляцияне сәбәп дип алу
Иң классик хата. Ике нәрсә бергә үзгәрүе - берсе икенчесенә сәбәп дигәнне аңлатмый.
«Сабантуй бәйрәмнәре күбрәк үткәрелгән елларда Татарстанда бодай уңышы югарырак.» Сабантуй уңышка сәбәпме? Юк - ике күренешнең сәбәбе бер: яхшы һава торышы. Яхшы һава - яхшы уңыш + шатлык бәйрәм.
2. Кечкенә сайламадан зур нәтиҗәләр
5-10 кешегә сорау бирү - бөтен популяция турында нәтиҗә ясарга нигез түгел.
«Минем 4 дустымның 3 е бу дарудан терелде - 75% эффективлык!» Ләкин 4 кеше - бернәрсә исбатлый алмый. Бәлки алар үзләре терелер иделәр. Кимендә 100 кешелек тикшеренү кирәк.
3. Алдангы ихтималлыкны (base rate) игнорь итү
Байес дәресеннән ятлатма: тест 95% точнослы булса да, сирәк авыру өчен күп ялган уңай бирәчәк.
Казан аэропортында террорист ачыклаучы система «99% точнослы» ди. 1 000 000 юлчыдан 1 террорист. Система 1 террористны ачыклый + 10 000 ялган сигнал (1% × 999 999). Уңай сигнал алган кешенең чыннан да террорист булу ихтималлыгы: 1/10 001 ≈ 0.01%.
4. Нисби һәм абсолют саннарны бутау
«Риск 100% арткан» - 0.001% тан 0.002% гамы? Яки 10% тан 20% гамы? Нисби сан кечкенә абсолют аерманы зур итеп күрсәтә.
5. Кушымта (cherry picking)
Бары тик «уңай» мәгълүматны сайлап, «ялгыш» мәгълүматны игнорь итү.
Компания: «2023 елда сатулар 20% арткан!» Тулы картина: 2020 елда сатулар 50% төшкән, 2021-2022 елда яваш артуы булган. 2023 ел бары тик 2019 ел дәрәҗәсенә кайткан.
6. Уртачаның ялгыш кулланылышы
Читтән чыгучы кыйммәтләр булганда урта (mean) - ялгыш. Медиана яхшырак.
«Безнең компаниядә уртача эш хакы 120 000 ₽!» Чынлыкта: директор 500 000, калган 9 хезмәткәр 50 000-80 000 арасында. Уртача 120 000, ләкин медиана 65 000. Кайсы реальлекне яхшырак сурәтли?
7. Күп чагыштыру проблемасы
20 төрле тест ясасагыз (α = 0.05), кимендә 1 «мәгънәле» нәтиҗә алу ихтималлыгы - 64%. Бу очраклык, ләкин «ачыш» кебек күренә.
Тикшерүче 20 төрле ашамлыкның рак белән бәйләнешен тикшерә. Нәтиҗә: «Кыяр рак рискын кими! (p = 0.04)» Ләкин 20 тесттан берендә p < 0.05 чыгу - нормаль очраклык. Бу ялгыш «ачыш».
8. P-hacking
Мәгълүматны «p < 0.05 чыкканчы» кабатлап анализлау: подгруппалар сайлау, читтән чыгучыларны бетерү, үзгәрешлеләр алмаштыру. Бу - фәнни этикага каршы.
9. Экологик ялгышлык
Төркем дәрәҗәсендәге мәгълүматны аерым кешеләргә кулланү. «Бай илләрдә тормыш озынрак» - бу ил дәрәҗәсе. Аерым бай кеше озаграк яшәячәк дигән нәтиҗә юк.
10. Сорау формулировкасы тәэсире
«Сез Казанда экология мәсьәләләре турында борчыламысыз?» - 70% «әйе». «Сезнечә, Казанда экология проблемалары зурмы?» - 50% «әйе». Бер тема - ике сорау - ике нәтиҗә.
Иң еш хаталар: корреляцияне сәбәп итү, кечкенә сайлама, base rate игнорь итү, нисби/абсолют бутау, cherry picking, уртачаны ялгыш куллану, күп чагыштыру, p-hacking, экологик ялгышлык, сорау тәэсире. Бу хаталарны танып белү - статистик грамоталылыкның нигезе.