Помилки, які роблять усі
Статистичні помилки трапляються не лише у студентів. Журналісти, політики, менеджери і навіть вчені регулярно припускаються одних і тих самих помилок. Знання цих пасток -- найкращий захист.
1. Плутанина кореляції з причинністю
Ми вже обговорювали це, але варто повторити -- це помилка номер один у світі.
"Дослідження показало: діти, які грають на музичних інструментах, краще навчаються в школі." Висновок: "Запишіть дитину на музику -- бали покращаться!" Але, можливо, заможніші батьки і на музику записують, і більше вкладають в освіту. Дохід сім'ї -- конфаундер, а не піаніно.
2. Вибіркове використання даних (cherry-picking)
Показувати лише ті дані, що підтримують вашу точку зору, ігноруючи решту.
Компанія каже: "Наші продажі зросли на 40% у березні!" Але мовчить про падіння на 60% у січні-лютому. Загалом за квартал -- мінус. Показуючи лише один хороший місяць, вони створюють оманливу картину зростання.
3. Надмірне узагальнення малої вибірки
Робити широкі висновки на основі кількох спостережень.
"Мій дідусь курив усе життя і дожив до 90." Висновок: "Куріння не шкідливе." Це одне спостереження проти мільйонів. Статистика чітко показує: курці в середньому живуть на 10 років менше. Але завжди є винятки -- і вони нічого не доводять.
4. Ігнорування базової ймовірності
Забувати про те, наскільки поширене явище, при інтерпретації тесту.
Поліграф (детектор брехні) "точний на 90%". Якщо 1 з 1 000 підозрюваних справді винний, при тестуванні 1 000 людей: 1 справді винного поліграф, ймовірно, виявить, але 99 невинних хибно "викриє". 99 хибних тривог на 1 правильну! "90% точності" виявляється практично марним.
5. Плутанина статистичної та практичної значущості
p < 0,05 не означає, що ефект великий або важливий.
Дослідження 50 000 студентів показало: ті, хто снідає, мають на 0,3 бали вищий середній бал (за шкалою до 200). p = 0,001. Статистично значуще? Так. Практично важливо? 0,3 бали? Ні.
6. Помилка гравця
Віра в те, що випадкові події "компенсуються".
"Червоне випало 8 разів поспіль у рулетці -- ставлю на чорне, бо воно 'повинне' випасти!" Рулетка не має пам'яті. Ймовірність чорного на наступному обертанні така сама, як завжди -- близько 48%.
7. Екологічна помилка
Висновки про індивідів на основі групових даних.
"У Київській області середній дохід найвищий в Україні. Отже, кожен киянин заробляє більше за кожного тернополянина." Ні! Середнє -- це характеристика групи. Конкретний тернополянин може заробляти більше за конкретного киянина.
8. Плутанина відсотків і відсоткових пунктів
"Підтримка зросла з 40% до 44%." Це зростання на 4 відсоткових пункти, але на 10% у відносному вимірі (4/40 = 0,10). Плутати ці два поняття -- класична маніпуляція.
9. Маніпуляція графіками
Зрізана вісь Y, нерівномірна шкала, подвійна вісь з різними масштабами -- все це може створити хибне враження.
10. "Після" не означає "через"
Post hoc ergo propter hoc -- "після цього, отже, через це". Те, що подія B сталася після A, не означає, що A спричинила B.
"Після запуску рекламної кампанії продажі на Rozetka зросли." Може, це реклама. А може, просто настав передноворічний сезон, коли продажі зростають щороку.
Найпоширеніші помилки: плутанина кореляції з причинністю, вибіркове використання даних, узагальнення малої вибірки, ігнорування базової ймовірності, плутанина статистичної та практичної значущості. Знання цих пасток перетворює вас на набагато кращого читача та споживача статистичної інформації.