Упередженість у статистиці

Складність: Початковий Час читання: 10 хвилин

Що таке упередженість?

Упередженість (bias) -- це систематична помилка, яка зсуває результати в одному напрямку. На відміну від випадкової помилки, яка "стрибає" в різні боки, упередженість стабільно тягне висновок у хибну сторону. Збільшення вибірки НЕ допомагає усунути упередженість -- помилка лише стає "точнішою" у хибному напрямку.

Генеральна сукупність Зміщена вибірка

Упередженість відбору (selection bias)

Виникає, коли вибірка систематично відрізняється від генеральної сукупності.

Приклад

Онлайн-опитування на сайті Rozetka: "Чи зручно вам робити покупки онлайн?" 95% відповіли "так". Сюрприз? Ні -- адже опитування проводилось серед тих, хто вже робить покупки онлайн. Люди, яким незручно, не заходять на сайт і не бачать опитування.

Упередженість відповіді (response bias)

Люди не завжди відповідають чесно. Вони занижують "погані" звички та завищують "хороші".

Приклад

Опитування: "Скільки алкоголю ви вживаєте на тиждень?" Дослідження показують, що люди систематично занижують споживання. Якщо підсумувати відповіді всіх опитаних, загальне споживання вдвічі менше, ніж реальний продаж алкоголю в країні. Аналогічно з кількістю годин, витрачених у TikTok.

Упередженість вцілілих (survivorship bias)

Ми бачимо тих, хто "вижив" (успішних), але не бачимо тих, хто не зміг.

Приклад

"Найуспішніші підприємці України кинули університет -- значить, освіта не потрібна!" Це класична помилка вцілілих. Ви бачите тих кількох, хто кинув і досяг успіху. Ви НЕ бачите тисячі, хто кинув і не досяг нічого. Середньостатистично, вища освіта значно підвищує доходи.

Упередженість підтвердження (confirmation bias)

Ми шукаємо інформацію, що підтверджує наші переконання, та ігноруємо ту, що їм суперечить.

45 18-25 30 26-35 15 36-50 8 51-65 2 65+
Приклад

Вболівальник Динамо переконаний, що суддя упереджений проти його команди. Він помічає та запам'ятовує кожне спірне рішення проти Динамо, але не помічає (або виправдовує) спірні рішення на користь. Результат: його "статистика" показує упередженість судді, якої об'єктивно може не бути.

Упередженість публікації (publication bias)

Дослідження з "цікавими" результатами (p < 0,05) публікуються частіше, ніж ті, що не знайшли ефекту. Це створює хибне враження, що ефекти існують скрізь.

Приклад

20 дослідників перевіряють, чи впливає шоколад на пам'ять. 19 не знаходять зв'язку. 1 знаходить (через випадковість, p = 0,04). Публікується тільки одне дослідження. Заголовок: "Вчені довели: шоколад покращує пам'ять!" 19 негативних результатів лежать у шухляді.

Упередженість доступності (availability bias)

Ми переоцінюємо ймовірність подій, які легко пригадати (зазвичай -- яскравих, емоційних, нещодавніх).

Приклад

Після авіакатастрофи люди бояться літати, хоча статистично автомобіль у сотні разів небезпечніший. Авіакатастрофа -- яскрава подія у новинах. Автоаварії -- повсякденність, яку мозок не помічає. Наша "внутрішня статистика" систематично помиляється.

Як захиститися від упередженості

  • Рандомізація: випадковий відбір зменшує упередженість вибірки.
  • Засліплення: коли учасники та дослідники не знають, хто в якій групі.
  • Попередня реєстрація: опис методології до початку збору даних.
  • Критичне мислення: завжди запитуйте "кого я НЕ бачу в цих даних?"
  • Мета-аналізи: об'єднання багатьох досліджень дає надійнішу картину.
Ключовий висновок

Упередженість -- це систематична помилка, яку не виправляє збільшення вибірки. Найпоширеніші типи: упередженість відбору, відповіді, вцілілих, підтвердження та публікації. Захист -- рандомізація, засліплення та критичне мислення. Щоразу, коли бачите статистику, запитайте: "Кого в цих даних немає і чому?"