Статистика в новинах -- радість і біда
Кожного дня ви бачите десятки статистичних тверджень: "78% українців підтримують...", "вживання X подвоює ризик Y", "продажі зросли на 300%". Більшість людей або сліпо вірять числам, або сліпо їх ігнорують. Обидва підходи хибні. Потрібен третій: читати критично.
Запитання 1: Хто провів дослідження?
Джерело має значення. Дослідження, спонсороване виробником, може (несвідомо чи свідомо) упереджувати результати на користь спонсора.
"Дослідження показало, що наш йогурт зміцнює імунітет." Хто провів? Лабораторія, оплачена виробником. Це не означає, що результат хибний, але це червоний прапорець. Незалежне дослідження було б надійнішим.
Запитання 2: Скільки людей досліджували?
Розмір вибірки критично важливий. "Дослідження показало, що 80% людей віддають перевагу нашому продукту" -- але якщо опитали лише 10 осіб, це 8 з 10, що може бути випадковістю.
"9 з 10 стоматологів рекомендують нашу пасту." Скільки стоматологів опитали? 10? 100? 10 000? Якщо 10 -- один незгодний стоматолог міг просто мати поганий настрій. Якщо 10 000 -- результат набагато переконливіший.
Запитання 3: Кого опитували?
Вибірка повинна бути репрезентативною. Онлайн-опитування на сайті автодилера -- не відображення думки всіх українців.
Телеканал проводить голосування: "Чи підтримуєте ви нову реформу?" Голосування -- серед глядачів одного каналу, які мають певні політичні уподобання. Результат не можна екстраполювати на всю країну.
Запитання 4: Абсолютні чи відносні числа?
Це одна з найпоширеніших маніпуляцій. "Ризик зріс на 100%!" Звучить жахливо. Але якщо базовий ризик -- 1 на мільйон, подвоєння означає 2 на мільйон. Все ще мізерно.
"Вживання продукту X підвищує ризик хвороби Y на 50%!" Абсолютний ризик без продукту: 2 на 10 000. З продуктом: 3 на 10 000. Відносне збільшення -- справді 50%. Абсолютне збільшення -- 1 на 10 000 (0,01%). Заголовок із "50%" -- технічно правильний, але створює хибне враження небезпеки.
Запитання 5: Кореляція чи причинність?
"Дослідження показало зв'язок між X і Y" -- це не означає, що X спричиняє Y.
"Люди, які їдять на сніданок кашу, живуть довше." Може, каша корисна. А може, люди, які снідають кашу, загалом ведуть здоровіший спосіб життя: більше рухаються, менше курять, мають стабільний режим. Спосіб життя -- конфаундер.
Запитання 6: Що порівнюється?
"Продажі зросли на 200%!" Порівняно з чим? Якщо порівняно з найгіршим місяцем в історії -- це не досягнення. Якщо порівняно з минулим роком -- інша справа.
"Туризм у Львові виріс на 150% порівняно з 2020 роком." 2020 -- рік локдаунів, коли туризму майже не було. Порівняння з аномальним роком робить зростання штучно величезним. Порівняння з 2019 було б чеснішим.
Запитання 7: Яке "середнє" використовують?
Середнє арифметичне чи медіана? Як ми знаємо з попередніх уроків, різниця може бути величезною, особливо для доходів.
Запитання 8: Який графік показують?
Зрізана вісь Y, 3D-ефекти, незвичайні шкали -- все це може спотворити сприйняття.
Чек-лист критичного читання
- Хто провів і хто заплатив?
- Скільки людей і хто вони?
- Абсолютні чи відносні числа?
- Кореляція чи причинність?
- З чим порівнюють?
- Яке "середнє"?
- Чи чесний графік?
Критичне читання статистики вимагає семи запитань: хто провів, скільки досліджували, кого опитували, абсолютні чи відносні числа, кореляція чи причинність, з чим порівнюють, яке "середнє" та чи чесний графік. Ці запитання -- ваш щит проти маніпуляцій і ваш інструмент для прийняття обґрунтованих рішень.