Що насправді означає «значущий»?
Коли дослідник каже, що результат «статистично значущий», це означає, що спостережуваний ефект навряд чи міг виникнути суто випадково. Конкретно, ймовірність побачити такий результат, якби ефекту справді не було, дуже мала - зазвичай менше 5%. Це те, що вимірює p-значення.
Але ось у чому підступність: статистично значущий не означає важливий, змістовний чи корисний. Результат може бути статистично значущим, але настільки малим, що на практиці він нікого не цікавить. Розуміння цієї відмінності - одна з найцінніших навичок для споживача досліджень.
Коли крихітні ефекти виглядають вражаюче
Уявіть, що компанія тестує новий макет сайту і виявляє, що він збільшує середній час перебування користувачів на сайті на 0,8 секунди. При вибірці в 500 000 відвідувачів ця різниця дає p-значення 0,001, що є високо статистично значущим. Але чи має додаткові 0,8 секунди перегляду реальне значення для бізнесу? Ймовірно, ні. Ефект реальний у статистичному сенсі, але він не має практичної цінності.
Це відбувається тому, що статистична значущість сильно залежить від розміру вибірки. При достатньо великій вибірці навіть найменша різниця між двома групами дасть мале p-значення. Тест стає настільки чутливим, що вловлює ефекти рівня шуму, які були б невидимими та нерелевантними в реальному світі.
Фармацевтична компанія тестує новий препарат від тиску на 50 000 пацієнтів. Препарат знижує систолічний тиск на 1,2 мм рт. ст. порівняно з плацебо, і результат статистично значущий (p = 0,003). Однак лікарі вважають клінічно значущим зниження щонайменше на 5-10 мм рт. ст. Зниження на 1,2 мм рт. ст. не змінить жодного рішення щодо лікування. Препарат «працює» статистично, але він практично марний.
Практична значущість: чи це дійсно має значення?
Практична значущість ставить інше питання: чи ефект достатньо великий, щоб мати значення в реальному світі? Це залежить від контексту, а не лише від математики. Покращення витрати палива на 2% може бути практично значущим для авіакомпанії, що спалює мільйони галонів на рік, але безглуздим для людини, яка їздить у магазин раз на тиждень.
Дослідники використовують концепцію «розміру ефекту» для вимірювання того, наскільки велика різниця насправді, незалежно від розміру вибірки. Поширені міри розміру ефекту включають d Коена (для порівняння середніх двох груп) та коефіцієнти кореляції. Малий розмір ефекту в поєднанні з малим p-значенням повинен вас насторожити. Результат реальний, але, можливо, не вартий дій.
Зверніть увагу на довірчі інтервали вище - ефект препарату та весь діапазон його вірогідних значень знаходяться значно нижче того, що лікарі вважають значущою зміною. Навіть якщо ми впевнені, що ефект не нульовий, він все одно занадто малий, щоб мати значення.
Як розмір вибірки створює плутанину
Малі вибірки мають протилежну проблему. При занадто малій кількості учасників дослідження може не виявити реального та важливого ефекту просто тому, що вибірка була недостатньо великою для отримання значущого p-значення. Це називається низькою статистичною потужністю. Дослідження на 20 осіб може виявити велику, практично значущу різницю, але повідомити її як «статистично незначущу», бо вибірка була занадто малою для впевненості.
Це означає, що вас можуть ввести в оману в обох напрямках. Великі вибірки можуть зробити тривіальні ефекти значущими, а малі вибірки можуть зробити важливі ефекти незначущими. Ні p-значення, ні розмір вибірки самі по собі не кажуть, чи результат має значення. Потрібно дивитися на фактичний розмір ефекту та оцінювати його в контексті.
Коли статистика вводить в оману: пастки реального світу
Заголовки люблять повідомляти про статистично значущі результати, не згадуючи розмір ефекту. «Дослідження виявило, що вживання шоколаду пов'язане зі зниженням стресу!» може базуватися на дослідженні, де любителі шоколаду набрали на 0,3 бали менше за 100-бальною шкалою стресу. Технічно правда, практично безглуздо.
Маркетингові команди також використовують це. «Клінічно доведено, що покращує зволоження шкіри» може означати, що зволожувач підвищив зволоження на 2% порівняно з повною відсутністю засобу, протестовано на тисячах людей. Заява технічно підтримана значущим p-значенням, але ефект невидимий для будь-кого, хто користується продуктом.
Щоб захистити себе, завжди запитуйте: наскільки великий ефект? Чи виражений він у зрозумілих одиницях? Чи змінила б ця різниця вашу поведінку або рішення? Якщо дослідження повідомляє лише p-значення без вказання розміру ефекту - це тривожний знак.
Статистична значущість говорить, чи ефект, ймовірно, реальний. Практична значущість говорить, чи він дійсно має значення. Результат може бути статистично значущим, але занадто малим, щоб його помічати, особливо при великих вибірках. Завжди дивіться на розмір ефекту, а не лише на p-значення, і запитуйте себе, чи різниця змінила б будь-яке рішення у реальному світі.