Проблема з одними лише p-значеннями
Ви проводите дослідження, отримуєте p-значення 0,03 і оголошуєте результат «статистично значущим». Але що це насправді вам говорить? P-значення показує, наскільки несподіваними були б ваші результати, якби ефекту справді не існувало. Воно не говорить, наскільки великим чи важливим є ефект.
Ось у чому проблема: при достатньо великій вибірці майже будь-яка різниця - навіть тривіально мала - стає статистично значущою. Якщо порівняти середній зріст 100 000 людей, які п'ють каву, з 100 000, які не п'ють, ви можете знайти статистично значущу різницю в 0,2 сантиметра. P-значення може бути крихітним (p = 0,001), але різниця безглузда на практиці. Нікого не хвилює п'ята частина сантиметра.
Саме тут на допомогу приходить розмір ефекту. Розмір ефекту вимірює величину різниці або зв'язку, незалежно від розміру вибірки. Він відповідає на питання, яке дійсно має значення: наскільки великий цей ефект і чи має він значення в реальному світі?
d Коена: Вимірювання різниці
Найширше використовуваний показник розміру ефекту для порівняння двох груп - це d Коена. Він виражає різницю між середніми двох груп у термінах стандартних відхилень. Формула проста: візьміть різницю між двома середніми та поділіть на об'єднане стандартне відхилення.
Наприклад, якщо група A має середнє 75, а група B - 80, і об'єднане стандартне відхилення дорівнює 10, тоді d Коена = (80 - 75) / 10 = 0,5. Це означає, що дві групи розділені половиною стандартного відхилення.
Візуалізація вище показує стандартну нормальну криву. Затінена область у центрі представляє зону перекриття між двома групами, розділеними малим-середнім ефектом. Чим більше криві перекриваються, тим менша практична різниця між групами.
Малі, середні та великі ефекти
Джейкоб Коен, психолог, який популяризував цю міру, запропонував орієнтовні показники для інтерпретації розмірів ефекту:
- Малий ефект (d = 0,2): Різниця реальна, але її важко побачити неозброєним оком. Дві групи перекриваються майже повністю. Приклад: різниця у зрості між 15-річними та 16-річними дівчатами.
- Середній ефект (d = 0,5): Різниця помітна для уважного спостерігача. Є значне розділення між групами, хоча значне перекриття залишається. Приклад: різниця у зрості між 14-річними та 18-річними дівчатами.
- Великий ефект (d = 0,8): Різниця очевидна та практично значуща. Групи чітко відрізняються, хоча деяке перекриття існує. Приклад: різниця у зрості між 13-річними та 18-річними дівчатами.
Ці орієнтири - рекомендації, а не жорсткі правила. У деяких сферах «малий» розмір ефекту надзвичайно важливий. Ліки, які зменшують ризик серцевого нападу на малу величину (d = 0,2), можуть врятувати тисячі життів при застосуванні до мільйонів людей. Контекст визначає, чи є ефект практично значущим.
Чому розмір ефекту важливий для прийняття рішень
Розглянемо два сценарії. Дослідження A тестує нову програму навчання працівників на 20 осіб і виявляє покращення балів продуктивності на 10 пунктів (p = 0,08, d = 0,9). Дослідження B тестує ту ж програму на 5000 осіб і виявляє покращення на 1 пункт (p = 0,001, d = 0,05). Яке дослідження надає сильніші докази того, що програму варто впроваджувати?
Якщо дивитися лише на p-значення, дослідження B «виграє» - його результат високозначущий. Але розмір ефекту розповідає іншу історію. Дослідження A виявило велике, змістовне покращення. Дослідження B виявило тривіально мале покращення, яке просто досягло значущості завдяки величезній вибірці. Розсудливий керівник сприйняв би результат дослідження A серйозніше, визнаючи при цьому потребу в повторенні на більшій вибірці.
Саме тому багато наукових журналів зараз вимагають подавати розміри ефектів поряд із p-значеннями. Американська психологічна асоціація рекомендує подавати розміри ефектів з 1994 року. Повна картина результату потребує обох: p-значення говорить, чи ефект, ймовірно, реальний, а розмір ефекту - чи варто він уваги.
Інші міри розміру ефекту
d Коена - не єдина метрика розміру ефекту. Різні ситуації потребують різних мір. r Пірсона (коефіцієнт кореляції) сам по собі є розміром ефекту для сили зв'язку між двома змінними, з орієнтирами 0,1 (малий), 0,3 (середній) та 0,5 (великий). Ета-квадрат та парціальний ета-квадрат використовуються з ANOVA для вираження частки загальної дисперсії, поясненої приналежністю до групи. Відношення шансів поширені в медичних дослідженнях для порівняння ймовірності результатів між групами.
Вибір міри залежить від типу аналізу. Для порівняння двох середніх використовуйте d Коена. Для кореляцій - r. Для ANOVA - ета-квадрат. Для бінарних результатів - відношення шансів. Важливо те, що ви завжди подаєте якусь міру величини ефекту, а не лише p-значення.
Практичне застосування
Розміри ефектів є необхідними для аналізу потужності - визначення необхідної кількості учасників перед проведенням дослідження. Якщо очікується малий ефект, потрібна набагато більша вибірка для його надійного виявлення, ніж при очікуванні великого ефекту. Планування розміру вибірки без урахування розміру ефекту - це як пакувати валізу, не знаючи місця призначення.
Розміри ефектів також роблять можливим мета-аналіз. Коли дослідники об'єднують результати багатьох досліджень на одну тему, вони перетворюють результати кожного дослідження в загальну метрику розміру ефекту. Це дозволяє синтезувати докази з досліджень, що використовували різні розміри вибірок, різні шкали та різні популяції. Одне дослідження може бути неоднозначним, але об'єднаний розмір ефекту з 50 досліджень може бути дуже інформативним.
Графік вище порівнює гіпотетичні розміри ефектів для трьох препаратів, що лікують одне захворювання. Усі три можуть мати статистично значущі p-значення, але практичні відмінності разючі. Препарат B має вдвічі більший ефект, ніж A, і вшестеро більший, ніж C. Лікар, обираючи між ними, повинен зосередитися на розмірі ефекту, а не лише на значущості.
Статистична значущість говорить, чи ефект, ймовірно, реальний, але розмір ефекту говорить, чи він має значення. d Коена - стандартна метрика для порівняння двох груп, з орієнтирами 0,2 (малий), 0,5 (середній) та 0,8 (великий). Завжди подавайте розміри ефектів поряд із p-значеннями. При великих вибірках навіть тривіальні відмінності стають «значущими», тому розмір ефекту необхідний для обґрунтованого прийняття рішень, аналізу потужності та порівняння результатів між дослідженнями.