Размер эффекта

Сложность: Средний Время чтения: 12 минут

Проблема одних лишь p-значений

Вы проводите исследование, получаете p-значение 0.03 и объявляете результат «статистически значимым». Но что это на самом деле вам говорит? P-значение показывает, насколько удивительными были бы ваши результаты, если бы эффекта действительно не было. Оно не говорит, насколько большим или важным является эффект.

Проблема в следующем: при достаточно большой выборке практически любая разница -- независимо от того, насколько она ничтожно мала -- станет статистически значимой. Если сравнить средний рост 100 000 людей, пьющих кофе, со 100 000 людей, не пьющих кофе, можно обнаружить статистически значимую разницу в 0.2 сантиметра. P-значение может быть крохотным (p = 0.001), но разница не имеет никакого практического значения. Никого не волнует пятая часть сантиметра.

Здесь на помощь приходит размер эффекта. Размер эффекта измеряет величину различия или связи, независимо от размера выборки. Он отвечает на вопрос, который действительно важен: насколько велик этот эффект и имеет ли он значение в реальном мире?

d Коэна: измерение различия

Наиболее распространённая мера размера эффекта для сравнения двух групп -- d Коэна. Она выражает разницу между средними двух групп в единицах стандартных отклонений. Формула проста: возьмите разницу средних и разделите на объединённое стандартное отклонение.

Например, если Группа A имеет среднее 75, а Группа B -- среднее 80, и объединённое стандартное отклонение равно 10, то d Коэна = (80 - 75) / 10 = 0.5. Это означает, что две группы разделены половиной стандартного отклонения.

-3 -2 -1 0 1 2 3

Визуализация выше показывает стандартную нормальную кривую. Заштрихованная область в центре представляет зону перекрытия между двумя группами, разделёнными малым-средним эффектом. Чем больше кривые перекрываются, тем меньше практическая разница между группами.

Малые, средние и большие эффекты

Джейкоб Коэн, психолог, который популяризировал эту меру, предложил приблизительные ориентиры для интерпретации размеров эффекта:

  • Малый эффект (d = 0.2): Разница реальна, но трудно заметна невооружённым глазом. Две группы перекрываются почти полностью. Пример: разница в росте между 15-летними и 16-летними девушками.
  • Средний эффект (d = 0.5): Разница заметна внимательным наблюдателям. Между группами есть значимое разделение, хотя существенное перекрытие сохраняется. Пример: разница в росте между 14-летними и 18-летними девушками.
  • Большой эффект (d = 0.8): Разница очевидна и практически значима. Группы явно отличаются, хотя некоторое перекрытие сохраняется. Пример: разница в росте между 13-летними и 18-летними девушками.
20 Малый (0.2) 50 Средний (0.5) 80 Большой (0.8)

Эти ориентиры -- руководства, а не жёсткие правила. В некоторых областях «малый» размер эффекта имеет огромное значение. Лекарство, снижающее риск инфаркта на малую величину (d = 0.2), может спасти тысячи жизней при применении к миллионам людей. Контекст определяет, является ли эффект практически значимым.

Почему размер эффекта важен для принятия решений

Рассмотрим два сценария. Исследование A тестирует новую программу обучения сотрудников на 20 людях и обнаруживает улучшение результатов на 10 баллов (p = 0.08, d = 0.9). Исследование B тестирует ту же программу на 5000 людях и обнаруживает улучшение на 1 балл (p = 0.001, d = 0.05). Какое исследование предоставляет более сильные доказательства того, что программу стоит внедрять?

Если смотреть только на p-значения, Исследование B «побеждает» -- его результат высоко значим. Но размер эффекта рассказывает другую историю. Исследование A обнаружило большое, значимое улучшение. Исследование B обнаружило ничтожно малое улучшение, которое стало значимым лишь из-за огромного размера выборки. Вдумчивый руководитель отнесётся к результату Исследования A серьёзнее, признавая при этом необходимость повторения на большей выборке.

Вот почему многие научные журналы теперь требуют указывать размеры эффекта наряду с p-значениями. Американская психологическая ассоциация рекомендует указывать размеры эффекта с 1994 года. Полная картина результата требует обоих показателей: p-значение говорит, вероятно ли эффект реален, а размер эффекта -- стоит ли обращать на него внимание.

-3 -2 -1 0 1 2 3

Другие меры размера эффекта

d Коэна -- не единственная метрика размера эффекта. Разные ситуации требуют разных мер. r Пирсона (коэффициент корреляции) сам по себе является размером эффекта для силы связи между двумя переменными, с ориентирами 0.1 (малый), 0.3 (средний) и 0.5 (большой). Эта-квадрат и частный эта-квадрат используются с ANOVA для выражения доли общей дисперсии, объясняемой принадлежностью к группе. Отношения шансов распространены в медицинских исследованиях для сравнения вероятности исходов между группами.

Выбор меры зависит от типа анализа. Для сравнения двух средних используйте d Коэна. Для корреляций -- r. Для ANOVA -- эта-квадрат. Для бинарных исходов -- отношения шансов. Важно всегда указывать какую-либо меру величины эффекта, а не только p-значение.

Практическое применение

Размеры эффекта необходимы для анализа мощности -- определения количества участников, необходимых до проведения исследования. Если ожидается малый эффект, нужна гораздо большая выборка для его надёжного обнаружения, чем при большом эффекте. Планировать размер выборки без учёта размера эффекта -- всё равно что собирать чемодан, не зная пункта назначения.

Размеры эффекта также делают возможным мета-анализ. Когда исследователи объединяют результаты многих исследований по одной теме, они переводят результаты каждого исследования в общую метрику размера эффекта. Это позволяет синтезировать данные из исследований с разными размерами выборок, разными шкалами и разными популяциями. Одно исследование может быть неубедительным, но объединённый размер эффекта из 50 исследований может быть очень информативным.

30 Препарат A (d=0.3) 60 Препарат B (d=0.6) 10 Препарат C (d=0.1)

На графике выше сравниваются гипотетические размеры эффекта трёх препаратов для лечения одного заболевания. Все три могут иметь статистически значимые p-значения, но практические различия драматичны. Препарат B имеет вдвое больший эффект, чем Препарат A, и в шесть раз больший, чем Препарат C. Врач, выбирающий между ними, должен ориентироваться на размер эффекта, а не только на значимость.

Ключевой вывод

Статистическая значимость говорит, вероятно ли эффект реален, а размер эффекта -- имеет ли он значение. d Коэна -- стандартная метрика для сравнения двух групп, с ориентирами 0.2 (малый), 0.5 (средний) и 0.8 (большой). Всегда указывайте размеры эффекта наряду с p-значениями. При больших выборках даже ничтожные различия становятся «значимыми», поэтому размер эффекта необходим для обоснованного принятия решений, анализа мощности и сравнения результатов между исследованиями.