Что на самом деле означает «значимый»?
Когда исследователь говорит, что результат «статистически значим», он имеет в виду, что наблюдаемый эффект маловероятно мог возникнуть случайно. Конкретно, вероятность увидеть такой результат при отсутствии эффекта очень мала, обычно менее 5%. Это и измеряет p-значение.
Но вот в чём подвох: статистически значимый не означает важный, осмысленный или полезный. Результат может быть статистически значимым и при этом настолько малым, что на практике он никому не нужен. Понимание этого различия -- один из самых ценных навыков для потребителя исследований.
Когда крошечные эффекты выглядят впечатляюще
Представьте, что компания тестирует новый дизайн сайта и обнаруживает, что он увеличивает среднее время пребывания пользователей на 0.8 секунды. При выборке в 500 000 посетителей эта разница даёт p-значение 0.001, что является высоко статистически значимым. Но имеют ли дополнительные 0.8 секунды какое-то значение для бизнеса? Вероятно, нет. Эффект реален в статистическом смысле, но не имеет практической ценности.
Это происходит потому, что статистическая значимость сильно зависит от размера выборки. При достаточно большой выборке даже мельчайшая разница между двумя группами даст малое p-значение. Тест становится настолько чувствительным, что улавливает эффекты на уровне шума, невидимые и неважные в реальном мире.
Фармацевтическая компания тестирует новый препарат от давления на 50 000 пациентах. Препарат снижает систолическое давление на 1.2 мм рт. ст. по сравнению с плацебо, и результат статистически значим (p = 0.003). Однако врачи считают клинически значимым снижение минимум на 5-10 мм рт. ст. Падение на 1.2 мм рт. ст. не изменило бы ни одного решения о лечении. Препарат «работает» статистически, но практически бесполезен.
Практическая значимость: действительно ли это важно?
Практическая значимость задаёт другой вопрос: достаточно ли велик эффект, чтобы иметь значение в реальном мире? Это зависит от контекста, а не только от математики. Улучшение топливной эффективности на 2% может быть практически значимым для авиакомпании, сжигающей миллионы литров в год, но бессмысленным для того, кто ездит за продуктами раз в неделю.
Исследователи используют понятие «размер эффекта» для измерения реальной величины различия, независимо от размера выборки. Распространённые меры включают d Коэна (для сравнения средних двух групп) и коэффициенты корреляции. Малый размер эффекта в сочетании с малым p-значением должен вас насторожить. Результат реален, но может не стоить действий.
Обратите внимание на доверительные интервалы выше: эффект препарата и весь диапазон его правдоподобных значений находятся значительно ниже того, что врачи сочли бы значимым изменением. Хотя мы уверены, что эффект не равен нулю, он всё равно слишком мал, чтобы иметь значение.
Как размер выборки создаёт путаницу
Малые выборки имеют обратную проблему. При слишком малом числе участников исследование может не обнаружить реальный и важный эффект просто потому, что выборка недостаточна для получения значимого p-значения. Это называется низкой статистической мощностью. Исследование с 20 участниками может обнаружить большую, практически значимую разницу, но сообщить о ней как о «статистически незначимой», потому что выборка была слишком мала для уверенности.
Это означает, что вас могут ввести в заблуждение в обоих направлениях. Большие выборки могут сделать тривиальные эффекты значимыми, а малые -- сделать важные эффекты незначимыми. Ни p-значение, ни размер выборки по отдельности не говорят, важен ли результат. Нужно смотреть на реальную величину эффекта и оценивать её в контексте.
Когда статистика вводит в заблуждение: ловушки реального мира
Заголовки любят сообщать о статистически значимых результатах, не упоминая размер эффекта. «Исследование выяснило, что шоколад снижает стресс!» может быть основано на исследовании, где любители шоколада набрали на 0.3 балла меньше по 100-балльной шкале стресса. Технически верно, практически бессмысленно.
Маркетологи тоже этим пользуются. «Клинически доказано улучшение увлажнения кожи» может означать, что крем повысил увлажнение на 2% по сравнению с полным отсутствием ухода, при тестировании на тысячах людей. Заявление технически подкреплено значимым p-значением, но эффект невидим для пользователя.
Для самозащиты всегда спрашивайте: насколько велик эффект? Выражен ли он в понятных единицах? Изменила бы эта разница ваше поведение или решения? Если исследование сообщает только p-значение, не указывая размер эффекта -- это тревожный сигнал.
Статистическая значимость говорит, вероятно ли эффект реален. Практическая значимость говорит, действительно ли он важен. Результат может быть статистически значимым, но слишком малым, чтобы о нём беспокоиться, особенно при больших выборках. Всегда смотрите на размер эффекта, а не только на p-значение, и спрашивайте себя, изменила бы эта разница какое-либо реальное решение.