Проверка гипотез

Сложность: Средний Время чтения: 15 минут

Принимаем решения на основе данных

Каждый день люди делают заявления. Новая диета «помогает худеть быстрее». Школьная программа «повышает успеваемость». Продукт компании «предпочитают большинство покупателей». Но как узнать, правда ли это — или просто удачное совпадение?

-3 -2 -1 0 1 2 3

Проверка гипотез — это метод, который статистики используют для ответа на этот вопрос. Это структурированный способ использовать данные, чтобы решить: стоит ли за утверждением реальное доказательство — или результаты можно легко объяснить случайностью.

Аналогия с судом

Проще всего понять проверку гипотез, если представить, как работает суд.

В суде подсудимый считается невиновным, пока не доказана его вина. Обвинение должно представить достаточно доказательств, чтобы опровергнуть эту презумпцию. Если доказательства достаточно сильные — суд выносит обвинительный приговор. Если нет — подсудимого оправдывают. Это не обязательно означает, что он невиновен, — просто доказательств недостаточно.

Проверка гипотез работает по тому же принципу:

  • Мы начинаем с предположения, что ничего особенного не происходит («невиновен»).
  • Собираем данные («доказательства»).
  • Если данные достаточно убедительны — отвергаем исходное предположение.
  • Если нет — оставляем его. Не потому что доказали его истинность, а потому что нет достаточных оснований утверждать обратное.

Нулевая и альтернативная гипотезы

Каждая проверка гипотезы начинается с двух конкурирующих утверждений:

Результат 0.5 2.3 4.1 0

Нулевая гипотеза (H₀): Это утверждение «ничего не происходит». Она говорит, что нет эффекта, нет разницы, нет связи. Это исходное предположение — как «невиновен, пока не доказано обратное».

Альтернативная гипотеза (H₁): Это утверждение, которое вы на самом деле пытаетесь подтвердить. Оно говорит, что ЕСТЬ эффект, разница или связь.

Пример

Фармацевтическая компания разработала новое лекарство от головной боли и хочет узнать, работает ли оно лучше плацебо (пустышки).

Нулевая гипотеза (H₀): Новое лекарство не лучше плацебо. Любая разница в облегчении боли — случайность.

Альтернативная гипотеза (H₁): Новое лекарство снимает головную боль лучше, чем плацебо.

Компания даёт настоящее лекарство 100 пациентам, а плацебо — ещё 100. После сбора результатов используют статистический тест, чтобы увидеть, показала ли группа с лекарством значимо лучший результат. Если доказательства достаточно сильные — нулевую гипотезу отвергают и заключают, что лекарство, вероятно, работает.

Шаги проверки гипотезы

Вот базовый процесс, шаг за шагом:

  1. Сформулируйте гипотезы. Запишите нулевую гипотезу (ничего не происходит) и альтернативную (что-то происходит).
  2. Соберите данные. Проведите эксперимент или соберите наблюдения.
  3. Проанализируйте данные. Используйте статистический тест, чтобы вычислить, насколько вероятны ваши результаты, ЕСЛИ нулевая гипотеза верна.
  4. Примите решение. Если результаты были бы крайне маловероятны при нулевой гипотезе — отвергните её. Иначе — не отвергайте.

Фраза «крайне маловероятны» обычно означает вероятность менее 5%, но подробнее об этом пороге — в уроке о p-значениях.

Два вида ошибок

Как бы тщательно вы ни действовали, всегда есть шанс прийти к неверному заключению. Ошибиться можно ровно двумя способами:

-3 -2 -1 0 1 2 3

Ошибка первого рода (ложная тревога)

Это когда вы отвергаете нулевую гипотезу, хотя она на самом деле верна. Вы заключаете, что что-то происходит, когда в реальности ничего нет.

В судебной аналогии — это осуждение невиновного.

Пример: вы заключаете, что новое лекарство работает, но на самом деле — нет. Пациенты просто случайно почувствовали себя лучше.

Ошибка второго рода (пропущенное открытие)

Это когда вы не отвергаете нулевую гипотезу, хотя альтернативная на самом деле верна. Вы пропускаете реальный эффект.

В судебной аналогии — это оправдание виновного.

Пример: лекарство действительно помогает, но в вашем исследовании было слишком мало пациентов, чтобы обнаружить разницу, и вы заключаете, что эффекта нет.

Пример

Подумайте о пожарной сигнализации. Ошибка первого рода — это когда сигнализация срабатывает, но пожара нет — ложная тревога. Неприятно, но не опасно. Ошибка второго рода — это когда ЕСТЬ пожар, но сигнализация не срабатывает — пропущенное обнаружение. Это потенциально катастрофично.

В статистике вам часто приходится балансировать между этими двумя рисками. Повышение порога срабатывания (требование более сильных доказательств) снижает ложные тревоги, но увеличивает вероятность пропустить реальное явление.

Как уменьшить ошибки?

Есть практические способы управлять обоими видами ошибок:

  • Больший размер выборки облегчает обнаружение реальных эффектов, снижая ошибки второго рода. Больше данных — более чёткая картина.
  • Более строгие пороги (например, 1% вместо 5%) снижают ошибки первого рода, но затрудняют обнаружение реальных эффектов.
  • Лучший дизайн исследования — контроль других переменных, рандомизация — делает доказательства более надёжными в целом.

Что значит «статистически значимо»

Когда вы видите фразу «статистически значимо» в новостной статье или научной публикации, это означает, что исследователи провели проверку гипотезы и решили отвергнуть нулевую гипотезу. Их данные были достаточно маловероятны при предположении «ничего не происходит», чтобы они заключили: что-то реальное действительно есть.

Это не означает, что результат большой, важный или практически полезный. Лекарство может дать статистически значимое улучшение на 0,1% — реальное, но, вероятно, не стоящее приёма. «Значимо» в статистике просто означает «вряд ли объясняется одной только случайностью».

Где используется проверка гипотез

Проверка гипотез встречается повсюду:

  • Медицина: Тестирование новых лекарств и методов лечения. Минздрав требует статистического подтверждения эффективности.
  • Бизнес: A/B-тестирование на сайтах — увеличивает ли новый дизайн количество кликов? Яндекс, Ozon, Wildberries постоянно проверяют гипотезы.
  • Образование: Улучшает ли новый метод обучения результаты ЕГЭ?
  • Государство: Снизила ли новая политика уровень преступности? Росстат и другие ведомства анализируют данные для оценки эффективности мер.
Пример

Интернет-магазин хочет проверить, увеличит ли зелёная кнопка «Купить» количество заказов по сравнению с текущей синей.

H₀: Цвет кнопки не влияет на количество заказов.

H₁: Зелёная кнопка приводит к большему числу заказов.

Магазин случайным образом показывает половине посетителей синюю кнопку, а другой половине — зелёную. После 10 000 посетителей зелёная кнопка показала на 3% больше заказов. Статистический тест показывает, что вероятность такой разницы при отсутствии реального эффекта — всего 1,2%. Это меньше порога в 5%, значит, нулевую гипотезу отвергают. Зелёная кнопка, вероятно, действительно работает лучше.

Ключевой вывод

Проверка гипотез — это структурированный способ использовать данные для оценки утверждений. Вы начинаете с предположения, что ничего не происходит (нулевая гипотеза), а затем проверяете, дают ли данные достаточно сильные доказательства для её отвержения. Два вида ошибок всегда возможны: ложные тревоги (ошибка первого рода) и пропущенные открытия (ошибка второго рода). Понимание этой схемы помогает критически оценивать заявления, которые вы встречаете в новостях, медицине и повседневных решениях.