ANOVA: Сравнение нескольких групп

Сложность: Средний Время чтения: 15 минут

За пределами двух групп

T-тест -- незаменимый инструмент для сравнения двух групп. Но что происходит, когда у вас три, четыре или десять групп? Допустим, компания тестирует три разных дизайна сайта и измеряет конверсию каждого. Или фермер пробует четыре вида удобрений и измеряет урожайность. Нельзя просто проводить t-тесты для каждой возможной пары групп -- такой подход создаёт серьёзные проблемы.

Когда вы проводите много t-тестов, каждый имеет небольшой шанс дать ложноположительный результат (обычно 5%). Проведите достаточно тестов, и вероятность того, что хотя бы один даст обманчивый результат, быстро растёт. Для трёх групп нужно три попарных сравнения. Для пяти групп -- десять. Для десяти -- сорок пять. Чем больше тестов, тем выше вероятность «обнаружить» разницу, которой нет. Эта проблема называется инфляция множественных сравнений.

4.2 Дизайн A 5.8 Дизайн B 5.1 Дизайн C

ANOVA -- сокращение от дисперсионный анализ (Analysis of Variance) -- решает эту проблему, проверяя все группы одновременно одним тестом. Вместо того чтобы спрашивать «отличается ли группа A от группы B?», задаётся более широкий вопрос: «есть ли какое-либо значимое различие среди всех этих групп?» Если ответ -- да, можно копать глубже, чтобы выяснить, какие именно группы различаются.

Основная идея: два типа дисперсии

Несмотря на своё название, ANOVA по сути сравнивает средние, а не дисперсии. Но она использует дисперсию как инструмент. Логика такова: если разделить данные на группы, общая изменчивость данных складывается из двух источников.

Межгрупповая дисперсия измеряет, насколько средние значения групп отличаются друг от друга. Если три дизайна сайта имеют очень разные конверсии, межгрупповая дисперсия будет большой. Внутригрупповая дисперсия измеряет, насколько индивидуальные значения варьируются внутри каждой группы. Даже внутри одного дизайна разные пользователи будут конвертироваться с разной частотой -- это естественный разброс и есть внутригрупповая дисперсия.

Если межгрупповая дисперсия велика относительно внутригрупповой, это говорит о том, что группы действительно различаются. Если межгрупповая дисперсия мала по сравнению с шумом внутри групп, различия в средних могут легко объясняться случайностью.

F-статистика

ANOVA выдаёт число, называемое F-статистикой (названной в честь статистика Рональда Фишера). Это просто отношение межгрупповой дисперсии к внутригрупповой.

F-статистика, близкая к 1, означает, что группы выглядят похоже -- вариация между ними примерно такая же, как вариация внутри них. F-статистика, значительно превышающая 1, указывает на то, что хотя бы одна группа действительно отличается. Чем дальше F-статистика от 1, тем сильнее доказательства.

42 Между группами 18 Внутри групп

На графике выше межгрупповая дисперсия более чем вдвое превышает внутригрупповую, давая F-статистику значительно больше 1. Это, вероятно, приведёт к малому p-значению, указывающему на реальное различие между группами.

Пример

Школьный округ тестирует три программы чтения на 90 учениках (30 на программу). Средние оценки составляют 72, 78 и 81. ANOVA рассчитывает, что межгрупповая дисперсия (обусловленная различиями между 72, 78 и 81) в 4.6 раза превышает внутригрупповую дисперсию (обусловленную индивидуальными различиями учеников внутри каждой программы). F-статистика 4.6 даёт p-значение 0.013 -- ниже порога 0.05 -- поэтому округ заключает, что как минимум одна программа даёт значимо отличающиеся результаты.

Предположения ANOVA

Как и t-тест, ANOVA требует проверки предположений перед тем, как доверять результатам:

  • Независимость: Наблюдения внутри и между группами должны быть независимы. Результат одного человека не должен влиять на результат другого.
  • Нормальность: Данные внутри каждой группы должны быть приблизительно нормально распределены. При 30 и более наблюдениях на группу это становится менее критичным.
  • Равенство дисперсий (однородность): Разброс данных внутри каждой группы должен быть примерно одинаковым. Если одна группа имеет стандартное отклонение 5, а другая -- 20, стандартная ANOVA может быть обманчивой. Тест Ливиня может проверить это предположение, а ANOVA Уэлча является робастной альтернативой при неравных дисперсиях.

Нарушение этих предположений не автоматически обесценивает результаты, особенно при больших выборках, но хорошая практика -- проверять их.

После ANOVA: апостериорные тесты

ANOVA говорит, что хотя бы одна группа отличается, но не говорит, какие именно группы отличаются. Чтобы выяснить это, проводят апостериорные тесты -- последующие сравнения, контролирующие проблему множественных сравнений.

Наиболее распространённый апостериорный тест -- HSD Тьюки (честно значимая разница). Он сравнивает каждую пару групп, корректируя порог значимости так, чтобы общая вероятность ложноположительных результатов оставалась на уровне 5%. Другие варианты включают коррекцию Бонферрони (проще, но консервативнее) и тест Шеффе (более гибкий, но менее мощный).

Думайте об ANOVA как о скрининговом тесте, а об апостериорных тестах -- как о детальном обследовании. Детальное обследование проводится только если скрининг показал значимость. Этот двухэтапный подход удерживает вероятность ложноположительных результатов под контролем, одновременно позволяя выявить конкретные различия.

34 Удобрение A 41 Удобрение B 38 Удобрение C 45 Удобрение D

Разновидности ANOVA

Описанная выше версия -- это однофакторная ANOVA, которая исследует влияние одного фактора (например, метод обучения или тип удобрения). Существуют более продвинутые версии для более сложных планов. Двухфакторная ANOVA исследует два фактора одновременно -- например, и тип удобрения, и частоту полива -- и может обнаружить, взаимодействуют ли эти два фактора. ANOVA с повторными измерениями используется, когда одни и те же субъекты измеряются несколько раз, например, при тестировании пациентов до лечения, во время лечения и после лечения.

Независимо от разновидности, фундаментальная логика остаётся той же: сравнить дисперсию, объясняемую принадлежностью к группе, с необъяснённой дисперсией внутри групп и решить, слишком ли велики различия между группами, чтобы объяснить их случайностью.

Ключевой вывод

ANOVA позволяет сравнить средние трёх и более групп одним тестом, избегая завышенного риска ложноположительных результатов от множественных t-тестов. Она работает, сравнивая межгрупповую дисперсию с внутригрупповой через F-статистику. Большая F-статистика указывает на то, что хотя бы одна группа отличается. Используйте апостериорные тесты, такие как HSD Тьюки, чтобы определить, какие именно группы различаются. Всегда проверяйте предположения о независимости, нормальности и равенстве дисперсий перед интерпретацией результатов.