ANOVA: Порівняння кількох груп

Складність: Середній Час читання: 15 хвилин

Більше двох груп

T-тест - це основний інструмент для порівняння двох груп. Але що робити, коли груп три, чотири або десять? Припустимо, компанія тестує три різних дизайни сайту та вимірює конверсію кожного. Або фермер випробовує чотири види добрив і вимірює врожайність. Не можна просто проводити t-тести для кожної можливої пари груп - такий підхід створює серйозні проблеми.

Коли ви проводите багато t-тестів, кожен має невелику ймовірність хибнопозитивного результату (зазвичай 5%). Проведіть достатньо таких тестів, і ймовірність того, що хоча б один дасть хибний результат, швидко зросте. З трьома групами потрібно три парних порівняння. З п'ятьма - десять. З десятьма - сорок п'ять. Чим більше тестів ви проводите, тим вірогідніше ви «знайдете» різницю, якої насправді немає. Ця проблема називається інфляцією множинних порівнянь.

4.2 Дизайн A 5.8 Дизайн B 5.1 Дизайн C

ANOVA - скорочення від дисперсійний аналіз (Analysis of Variance) - вирішує цю проблему, тестуючи всі групи одночасно одним тестом. Замість питання «чи група A відрізняється від групи B?» він ставить ширше питання: «чи є якась значуща різниця серед усіх цих груп?» Якщо відповідь - так, далі можна з'ясувати, які саме групи відрізняються.

Основна ідея: Два типи дисперсії

Попри свою назву, ANOVA по суті порівнює середні, а не дисперсії. Але використовує дисперсію як інструмент. Логіка така: якщо розділити дані на групи, загальна варіабельність даних походить з двох джерел.

Міжгрупова дисперсія вимірює, наскільки сильно середні значення груп відрізняються одне від одного. Якщо три дизайни сайту мають дуже різну конверсію, міжгрупова дисперсія буде великою. Внутрішньогрупова дисперсія вимірює, наскільки окремі значення варіюються всередині кожної групи. Навіть в межах одного дизайну різні користувачі конвертуватимуться з різною частотою - цей природний розкид і є внутрішньогруповою дисперсією.

Якщо міжгрупова дисперсія велика відносно внутрішньогрупової, це свідчить про те, що групи дійсно відрізняються. Якщо міжгрупова дисперсія мала порівняно з шумом всередині груп, різниці в середніх значеннях цілком можуть бути випадковими.

F-статистика

ANOVA дає число, яке називається F-статистикою (названо на честь статистика Рональда Фішера). Це просто відношення міжгрупової дисперсії до внутрішньогрупової.

F-статистика близько 1 означає, що групи виглядають подібно - варіація між ними приблизно така ж, як і варіація всередині них. F-статистика значно більша за 1 свідчить про те, що принаймні одна група дійсно відрізняється. Чим далі F-статистика від 1, тим сильніші докази.

42 Між групами 18 Всередині груп

На графіку вище міжгрупова дисперсія більш ніж удвічі перевищує внутрішньогрупову, що дає F-статистику значно більшу за 1. Це, ймовірно, призведе до малого p-значення, що свідчить про реальну різницю між групами.

Приклад

Шкільний округ тестує три програми читання на 90 учнях (по 30 на програму). Середні бали - 72, 78 та 81. ANOVA обчислює, що міжгрупова дисперсія (обумовлена різницями між 72, 78 та 81) у 4,6 разів перевищує внутрішньогрупову дисперсію (обумовлену індивідуальними відмінностями учнів у кожній програмі). Ця F-статистика 4,6 дає p-значення 0,013 - нижче порогу 0,05 - тому округ робить висновок, що принаймні одна програма дає суттєво відмінні результати.

Припущення ANOVA

Як і t-тест, ANOVA має припущення, які слід перевірити перед тим, як довіряти результатам:

  • Незалежність: Спостереження всередині та між групами мають бути незалежними. Результат однієї особи не повинен впливати на результат іншої.
  • Нормальність: Дані в кожній групі мають бути приблизно нормально розподілені. При 30 або більше спостереженнях на групу це стає менш критичним.
  • Рівність дисперсій (однорідність): Розкид даних у кожній групі має бути приблизно однаковим. Якщо одна група має стандартне відхилення 5, а інша - 20, стандартний ANOVA може бути хибним. Тест Левена може перевірити це припущення, а ANOVA Велча є надійною альтернативою при нерівних дисперсіях.

Порушення цих припущень не автоматично скасовує ваші результати, особливо при більших вибірках, але перевіряти їх - добра практика.

Після ANOVA: Апостеріорні тести

ANOVA повідомляє, що принаймні одна група відрізняється, але не вказує, які саме групи відрізняються. Щоб це з'ясувати, проводять апостеріорні тести - подальші порівняння, що контролюють проблему множинних порівнянь.

Найпоширеніший апостеріорний тест - HSD Тьюкі (Honestly Significant Difference - чесна значуща різниця). Він порівнює кожну пару груп, коригуючи поріг значущості так, щоб загальна частота хибнопозитивних результатів залишалася на рівні 5%. Інші варіанти включають корекцію Бонферроні (простішу, але більш консервативну) та тест Шеффе (більш гнучкий, але менш потужний).

Уявіть ANOVA як скринінговий тест, а апостеріорні тести - як детальне подальше обстеження. Ви проводите подальше обстеження лише якщо скринінговий тест значущий. Цей двоетапний підхід тримає частоту хибнопозитивних результатів під контролем, водночас дозволяючи виявити конкретні відмінності.

34 Добриво A 41 Добриво B 38 Добриво C 45 Добриво D

Різновиди ANOVA

Описана вище версія - це однофакторний ANOVA, який досліджує вплив одного фактора (наприклад, методу навчання або типу добрива). Існують більш складні версії для більш складних планів. Двофакторний ANOVA досліджує два фактори одночасно - наприклад, тип добрива та частоту поливу - і може виявити взаємодію між ними. ANOVA з повторними вимірами використовується, коли ті ж самі суб'єкти вимірюються кілька разів, наприклад, тестування пацієнтів до лікування, під час лікування та після лікування.

Незалежно від різновиду, фундаментальна логіка залишається незмінною: порівняти дисперсію, пояснену приналежністю до групи, з непоясненою дисперсією всередині груп і вирішити, чи є відмінності між групами занадто великими, щоб пояснити їх випадковістю.

Ключовий висновок

ANOVA дозволяє порівнювати середні значення трьох або більше груп одним тестом, уникаючи підвищеного ризику хибнопозитивних результатів, що виникає при проведенні багатьох t-тестів. Він працює шляхом порівняння міжгрупової дисперсії з внутрішньогруповою через F-статистику. Велика F-статистика свідчить про те, що принаймні одна група відрізняється. Використовуйте апостеріорні тести, такі як HSD Тьюкі, щоб визначити, які саме групи відрізняються. Завжди перевіряйте припущення незалежності, нормальності та рівності дисперсій перед інтерпретацією результатів.