Непараметричні тести

Складність: Середній Час читання: 12 хвилин

Коли припущення нормальності не працюють

Багато найпопулярніших статистичних тестів, таких як t-тест та ANOVA, припускають, що ваші дані походять з нормального (дзвоноподібного) розподілу. Вони також припускають, що дані виміряні на інтервальній або шкалі відношень і що дисперсії приблизно рівні між групами. Ці припущення працюють добре в багатьох випадках, але що робити, коли вони не виконуються?

Реальні дані часто асиметричні, мають викиди або представлені у формі рангів чи порядкових категорій. Рейтинги задоволеності за шкалою 1-5, дані про дохід з екстремально високими заробітками або час відгуку з довгим правим хвостом - усе це порушує припущення нормальності. Застосування t-тесту до сильно асиметричних даних може дати хибні p-значення та ненадійні висновки. Непараметричні тести є надійною альтернативою.

2 8 14 20 26 32 35

Подивіться на точкову діаграму вище. Ці дані мають чітку правосторонню асиметрію з кількома екстремальними значеннями. T-тест на таких даних може бути ненадійним. Непараметричні методи впораються з цим елегантно, оскільки працюють з рангами, а не з необробленими значеннями, що робить їх стійкими до викидів та асиметрії.

Ранговий підхід

Центральна ідея більшості непараметричних тестів проста: замість аналізу фактичних значень даних, ви перетворюєте їх у ранги. Найменше значення отримує ранг 1, наступне за величиною - ранг 2, і так далі. Потім ви проводите аналіз рангів.

Чому це працює? Ранги зберігають порядок даних, не зазнаючи впливу відстані між значеннями. Чи ваше найвище значення 50, чи 5000 - воно все одно отримує найвищий ранг. Це робить рангові тести нечутливими до викидів та розподільних припущень. Компроміс полягає в тому, що ви втрачаєте деяку інформацію, відкидаючи фактичні відстані між значеннями, тому непараметричні тести загалом менш потужні, ніж їх параметричні аналоги, коли припущення параметричного тесту дійсно виконуються.

U-тест Манна-Вітні

U-тест Манна-Вітні (також відомий як ранговий тест Вілкоксона) - непараметрична альтернатива t-тесту для незалежних вибірок. Використовуйте його, коли хочете порівняти дві незалежні групи, але дані не розподілені нормально, вибірка мала або дані порядкові.

Приклад

Ресторан хоче порівняти рейтинги задоволеності клієнтів (за шкалою від 1 до 10) між обідом та вечерею. Рейтинги не розподілені нормально, і шкала є порядковою. U-тест Манна-Вітні ранжує всі рейтинги разом, незалежно від групи, а потім перевіряє, чи ранги однієї групи систематично вищі. Якщо обідні клієнти стабільно отримують вищі ранги, ніж вечірні, тест покаже значущу різницю.

8 Медіана обіду 6 Медіана вечері

Тест Манна-Вітні фактично перевіряє, чи одна група схильна давати більші значення, ніж інша. Його часто описують як порівняння медіан, що є корисним спрощенням, хоча технічно він порівнює цілі розподіли. Це один з найбільш вживаних непараметричних тестів у медичних та соціальних дослідженнях.

Знаковий ранговий тест Вілкоксона

Знаковий ранговий тест Вілкоксона - непараметрична альтернатива парного t-тесту. Використовуйте його, коли маєте два пов'язаних вимірювання від тих самих суб'єктів - наприклад, бали до та після - але різниці не розподілені нормально.

Тест працює так: обчислює різницю для кожної пари, ранжує абсолютні різниці, а потім порівнює суму рангів позитивних різниць із сумою для негативних. Якщо лікування справді має ефект, ви очікуєте, що позитивні (або негативні) різниці систематично матимуть вищі ранги.

Наприклад, якщо ви вимірюєте рівень болю у 20 пацієнтів до та після нової терапії, і покращення не розподілені симетрично, знаковий ранговий тест Вілкоксона дасть більш надійну відповідь, ніж парний t-тест. Він особливо поширений у клінічних дослідженнях з малими вибірками, де нормальність неможливо перевірити.

Тест Краскела-Волліса

Тест Краскела-Волліса розширює підхід Манна-Вітні на три та більше незалежних груп. Це непараметрична альтернатива однофакторному ANOVA. Усі спостереження з усіх груп ранжуються разом, і тест перевіряє, чи середні ранги значуще відрізняються між групами.

3 5 7 9 11 13 14

Як і ANOVA, значущий результат Краскела-Волліса повідомляє, що принаймні одна група відрізняється від інших, але не вказує, яка саме. Далі використовують апостеріорний тест (наприклад, тест Данна) для парних порівнянь.

Приклад

Компанія тестує три різних дизайни сайту та збирає бали залученості користувачів. Бали сильно асиметричні, бо деякі користувачі проводять значно більше часу. Тест Краскела-Волліса порівнює три дизайни без вимоги нормального розподілу балів. Якщо результат значущий, компанія проводить парні порівняння для визначення переможця.

Коли обирати непараметричні тести

Використовуйте непараметричні тести, коли ваші дані порядкові (наприклад, рейтинги за шкалою Лікерта), коли розмір вибірки дуже малий (менше 20-30 на групу), коли дані явно асиметричні або мають впливові викиди, або коли припущення параметричного аналога не можуть бути задоволені. Вони також правильний вибір для аналізу безпосередньо рангів, таких як уподобання або оцінки суддів.

Не використовуйте непараметричні тести просто тому, що вони здаються безпечнішими. Коли дані достатньо відповідають параметричним припущенням, параметричні тести більш потужні - вони краще виявляють реальні ефекти. Ідеальний підхід - спочатку перевірити припущення (за допомогою гістограм, тестів нормальності або Q-Q графіків), а потім обрати відповідний тест.

На практиці багато дослідників повідомляють як параметричні, так і непараметричні результати, коли припущення на межі. Якщо обидва тести дають однаковий висновок, ви можете бути впевненіші у знахідці. Якщо вони розходяться, непараметричний результат зазвичай вважається більш надійним, оскільки робить менше припущень.

Ключовий висновок

Непараметричні тести - ваша страхувальна сітка, коли дані не відповідають нормальному розподілу, містять викиди або виміряні на порядковій шкалі. U-тест Манна-Вітні порівнює дві незалежні групи, знаковий ранговий тест Вілкоксона - парні вимірювання, а тест Краскела-Волліса - три та більше груп. Вони працюють, аналізуючи ранги замість необроблених значень, що робить їх стійкими, але трохи менш потужними за параметричні тести, коли нормальність дотримується.