Когда предположения о нормальности не выполняются
Многие популярные статистические тесты, такие как t-тест и ANOVA, предполагают, что данные получены из нормального (колоколообразного) распределения. Они также предполагают, что данные измерены по интервальной или пропорциональной шкале и что дисперсии примерно равны между группами. Эти предположения часто выполняются, но что делать, когда нет?
Реальные данные часто скошены, содержат выбросы или представлены в виде рангов или порядковых категорий. Оценки удовлетворённости по шкале от 1 до 5, данные о доходах с экстремально высокими заработками или время отклика с длинным правым хвостом -- всё это нарушает предположения о нормальности. Применение t-теста к сильно скошенным данным может дать обманчивые p-значения и ненадёжные выводы. Непараметрические тесты -- робастная альтернатива.
Посмотрите на точечную диаграмму выше. Эти данные имеют явную правую скошенность с несколькими экстремальными значениями, вытягивающими хвост. T-тест для таких данных может быть ненадёжен. Непараметрические методы справляются с этим изящно, потому что работают с рангами вместо сырых значений, что делает их устойчивыми к выбросам и скошенности.
Ранговый подход
Центральная идея большинства непараметрических тестов проста: вместо анализа фактических значений данных вы преобразуете их в ранги. Наименьшее значение получает ранг 1, следующее -- ранг 2 и так далее. Затем анализ проводится по рангам.
Почему это работает? Ранги сохраняют порядок данных, не зависят от расстояния между значениями. Будь ваше наибольшее значение 50 или 5000, оно получит наивысший ранг. Это делает ранговые тесты нечувствительными к выбросам и распределительным предположениям. Компромисс -- потеря информации о фактических расстояниях между значениями, поэтому непараметрические тесты обычно менее мощные, чем параметрические, когда предположения параметрического теста действительно выполняются.
U-критерий Манна-Уитни
U-критерий Манна-Уитни (также называемый критерием ранговых сумм Вилкоксона) -- непараметрическая альтернатива t-тесту для независимых выборок. Используйте его, когда хотите сравнить две независимые группы, но данные не распределены нормально, выборка мала или данные порядковые.
Ресторан хочет сравнить оценки удовлетворённости клиентов (по шкале от 1 до 10) между обеденным и вечерним обслуживанием. Оценки не распределены нормально, а шкала спорно является порядковой. U-критерий Манна-Уитни ранжирует все оценки вместе, независимо от группы, затем проверяет, склонны ли ранги одной группы быть выше. Если клиенты обеда последовательно получают более высокие ранги, тест покажет значимую разницу.
Критерий Манна-Уитни проверяет, склонна ли одна группа давать большие значения. Его часто описывают как сравнение медиан -- полезное упрощение, хотя технически он сравнивает целые распределения. Это один из наиболее часто используемых непараметрических тестов в медицинских и социальных исследованиях.
Критерий знаковых рангов Вилкоксона
Критерий знаковых рангов Вилкоксона -- непараметрическая альтернатива парному t-тесту. Используйте его, когда есть два связанных измерения от тех же субъектов, например, оценки до и после, но разности не распределены нормально.
Тест вычисляет разность для каждой пары, ранжирует абсолютные разности и сравнивает сумму рангов положительных разностей с суммой отрицательных. Если лечение действительно имеет эффект, положительные (или отрицательные) разности будут систематически иметь более высокие ранги.
Например, если вы измеряете уровень боли у 20 пациентов до и после новой терапии, и улучшения распределены несимметрично, критерий знаковых рангов Вилкоксона даст более надёжный ответ, чем парный t-тест. Он особенно распространён в клинических исследованиях с малыми выборками, где нормальность нельзя проверить.
Тест Крускала-Уоллиса
Тест Крускала-Уоллиса расширяет подход Манна-Уитни на три и более независимые группы. Это непараметрическая альтернатива однофакторной ANOVA. Все наблюдения из всех групп ранжируются вместе, и тест проверяет, различаются ли средние ранги между группами значимо.
Как и ANOVA, значимый результат Крускала-Уоллиса говорит, что хотя бы одна группа отличается от других, но не указывает какая. Для этого проводят апостериорный тест (например, тест Данна) для попарных сравнений.
Компания тестирует три разных дизайна сайта и собирает оценки вовлечённости пользователей. Оценки сильно скошены, потому что несколько пользователей проводят намного больше времени. Тест Крускала-Уоллиса сравнивает три дизайна без требования нормального распределения. Если результат значим, компания проводит попарные сравнения для выявления лучшего дизайна.
Когда использовать непараметрические тесты
Используйте непараметрические тесты, когда данные порядковые (как оценки по шкале Лайкерта), когда размер выборки очень мал (менее 20-30 на группу), когда данные явно скошены или содержат влиятельные выбросы, или когда предположения параметрического аналога не могут быть выполнены. Они также правильный выбор при анализе рангов напрямую, например, предпочтений или оценок судей.
Не используйте непараметрические тесты просто потому, что они кажутся безопаснее. Когда данные разумно удовлетворяют параметрическим предположениям, параметрические тесты мощнее -- они лучше обнаруживают реальные эффекты. Идеальный подход -- сначала проверить предположения (с помощью гистограмм, тестов нормальности или Q-Q графиков), а затем выбрать подходящий тест.
На практике многие исследователи приводят и параметрические, и непараметрические результаты, когда предположения под вопросом. Если оба теста приводят к одному выводу, можно быть увереннее. Если расходятся, непараметрический результат обычно считается более надёжным, поскольку делает меньше предположений.
Непараметрические тесты -- ваша страховочная сеть, когда данные не следуют нормальному распределению, содержат выбросы или измерены по порядковой шкале. U-критерий Манна-Уитни сравнивает две независимые группы, критерий знаковых рангов Вилкоксона -- парные измерения, а тест Крускала-Уоллиса -- три и более группы. Они работают с рангами вместо сырых значений, что делает их робастными, но несколько менее мощными, чем параметрические тесты при выполнении условия нормальности.