Сравнение двух групп
Одни из самых частых вопросов в жизни связаны со сравнением двух вещей. Этот метод обучения лучше другого? Отличаются ли зарплаты мужчин и женщин в компании? Удерживает ли новая версия приложения пользователей дольше, чем старая?
T-тест — один из самых простых и широко используемых инструментов для ответа на подобные вопросы. Он помогает определить, является ли разница между двумя группами реальной или могла возникнуть случайно.
Основная идея
Допустим, два класса в школе учатся по разным программам. В конце года средний балл класса А — 78, а класса Б — 82. Значима ли эта разница в 4 балла?
Возможно. Но, возможно, и нет. Если баллы в обоих классах «разбросаны» от 50 до 100, разница в 4 балла легко может возникнуть случайно. Но если баллы сгруппированы плотно (большинство от 75 до 85), то 4 балла — это уже существенно.
T-тест учитывает одновременно величину разницы между группами и разброс значений внутри каждой группы, чтобы определить, является ли разница скорее реальной.
Когда применять t-тест
T-тест подходит, когда:
- Вы сравниваете средние значения (не подсчёты и не категории).
- Ваши данные числовые — баллы за тест, вес, время, цены.
- У вас относительно небольшая выборка (t-тест был создан именно для ситуаций, когда нет тысяч наблюдений).
- Данные в каждой группе имеют приблизительно колоколообразное распределение, или в каждой группе не менее 30 наблюдений.
Одновыборочный t-тест
Иногда нужно сравнить группу не с другой группой, а с известным стандартом. Это одновыборочный t-тест.
Производитель молока утверждает, что в каждой упаковке ровно 1 литр. Покупатель сомневается и решает проверить. Он покупает 25 пакетов в разные дни и измеряет объём каждого. Среднее значение — 0,97 литра.
Одновыборочный t-тест сравнивает выборочное среднее (0,97 л) с заявленным значением (1 л). Он спрашивает: достаточно ли велика разница между 0,97 и 1 — с учётом разброса объёмов в 25 пакетах — чтобы заключить, что производитель действительно недоливает? Или это просто нормальные колебания?
Двухвыборочный t-тест
Чаще всего нужно сравнить две разные группы. Это двухвыборочный t-тест (его также называют t-тестом для независимых выборок).
Школа хочет узнать, улучшает ли новая методика преподавания математики результаты учеников. 30 учеников случайным образом распределяют в группу с новой методикой (группа А) и 30 — в группу с традиционной (группа Б).
После одного семестра:
- Средний балл группы А: 84
- Средний балл группы Б: 79
Двухвыборочный t-тест анализирует разницу в 5 баллов и спрашивает: с учётом разброса оценок внутри каждой группы, достаточно ли она велика, чтобы быть реальной, или могла возникнуть случайно, даже если обе методики одинаково эффективны?
Если t-тест даёт малое p-значение (скажем, 0,02), это означает, что вероятность увидеть такую разницу чисто случайно составляет всего около 2%. Это сильный аргумент в пользу того, что новая методика действительно работает лучше.
Парный t-тест
Есть и третий вариант: парный t-тест. Он применяется, когда одних и тех же людей или объекты измеряют дважды — до и после чего-либо.
Примеры парных ситуаций:
- Измерение артериального давления пациентов до и после приёма лекарства.
- Тестирование студентов в начале и в конце курса подготовки к ЕГЭ.
- Сравнение производительности сотрудников до и после перехода на удалённую работу.
Парный t-тест мощнее двухвыборочного в таких случаях, потому что он контролирует индивидуальные различия. Каждый человек служит точкой сравнения для самого себя.
Как работает t-тест (без формул)
T-тест вычисляет число, которое называется t-статистика. Думайте о ней как об отношении сигнала к шуму:
- Сигнал: Разница между средними значениями групп. Большая разница — больше сигнала.
- Шум: Разброс внутри каждой группы, скорректированный на размер выборки. Больший разброс или меньшие выборки — больше шума.
Большая t-статистика (много сигнала относительно шума) означает, что разница, скорее всего, реальна. Малая t-статистика означает, что разница вполне может быть шумом.
T-статистика затем преобразуется в p-значение, которое показывает, насколько удивительным был бы этот результат, если бы между группами действительно не было разницы.
Размер выборки имеет значение
T-тест был специально разработан для маленьких выборок (буква «t» связана с Уильямом Сили Госсетом, который опубликовал свою работу под псевдонимом «Студент», работая на пивоварне «Гиннесс»). При больших выборках — в сотни или тысячи наблюдений — даже крошечные, неважные различия могут стать «статистически значимыми». Всегда обращайте внимание на размер разницы, а не только на то, назвал ли тест её значимой.
Условия применения
T-тест предполагает выполнение ряда условий:
- Независимость: Каждое наблюдение не должно влиять на другое. Измерение одного и того же человека дважды (без использования парного варианта) нарушает это условие.
- Приблизительно нормальное распределение: Данные в каждой группе должны быть приблизительно колоколообразной формы. При 30+ наблюдениях на группу это становится менее критичным благодаря центральной предельной теореме.
- Сходный разброс: Две группы должны иметь примерно одинаковый разброс. Существует модифицированная версия (t-тест Уэлча), которая справляется с неравными разбросами.
T-тест — это простой инструмент для сравнения средних значений двух групп (или одной группы со стандартом). Он взвешивает разницу между группами относительно естественного разброса внутри групп. Используйте одновыборочный вариант для сравнения с известным значением, двухвыборочный — для сравнения двух независимых групп, а парный — когда одних и тех же людей измеряют дважды. Всегда сочетайте статистическую значимость с практической — «реальная» разница не всегда означает «важную».