What is a t-test used for?

A t-test determines whether there is a statistically significant difference between the means of two groups.

When should I use a t-test vs a z-test?

Use a t-test when the sample size is small (typically under 30) or the population standard deviation is unknown. Otherwise a z-test works.

What is a paired t-test?

A paired t-test compares two related measurements from the same group, such as before and after scores for the same participants.

What are the assumptions of a t-test?

Data should be approximately normal, observations should be independent, and for two-sample tests, groups should have similar variances.

Основы t-теста

Сравнение двух групп

Одни из самых частых вопросов в жизни связаны со сравнением двух вещей. Этот метод обучения лучше другого? Отличаются ли зарплаты мужчин и женщин в компании? Удерживает ли новая версия приложения пользователей дольше, чем старая?

T-тест — один из самых простых и широко используемых инструментов для ответа на подобные вопросы. Он помогает определить, является ли разница между двумя группами реальной или могла возникнуть случайно.

Основная идея

Допустим, два класса в школе учатся по разным программам. В конце года средний балл класса А — 78, а класса Б — 82. Значима ли эта разница в 4 балла?

Возможно. Но, возможно, и нет. Если баллы в обоих классах «разбросаны» от 50 до 100, разница в 4 балла легко может возникнуть случайно. Но если баллы сгруппированы плотно (большинство от 75 до 85), то 4 балла — это уже существенно.

T-тест учитывает одновременно величину разницы между группами и разброс значений внутри каждой группы, чтобы определить, является ли разница скорее реальной.

Когда применять t-тест

T-тест подходит, когда:

Вы сравниваете средние значения (не подсчёты и не категории).
Ваши данные числовые — баллы за тест, вес, время, цены.
У вас относительно небольшая выборка (t-тест был создан именно для ситуаций, когда нет тысяч наблюдений).
Данные в каждой группе имеют приблизительно колоколообразное распределение, или в каждой группе не менее 30 наблюдений.

Одновыборочный t-тест

Иногда нужно сравнить группу не с другой группой, а с известным стандартом. Это одновыборочный t-тест.

Пример

Производитель молока утверждает, что в каждой упаковке ровно 1 литр. Покупатель сомневается и решает проверить. Он покупает 25 пакетов в разные дни и измеряет объём каждого. Среднее значение — 0,97 литра.

Одновыборочный t-тест сравнивает выборочное среднее (0,97 л) с заявленным значением (1 л). Он спрашивает: достаточно ли велика разница между 0,97 и 1 — с учётом разброса объёмов в 25 пакетах — чтобы заключить, что производитель действительно недоливает? Или это просто нормальные колебания?

Двухвыборочный t-тест

Чаще всего нужно сравнить две разные группы. Это двухвыборочный t-тест (его также называют t-тестом для независимых выборок).

Пример

Школа хочет узнать, улучшает ли новая методика преподавания математики результаты учеников. 30 учеников случайным образом распределяют в группу с новой методикой (группа А) и 30 — в группу с традиционной (группа Б).

После одного семестра:

Средний балл группы А: 84
Средний балл группы Б: 79

Двухвыборочный t-тест анализирует разницу в 5 баллов и спрашивает: с учётом разброса оценок внутри каждой группы, достаточно ли она велика, чтобы быть реальной, или могла возникнуть случайно, даже если обе методики одинаково эффективны?

Если t-тест даёт малое p-значение (скажем, 0,02), это означает, что вероятность увидеть такую разницу чисто случайно составляет всего около 2%. Это сильный аргумент в пользу того, что новая методика действительно работает лучше.

Парный t-тест

Есть и третий вариант: парный t-тест. Он применяется, когда одних и тех же людей или объекты измеряют дважды — до и после чего-либо.

Примеры парных ситуаций:

Измерение артериального давления пациентов до и после приёма лекарства.
Тестирование студентов в начале и в конце курса подготовки к ЕГЭ.
Сравнение производительности сотрудников до и после перехода на удалённую работу.

Парный t-тест мощнее двухвыборочного в таких случаях, потому что он контролирует индивидуальные различия. Каждый человек служит точкой сравнения для самого себя.

Как работает t-тест (без формул)

T-тест вычисляет число, которое называется t-статистика. Думайте о ней как об отношении сигнала к шуму:

Сигнал: Разница между средними значениями групп. Большая разница — больше сигнала.
Шум: Разброс внутри каждой группы, скорректированный на размер выборки. Больший разброс или меньшие выборки — больше шума.

Большая t-статистика (много сигнала относительно шума) означает, что разница, скорее всего, реальна. Малая t-статистика означает, что разница вполне может быть шумом.

T-статистика затем преобразуется в p-значение, которое показывает, насколько удивительным был бы этот результат, если бы между группами действительно не было разницы.

Размер выборки имеет значение

T-тест был специально разработан для маленьких выборок (буква «t» связана с Уильямом Сили Госсетом, который опубликовал свою работу под псевдонимом «Студент», работая на пивоварне «Гиннесс»). При больших выборках — в сотни или тысячи наблюдений — даже крошечные, неважные различия могут стать «статистически значимыми». Всегда обращайте внимание на размер разницы, а не только на то, назвал ли тест её значимой.

Условия применения

T-тест предполагает выполнение ряда условий:

Независимость: Каждое наблюдение не должно влиять на другое. Измерение одного и того же человека дважды (без использования парного варианта) нарушает это условие.
Приблизительно нормальное распределение: Данные в каждой группе должны быть приблизительно колоколообразной формы. При 30+ наблюдениях на группу это становится менее критичным благодаря центральной предельной теореме.
Сходный разброс: Две группы должны иметь примерно одинаковый разброс. Существует модифицированная версия (t-тест Уэлча), которая справляется с неравными разбросами.

Ключевой вывод

T-тест — это простой инструмент для сравнения средних значений двух групп (или одной группы со стандартом). Он взвешивает разницу между группами относительно естественного разброса внутри групп. Используйте одновыборочный вариант для сравнения с известным значением, двухвыборочный — для сравнения двух независимых групп, а парный — когда одних и тех же людей измеряют дважды. Всегда сочетайте статистическую значимость с практической — «реальная» разница не всегда означает «важную».