Когда ваши данные — не числа
Не все данные представляют собой измерения вроде роста, веса или баллов за тест. Иногда ваши данные — это категории: да или нет, предпочтения брендов, выбор цвета, тип заказанного блюда. Когда нужно понять, связаны ли две категории, требуется другой инструмент. Этот инструмент — критерий хи-квадрат (произносится «хи-квадрат»).
Главный вопрос
Критерий хи-квадрат отвечает на простой вопрос: связаны ли две категориальные переменные или они независимы?
Например: влияет ли возрастная группа на выбор стримингового сервиса? Выбирают ли мужчины и женщины разные специальности в вузе с разной частотой? Есть ли связь между регионом проживания и политическими предпочтениями?
Все эти вопросы предполагают подсчёт количества людей, попадающих в различные комбинации категорий, и проверку того, мог ли наблюдаемый паттерн возникнуть случайно.
Наблюдаемые и ожидаемые значения
Критерий хи-квадрат сравнивает две вещи:
- Наблюдаемые частоты: Что вы реально обнаружили в данных.
- Ожидаемые частоты: Что вы ожидали бы увидеть, если бы две категории были абсолютно не связаны.
Если наблюдаемые частоты сильно отличаются от ожидаемых, это свидетельство того, что категории связаны. Если они близки, категории, вероятно, независимы.
Магазин электроники опрашивает 400 покупателей и фиксирует их пол и предпочтения по маркам смартфонов:
| Apple | Samsung | Другие | Итого | |
|---|---|---|---|---|
| Женщины | 120 | 55 | 25 | 200 |
| Мужчины | 90 | 80 | 30 | 200 |
| Итого | 210 | 135 | 55 | 400 |
Если бы пол и выбор бренда были полностью независимы, то каждый пол предпочитал бы бренды с одинаковой частотой. Поскольку Apple предпочитают 210 из 400 покупателей (52,5%), мы ожидали бы, что примерно 52,5% женщин (105) и 52,5% мужчин (105) выберут Apple.
Но реальные числа — 120 женщин и 90 мужчин. Это заметно отличается от ожидаемых 105 в каждой группе. Критерий хи-квадрат определяет, достаточно ли велики такие расхождения, чтобы быть значимыми, или они могли возникнуть случайно.
Как это работает (без формул)
Критерий хи-квадрат выполняется в несколько шагов:
- Подсчитайте наблюдаемые значения. Сколько людей или объектов попало в каждую комбинацию категорий.
- Рассчитайте ожидаемые значения. Какими были бы частоты, если бы категории были совершенно не связаны.
- Сравните наблюдаемые с ожидаемыми. Для каждой ячейки таблицы измерьте, насколько наблюдаемое значение отклоняется от ожидаемого.
- Объедините расхождения. Сложите все отклонения (предварительно возведя их в квадрат и поделив на ожидаемые значения), чтобы получить одно число — статистику хи-квадрат.
- Получите p-значение. По статистике хи-квадрат определите, насколько вероятно увидеть такие расхождения чисто случайно.
Большая статистика хи-квадрат (и малое p-значение) означает, что категории, скорее всего, связаны. Малая статистика означает, что они, вероятно, независимы.
Ещё одно применение: критерий согласия
Существует второй тип критерия хи-квадрат, называемый критерием согласия. Вместо проверки связи между двумя категориями он проверяет, соответствуют ли ваши данные ожидаемому распределению.
Кондитерская фабрика утверждает, что в каждой пачке конфет одинаковое количество пяти вкусов: клубника, лимон, яблоко, апельсин и вишня (по 20% каждого). Вы покупаете пачку и подсчитываете 100 конфет:
- Клубника: 28, Лимон: 15, Яблоко: 22, Апельсин: 18, Вишня: 17
Если утверждение фабрики верно, вы ожидали бы примерно по 20 штук каждого вкуса. В вашей пачке заметно больше клубничных и меньше лимонных. Критерий согласия хи-квадрат проверяет, достаточно ли велики эти расхождения, чтобы усомниться в утверждении фабрики, или они в пределах нормальных случайных колебаний.
Когда применять критерий хи-квадрат
Критерий хи-квадрат подходит, когда:
- Ваши данные — это подсчёты или частоты по категориям (не измерения вроде роста или баллов).
- Каждое наблюдение попадает ровно в одну категорию по каждой переменной.
- У вас достаточно большая выборка — как правило, каждая ожидаемая частота должна быть не менее 5.
- Наблюдения независимы — каждый человек или объект учитывается только один раз.
Ограничения
Критерий хи-квадрат показывает, существует ли связь между категориями, но не говорит, насколько она сильна. Очень большая выборка может дать значимый результат даже для ничтожно малой связи. Для измерения силы связи статистики используют дополнительные показатели, такие как V Крамера, вместе с критерием хи-квадрат.
Кроме того, как и любой статистический тест, обнаружение связи не доказывает причинность. Если мужчины и женщины предпочитают разные марки телефонов, тест не объясняет почему — это может быть маркетинг, влияние окружения, различные предпочтения в функционале или множество других факторов.
Критерий хи-квадрат применяется, когда ваши данные — это категории, а не числа. Он сравнивает то, что вы реально наблюдали, с тем, что ожидали бы при отсутствии связи между категориями. Большое расхождение между наблюдаемыми и ожидаемыми значениями (и малое p-значение) говорит о том, что категории связаны. Этот критерий широко используется в опросах, маркетинговых исследованиях и социологии — везде, где нужно понять, влияет ли принадлежность к группе на выбор людей.