What is a chi-square test used for?

A chi-square test checks whether there is a significant association between two categorical variables or if observed frequencies match expected ones.

When should you use a chi-square test?

Use it when comparing frequencies or proportions of categorical data, such as survey responses or demographic distributions.

What are the assumptions of a chi-square test?

Observations must be independent, data must be categorical, and expected frequencies in each cell should generally be 5 or more.

What is the difference between chi-square goodness of fit and independence?

Goodness of fit tests if one variable matches an expected distribution. The independence test checks if two categorical variables are related.

Критерій хі-квадрат

Коли дані -- категорії, а не числа

t-тест порівнює середні числових даних. Але що, якщо ваші дані категоріальні? Наприклад: чи залежить вибір бренду смартфона від міста проживання? Чи пов'язана стать з вибором факультету? Для таких запитань існує критерій хі-квадрат (χ²).

Ідея: спостережуване vs очікуване

Суть критерію хі-квадрат проста: порівняйте те, що ви спостерігаєте, з тим, що очікували б, якби зв'язку не було. Якщо різниця велика -- зв'язок, ймовірно, є.

Приклад

Опитування 200 студентів: чи залежить уподобання кави чи чаю від міста?

Київ: 60 кава, 40 чай. Львів: 45 кава, 55 чай.

Якби зв'язку не було, у обох містах співвідношення було б однаковим: 52,5% кави, 47,5% чаю (загальна пропорція). Відхилення від цього "очікуваного" -- те, що перевіряє хі-квадрат.

Формула

χ² = Σ (Спостережуване - Очікуване)² / Очікуване

Для кожної клітинки таблиці: різниця між тим, що є, і тим, що мало б бути. Піднести до квадрата (щоб усунути знак). Поділити на очікуване (щоб нормалізувати). Додати всі разом.

Приклад

Rozetka хоче знати: чи залежить спосіб оплати від віку покупця?

Молоді (18-30): картка -- 120, готівка -- 30. Старші (31-50): картка -- 80, готівка -- 70.

Загалом: 200 картка, 100 готівка. Очікувані (якщо вік не впливає): Молоді картка: 150 × 200/300 = 100. Молоді готівка: 150 × 100/300 = 50. Старші картка: 150 × 200/300 = 100. Старші готівка: 150 × 100/300 = 50.

χ² = (120-100)²/100 + (30-50)²/50 + (80-100)²/100 + (70-50)²/50 = 4 + 8 + 4 + 8 = 24

p-значення < 0,001. Так, спосіб оплати залежить від віку: молодші частіше платять карткою.

Ступені свободи

df = (кількість рядків - 1) × (кількість стовпців - 1). У прикладі вище: (2-1) × (2-1) = 1. Ступені свободи потрібні для визначення p-значення з таблиці хі-квадрат.

Тест на однорідність

Хі-квадрат тест на однорідність перевіряє: чи мають різні групи однаковий розподіл категорій?

Приклад

Три школи в Одесі. Розподіл оцінок НМТ за категоріями (початковий, середній, достатній, високий) у кожній школі. Чи однаковий розподіл? Хі-квадрат перевіряє: df = (3-1)×(4-1) = 6. Якщо p < 0,05, школи мають статистично різні профілі успішності.

Тест на відповідність (goodness of fit)

Порівнює спостережуваний розподіл з теоретичним. Не таблиця, а один рядок.

Приклад

Кубик кинуто 600 разів. Якщо він чесний, кожне число має випасти ~100 разів. Реальні результати: 90, 115, 95, 105, 85, 110. Чи відхилення випадкові, чи кубик нечесний? Хі-квадрат тест на відповідність дає відповідь.

Умови застосування

Дані категоріальні. Не використовуйте хі-квадрат для числових даних.
Очікувані частоти ≥ 5. Якщо в якійсь клітинці очікуване менше 5, тест ненадійний. Об'єднайте категорії або використовуйте точний тест Фішера.
Спостереження незалежні. Кожна одиниця -- в одній клітинці.

Що хі-квадрат НЕ каже

Хі-квадрат каже: "зв'язок є" або "зв'язку немає". Він НЕ каже наскільки сильний зв'язок (для цього потрібні V Крамера або φ-коефіцієнт) і НЕ каже який напрямок зв'язку.

Ключовий висновок

Критерій хі-квадрат перевіряє зв'язок між категоріальними змінними, порівнюючи спостережувані частоти з очікуваними. Формула: χ² = Σ(O-E)²/E. Тест вимагає, щоб очікувані частоти були ≥ 5. Він каже, чи є зв'язок, але не вимірює його силу та напрямок. Для числових даних використовуйте t-тест або кореляцію.

Критерій хі-квадрат

Коли дані -- категорії, а не числа

Ідея: спостережуване vs очікуване

Формула

Ступені свободи

Тест на однорідність

Тест на відповідність (goodness of fit)

Умови застосування

Що хі-квадрат НЕ каже

Схожі уроки