Коли дані -- категорії, а не числа
t-тест порівнює середні числових даних. Але що, якщо ваші дані категоріальні? Наприклад: чи залежить вибір бренду смартфона від міста проживання? Чи пов'язана стать з вибором факультету? Для таких запитань існує критерій хі-квадрат (χ²).
Ідея: спостережуване vs очікуване
Суть критерію хі-квадрат проста: порівняйте те, що ви спостерігаєте, з тим, що очікували б, якби зв'язку не було. Якщо різниця велика -- зв'язок, ймовірно, є.
Опитування 200 студентів: чи залежить уподобання кави чи чаю від міста?
Київ: 60 кава, 40 чай. Львів: 45 кава, 55 чай.
Якби зв'язку не було, у обох містах співвідношення було б однаковим: 52,5% кави, 47,5% чаю (загальна пропорція). Відхилення від цього "очікуваного" -- те, що перевіряє хі-квадрат.
Формула
χ² = Σ (Спостережуване - Очікуване)² / Очікуване
Для кожної клітинки таблиці: різниця між тим, що є, і тим, що мало б бути. Піднести до квадрата (щоб усунути знак). Поділити на очікуване (щоб нормалізувати). Додати всі разом.
Rozetka хоче знати: чи залежить спосіб оплати від віку покупця?
Молоді (18-30): картка -- 120, готівка -- 30. Старші (31-50): картка -- 80, готівка -- 70.
Загалом: 200 картка, 100 готівка. Очікувані (якщо вік не впливає): Молоді картка: 150 × 200/300 = 100. Молоді готівка: 150 × 100/300 = 50. Старші картка: 150 × 200/300 = 100. Старші готівка: 150 × 100/300 = 50.
χ² = (120-100)²/100 + (30-50)²/50 + (80-100)²/100 + (70-50)²/50 = 4 + 8 + 4 + 8 = 24
p-значення < 0,001. Так, спосіб оплати залежить від віку: молодші частіше платять карткою.
Ступені свободи
df = (кількість рядків - 1) × (кількість стовпців - 1). У прикладі вище: (2-1) × (2-1) = 1. Ступені свободи потрібні для визначення p-значення з таблиці хі-квадрат.
Тест на однорідність
Хі-квадрат тест на однорідність перевіряє: чи мають різні групи однаковий розподіл категорій?
Три школи в Одесі. Розподіл оцінок НМТ за категоріями (початковий, середній, достатній, високий) у кожній школі. Чи однаковий розподіл? Хі-квадрат перевіряє: df = (3-1)×(4-1) = 6. Якщо p < 0,05, школи мають статистично різні профілі успішності.
Тест на відповідність (goodness of fit)
Порівнює спостережуваний розподіл з теоретичним. Не таблиця, а один рядок.
Кубик кинуто 600 разів. Якщо він чесний, кожне число має випасти ~100 разів. Реальні результати: 90, 115, 95, 105, 85, 110. Чи відхилення випадкові, чи кубик нечесний? Хі-квадрат тест на відповідність дає відповідь.
Умови застосування
- Дані категоріальні. Не використовуйте хі-квадрат для числових даних.
- Очікувані частоти ≥ 5. Якщо в якійсь клітинці очікуване менше 5, тест ненадійний. Об'єднайте категорії або використовуйте точний тест Фішера.
- Спостереження незалежні. Кожна одиниця -- в одній клітинці.
Що хі-квадрат НЕ каже
Хі-квадрат каже: "зв'язок є" або "зв'язку немає". Він НЕ каже наскільки сильний зв'язок (для цього потрібні V Крамера або φ-коефіцієнт) і НЕ каже який напрямок зв'язку.
Критерій хі-квадрат перевіряє зв'язок між категоріальними змінними, порівнюючи спостережувані частоти з очікуваними. Формула: χ² = Σ(O-E)²/E. Тест вимагає, щоб очікувані частоти були ≥ 5. Він каже, чи є зв'язок, але не вимірює його силу та напрямок. Для числових даних використовуйте t-тест або кореляцію.