Критерій хі-квадрат

Складність: Середній Час читання: 12 хвилин

Коли дані -- категорії, а не числа

t-тест порівнює середні числових даних. Але що, якщо ваші дані категоріальні? Наприклад: чи залежить вибір бренду смартфона від міста проживання? Чи пов'язана стать з вибором факультету? Для таких запитань існує критерій хі-квадрат (χ²).

30 A 25 B 28 C 17 D

Ідея: спостережуване vs очікуване

Суть критерію хі-квадрат проста: порівняйте те, що ви спостерігаєте, з тим, що очікували б, якби зв'язку не було. Якщо різниця велика -- зв'язок, ймовірно, є.

Приклад

Опитування 200 студентів: чи залежить уподобання кави чи чаю від міста?

Київ: 60 кава, 40 чай. Львів: 45 кава, 55 чай.

Якби зв'язку не було, у обох містах співвідношення було б однаковим: 52,5% кави, 47,5% чаю (загальна пропорція). Відхилення від цього "очікуваного" -- те, що перевіряє хі-квадрат.

Формула

χ² = Σ (Спостережуване - Очікуване)² / Очікуване

Для кожної клітинки таблиці: різниця між тим, що є, і тим, що мало б бути. Піднести до квадрата (щоб усунути знак). Поділити на очікуване (щоб нормалізувати). Додати всі разом.

Приклад

Rozetka хоче знати: чи залежить спосіб оплати від віку покупця?

Молоді (18-30): картка -- 120, готівка -- 30. Старші (31-50): картка -- 80, готівка -- 70.

Загалом: 200 картка, 100 готівка. Очікувані (якщо вік не впливає): Молоді картка: 150 × 200/300 = 100. Молоді готівка: 150 × 100/300 = 50. Старші картка: 150 × 200/300 = 100. Старші готівка: 150 × 100/300 = 50.

χ² = (120-100)²/100 + (30-50)²/50 + (80-100)²/100 + (70-50)²/50 = 4 + 8 + 4 + 8 = 24

p-значення < 0,001. Так, спосіб оплати залежить від віку: молодші частіше платять карткою.

Ступені свободи

df = (кількість рядків - 1) × (кількість стовпців - 1). У прикладі вище: (2-1) × (2-1) = 1. Ступені свободи потрібні для визначення p-значення з таблиці хі-квадрат.

Тест на однорідність

Хі-квадрат тест на однорідність перевіряє: чи мають різні групи однаковий розподіл категорій?

30 Спост A 25 Очік A 15 Спост B 25 Очік B 35 Спост C 25 Очік C 20 Спост D 25 Очік D
Приклад

Три школи в Одесі. Розподіл оцінок НМТ за категоріями (початковий, середній, достатній, високий) у кожній школі. Чи однаковий розподіл? Хі-квадрат перевіряє: df = (3-1)×(4-1) = 6. Якщо p < 0,05, школи мають статистично різні профілі успішності.

Тест на відповідність (goodness of fit)

Порівнює спостережуваний розподіл з теоретичним. Не таблиця, а один рядок.

Приклад

Кубик кинуто 600 разів. Якщо він чесний, кожне число має випасти ~100 разів. Реальні результати: 90, 115, 95, 105, 85, 110. Чи відхилення випадкові, чи кубик нечесний? Хі-квадрат тест на відповідність дає відповідь.

Умови застосування

  • Дані категоріальні. Не використовуйте хі-квадрат для числових даних.
  • Очікувані частоти ≥ 5. Якщо в якійсь клітинці очікуване менше 5, тест ненадійний. Об'єднайте категорії або використовуйте точний тест Фішера.
  • Спостереження незалежні. Кожна одиниця -- в одній клітинці.

Що хі-квадрат НЕ каже

Хі-квадрат каже: "зв'язок є" або "зв'язку немає". Він НЕ каже наскільки сильний зв'язок (для цього потрібні V Крамера або φ-коефіцієнт) і НЕ каже який напрямок зв'язку.

Ключовий висновок

Критерій хі-квадрат перевіряє зв'язок між категоріальними змінними, порівнюючи спостережувані частоти з очікуваними. Формула: χ² = Σ(O-E)²/E. Тест вимагає, щоб очікувані частоти були ≥ 5. Він каже, чи є зв'язок, але не вимірює його силу та напрямок. Для числових даних використовуйте t-тест або кореляцію.