Kiedy dane są kategoriami, nie liczbami
Test t porównuje średnie - działa świetnie dla danych liczbowych. Ale co, gdy Twoje dane są kategoriami? Płeć, województwo, preferencje zakupowe, sposób płatności - tutaj nie obliczysz średniej. Do takich danych służy test chi-kwadrat (χ²).
Test chi-kwadrat zgodności
Sprawdza, czy obserwowane częstości różnią się od oczekiwanych. "Czy kostka do gry jest uczciwa?" - jeśli każdy wynik powinien pojawiać się równo często, porównujesz to z obserwacjami.
Rzucasz kostką 120 razy. Oczekujesz, że każda ściana wypadnie 20 razy. Wyniki: 1→18, 2→22, 3→19, 4→21, 5→17, 6→23. Czy te odchylenia są normalne, czy kostka jest oszukana? Test chi-kwadrat odpowiada na to pytanie.
Test chi-kwadrat niezależności
Bardziej popularne zastosowanie: sprawdza, czy dwie zmienne kategoryczne są ze sobą powiązane. Tworzy się tabelę krzyżową i bada, czy rozkład częstości różni się od tego, czego oczekiwałbyś przy braku związku.
Badasz, czy sposób płatności (gotówka, karta, BLIK) zależy od grupy wiekowej (18-30, 31-50, 51+). Ankietujesz 300 klientów Biedronki. Jeśli nie ma związku, każda grupa wiekowa powinna używać każdej metody w podobnych proporcjach. Jeśli młodzi znacznie częściej używają BLIK, a starsi gotówki - test chi-kwadrat wykryje ten związek.
Jak obliczany jest chi-kwadrat
Wzór porównuje każdą obserwowaną częstość z oczekiwaną: χ² = Σ (obserwowana - oczekiwana)² / oczekiwana. Im większa różnica między obserwacjami a oczekiwaniami, tym większa wartość χ² - i tym bardziej prawdopodobne, że związek jest realny.
Sondaż przed wyborami samorządowymi pyta 400 osób o preferencje i płeć. Wyniki: mężczyźni - 60% kandydat A, 40% kandydat B. Kobiety - 45% kandydat A, 55% kandydat B. Czy płeć wpływa na preferencje? Test chi-kwadrat z p = 0,002 mówi: tak, jest statystycznie istotny związek między płcią a poparciem.
Stopnie swobody
Aby zinterpretować wynik chi-kwadrat, potrzebujesz stopni swobody (df). Dla tabeli krzyżowej: df = (liczba wierszy - 1) × (liczba kolumn - 1). Dla tabeli 3×2 (np. 3 grupy wiekowe × 2 metody płatności): df = 2 × 1 = 2.
Założenia i ograniczenia
- Oczekiwana częstość w każdej komórce powinna wynosić co najmniej 5
- Obserwacje muszą być niezależne (każda osoba liczona raz)
- Test mówi, CZY jest związek, ale nie mówi, JAK silny jest (do tego służy np. V Cramera)
- Działa tylko dla danych kategorycznych - nie używaj go dla danych liczbowych
Szkoła bada, czy zdawalność matury (zdał/nie zdał) zależy od typu szkoły (liceum ogólnokształcące, technikum, szkoła branżowa). Tabela 2×3, df = 2. Wynik: χ² = 18,4, p < 0,001. Jest silny statystyczny związek między typem szkoły a zdawalnością matury.
Test chi-kwadrat służy do analizy danych kategorycznych. Test zgodności sprawdza, czy obserwowane częstości pasują do oczekiwanych. Test niezależności bada, czy dwie zmienne kategoryczne są ze sobą powiązane. Porównuje obserwowane częstości z oczekiwanymi - im większa różnica, tym silniejszy dowód na związek. Pamiętaj o wymogu minimalnej częstości oczekiwanej (5) w każdej komórce.