Khi dữ liệu là danh mục
Kiểm định t so sánh trung bình - nhưng nếu dữ liệu là danh mục thì sao? "Giới tính có ảnh hưởng đến lựa chọn ngành học không?" "Khu vực sống có liên quan đến phương tiện đi lại không?" Đây là lúc kiểm định chi bình phương (χ²) phát huy tác dụng.
Hai loại kiểm định chi bình phương
1. Kiểm định tính phù hợp (Goodness of Fit)
Kiểm tra xem phân phối quan sát có khớp với phân phối kỳ vọng không.
Một quán trà sữa ở Hà Nội cho rằng khách hàng chọn đều 4 vị: trà sữa truyền thống, matcha, taro, và đào. Trong 200 đơn hàng:
- Truyền thống: 70 (kỳ vọng: 50)
- Matcha: 55 (kỳ vọng: 50)
- Taro: 40 (kỳ vọng: 50)
- Đào: 35 (kỳ vọng: 50)
H₀: Khách hàng chọn đều 4 vị. Kiểm định χ² cho biết sự chênh lệch này có ý nghĩa thống kê hay chỉ do ngẫu nhiên.
2. Kiểm định tính độc lập (Test of Independence)
Kiểm tra xem hai biến phân loại có liên quan đến nhau không. Đây là loại phổ biến hơn.
Khảo sát 500 sinh viên: giới tính có liên quan đến lựa chọn ngành học không?
Bảng chéo:
Nam: CNTT 120, Kinh tế 50, Y khoa 30 = 200
Nữ: CNTT 60, Kinh tế 140, Y khoa 100 = 300
H₀: Giới tính và ngành học độc lập (không liên quan)
H₁: Giới tính và ngành học có liên quan
Cách tính chi bình phương
Ý tưởng: so sánh tần số quan sát (thực tế) với tần số kỳ vọng (nếu H₀ đúng).
χ² = Σ [(Quan sát − Kỳ vọng)² / Kỳ vọng]
Tần số kỳ vọng = (Tổng hàng × Tổng cột) / Tổng chung
Từ bảng trên, tần số kỳ vọng cho "Nam, CNTT":
Kỳ vọng = (200 × 180) / 500 = 72
Thực tế: 120. Chênh lệch = 120 − 72 = 48. Đóng góp vào χ²: 48²/72 = 32
Tính tương tự cho tất cả 6 ô, cộng lại → χ² tổng. Nếu χ² lớn → chênh lệch giữa thực tế và kỳ vọng lớn → bác bỏ H₀.
Diễn giải kết quả
Giá trị χ² lớn → p nhỏ → bác bỏ H₀ → hai biến có liên quan. Trong ví dụ trên, χ² rất lớn, p gần 0 → giới tính và lựa chọn ngành học rõ ràng có liên quan.
Nhưng nhớ: chi bình phương cho biết có liên quan hay không, nhưng KHÔNG cho biết liên quan mạnh đến mức nào. Để đo mức độ, dùng thêm Cramér's V hoặc hệ số phi.
Điều kiện áp dụng
- Dữ liệu phải là tần số (đếm), không phải phần trăm
- Mỗi quan sát chỉ thuộc một ô duy nhất
- Tần số kỳ vọng trong mỗi ô nên ≥ 5 (quy tắc ngón tay cái)
- Mẫu phải đủ lớn
Ứng dụng thực tế
Shopee Vietnam muốn biết: vùng miền có ảnh hưởng đến phương thức thanh toán không?
Bảng chéo 3 vùng (Bắc, Trung, Nam) × 3 phương thức (COD, ví điện tử, thẻ ngân hàng):
- Miền Bắc: COD 45%, ví 35%, thẻ 20%
- Miền Trung: COD 55%, ví 30%, thẻ 15%
- Miền Nam: COD 30%, ví 45%, thẻ 25%
χ² test cho p < 0,001 → vùng miền và phương thức thanh toán có liên quan mạnh. Shopee dùng thông tin này để tối ưu trải nghiệm thanh toán theo vùng.
So sánh với kiểm định t
- Kiểm định t: So sánh trung bình, dữ liệu liên tục (điểm số, lương, chiều cao)
- Kiểm định χ²: Kiểm tra liên hệ, dữ liệu phân loại (giới tính, vùng miền, loại sản phẩm)
Kiểm định chi bình phương kiểm tra mối liên hệ giữa hai biến phân loại bằng cách so sánh tần số quan sát với tần số kỳ vọng. χ² lớn = chênh lệch lớn = bằng chứng mạnh cho mối liên hệ. Điều kiện: dữ liệu là tần số đếm, tần số kỳ vọng ≥ 5 mỗi ô. Nó cho biết CÓ liên quan hay không, nhưng không đo mức độ mạnh yếu.