Vượt ra ngoài hai nhóm
Kiểm định t là công cụ chủ lực để so sánh hai nhóm. Nhưng khi có ba, bốn hoặc mười nhóm thì sao? Giả sử công ty thử nghiệm ba thiết kế trang web khác nhau và đo tỷ lệ chuyển đổi. Hoặc nông dân thử bốn loại phân bón và đo năng suất. Bạn không thể đơn giản chạy kiểm định t cho mọi cặp nhóm - cách tiếp cận đó tạo ra vấn đề nghiêm trọng.
Khi chạy nhiều kiểm định t, mỗi kiểm định có xác suất nhỏ cho kết quả dương tính giả (thường 5%). Chạy đủ nhiều, xác suất ít nhất một kiểm định cho kết quả sai lệch tăng nhanh. Với ba nhóm, cần ba so sánh cặp. Với năm nhóm, cần mười. Với mười nhóm, bốn mươi lăm. Càng nhiều kiểm định, càng dễ "tìm thấy" sự khác biệt không có thật. Vấn đề này gọi là lạm phát so sánh bội.
ANOVA - viết tắt của Phân tích phương sai (Analysis of Variance) - giải quyết bằng cách kiểm tra tất cả nhóm cùng lúc trong một kiểm định duy nhất. Thay vì hỏi "nhóm A có khác nhóm B không?" nó hỏi câu hỏi rộng hơn: "có bất kỳ sự khác biệt đáng kể nào giữa tất cả nhóm không?" Nếu có, bạn có thể đào sâu để tìm nhóm nào khác biệt cụ thể.
Ý tưởng cốt lõi: Hai loại phương sai
Mặc dù tên gọi, ANOVA về cơ bản so sánh trung bình, không phải phương sai. Nhưng nó dùng phương sai làm công cụ. Logic như sau: nếu chia dữ liệu thành nhóm, tổng biến thiên đến từ hai nguồn.
Phương sai giữa nhóm đo mức độ khác biệt giữa trung bình các nhóm. Nếu ba thiết kế web có tỷ lệ chuyển đổi rất khác nhau, phương sai giữa nhóm sẽ lớn. Phương sai trong nhóm đo mức biến thiên của từng giá trị trong mỗi nhóm. Ngay cả trong một thiết kế, người dùng khác nhau sẽ chuyển đổi ở tỷ lệ khác nhau - sự phân tán tự nhiên đó chính là phương sai trong nhóm.
Nếu phương sai giữa nhóm lớn so với phương sai trong nhóm, điều đó gợi ý các nhóm thực sự khác nhau. Nếu phương sai giữa nhóm nhỏ so với nhiễu trong nhóm, sự khác biệt về trung bình có thể dễ dàng do ngẫu nhiên.
Thống kê F
ANOVA tạo ra con số gọi là thống kê F (đặt theo tên nhà thống kê Ronald Fisher). Đơn giản là tỷ số phương sai giữa nhóm với phương sai trong nhóm.
Thống kê F gần 1 nghĩa là các nhóm trông tương tự - biến thiên giữa chúng xấp xỉ biến thiên trong chúng. Thống kê F lớn hơn 1 nhiều gợi ý ít nhất một nhóm thực sự khác biệt. F càng xa 1, bằng chứng càng mạnh.
Trong biểu đồ trên, phương sai giữa nhóm hơn gấp đôi phương sai trong nhóm, tạo ra thống kê F lớn hơn 1 nhiều. Điều này có thể dẫn đến giá trị p nhỏ, cho thấy sự khác biệt thực sự giữa các nhóm.
Một học khu thử nghiệm ba chương trình đọc trên 90 học sinh (30 mỗi chương trình). Điểm trung bình là 72, 78 và 81. ANOVA tính rằng phương sai giữa nhóm (do khác biệt giữa 72, 78 và 81) gấp 4,6 lần phương sai trong nhóm (do khác biệt cá nhân trong mỗi chương trình). Thống kê F bằng 4,6 cho giá trị p là 0,013 - dưới ngưỡng 0,05 - nên học khu kết luận ít nhất một chương trình cho kết quả khác biệt có ý nghĩa.
Giả định của ANOVA
Giống kiểm định t, ANOVA có các giả định cần kiểm tra trước khi tin tưởng kết quả:
- Độc lập: Các quan sát trong và giữa nhóm phải độc lập. Kết quả của một người không nên ảnh hưởng người khác.
- Chuẩn tắc: Dữ liệu trong mỗi nhóm nên phân phối chuẩn gần đúng. Với 30 quan sát trở lên mỗi nhóm, điều này ít quan trọng hơn.
- Phương sai bằng nhau (đồng nhất): Độ phân tán dữ liệu trong mỗi nhóm nên tương đương. Nếu một nhóm có độ lệch chuẩn 5 và nhóm khác là 20, ANOVA chuẩn có thể sai lệch. Kiểm định Levene có thể kiểm tra giả định này, và ANOVA Welch là lựa chọn thay thế vững chắc khi phương sai không bằng nhau.
Vi phạm các giả định không tự động làm mất hiệu lực kết quả, đặc biệt với mẫu lớn, nhưng xác minh chúng là thực hành tốt.
Sau ANOVA: Kiểm định hậu định
ANOVA cho biết ít nhất một nhóm khác biệt, nhưng không cho biết nhóm nào khác nhóm nào. Để tìm ra, bạn chạy kiểm định hậu định - so sánh tiếp theo kiểm soát vấn đề so sánh bội.
Kiểm định hậu định phổ biến nhất là HSD Tukey (Honestly Significant Difference). Nó so sánh mọi cặp nhóm trong khi điều chỉnh ngưỡng ý nghĩa để tỷ lệ dương tính giả tổng thể giữ ở 5%. Các lựa chọn khác gồm hiệu chỉnh Bonferroni (đơn giản hơn nhưng bảo thủ hơn) và kiểm định Scheffé (linh hoạt hơn nhưng kém mạnh hơn).
Hãy xem ANOVA như kiểm tra sàng lọc và kiểm định hậu định là theo dõi chi tiết. Bạn chỉ theo dõi nếu sàng lọc có ý nghĩa. Cách tiếp cận hai giai đoạn này kiểm soát tỷ lệ dương tính giả đồng thời cho phép xác định khác biệt cụ thể.
Các biến thể của ANOVA
Phiên bản mô tả ở trên là ANOVA một yếu tố, xem xét ảnh hưởng của một yếu tố duy nhất (như phương pháp giảng dạy hoặc loại phân bón). Có phiên bản nâng cao hơn cho thiết kế phức tạp hơn. ANOVA hai yếu tố xem xét hai yếu tố đồng thời - ví dụ, cả loại phân bón và tần suất tưới - và có thể phát hiện liệu hai yếu tố có tương tác không. ANOVA đo lường lặp lại dùng khi cùng đối tượng được đo nhiều lần, như kiểm tra bệnh nhân trước, trong và sau điều trị.
Bất kể biến thể nào, logic cơ bản vẫn giống: so sánh phương sai được giải thích bởi tư cách thành viên nhóm với phương sai không giải thích được trong nhóm, và quyết định liệu khác biệt nhóm có quá lớn để quy cho ngẫu nhiên không.
ANOVA cho phép so sánh trung bình của ba nhóm trở lên trong một kiểm định, tránh rủi ro dương tính giả tăng cao khi chạy nhiều kiểm định t. Nó hoạt động bằng cách so sánh phương sai giữa nhóm với phương sai trong nhóm qua thống kê F. Thống kê F lớn gợi ý ít nhất một nhóm khác biệt. Dùng kiểm định hậu định như HSD Tukey để xác định nhóm nào khác biệt cụ thể. Luôn kiểm tra giả định độc lập, chuẩn tắc và phương sai bằng nhau trước khi diễn giải kết quả.