Khi giả định chuẩn thất bại
Nhiều kiểm định thống kê phổ biến như kiểm định t và ANOVA giả định dữ liệu đến từ phân phối chuẩn (hình chuông). Chúng cũng giả định dữ liệu đo trên thang khoảng hoặc tỷ lệ và phương sai gần bằng nhau giữa các nhóm. Những giả định này hoạt động tốt nhiều khi, nhưng khi không thỏa thì sao?
Dữ liệu thực thường lệch, có ngoại lệ, hoặc dưới dạng hạng hay danh mục thứ tự. Đánh giá hài lòng thang 1-5, dữ liệu thu nhập với người thu nhập cực cao, hoặc thời gian phản hồi với đuôi phải dài đều vi phạm giả định chuẩn. Áp dụng kiểm định t cho dữ liệu lệch mạnh cho giá trị p sai và kết luận không đáng tin. Kiểm định phi tham số là lựa chọn thay thế vững chắc.
Nhìn biểu đồ chấm trên. Dữ liệu này lệch phải rõ rệt với vài giá trị cực đoan. Kiểm định t trên dữ liệu này có thể không đáng tin. Phương pháp phi tham số xử lý điều này nhẹ nhàng vì làm việc với hạng thay vì giá trị thô, kháng ngoại lệ và độ lệch.
Cách tiếp cận dựa trên hạng
Ý tưởng trung tâm của hầu hết kiểm định phi tham số đơn giản: thay vì phân tích giá trị dữ liệu thực, chuyển thành hạng. Giá trị nhỏ nhất hạng 1, nhỏ tiếp theo hạng 2, v.v. Rồi phân tích trên hạng.
Tại sao hiệu quả? Hạng giữ nguyên thứ tự dữ liệu mà không bị ảnh hưởng khoảng cách giữa giá trị. Giá trị lớn nhất là 50 hay 5.000 đều nhận hạng cao nhất. Điều này khiến kiểm định hạng không nhạy với ngoại lệ và giả định phân phối. Đánh đổi là mất thông tin vì bỏ khoảng cách thực giữa giá trị, nên kiểm định phi tham số thường kém mạnh hơn kiểm định tham số khi giả định tham số thực sự thỏa.
Kiểm định U Mann-Whitney
Kiểm định U Mann-Whitney (còn gọi là kiểm định tổng hạng Wilcoxon) là thay thế phi tham số cho kiểm định t mẫu độc lập. Dùng khi muốn so sánh hai nhóm độc lập nhưng dữ liệu không phân phối chuẩn, mẫu nhỏ hoặc dữ liệu thứ tự.
Nhà hàng muốn so sánh đánh giá hài lòng (thang 1-10) giữa dịch vụ trưa và tối. Đánh giá không phân phối chuẩn và thang là thứ tự. Kiểm định U Mann-Whitney xếp hạng tất cả đánh giá chung rồi kiểm tra liệu hạng một nhóm có xu hướng cao hơn. Nếu khách trưa liên tục nhận hạng cao hơn khách tối, kiểm định sẽ cho kết quả có ý nghĩa.
Kiểm định Mann-Whitney thực sự kiểm tra liệu một nhóm có xu hướng tạo giá trị lớn hơn nhóm kia. Thường được mô tả là so sánh trung vị, đây là đơn giản hóa hữu ích, dù kỹ thuật nó so sánh toàn bộ phân phối. Là một trong những kiểm định phi tham số phổ biến nhất trong nghiên cứu y khoa và khoa học xã hội.
Kiểm định hạng có dấu Wilcoxon
Kiểm định hạng có dấu Wilcoxon là thay thế phi tham số cho kiểm định t mẫu ghép. Dùng khi có hai phép đo liên quan từ cùng đối tượng, như điểm trước-sau, nhưng chênh lệch không phân phối chuẩn.
Kiểm định tính chênh lệch mỗi cặp, xếp hạng giá trị tuyệt đối chênh lệch, rồi so sánh tổng hạng chênh lệch dương với tổng âm. Nếu điều trị thực sự có hiệu ứng, chênh lệch dương (hoặc âm) sẽ có hạng cao hơn một cách hệ thống.
Ví dụ, đo mức đau 20 bệnh nhân trước và sau liệu pháp mới, cải thiện không đối xứng, kiểm định Wilcoxon cho câu trả lời đáng tin hơn kiểm định t ghép. Đặc biệt phổ biến trong nghiên cứu lâm sàng mẫu nhỏ.
Kiểm định Kruskal-Wallis
Kiểm định Kruskal-Wallis mở rộng Mann-Whitney cho ba nhóm độc lập trở lên. Là thay thế phi tham số cho ANOVA một yếu tố. Tất cả quan sát xếp hạng chung, kiểm định xem hạng trung bình có khác nhau giữa các nhóm.
Giống ANOVA, kết quả Kruskal-Wallis có ý nghĩa cho biết ít nhất một nhóm khác biệt, nhưng không cho biết nhóm nào. Dùng kiểm định hậu định (như kiểm định Dunn) cho so sánh cặp.
Công ty thử nghiệm ba thiết kế web và thu thập điểm tương tác. Điểm lệch mạnh vì vài người dùng dành nhiều thời gian hơn. Kiểm định Kruskal-Wallis so sánh ba thiết kế mà không yêu cầu phân phối chuẩn. Nếu kết quả có ý nghĩa, công ty theo dõi bằng so sánh cặp xác định thiết kế vượt trội.
Khi nào dùng phi tham số
Dùng kiểm định phi tham số khi dữ liệu thứ tự (như thang Likert), cỡ mẫu rất nhỏ (dưới 20-30 mỗi nhóm), dữ liệu rõ ràng lệch hoặc có ngoại lệ ảnh hưởng, hoặc giả định tham số không thỏa. Chúng cũng đúng cho phân tích hạng trực tiếp, như ưu tiên hay xếp hạng từ giám khảo.
Đừng dùng phi tham số chỉ vì chúng có vẻ an toàn hơn. Khi dữ liệu thỏa giả định tham số, kiểm định tham số mạnh hơn - phát hiện hiệu ứng thật tốt hơn. Cách lý tưởng là kiểm tra giả định trước (dùng histogram, kiểm định chuẩn, hoặc đồ thị Q-Q) rồi chọn kiểm định phù hợp.
Trên thực tế, nhiều nhà nghiên cứu báo cáo cả kết quả tham số và phi tham số khi giả định ở ranh giới. Nếu cả hai cho cùng kết luận, bạn tự tin hơn. Nếu bất đồng, kết quả phi tham số thường được coi là đáng tin hơn vì ít giả định hơn.
Kiểm định phi tham số là lưới an toàn khi dữ liệu không phân phối chuẩn, chứa ngoại lệ, hoặc đo trên thang thứ tự. Kiểm định U Mann-Whitney so sánh hai nhóm độc lập, kiểm định hạng có dấu Wilcoxon so sánh phép đo ghép, và kiểm định Kruskal-Wallis so sánh ba nhóm trở lên. Chúng phân tích hạng thay vì giá trị thô, vững chắc nhưng kém mạnh hơn kiểm định tham số khi giả định chuẩn thỏa mãn.