What is effect size in statistics?

Effect size quantifies the magnitude of a difference or relationship, independent of sample size, telling you how meaningful a result is.

Cohen's d measures the difference between two group means in standard deviation units. Values of 0.2, 0.5, and 0.8 are small, medium, and large.

Why is effect size important?

P-values only tell you if a result is unlikely by chance. Effect size tells you whether the difference is large enough to matter in practice.

How do you interpret effect size?

Small effects may be negligible, medium effects are noticeable, and large effects have clear practical importance. Always consider the context.

Kích thước hiệu ứng

Vấn đề khi chỉ có giá trị p

Bạn chạy nghiên cứu, được giá trị p là 0,03, và tuyên bố kết quả "có ý nghĩa thống kê". Nhưng điều đó thực sự nói gì? Giá trị p cho biết kết quả sẽ bất ngờ thế nào nếu thực sự không có hiệu ứng. Nó không cho biết hiệu ứng lớn hay quan trọng đến mức nào.

Đây là vấn đề: với mẫu đủ lớn, hầu như bất kỳ sự khác biệt nào - dù nhỏ đến vô nghĩa - đều trở nên có ý nghĩa thống kê. Nếu so sánh chiều cao trung bình của 100.000 người uống cà phê với 100.000 người không uống, bạn có thể tìm thấy sự khác biệt có ý nghĩa thống kê là 0,2 cm. Giá trị p có thể rất nhỏ (p = 0,001), nhưng sự khác biệt vô nghĩa trên thực tế.

Đây là lúc kích thước hiệu ứng xuất hiện. Kích thước hiệu ứng đo độ lớn của sự khác biệt hoặc mối quan hệ, độc lập với cỡ mẫu. Nó trả lời câu hỏi thực sự quan trọng: hiệu ứng này lớn đến mức nào, và nó có ý nghĩa trong thế giới thực không?

d Cohen: Đo lường sự khác biệt

Thước đo kích thước hiệu ứng phổ biến nhất để so sánh hai nhóm là d Cohen. Nó thể hiện sự khác biệt giữa trung bình hai nhóm theo đơn vị độ lệch chuẩn. Công thức đơn giản: lấy hiệu hai trung bình chia cho độ lệch chuẩn gộp.

Ví dụ, nếu Nhóm A có trung bình 75 và Nhóm B có trung bình 80, với độ lệch chuẩn gộp là 10, thì d Cohen = (80 - 75) / 10 = 0,5. Nghĩa là hai nhóm cách nhau nửa độ lệch chuẩn.

Hình minh họa trên cho thấy đường cong chuẩn tắc. Vùng tô màu ở giữa đại diện cho vùng chồng lấp giữa hai nhóm cách nhau hiệu ứng nhỏ-trung bình. Hai đường cong càng chồng lấp, sự khác biệt thực tế giữa các nhóm càng nhỏ.

Hiệu ứng nhỏ, trung bình và lớn

Jacob Cohen, nhà tâm lý học phổ biến hóa thước đo này, đề xuất các mốc chuẩn:

Hiệu ứng nhỏ (d = 0,2): Sự khác biệt có thật nhưng khó thấy bằng mắt thường. Hai nhóm chồng lấp gần như hoàn toàn. Ví dụ: sự khác biệt chiều cao giữa bé gái 15 và 16 tuổi.
Hiệu ứng trung bình (d = 0,5): Sự khác biệt dễ nhận thấy cho người quan sát cẩn thận. Có sự tách biệt có ý nghĩa dù vẫn chồng lấp đáng kể. Ví dụ: sự khác biệt chiều cao giữa bé gái 14 và 18 tuổi.
Hiệu ứng lớn (d = 0,8): Sự khác biệt rõ ràng và có ý nghĩa thực tế. Các nhóm khác nhau rõ rệt dù vẫn có chồng lấp. Ví dụ: sự khác biệt chiều cao giữa bé gái 13 và 18 tuổi.

Các mốc chuẩn này là hướng dẫn, không phải quy tắc cứng. Trong một số lĩnh vực, kích thước hiệu ứng "nhỏ" cực kỳ quan trọng. Thuốc giảm nguy cơ nhồi máu cơ tim một lượng nhỏ (d = 0,2) có thể cứu hàng ngàn mạng khi áp dụng cho hàng triệu người. Bối cảnh quyết định hiệu ứng có ý nghĩa thực tế hay không.

Tại sao kích thước hiệu ứng quan trọng cho ra quyết định

Xét hai kịch bản. Nghiên cứu A thử nghiệm chương trình đào tạo mới trên 20 người và thấy cải thiện 10 điểm (p = 0,08, d = 0,9). Nghiên cứu B thử nghiệm cùng chương trình trên 5.000 người và thấy cải thiện 1 điểm (p = 0,001, d = 0,05). Nghiên cứu nào cho bằng chứng mạnh hơn?

Nếu chỉ nhìn giá trị p, Nghiên cứu B "thắng" - kết quả rất có ý nghĩa. Nhưng kích thước hiệu ứng kể câu chuyện khác. Nghiên cứu A tìm thấy cải thiện lớn, có ý nghĩa. Nghiên cứu B tìm thấy cải thiện nhỏ đến vô nghĩa chỉ đạt ý nghĩa nhờ mẫu khổng lồ. Người ra quyết định sáng suốt sẽ coi trọng kết quả Nghiên cứu A hơn, dù nhận thấy cần lặp lại với mẫu lớn hơn.

Đó là lý do nhiều tạp chí khoa học nay yêu cầu báo cáo kích thước hiệu ứng cùng giá trị p. Hiệp hội Tâm lý Hoa Kỳ đã khuyến nghị báo cáo kích thước hiệu ứng từ năm 1994. Bức tranh đầy đủ cần cả hai: giá trị p cho biết hiệu ứng có thể thật, kích thước hiệu ứng cho biết nó có đáng quan tâm không.

Các thước đo kích thước hiệu ứng khác

d Cohen không phải thước đo duy nhất. Tình huống khác cần thước đo khác. r Pearson (hệ số tương quan) bản thân là kích thước hiệu ứng cho độ mạnh mối quan hệ giữa hai biến, với mốc 0,1 (nhỏ), 0,3 (trung bình) và 0,5 (lớn). Eta bình phương và eta bình phương riêng phần dùng với ANOVA để thể hiện bao nhiêu phương sai tổng được giải thích bởi tư cách nhóm. Tỷ số odds phổ biến trong nghiên cứu y khoa để so sánh khả năng kết quả giữa các nhóm.

Lựa chọn phụ thuộc loại phân tích. So sánh hai trung bình dùng d Cohen. Tương quan dùng r. ANOVA dùng eta bình phương. Kết quả nhị phân dùng tỷ số odds. Quan trọng là luôn báo cáo một thước đo về độ lớn hiệu ứng, không chỉ giá trị p.

Ứng dụng thực tế

Kích thước hiệu ứng thiết yếu cho phân tích công suất - xác định cần bao nhiêu người tham gia trước khi chạy nghiên cứu. Nếu kỳ vọng hiệu ứng nhỏ, cần mẫu lớn hơn nhiều so với khi kỳ vọng hiệu ứng lớn. Lên kế hoạch cỡ mẫu mà không xét kích thước hiệu ứng giống như đóng gói hành lý mà không biết điểm đến.

Kích thước hiệu ứng cũng giúp phân tích tổng hợp khả thi. Khi nhà nghiên cứu kết hợp kết quả nhiều nghiên cứu cùng chủ đề, họ chuyển đổi kết quả mỗi nghiên cứu thành thước đo kích thước hiệu ứng chung. Điều này cho phép tổng hợp bằng chứng từ các nghiên cứu dùng cỡ mẫu, thang đo và tổng thể khác nhau.

Biểu đồ trên so sánh kích thước hiệu ứng giả định cho ba loại thuốc điều trị cùng bệnh. Cả ba có thể có giá trị p có ý nghĩa, nhưng khác biệt thực tế rất lớn. Thuốc B có hiệu ứng gấp đôi Thuốc A và gấp sáu Thuốc C. Bác sĩ chọn giữa chúng nên tập trung vào kích thước hiệu ứng, không chỉ ý nghĩa.

Điểm chính

Ý nghĩa thống kê cho biết hiệu ứng có thể thật, nhưng kích thước hiệu ứng cho biết nó có đáng quan tâm không. d Cohen là thước đo chuẩn cho so sánh hai nhóm, với mốc 0,2 (nhỏ), 0,5 (trung bình) và 0,8 (lớn). Luôn báo cáo kích thước hiệu ứng cùng giá trị p. Với mẫu lớn, ngay cả khác biệt vô nghĩa cũng trở nên "có ý nghĩa", nên kích thước hiệu ứng thiết yếu cho ra quyết định đúng đắn, phân tích công suất và so sánh kết quả giữa các nghiên cứu.