Ý nghĩa thống kê so với thực tiễn

Do Kho: Cơ bản Thoi Gian Doc: 10 phut

"Có ý nghĩa" thực sự nghĩa là gì?

Khi nhà nghiên cứu nói kết quả "có ý nghĩa thống kê", họ muốn nói hiệu ứng quan sát được khó có thể xảy ra do ngẫu nhiên thuần túy. Cụ thể, xác suất thấy kết quả như vậy nếu thực sự không có hiệu ứng rất nhỏ, thường dưới 5%. Đó là điều giá trị p đo lường.

Nhưng đây là cái bẫy: có ý nghĩa thống kê không có nghĩa là quan trọng, có ý nghĩa hay hữu ích. Kết quả có thể có ý nghĩa thống kê nhưng nhỏ đến mức không ai quan tâm trên thực tế. Hiểu sự khác biệt này là một trong những kỹ năng có giá trị nhất khi đọc nghiên cứu.

Khi hiệu ứng nhỏ xíu trông ấn tượng

Tưởng tượng công ty thử nghiệm bố cục trang web mới và thấy tăng thời gian trung bình người dùng trên trang 0,8 giây. Với mẫu 500.000 khách, sự khác biệt cho giá trị p 0,001, rất có ý nghĩa thống kê. Nhưng thêm 0,8 giây lướt web có thực sự quan trọng cho doanh nghiệp? Có lẽ không. Hiệu ứng thật về mặt thống kê, nhưng không có giá trị thực tế.

47.2 Bố cục cũ 48 Bố cục mới

Điều này xảy ra vì ý nghĩa thống kê phụ thuộc mạnh vào cỡ mẫu. Với mẫu đủ lớn, ngay cả khác biệt nhỏ nhất cũng cho giá trị p nhỏ. Kiểm định trở nên nhạy đến mức bắt được hiệu ứng ở mức nhiễu, vô hình và không liên quan trong thực tế.

Ví dụ

Công ty dược thử thuốc huyết áp mới trên 50.000 bệnh nhân. Thuốc giảm huyết áp tâm thu 1,2 mmHg so với giả dược, kết quả có ý nghĩa thống kê (p = 0,003). Tuy nhiên, bác sĩ coi giảm ít nhất 5-10 mmHg mới có ý nghĩa lâm sàng. Giảm 1,2 mmHg không thay đổi bất kỳ quyết định điều trị nào. Thuốc "hiệu quả" về mặt thống kê, nhưng vô dụng trên thực tế.

Ý nghĩa thực tiễn: Nó có thực sự quan trọng?

Ý nghĩa thực tiễn hỏi câu hỏi khác: hiệu ứng có đủ lớn để quan trọng trong thực tế? Điều này phụ thuộc bối cảnh, không chỉ toán. Cải thiện 2% hiệu suất nhiên liệu có thể có ý nghĩa thực tế cho hãng hàng không đốt hàng triệu gallon mỗi năm, nhưng vô nghĩa cho người lái xe đi chợ mỗi tuần.

Nhà nghiên cứu dùng "kích thước hiệu ứng" để đo sự khác biệt thực sự lớn bao nhiêu, độc lập cỡ mẫu. Các thước đo phổ biến gồm d Cohen (so sánh trung bình hai nhóm) và hệ số tương quan. Kích thước hiệu ứng nhỏ kết hợp giá trị p nhỏ nên khiến bạn thận trọng. Kết quả thật nhưng có thể không đáng hành động.

Hiệu ứng thuốc (mmHg) 0.4 2
Có ý nghĩa lâm sàng 6.1 10.9

Lưu ý trong khoảng tin cậy trên, hiệu ứng thuốc và toàn bộ phạm vi giá trị hợp lý đều nằm dưới mức bác sĩ coi là thay đổi có ý nghĩa. Dù chúng ta tin hiệu ứng không bằng không, nó vẫn quá nhỏ để quan trọng.

Cỡ mẫu tạo nhầm lẫn thế nào

Mẫu nhỏ có vấn đề ngược lại. Với quá ít người, nghiên cứu có thể không phát hiện hiệu ứng thực và quan trọng vì mẫu không đủ lớn để tạo giá trị p có ý nghĩa. Đây gọi là công suất thống kê thấp. Nghiên cứu 20 người có thể tìm thấy khác biệt lớn, có ý nghĩa thực tế nhưng báo cáo "không có ý nghĩa thống kê" vì mẫu quá nhỏ.

Điều này có nghĩa bạn có thể bị lầm theo cả hai hướng. Mẫu lớn khiến hiệu ứng nhỏ trông có ý nghĩa, mẫu nhỏ khiến hiệu ứng quan trọng trông không có ý nghĩa. Giá trị p hay cỡ mẫu đơn lẻ không cho biết kết quả có quan trọng không. Bạn cần nhìn vào kích thước thực của hiệu ứng và đánh giá theo bối cảnh.

Khi thống kê gây lầm: Bẫy thực tế

Tiêu đề thích báo cáo phát hiện có ý nghĩa thống kê mà không đề cập kích thước hiệu ứng. "Nghiên cứu phát hiện ăn socola liên quan giảm căng thẳng!" có thể dựa trên nghiên cứu người ăn socola giảm 0,3 điểm trên thang căng thẳng 100 điểm. Đúng về kỹ thuật, vô nghĩa trên thực tế.

Đội ngũ marketing cũng khai thác điều này. "Đã được chứng minh lâm sàng cải thiện độ ẩm da" có thể có nghĩa kem dưỡng tăng độ ẩm 2% so với không dùng gì, thử trên hàng ngàn người. Tuyên bố được hỗ trợ kỹ thuật bởi giá trị p có ý nghĩa, nhưng hiệu ứng vô hình cho người dùng.

Để tự bảo vệ, luôn hỏi: hiệu ứng lớn bao nhiêu? Nó được biểu diễn bằng đơn vị bạn hiểu không? Sự khác biệt này có thay đổi hành vi hay quyết định của bạn? Nếu nghiên cứu chỉ báo giá trị p mà không cho biết kích thước hiệu ứng, đó là dấu hiệu cảnh báo.

Điểm chính

Ý nghĩa thống kê cho biết hiệu ứng có thể thật. Ý nghĩa thực tiễn cho biết nó có thực sự quan trọng. Kết quả có thể có ý nghĩa thống kê nhưng quá nhỏ để quan tâm, đặc biệt với mẫu lớn. Luôn nhìn vào kích thước hiệu ứng, không chỉ giá trị p, và tự hỏi liệu sự khác biệt có thay đổi bất kỳ quyết định thực tế nào.