Một con số không đủ
Khi bạn ước tính điều gì đó từ mẫu, một con số duy nhất (ước tính điểm) luôn có sai số. Nói "thu nhập trung bình là 7 triệu đồng" không cho biết bạn tin tưởng con số đó đến mức nào. Khoảng tin cậy giải quyết vấn đề này bằng cách đưa ra một khoảng giá trị thay vì một điểm duy nhất.
GSO khảo sát 5.000 hộ gia đình và ước tính thu nhập trung bình hàng tháng:
- Ước tính điểm: 7.200.000đ/người/tháng
- Khoảng tin cậy 95%: từ 6.800.000đ đến 7.600.000đ
"Chúng tôi 95% tin tưởng rằng thu nhập trung bình thực sự của cả nước nằm trong khoảng 6,8 đến 7,6 triệu đồng."
Khoảng tin cậy nghĩa là gì?
Khoảng tin cậy 95% có nghĩa: nếu bạn lặp lại quá trình lấy mẫu 100 lần và tính khoảng tin cậy mỗi lần, khoảng 95 trong 100 khoảng đó sẽ chứa giá trị thực của tổng thể.
Lưu ý quan trọng: Nó KHÔNG có nghĩa "95% xác suất giá trị thực nằm trong khoảng này." Giá trị thực cố định - nó hoặc nằm trong khoảng, hoặc không. 95% mô tả phương pháp, không phải kết quả cụ thể.
Cấu trúc khoảng tin cậy
Khoảng tin cậy = Ước tính điểm ± Biên sai số
Biên sai số (margin of error) phụ thuộc vào:
- Mức tin cậy: 95% phổ biến nhất. 99% cho khoảng rộng hơn, 90% cho khoảng hẹp hơn
- Kích thước mẫu: Mẫu lớn hơn → biên sai số nhỏ hơn → khoảng hẹp hơn
- Độ biến thiên dữ liệu: Dữ liệu biến thiên nhiều → biên sai số lớn hơn
Khảo sát 500 khách hàng Shopee Vietnam: 60% hài lòng với dịch vụ giao hàng.
Khoảng tin cậy 95%: 60% ± 4,3% = từ 55,7% đến 64,3%
Nếu khảo sát 2.000 khách: 60% ± 2,1% = từ 57,9% đến 62,1%
Mẫu lớn gấp 4 → biên sai số giảm một nửa (không phải giảm 4 lần - theo quy luật √n).
Mức tin cậy khác nhau
Bạn có thể chọn mức tin cậy khác nhau, nhưng phải đánh đổi:
- 90%: Khoảng hẹp hơn, nhưng ít chắc chắn hơn
- 95%: Cân bằng giữa độ chính xác và chắc chắn - phổ biến nhất
- 99%: Khoảng rộng hơn, nhưng chắc chắn hơn
Nghiên cứu thời gian chờ khám bệnh trung bình tại bệnh viện Bạch Mai:
- Khoảng tin cậy 90%: 42 ± 5 phút = 37 đến 47 phút
- Khoảng tin cậy 95%: 42 ± 6 phút = 36 đến 48 phút
- Khoảng tin cậy 99%: 42 ± 8 phút = 34 đến 50 phút
Muốn chắc chắn hơn → phải chấp nhận khoảng rộng hơn. Không có gì miễn phí.
Đọc khoảng tin cậy trong tin tức
Khi báo chí nói "tỷ lệ ủng hộ là 52% với biên sai số ±3%," nghĩa là khoảng tin cậy là 49% đến 55%. Nếu ngưỡng quyết định là 50%, kết quả vẫn chưa rõ ràng vì 50% nằm trong khoảng tin cậy.
Khoảng tin cậy và kiểm định giả thuyết
Khoảng tin cậy và kiểm định giả thuyết liên quan chặt chẽ. Nếu khoảng tin cậy 95% cho sự khác biệt giữa hai nhóm không chứa 0, thì kiểm định giả thuyết tương ứng sẽ cho p < 0,05. Hai phương pháp cho cùng kết luận.
So sánh lương IT giữa Hà Nội và TP.HCM. Khoảng tin cậy 95% cho chênh lệch: 1,5 đến 4,5 triệu đồng (TP.HCM cao hơn).
Khoảng không chứa 0 → chênh lệch có ý nghĩa thống kê. Hơn nữa, cả hai biên đều > 1 triệu → chênh lệch có ý nghĩa thực tế.
Sai lầm thường gặp
- Nhầm biên sai số với sai số: Biên sai số là khoảng không chắc chắn trong ước tính, không phải sai số trong đo lường
- Nghĩ mẫu lớn gấp đôi → biên sai số giảm nửa: Thực tế biên sai số giảm theo √n, nên cần mẫu lớn gấp 4 để giảm nửa biên sai số
- Bỏ qua khoảng tin cậy: Chỉ nhìn ước tính điểm mà không xem khoảng tin cậy có thể dẫn đến kết luận quá tự tin
Khoảng tin cậy cho bạn một khoảng giá trị có khả năng chứa giá trị thực, thay vì chỉ một con số duy nhất. Khoảng tin cậy 95% nghĩa là 95% các khoảng tạo ra bằng phương pháp này sẽ chứa giá trị thực. Mẫu lớn hơn và mức tin cậy thấp hơn cho khoảng hẹp hơn. Luôn đọc khoảng tin cậy cùng với ước tính điểm để có bức tranh đầy đủ.