Sai lệch là gì?
Trong thống kê, sai lệch (bias) là bất kỳ yếu tố nào khiến kết quả lệch khỏi sự thật một cách có hệ thống. Khác với sai số ngẫu nhiên (đôi khi cao, đôi khi thấp), sai lệch luôn kéo kết quả về một hướng. Nó giống la bàn bị nam châm kéo lệch - mọi lần đo đều sai cùng một cách.
Sai lệch chọn mẫu (Selection Bias)
Xảy ra khi mẫu không đại diện cho tổng thể vì cách chọn mẫu có vấn đề.
Khảo sát online về "mức hài lòng với dịch vụ y tế Việt Nam" chỉ tiếp cận người dùng internet. Người cao tuổi ở nông thôn - nhóm dùng dịch vụ y tế nhiều nhất - ít có internet nên không được hỏi. Kết quả sẽ thiên về ý kiến người trẻ thành thị.
Sai lệch sống sót (Survivorship Bias)
Chỉ nhìn vào "người thắng" mà bỏ qua "người thua." Đây là dạng đặc biệt của sai lệch chọn mẫu.
"Nhìn Shopee, Tiki thành công mà xem - cứ lập startup thương mại điện tử đi!" Nhưng bạn không thấy hàng trăm startup TMĐT Việt Nam đã thất bại. Chỉ nhìn những người sống sót tạo ra bức tranh lạc quan sai lệch.
Sai lệch hồi đáp (Response Bias)
Xảy ra khi người trả lời không trung thực hoặc bị ảnh hưởng bởi cách đặt câu hỏi.
Sai lệch mong muốn xã hội
Người trả lời nói điều họ nghĩ người khác muốn nghe, thay vì sự thật.
Khảo sát hỏi: "Bạn có đọc sách thường xuyên không?" Nhiều người sẽ nói "có" dù thực tế ít đọc - vì đọc sách được xem là hành vi tốt. Tương tự, khảo sát về thu nhập ở Việt Nam thường bị sai lệch vì người giàu khai thấp (tránh thuế) và người nghèo khai cao (tự tôn).
Sai lệch dẫn dắt (Leading Question Bias)
So sánh hai cách hỏi:
- "Bạn có đồng ý rằng chất lượng phở Hà Nội ngày càng giảm không?" → dẫn dắt về "giảm"
- "Bạn đánh giá chất lượng phở Hà Nội hiện nay thế nào?" → trung lập hơn
Câu hỏi đầu sẽ cho nhiều câu trả lời tiêu cực hơn dù thực tế có thể không như vậy.
Sai lệch xác nhận (Confirmation Bias)
Xu hướng tìm kiếm, diễn giải, và ghi nhớ thông tin ủng hộ niềm tin có sẵn, trong khi bỏ qua thông tin trái chiều.
Nhà nghiên cứu tin rằng cà phê có hại cho sức khỏe. Họ thực hiện 10 phân tích - 2 cho kết quả "có hại," 8 cho "không ảnh hưởng." Nếu họ chỉ báo cáo 2 kết quả ủng hộ và bỏ qua 8 kết quả còn lại - đó là sai lệch xác nhận (và p-hacking).
Sai lệch xuất bản (Publication Bias)
Các tạp chí khoa học thích đăng kết quả "có ý nghĩa thống kê" hơn kết quả "không có ý nghĩa." Hệ quả: nhiều nghiên cứu thấy "không có hiệu quả" không được công bố, tạo ra bức tranh sai lệch rằng mọi can thiệp đều hiệu quả.
Sai lệch nhớ lại (Recall Bias)
Khi nghiên cứu hỏi về quá khứ, trí nhớ con người không đáng tin cậy - đặc biệt khi kết quả đã biết.
Nghiên cứu hỏi bà mẹ có con bị dị tật bẩm sinh: "Bà có tiếp xúc hóa chất trong thai kỳ không?" Bà mẹ có con bị dị tật sẽ cố nhớ kỹ hơn (và có thể "nhớ" nhiều hơn thực tế) so với bà mẹ có con bình thường.
Cách giảm sai lệch
- Lấy mẫu ngẫu nhiên: Giảm sai lệch chọn mẫu
- Câu hỏi trung lập: Giảm sai lệch dẫn dắt
- Khảo sát ẩn danh: Giảm sai lệch mong muốn xã hội
- Mù đôi: Giảm sai lệch quan sát viên
- Đăng ký nghiên cứu trước: Giảm sai lệch xuất bản
- Tự nhận thức: Biết sai lệch tồn tại là bước đầu tiên để giảm nó
Sai lệch là lỗi có hệ thống kéo kết quả lệch khỏi sự thật. Các loại phổ biến: chọn mẫu (mẫu không đại diện), hồi đáp (câu trả lời không trung thực), xác nhận (chỉ thấy điều muốn thấy), và xuất bản (chỉ đăng kết quả tích cực). Nhận diện sai lệch là kỹ năng quan trọng để đọc hiểu và thực hiện nghiên cứu.