What are the most common statistical mistakes?

Confusing correlation with causation, ignoring sample size, p-hacking, survivorship bias, and misinterpreting percentages are very common.

P-hacking is manipulating data or analysis until you get a statistically significant result, inflating false positive rates.

What is the base rate fallacy?

The base rate fallacy is ignoring the overall prevalence of an event when judging probability, leading to overestimation of rare outcomes.

What is the ecological fallacy in statistics?

The ecological fallacy assumes that group-level trends apply to individuals. Average income in a city does not tell you any one person's income.

Sai Lầm Phổ Biến

Ai cũng mắc sai lầm thống kê

Bộ não con người không được thiết kế để suy nghĩ thống kê tự nhiên. Chúng ta dùng phím tắt tư duy (heuristics) rất hữu ích trong cuộc sống hàng ngày nhưng thường dẫn đến kết luận sai khi xử lý dữ liệu và xác suất. Dưới đây là những sai lầm phổ biến nhất.

1. Nhầm tương quan với nhân quả

Đây là sai lầm phổ biến nhất. Khi hai thứ thay đổi cùng nhau, chúng ta tự động kết luận một thứ gây ra thứ kia.

Ví dụ

"Tỉnh nào có nhiều bệnh viện hơn thì tỷ lệ tử vong cao hơn." Bệnh viện gây chết người? Không - tỉnh đông dân hơn có nhiều bệnh viện hơn VÀ nhiều ca tử vong hơn (đơn giản vì có nhiều người hơn). Biến nhiễu: dân số.

2. Ngụy biện con bạc (Gambler's Fallacy)

Tin rằng kết quả quá khứ ảnh hưởng đến sự kiện ngẫu nhiên tương lai.

Ví dụ

Xổ số Vietlott ra số 7 ba kỳ liên tiếp. Nhiều người nghĩ "7 sẽ không ra nữa" hoặc ngược lại "7 đang may mắn, đặt tiếp." Cả hai đều sai - mỗi kỳ xổ số hoàn toàn độc lập. Xác suất không thay đổi vì kết quả quá khứ.

3. Sai lệch do mẫu nhỏ

Rút kết luận mạnh từ quá ít dữ liệu.

Ví dụ

"Tôi biết 3 người dùng điện thoại X đều bị hỏng, vậy điện thoại X kém lắm." 3 người không đủ để kết luận - có thể bạn tình cờ biết 3 trường hợp xui. Cần mẫu lớn hơn nhiều. Trên Shopee, sản phẩm có 5 đánh giá 5 sao không nhất thiết tốt hơn sản phẩm có 500 đánh giá 4,5 sao.

4. Bỏ qua tỷ lệ nền (Base Rate Neglect)

Quên xem xét tần suất cơ bản của sự kiện.

Ví dụ

Xét nghiệm "chính xác 99%" cho kết quả dương tính. Bạn hoảng hốt. Nhưng nếu bệnh chỉ ảnh hưởng 1/10.000 người, xác suất bạn thực sự mắc bệnh chỉ khoảng 1% (như bạn đã học ở bài Bayes). Tỷ lệ nền thấp thay đổi bức tranh hoàn toàn.

5. Cherry-picking (Chọn lọc dữ liệu)

Chỉ trình bày dữ liệu ủng hộ quan điểm, bỏ qua dữ liệu trái chiều.

Ví dụ

VN-Index tháng 3: +5%. Quảng cáo quỹ đầu tư: "Thị trường tăng mạnh, đầu tư ngay!" Nhưng 6 tháng trước đó? −15%. Chỉ chọn giai đoạn tốt là cherry-picking. Bức tranh đầy đủ rất khác.

6. Nhầm ý nghĩa thống kê với ý nghĩa thực tế

"Có ý nghĩa thống kê" không có nghĩa "quan trọng." Với mẫu đủ lớn, sự khác biệt cực nhỏ (và vô nghĩa trong thực tế) cũng có thể "có ý nghĩa thống kê."

Ví dụ

Nghiên cứu 1 triệu đơn hàng Shopee: thời gian giao hàng trung bình buổi sáng nhanh hơn buổi chiều 0,3 phút, p = 0,001. Có ý nghĩa thống kê? Có. Bạn có nên chỉ đặt hàng buổi sáng? Không - 0,3 phút = 18 giây chênh lệch, hoàn toàn vô nghĩa thực tế.

7. Hiệu ứng khung (Framing Effect)

Cùng thông tin nhưng trình bày khác nhau tạo ấn tượng khác nhau.

Ví dụ

Hai cách nói về cùng một phẫu thuật:

"Tỷ lệ thành công 90%" → bệnh nhân yên tâm
"Tỷ lệ thất bại 10%" → bệnh nhân lo lắng

Cùng con số, cùng thông tin, nhưng cảm nhận hoàn toàn khác. Luôn tìm "mặt kia" của con số.

8. Simpson's Paradox

Xu hướng trong từng nhóm nhỏ biến mất hoặc đảo ngược khi gộp các nhóm lại.

Ví dụ

Hai bệnh viện ở Hà Nội điều trị cùng một bệnh:

Bệnh viện A: ca nhẹ 95% khỏi, ca nặng 50% khỏi → tổng 85% khỏi

Bệnh viện B: ca nhẹ 98% khỏi, ca nặng 60% khỏi → tổng 75% khỏi

Bệnh viện B tốt hơn ở CẢ HAI nhóm, nhưng tổng thể thấp hơn vì nhận nhiều ca nặng hơn. Nếu chỉ nhìn tổng, bạn chọn sai bệnh viện!

Cách tránh sai lầm

Luôn hỏi "Có biến nhiễu không?" trước khi kết luận nhân quả
Đòi hỏi mẫu lớn trước khi tin kết quả
Tìm bức tranh đầy đủ, không chỉ phần được trình bày
Phân biệt ý nghĩa thống kê với ý nghĩa thực tế
Kiểm tra cả hai cách đóng khung thông tin

Điểm chính

Sai lầm thống kê phổ biến gồm: nhầm tương quan với nhân quả, ngụy biện con bạc, kết luận từ mẫu nhỏ, bỏ qua tỷ lệ nền, cherry-picking, nhầm ý nghĩa thống kê với thực tế, và hiệu ứng khung. Nhận diện những sai lầm này là bước quan trọng để trở thành người đọc và sử dụng thống kê thông minh hơn.

Sai Lầm Phổ Biến

Ai cũng mắc sai lầm thống kê

1. Nhầm tương quan với nhân quả

2. Ngụy biện con bạc (Gambler's Fallacy)

3. Sai lệch do mẫu nhỏ

4. Bỏ qua tỷ lệ nền (Base Rate Neglect)

5. Cherry-picking (Chọn lọc dữ liệu)

6. Nhầm ý nghĩa thống kê với ý nghĩa thực tế

7. Hiệu ứng khung (Framing Effect)

8. Simpson's Paradox

Cách tránh sai lầm

Bài học liên quan