Định lý quan trọng nhất trong thống kê
Nếu phải chọn một định lý quan trọng nhất trong toàn bộ thống kê, nhiều nhà thống kê sẽ chọn Định lý giới hạn trung tâm (Central Limit Theorem - CLT). Nó là lý do chúng ta có thể rút ra kết luận về hàng triệu người chỉ từ vài nghìn quan sát.
Ý tưởng chính
Định lý nói rằng: Nếu bạn lấy nhiều mẫu ngẫu nhiên từ BẤT KỲ tổng thể nào, tính trung bình của mỗi mẫu, rồi vẽ biểu đồ các trung bình đó - biểu đồ sẽ có dạng phân phối chuẩn (hình chuông), bất kể dữ liệu gốc có phân phối gì.
Điều kiện: mẫu đủ lớn (thường n ≥ 30 là đủ).
Thu nhập hàng tháng ở Việt Nam phân phối rất lệch (đa số thu nhập thấp-trung bình, ít người thu nhập rất cao). Nó KHÔNG có dạng hình chuông.
Nhưng nếu bạn:
- Chọn ngẫu nhiên 50 người, tính thu nhập trung bình → ghi lại
- Chọn ngẫu nhiên 50 người khác, tính trung bình → ghi lại
- Lặp lại 1.000 lần
Biểu đồ của 1.000 trung bình mẫu đó sẽ có dạng hình chuông, dù dữ liệu thu nhập gốc lệch rất mạnh. Đó là sức mạnh của CLT.
Ba điều CLT đảm bảo
- Dạng phân phối: Phân phối các trung bình mẫu tiến về phân phối chuẩn khi mẫu đủ lớn
- Trung tâm: Trung bình của các trung bình mẫu = trung bình tổng thể
- Độ phân tán: Độ lệch chuẩn của các trung bình mẫu = σ/√n (nhỏ hơn độ lệch chuẩn gốc)
Chiều cao nữ giới Việt Nam: trung bình μ = 155 cm, độ lệch chuẩn σ = 5 cm.
Nếu lấy mẫu 25 người: độ lệch chuẩn trung bình mẫu = 5/√25 = 5/5 = 1 cm
Nếu lấy mẫu 100 người: độ lệch chuẩn trung bình mẫu = 5/√100 = 5/10 = 0,5 cm
Mẫu càng lớn, trung bình mẫu càng ít dao động quanh giá trị thực. Đó là lý do mẫu lớn cho kết quả chính xác hơn.
Tại sao CLT quan trọng trong thực tế?
GSO khảo sát lao động
Tổng cục Thống kê không thể hỏi tất cả 50 triệu lao động Việt Nam. Họ khảo sát mẫu khoảng 75.000 hộ gia đình. CLT đảm bảo rằng trung bình thu nhập từ mẫu này sẽ gần với trung bình thực sự của cả nước, và cho phép tính sai số ước tính.
Kiểm soát chất lượng
Nhà máy sản xuất mì ăn liền ở Bình Dương không thể kiểm tra mọi gói mì. Họ lấy ngẫu nhiên 30 gói mỗi giờ, cân và tính trung bình. CLT cho phép họ biết: nếu trung bình mẫu lệch quá xa 75g (tiêu chuẩn), có vấn đề với dây chuyền sản xuất.
Thăm dò dư luận
Các cuộc khảo sát ý kiến về mức hài lòng của người dân chỉ cần vài nghìn người mà có thể đại diện cho cả nước - vì CLT đảm bảo trung bình mẫu sẽ gần trung bình tổng thể.
"Đủ lớn" là bao nhiêu?
Quy tắc thông thường: n ≥ 30 thường đủ. Nhưng:
- Nếu dữ liệu gốc gần phân phối chuẩn → n nhỏ hơn 30 cũng được
- Nếu dữ liệu gốc rất lệch (như thu nhập) → cần n lớn hơn (50, 100 hoặc hơn)
- Nếu dữ liệu gốc đã là phân phối chuẩn → CLT áp dụng với mọi n
Minh họa trực giác
Gieo xúc xắc 1 lần: kết quả bất kỳ từ 1-6, phân phối đều (mỗi mặt 1/6).
Gieo 2 lần, tính trung bình: các giá trị như 1,0 và 6,0 hiếm, 3,5 phổ biến nhất. Bắt đầu giống hình chuông.
Gieo 30 lần, tính trung bình: hầu như luôn gần 3,5. Phân phối rõ ràng hình chuông.
Gieo 100 lần: trung bình gần như chắc chắn nằm trong khoảng 3,2-3,8.
Từ phân phối đều hoàn toàn → hình chuông hoàn hảo, chỉ nhờ lấy trung bình.
CLT và thống kê suy luận
CLT là nền tảng cho gần như mọi thứ bạn sẽ học tiếp theo: khoảng tin cậy, kiểm định giả thuyết, giá trị p - tất cả dựa trên CLT. Không có CLT, chúng ta không thể suy luận từ mẫu sang tổng thể một cách khoa học.
Định lý giới hạn trung tâm nói rằng trung bình của nhiều mẫu ngẫu nhiên sẽ có phân phối chuẩn, bất kể dữ liệu gốc có phân phối gì - miễn là mẫu đủ lớn (thường ≥ 30). Mẫu càng lớn, trung bình mẫu càng ít dao động. Đây là nền tảng cho phép chúng ta suy luận từ mẫu sang tổng thể, và là cơ sở cho khoảng tin cậy, kiểm định giả thuyết, và hầu hết thống kê suy luận.