What is the central limit theorem in simple terms?

The CLT states that the average of many samples from any distribution will be approximately normally distributed, regardless of the original shape.

Why is the central limit theorem important?

It lets us use normal distribution methods for hypothesis testing and confidence intervals, even when the population is not normal.

How many samples do you need for the central limit theorem?

A sample size of 30 or more is the common rule of thumb, though highly skewed distributions may require larger samples.

Does the central limit theorem apply to any distribution?

Yes, as long as the population has a finite mean and variance, sample means will approach a normal distribution as sample size increases.

Định Lý Giới Hạn Trung Tâm

Định lý quan trọng nhất trong thống kê

Nếu phải chọn một định lý quan trọng nhất trong toàn bộ thống kê, nhiều nhà thống kê sẽ chọn Định lý giới hạn trung tâm (Central Limit Theorem - CLT). Nó là lý do chúng ta có thể rút ra kết luận về hàng triệu người chỉ từ vài nghìn quan sát.

Ý tưởng chính

Định lý nói rằng: Nếu bạn lấy nhiều mẫu ngẫu nhiên từ BẤT KỲ tổng thể nào, tính trung bình của mỗi mẫu, rồi vẽ biểu đồ các trung bình đó - biểu đồ sẽ có dạng phân phối chuẩn (hình chuông), bất kể dữ liệu gốc có phân phối gì.

Điều kiện: mẫu đủ lớn (thường n ≥ 30 là đủ).

Ví dụ

Thu nhập hàng tháng ở Việt Nam phân phối rất lệch (đa số thu nhập thấp-trung bình, ít người thu nhập rất cao). Nó KHÔNG có dạng hình chuông.

Nhưng nếu bạn:

Chọn ngẫu nhiên 50 người, tính thu nhập trung bình → ghi lại
Chọn ngẫu nhiên 50 người khác, tính trung bình → ghi lại
Lặp lại 1.000 lần

Biểu đồ của 1.000 trung bình mẫu đó sẽ có dạng hình chuông, dù dữ liệu thu nhập gốc lệch rất mạnh. Đó là sức mạnh của CLT.

Ba điều CLT đảm bảo

Dạng phân phối: Phân phối các trung bình mẫu tiến về phân phối chuẩn khi mẫu đủ lớn
Trung tâm: Trung bình của các trung bình mẫu = trung bình tổng thể
Độ phân tán: Độ lệch chuẩn của các trung bình mẫu = σ/√n (nhỏ hơn độ lệch chuẩn gốc)

Ví dụ

Chiều cao nữ giới Việt Nam: trung bình μ = 155 cm, độ lệch chuẩn σ = 5 cm.

Nếu lấy mẫu 25 người: độ lệch chuẩn trung bình mẫu = 5/√25 = 5/5 = 1 cm

Nếu lấy mẫu 100 người: độ lệch chuẩn trung bình mẫu = 5/√100 = 5/10 = 0,5 cm

Mẫu càng lớn, trung bình mẫu càng ít dao động quanh giá trị thực. Đó là lý do mẫu lớn cho kết quả chính xác hơn.

Tại sao CLT quan trọng trong thực tế?

GSO khảo sát lao động

Tổng cục Thống kê không thể hỏi tất cả 50 triệu lao động Việt Nam. Họ khảo sát mẫu khoảng 75.000 hộ gia đình. CLT đảm bảo rằng trung bình thu nhập từ mẫu này sẽ gần với trung bình thực sự của cả nước, và cho phép tính sai số ước tính.

Kiểm soát chất lượng

Nhà máy sản xuất mì ăn liền ở Bình Dương không thể kiểm tra mọi gói mì. Họ lấy ngẫu nhiên 30 gói mỗi giờ, cân và tính trung bình. CLT cho phép họ biết: nếu trung bình mẫu lệch quá xa 75g (tiêu chuẩn), có vấn đề với dây chuyền sản xuất.

Thăm dò dư luận

Các cuộc khảo sát ý kiến về mức hài lòng của người dân chỉ cần vài nghìn người mà có thể đại diện cho cả nước - vì CLT đảm bảo trung bình mẫu sẽ gần trung bình tổng thể.

"Đủ lớn" là bao nhiêu?

Quy tắc thông thường: n ≥ 30 thường đủ. Nhưng:

Nếu dữ liệu gốc gần phân phối chuẩn → n nhỏ hơn 30 cũng được
Nếu dữ liệu gốc rất lệch (như thu nhập) → cần n lớn hơn (50, 100 hoặc hơn)
Nếu dữ liệu gốc đã là phân phối chuẩn → CLT áp dụng với mọi n

Minh họa trực giác

Ví dụ

Gieo xúc xắc 1 lần: kết quả bất kỳ từ 1-6, phân phối đều (mỗi mặt 1/6).

Gieo 2 lần, tính trung bình: các giá trị như 1,0 và 6,0 hiếm, 3,5 phổ biến nhất. Bắt đầu giống hình chuông.

Gieo 30 lần, tính trung bình: hầu như luôn gần 3,5. Phân phối rõ ràng hình chuông.

Gieo 100 lần: trung bình gần như chắc chắn nằm trong khoảng 3,2-3,8.

Từ phân phối đều hoàn toàn → hình chuông hoàn hảo, chỉ nhờ lấy trung bình.

CLT và thống kê suy luận

CLT là nền tảng cho gần như mọi thứ bạn sẽ học tiếp theo: khoảng tin cậy, kiểm định giả thuyết, giá trị p - tất cả dựa trên CLT. Không có CLT, chúng ta không thể suy luận từ mẫu sang tổng thể một cách khoa học.

Điểm chính

Định lý giới hạn trung tâm nói rằng trung bình của nhiều mẫu ngẫu nhiên sẽ có phân phối chuẩn, bất kể dữ liệu gốc có phân phối gì - miễn là mẫu đủ lớn (thường ≥ 30). Mẫu càng lớn, trung bình mẫu càng ít dao động. Đây là nền tảng cho phép chúng ta suy luận từ mẫu sang tổng thể, và là cơ sở cho khoảng tin cậy, kiểm định giả thuyết, và hầu hết thống kê suy luận.

Định Lý Giới Hạn Trung Tâm

Định lý quan trọng nhất trong thống kê

Ý tưởng chính

Ba điều CLT đảm bảo

Tại sao CLT quan trọng trong thực tế?

GSO khảo sát lao động

Kiểm soát chất lượng

Thăm dò dư luận

"Đủ lớn" là bao nhiêu?

Minh họa trực giác

CLT và thống kê suy luận

Bài học liên quan