Định nghĩa
Định lý giới hạn trung tâm (CLT) phát biểu rằng phân phối của các giá trị trung bình mẫu tiến dần đến phân phối chuẩn khi kích thước mẫu tăng, bất kể hình dạng của phân phối tổng thể ban đầu. Điều này đúng miễn là các mẫu độc lập và kích thước mẫu đủ lớn.
Cách hoạt động
Bất kể dữ liệu gốc trông như thế nào - lệch, đồng đều, hai đỉnh - các giá trị trung bình của các mẫu lặp đi lặp lại sẽ tạo thành đường cong hình chuông.
Gieo một con xúc xắc cho phân phối phẳng (đồng đều) - mỗi số từ 1 đến 6 có xác suất như nhau.
Nhưng nếu bạn gieo 30 xúc xắc và ghi lại giá trị trung bình, sau đó lặp lại 1.000 lần, phân phối của các giá trị trung bình đó sẽ có hình chuông, tập trung quanh 3,5.
Càng nhiều xúc xắc mỗi lần gieo, phân phối các giá trị trung bình càng gần đường cong chuẩn hoàn hảo.
Tại sao điều này quan trọng
Định lý giới hạn trung tâm có thể nói là định lý quan trọng nhất trong thống kê. Nó biện minh cho việc sử dụng khoảng tin cậy, kiểm định giả thuyết và nhiều phương pháp khác giả định tính chuẩn. Không có CLT, các công cụ này chỉ hoạt động trên dữ liệu đã có phân phối chuẩn, điều này hiếm gặp trong thế giới thực.
CLT cũng giải thích tại sao giá trị trung bình đáng tin cậy hơn các phép đo riêng lẻ. Độ biến thiên của trung bình mẫu giảm khi kích thước mẫu tăng (theo hệ số 1/căn bậc hai của n), do đó các nghiên cứu lớn hơn cho ước lượng chính xác hơn.
Định lý giới hạn trung tâm đảm bảo rằng trung bình mẫu xấp xỉ chuẩn cho các mẫu đủ lớn. Đây là lý do tại sao hầu hết các phương pháp thống kê hoạt động bất kể hình dạng của dữ liệu gốc.