Đường cong hình chuông có mặt khắp nơi
Nếu bạn đo chiều cao của mọi người trưởng thành trong một thành phố lớn và vẽ biểu đồ, bạn sẽ thấy một hình dạng quen thuộc: một ngọn đồi mượt mà, đối xứng, đạt đỉnh ở giữa và thu nhỏ dần về hai phía. Hình dạng này được gọi là phân phối chuẩn, và nó có thể nói là khái niệm quan trọng nhất trong toàn bộ thống kê.
Phân phối chuẩn xuất hiện ở rất nhiều nơi. Điểm thi, chỉ số huyết áp, thời gian đi làm, dung sai sản xuất trên dây chuyền nhà máy, thậm chí sai số trong phép đo khoa học - tất cả đều có xu hướng theo hình chuông. Lý do là toán học: khi một phép đo chịu ảnh hưởng của nhiều yếu tố nhỏ, độc lập, kết quả có xu hướng phân phối chuẩn. Nguyên lý này liên quan chặt chẽ đến Định lý giới hạn trung tâm.
Trong biểu đồ trên, đỉnh đại diện cho giá trị phổ biến nhất (trung bình), và đường cong giảm đối xứng về hai phía. Hầu hết các giá trị tập trung gần trung tâm, với ngày càng ít quan sát khi bạn di chuyển về phía các cực.
Trung bình, độ lệch chuẩn và hình dạng
Phân phối chuẩn được xác định hoàn toàn chỉ bởi hai con số: trung bình (tâm của đường cong) và độ lệch chuẩn (dữ liệu phân tán như thế nào). Trung bình cho biết đỉnh nằm ở đâu trên trục số. Độ lệch chuẩn cho biết hình chuông rộng hay hẹp.
Hãy xem chỉ số IQ, được thiết kế theo phân phối chuẩn với trung bình 100 và độ lệch chuẩn 15. Hầu hết mọi người đạt từ 85 đến 115. Một số ít đạt dưới 70 hoặc trên 130. Cực kỳ ít người đạt dưới 55 hoặc trên 145. Nếu thay đổi độ lệch chuẩn thành 5, hình chuông trở nên hẹp hơn nhiều - gần như mọi người nằm trong khoảng 90 đến 110. Thay đổi thành 25, hình chuông phẳng ra, với điểm số phân tán rộng hơn nhiều.
Đây là vẻ đẹp của phân phối chuẩn: khi bạn biết trung bình và độ lệch chuẩn, bạn biết toàn bộ hình dạng và có thể tính xác suất của bất kỳ giá trị nào.
Quy tắc 68-95-99,7
Một trong những đặc điểm thực tế nhất của phân phối chuẩn là quy tắc thực nghiệm, còn gọi là quy tắc 68-95-99,7. Nó phát biểu rằng với bất kỳ dữ liệu phân phối chuẩn nào:
- Khoảng 68% giá trị nằm trong 1 độ lệch chuẩn so với trung bình.
- Khoảng 95% giá trị nằm trong 2 độ lệch chuẩn.
- Khoảng 99,7% giá trị nằm trong 3 độ lệch chuẩn.
Quy tắc này cho bạn cách nhanh chóng đánh giá mức độ bất thường của một giá trị. Nếu dữ liệu của bạn phân phối chuẩn và ai đó báo cáo một giá trị cách trung bình hơn 3 độ lệch chuẩn, điều đó cực kỳ hiếm - xảy ra ít hơn 0,3% thời gian. Các kỹ sư kiểm soát chất lượng sử dụng ý tưởng này hàng ngày: một chi tiết máy nằm ngoài ba độ lệch chuẩn so với kích thước mục tiêu được đánh dấu là lỗi.
Giả sử thời gian đi làm trung bình trong một thành phố là 35 phút với độ lệch chuẩn 8 phút. Theo quy tắc 68-95-99,7, khoảng 68% người đi làm mất từ 27 đến 43 phút. Khoảng 95% mất từ 19 đến 51 phút. Và gần như tất cả (99,7%) mất từ 11 đến 59 phút. Nếu ai đó nói thời gian đi làm của họ là 65 phút, đó là hơn 3 độ lệch chuẩn trên trung bình - thực sự bất thường cho thành phố này.
Điểm Z: Thước đo phổ quát
Các phân phối chuẩn khác nhau sử dụng đơn vị và thang đo khác nhau. Làm sao so sánh điểm thi 82 trong bài kiểm tra có trung bình 75 (độ lệch chuẩn 5) với điểm 720 trên SAT có trung bình 500 (độ lệch chuẩn 100)? Bạn sử dụng điểm Z.
Điểm Z cho biết một giá trị cách trung bình bao nhiêu độ lệch chuẩn. Công thức rất đơn giản: lấy giá trị trừ trung bình, rồi chia cho độ lệch chuẩn. Cho bài kiểm tra: (82 - 75) / 5 = 1,4. Cho SAT: (720 - 500) / 100 = 2,2. Điểm SAT ấn tượng hơn so với phân phối của nó vì nó xa trung bình hơn tính theo đơn vị độ lệch chuẩn.
Điểm Z bằng 0 nghĩa là giá trị đúng bằng trung bình. Điểm Z dương nghĩa là trên trung bình. Điểm Z âm nghĩa là dưới trung bình. Độ lớn cho biết khoảng cách so với trung bình. Điểm Z bằng 2,0 nghĩa là giá trị cao hơn khoảng 97,7% tất cả các giá trị trong phân phối.
Điểm Z mạnh mẽ vì chúng chuyển đổi bất kỳ phân phối chuẩn nào thành phân phối chuẩn tắc - đường cong hình chuông với trung bình 0 và độ lệch chuẩn 1. Điều này cho phép bạn sử dụng một bảng tham chiếu duy nhất (hoặc máy tính) để tìm xác suất cho bất kỳ biến phân phối chuẩn nào, bất kể thang đo gốc.
Ứng dụng thực tế
Phân phối chuẩn và điểm Z không chỉ là khái niệm trong sách giáo khoa. Chấm điểm theo đường cong nghĩa là điều chỉnh điểm sinh viên theo phân phối chuẩn. Kết quả xét nghiệm y khoa thường được đánh dấu bất thường khi vượt quá 2 độ lệch chuẩn so với trung bình dân số. Các nhà phân tích tài chính mô hình hóa lợi nhuận cổ phiếu bằng phân phối chuẩn (mặc dù đuôi thường dày hơn trong thực tế, đây là hạn chế quan trọng). Công ty bảo hiểm sử dụng mô hình chuẩn để ước tính bồi thường.
Cũng quan trọng để biết khi nào phân phối chuẩn không áp dụng được. Phân phối thu nhập lệch phải mạnh - một số ít người có thu nhập rất cao kéo trung bình xa hơn trung vị. Thời gian chờ và dữ liệu sống sót cũng thường lệch. Dữ liệu đếm (như số vụ tai nạn mỗi ngày) tuân theo các phân phối hoàn toàn khác. Luôn kiểm tra xem giả định đường cong hình chuông có hợp lý không trước khi áp dụng các công cụ này.
Phân phối chuẩn là đường cong đối xứng hình chuông được xác định hoàn toàn bởi trung bình và độ lệch chuẩn. Quy tắc 68-95-99,7 cho bạn cảm nhận nhanh về cách dữ liệu phân bố quanh trung bình. Điểm Z cho phép bạn chuyển đổi bất kỳ giá trị nào sang thang đo phổ quát tính bằng độ lệch chuẩn, giúp so sánh điểm số từ các bối cảnh hoàn toàn khác nhau. Luôn xác minh rằng dữ liệu của bạn gần đúng phân phối chuẩn trước khi dựa vào các công cụ này - không phải tất cả dữ liệu thực tế đều tuân theo đường cong hình chuông.