Phân Phối Xác Suất

Do Kho: Trung cấp Thoi Gian Doc: 15 phut

Phân phối xác suất là gì?

Một phân phối xác suất mô tả tất cả các giá trị có thể xảy ra của một biến ngẫu nhiên và xác suất tương ứng của mỗi giá trị. Nói đơn giản, nó cho bạn biết "mỗi kết quả có khả năng xảy ra bao nhiêu?"

0 9 18 27 36 45 1 2 3 4 5 6 7 8 9

Hãy nghĩ về nó như một bản đồ: thay vì chỉ bạn đường đi, phân phối xác suất chỉ cho bạn khả năng xảy ra của mỗi kết quả có thể.

Phân phối rời rạc

Khi biến ngẫu nhiên chỉ nhận các giá trị đếm được (0, 1, 2, 3...), ta có phân phối rời rạc.

Ví dụ

Số bàn thắng trong một trận V-League. Dựa trên dữ liệu 3 mùa giải gần nhất:

  • 0 bàn: 8% các trận
  • 1 bàn: 22% các trận
  • 2 bàn: 30% các trận
  • 3 bàn: 25% các trận
  • 4 bàn trở lên: 15% các trận

Đây là phân phối xác suất rời rạc. Tổng tất cả xác suất = 100%. Bạn có thể thấy kết quả phổ biến nhất là 2 bàn/trận.

Phân phối nhị thức (Binomial)

Phân phối nhị thức áp dụng khi bạn có một thí nghiệm với hai kết quả (thành công/thất bại) lặp lại nhiều lần, và muốn biết xác suất có đúng k lần thành công.

Ví dụ

Trong kỳ thi THPT quốc gia, mỗi câu trắc nghiệm có 4 đáp án, 1 đáp án đúng. Nếu một thí sinh đoán ngẫu nhiên 10 câu, xác suất đoán đúng mỗi câu = 25%.

Phân phối nhị thức cho biết:

  • P(đúng 0 câu) ≈ 5,6%
  • P(đúng 1 câu) ≈ 18,8%
  • P(đúng 2 câu) ≈ 28,2%
  • P(đúng 3 câu) ≈ 25,0%
  • P(đúng 5 câu trở lên) ≈ 7,8%

Kết quả phổ biến nhất khi đoán ngẫu nhiên là 2-3 câu đúng trong 10 câu.

Phân phối liên tục

Khi biến ngẫu nhiên có thể nhận bất kỳ giá trị nào trong một khoảng (chiều cao, cân nặng, nhiệt độ...), ta có phân phối liên tục. Thay vì xác suất tại một điểm, ta nói về xác suất trong một khoảng.

140 150 160 170 180 190 200

Phân phối chuẩn (Normal Distribution)

Đây là phân phối quan trọng nhất trong thống kê, thường được gọi là "đường cong hình chuông." Nhiều hiện tượng tự nhiên tuân theo phân phối chuẩn.

Ví dụ

Chiều cao nam giới Việt Nam trưởng thành tuân theo phân phối chuẩn với trung bình khoảng 168 cm và độ lệch chuẩn khoảng 6 cm. Điều này có nghĩa:

  • Khoảng 68% nam giới cao từ 162-174 cm (trung bình ± 1 độ lệch chuẩn)
  • Khoảng 95% nam giới cao từ 156-180 cm (trung bình ± 2 độ lệch chuẩn)
  • Khoảng 99,7% nam giới cao từ 150-186 cm (trung bình ± 3 độ lệch chuẩn)

Đây gọi là quy tắc 68-95-99,7 - một trong những quy tắc hữu ích nhất trong thống kê.

Đặc điểm phân phối chuẩn

  • Hình chuông đối xứng quanh giá trị trung bình
  • Trung bình = trung vị = yếu vị (cả ba bằng nhau)
  • Phần lớn dữ liệu tập trung gần trung tâm, ít dữ liệu ở hai đuôi
  • Được xác định hoàn toàn bởi hai thông số: trung bình (μ) và độ lệch chuẩn (σ)

Phân phối lệch (Skewed)

Không phải dữ liệu nào cũng đối xứng. Nhiều dữ liệu trong đời thực bị lệch.

Ví dụ

Thu nhập hộ gia đình ở Việt Nam bị lệch phải: đa số gia đình có thu nhập trung bình hoặc thấp, nhưng một số ít có thu nhập rất cao, kéo đuôi phải dài ra. Trung bình thu nhập (khoảng 6 triệu/người/tháng) cao hơn trung vị vì nhóm thu nhập cao kéo trung bình lên.

Đây là lý do GSO thường báo cáo thu nhập trung vị thay vì trung bình - trung vị đại diện tốt hơn cho "người bình thường."

Tại sao phân phối chuẩn đặc biệt?

Phân phối chuẩn xuất hiện ở khắp nơi vì lý do toán học sâu sắc: Định lý giới hạn trung tâm (sẽ học ở bài sau) nói rằng khi bạn lấy trung bình của đủ nhiều quan sát, phân phối của trung bình đó sẽ tiến về phân phối chuẩn - bất kể dữ liệu gốc có phân phối gì.

17 1 16 2 17 3 16 4 17 5 17 6
Ví dụ

Điểm thi THPT quốc gia hàng năm có hàng trăm nghìn thí sinh. Phân phối điểm thường có dạng gần chuông: đa số thí sinh đạt điểm trung bình, ít thí sinh đạt điểm rất cao hoặc rất thấp. Bộ Giáo dục dùng đặc điểm này để xác định mức điểm sàn và phổ điểm.

Các phân phối khác

Ngoài phân phối chuẩn và nhị thức, còn nhiều phân phối khác bạn sẽ gặp:

  • Phân phối đều: Mọi giá trị có xác suất bằng nhau (như gieo xúc xắc công bằng)
  • Phân phối Poisson: Đếm số lần sự kiện hiếm xảy ra trong khoảng thời gian (số cuộc gọi đến tổng đài trong 1 giờ)
  • Phân phối mũ: Thời gian chờ giữa các sự kiện (thời gian giữa hai đơn hàng liên tiếp trên Shopee)
Điểm chính

Phân phối xác suất mô tả khả năng xảy ra của mỗi giá trị. Phân phối rời rạc (như nhị thức) dùng cho dữ liệu đếm được. Phân phối liên tục (như chuẩn) dùng cho dữ liệu đo được. Phân phối chuẩn đặc biệt quan trọng vì nhiều hiện tượng tự nhiên tuân theo nó, và quy tắc 68-95-99,7 giúp bạn nhanh chóng ước tính dữ liệu nằm ở đâu.