Khoảng Biến Thiên và Phương Sai

Do Kho: Cơ bản Thoi Gian Doc: 10 phut

Trung bình chưa đủ

Ở bài trước, bạn đã học cách tìm "trung tâm" của dữ liệu. Nhưng trung tâm chỉ kể một nửa câu chuyện. Hai tập dữ liệu có thể có cùng trung bình nhưng rất khác nhau về mức độ phân tán.

10 12 14 16 18 20 15.0
Ví dụ

Hai lớp thi THPT quốc gia môn Toán, cả hai có điểm trung bình 7,0:

Lớp A: 6,5 - 6,8 - 7,0 - 7,2 - 7,5 (điểm sát nhau)

Lớp B: 3,0 - 5,0 - 7,0 - 9,0 - 11,0 (điểm chênh lệch lớn)

Cùng trung bình 7,0 nhưng câu chuyện rất khác. Lớp A đồng đều, lớp B phân hóa mạnh.

Để hiểu đầy đủ dữ liệu, bạn cần đo mức độ phân tán - dữ liệu trải rộng hay tập trung đến mức nào.

Khoảng biến thiên (Range)

Khoảng biến thiên là thước đo phân tán đơn giản nhất: giá trị lớn nhất trừ giá trị nhỏ nhất.

Khoảng biến thiên = Giá trị lớn nhất − Giá trị nhỏ nhất

Ví dụ

Nhiệt độ cao nhất trong tuần tại Hà Nội (°C): 28, 30, 32, 35, 31, 29, 33

Khoảng biến thiên = 35 − 28 = 7°C

Nhiệt độ cao nhất trong tuần tại Đà Lạt: 22, 23, 22, 24, 23, 22, 23

Khoảng biến thiên = 24 − 22 = 2°C

Đà Lạt có thời tiết ổn định hơn nhiều so với Hà Nội - khoảng biến thiên nhỏ hơn phản ánh điều đó.

Hạn chế của khoảng biến thiên

Khoảng biến thiên chỉ dùng hai giá trị (lớn nhất và nhỏ nhất), bỏ qua toàn bộ dữ liệu ở giữa. Một giá trị ngoại lai duy nhất có thể làm khoảng biến thiên tăng vọt mà không phản ánh đúng mức độ phân tán thực sự.

Ví dụ

Giá cà phê (nghìn đồng/cốc) tại 7 quán ở TP.HCM: 25, 28, 30, 30, 32, 35, 120

Khoảng biến thiên = 120 − 25 = 95 nghìn. Con số này bị quán sang (120k) kéo lên - 6 trong 7 quán có giá trong khoảng 25-35k.

Phương sai (Variance)

Phương sai là thước đo phân tán thông minh hơn: nó tính đến mọi giá trị trong tập dữ liệu bằng cách đo mỗi giá trị cách xa trung bình bao nhiêu.

Cách tính phương sai

  1. Tính trung bình cộng của tất cả giá trị
  2. Tính độ lệch: mỗi giá trị trừ đi trung bình
  3. Bình phương mỗi độ lệch (để loại bỏ dấu âm)
  4. Tính trung bình của các bình phương đó
Ví dụ

Số bàn thắng của một tiền đạo V-League trong 5 trận: 0, 1, 2, 1, 1

Bước 1: Trung bình = (0+1+2+1+1)/5 = 1,0

Bước 2: Độ lệch: (0−1), (1−1), (2−1), (1−1), (1−1) = −1, 0, 1, 0, 0

Bước 3: Bình phương: 1, 0, 1, 0, 0

Bước 4: Trung bình bình phương: (1+0+1+0+0)/5 = 2/5 = 0,4

Phương sai = 0,4. Cầu thủ này ghi bàn khá ổn định (phương sai nhỏ).

Phương sai mẫu vs. phương sai tổng thể

Có một chi tiết kỹ thuật quan trọng: khi tính phương sai từ mẫu (thay vì toàn bộ tổng thể), ta chia cho (n−1) thay vì n. Lý do: mẫu có xu hướng đánh giá thấp sự phân tán thực sự, và chia cho (n−1) điều chỉnh sai lệch này.

Trong ví dụ trên, nếu 5 trận chỉ là mẫu: phương sai mẫu = 2/(5−1) = 2/4 = 0,5. Sự khác biệt nhỏ nhưng quan trọng trong thống kê chính thức.

Tại sao bình phương?

Bạn có thể thắc mắc: tại sao bình phương độ lệch thay vì lấy giá trị tuyệt đối? Lý do chính: bình phương "phạt" các giá trị xa trung bình nặng hơn, giúp phát hiện sự phân tán rõ ràng hơn. Ngoài ra, bình phương có nhiều tính chất toán học thuận tiện cho các phương pháp thống kê nâng cao.

Ứng dụng thực tế

Phương sai được dùng rộng rãi:

  • Tài chính: Phương sai lợi nhuận cổ phiếu VN-Index đo mức độ rủi ro. Phương sai cao = biến động mạnh = rủi ro hơn
  • Sản xuất: Nhà máy sản xuất gạo đo phương sai trọng lượng bao gạo. Phương sai nhỏ = chất lượng đồng đều
  • Giáo dục: Phương sai điểm thi cho biết lớp đồng đều hay phân hóa
Điểm chính

Khoảng biến thiên (giá trị lớn nhất trừ nhỏ nhất) đơn giản nhưng dễ bị ảnh hưởng bởi giá trị ngoại lai. Phương sai đo mức phân tán bằng trung bình bình phương độ lệch - nó dùng mọi giá trị nên chính xác hơn. Hiểu mức phân tán cũng quan trọng như hiểu trung tâm: hai tập dữ liệu có cùng trung bình có thể kể hai câu chuyện hoàn toàn khác.