What is variance in statistics?

Variance measures how spread out data points are from the mean by averaging the squared differences from the mean.

What is the difference between range and variance?

Range is simply the largest value minus the smallest, while variance accounts for how every data point deviates from the mean.

Why do we square the differences when calculating variance?

Squaring prevents negative and positive deviations from canceling out and gives more weight to larger deviations from the mean.

What is the difference between population variance and sample variance?

Population variance divides by N. Sample variance divides by N-1 to correct for the bias of estimating from a subset of data.

Khoảng Biến Thiên và Phương Sai

Trung bình chưa đủ

Ở bài trước, bạn đã học cách tìm "trung tâm" của dữ liệu. Nhưng trung tâm chỉ kể một nửa câu chuyện. Hai tập dữ liệu có thể có cùng trung bình nhưng rất khác nhau về mức độ phân tán.

Ví dụ

Hai lớp thi THPT quốc gia môn Toán, cả hai có điểm trung bình 7,0:

Lớp A: 6,5 - 6,8 - 7,0 - 7,2 - 7,5 (điểm sát nhau)

Lớp B: 3,0 - 5,0 - 7,0 - 9,0 - 11,0 (điểm chênh lệch lớn)

Cùng trung bình 7,0 nhưng câu chuyện rất khác. Lớp A đồng đều, lớp B phân hóa mạnh.

Để hiểu đầy đủ dữ liệu, bạn cần đo mức độ phân tán - dữ liệu trải rộng hay tập trung đến mức nào.

Khoảng biến thiên (Range)

Khoảng biến thiên là thước đo phân tán đơn giản nhất: giá trị lớn nhất trừ giá trị nhỏ nhất.

Khoảng biến thiên = Giá trị lớn nhất − Giá trị nhỏ nhất

Ví dụ

Nhiệt độ cao nhất trong tuần tại Hà Nội (°C): 28, 30, 32, 35, 31, 29, 33

Khoảng biến thiên = 35 − 28 = 7°C

Nhiệt độ cao nhất trong tuần tại Đà Lạt: 22, 23, 22, 24, 23, 22, 23

Khoảng biến thiên = 24 − 22 = 2°C

Đà Lạt có thời tiết ổn định hơn nhiều so với Hà Nội - khoảng biến thiên nhỏ hơn phản ánh điều đó.

Hạn chế của khoảng biến thiên

Khoảng biến thiên chỉ dùng hai giá trị (lớn nhất và nhỏ nhất), bỏ qua toàn bộ dữ liệu ở giữa. Một giá trị ngoại lai duy nhất có thể làm khoảng biến thiên tăng vọt mà không phản ánh đúng mức độ phân tán thực sự.

Ví dụ

Giá cà phê (nghìn đồng/cốc) tại 7 quán ở TP.HCM: 25, 28, 30, 30, 32, 35, 120

Khoảng biến thiên = 120 − 25 = 95 nghìn. Con số này bị quán sang (120k) kéo lên - 6 trong 7 quán có giá trong khoảng 25-35k.

Phương sai (Variance)

Phương sai là thước đo phân tán thông minh hơn: nó tính đến mọi giá trị trong tập dữ liệu bằng cách đo mỗi giá trị cách xa trung bình bao nhiêu.

Cách tính phương sai

Tính trung bình cộng của tất cả giá trị
Tính độ lệch: mỗi giá trị trừ đi trung bình
Bình phương mỗi độ lệch (để loại bỏ dấu âm)
Tính trung bình của các bình phương đó

Ví dụ

Số bàn thắng của một tiền đạo V-League trong 5 trận: 0, 1, 2, 1, 1

Bước 1: Trung bình = (0+1+2+1+1)/5 = 1,0

Bước 2: Độ lệch: (0−1), (1−1), (2−1), (1−1), (1−1) = −1, 0, 1, 0, 0

Bước 3: Bình phương: 1, 0, 1, 0, 0

Bước 4: Trung bình bình phương: (1+0+1+0+0)/5 = 2/5 = 0,4

Phương sai = 0,4. Cầu thủ này ghi bàn khá ổn định (phương sai nhỏ).

Phương sai mẫu vs. phương sai tổng thể

Có một chi tiết kỹ thuật quan trọng: khi tính phương sai từ mẫu (thay vì toàn bộ tổng thể), ta chia cho (n−1) thay vì n. Lý do: mẫu có xu hướng đánh giá thấp sự phân tán thực sự, và chia cho (n−1) điều chỉnh sai lệch này.

Trong ví dụ trên, nếu 5 trận chỉ là mẫu: phương sai mẫu = 2/(5−1) = 2/4 = 0,5. Sự khác biệt nhỏ nhưng quan trọng trong thống kê chính thức.

Tại sao bình phương?

Bạn có thể thắc mắc: tại sao bình phương độ lệch thay vì lấy giá trị tuyệt đối? Lý do chính: bình phương "phạt" các giá trị xa trung bình nặng hơn, giúp phát hiện sự phân tán rõ ràng hơn. Ngoài ra, bình phương có nhiều tính chất toán học thuận tiện cho các phương pháp thống kê nâng cao.

Ứng dụng thực tế

Phương sai được dùng rộng rãi:

Tài chính: Phương sai lợi nhuận cổ phiếu VN-Index đo mức độ rủi ro. Phương sai cao = biến động mạnh = rủi ro hơn
Sản xuất: Nhà máy sản xuất gạo đo phương sai trọng lượng bao gạo. Phương sai nhỏ = chất lượng đồng đều
Giáo dục: Phương sai điểm thi cho biết lớp đồng đều hay phân hóa

Điểm chính

Khoảng biến thiên (giá trị lớn nhất trừ nhỏ nhất) đơn giản nhưng dễ bị ảnh hưởng bởi giá trị ngoại lai. Phương sai đo mức phân tán bằng trung bình bình phương độ lệch - nó dùng mọi giá trị nên chính xác hơn. Hiểu mức phân tán cũng quan trọng như hiểu trung tâm: hai tập dữ liệu có cùng trung bình có thể kể hai câu chuyện hoàn toàn khác.

Khoảng Biến Thiên và Phương Sai

Trung bình chưa đủ

Khoảng biến thiên (Range)

Hạn chế của khoảng biến thiên

Phương sai (Variance)

Cách tính phương sai

Phương sai mẫu vs. phương sai tổng thể

Tại sao bình phương?

Ứng dụng thực tế

Bài học liên quan