Trung Bình, Trung Vị và Yếu Vị

Do Kho: Cơ bản Thoi Gian Doc: 10 phut

"Trung bình" nghĩa là gì?

Khi ai đó nói "giá trung bình của phở ở Hà Nội" hoặc "điểm trung bình thi THPT quốc gia," họ đang cố mô tả cả một nhóm số bằng chỉ một con số. Con số đó được cho là đại diện cho giá trị điển hình.

2 5 8 11 14 15 5.5 5.0

Nhưng đây là điều nhiều người không nhận ra: có hơn một cách tính "trung bình." Ba phương pháp phổ biến nhất là trung bình cộng (mean), trung vị (median), và yếu vị (mode). Mỗi cách kể một câu chuyện hơi khác, và chọn đúng cách rất quan trọng.

Trung bình cộng (Mean): Cộng tất cả rồi chia

Trung bình cộng là cái hầu hết mọi người nghĩ đến khi nghe từ "trung bình." Bạn cộng tất cả các số rồi chia cho số lượng.

Ví dụ

Năm bạn học so sánh điểm thi THPT quốc gia môn Toán: 7,0 - 7,5 - 8,0 - 8,5 - 9,0

Bước 1: Cộng lại: 7,0 + 7,5 + 8,0 + 8,5 + 9,0 = 40,0

Bước 2: Chia cho 5 (vì có 5 điểm): 40,0 ÷ 5 = 8,0

Điểm trung bình cộng là 8,0.

Trung bình cộng hoạt động tốt khi các số khá gần nhau và không có giá trị cực đoan kéo lệch. Nó dùng mọi con số trong tính toán - đây vừa là điểm mạnh vừa là điểm yếu.

Khi trung bình bị kéo lệch

Hãy xem lương tại một công ty nhỏ ở TP. Hồ Chí Minh có 5 nhân viên:

Ví dụ

Lương nhân viên: 8 triệu - 10 triệu - 12 triệu - 13 triệu - 80 triệu (giám đốc)

Lương trung bình: (8 + 10 + 12 + 13 + 80) ÷ 5 = 123 ÷ 5 = 24,6 triệu đồng

24,6 triệu có đại diện cho lương điển hình không? Hoàn toàn không. 4 trong 5 nhân viên kiếm ít hơn nhiều. Lương giám đốc quá cao đã kéo trung bình lên.

Đây là điểm yếu lớn nhất của trung bình cộng: nó nhạy cảm với giá trị cực đoan. Một con số rất lớn hoặc rất nhỏ có thể bóp méo nó đáng kể.

Trung vị (Median): Giá trị ở giữa

Trung vị đơn giản là con số nằm ở giữa khi bạn sắp xếp tất cả giá trị từ nhỏ đến lớn. Một nửa số liệu nằm dưới nó, một nửa nằm trên.

2 1 3 2 5 3 5 4 8 5 3 6 1 7
Ví dụ

Cùng dữ liệu lương, sắp xếp: 8 - 10 - 12 - 13 - 80 (triệu đồng)

Trung vị là 12 triệu - giá trị ngay giữa.

12 triệu mô tả lương điển hình tốt hơn nhiều so với 24,6 triệu.

Khi có số lượng chẵn?

Khi bạn có số lượng giá trị chẵn, không có một giá trị giữa duy nhất. Bạn lấy hai giá trị giữa và tính trung bình cộng của chúng.

Ví dụ

Đánh giá quán phở trên Google Maps từ 6 khách: 3, 4, 4, 5, 5, 5

Hai giá trị giữa là 4 và 5. Trung bình: (4 + 5) ÷ 2 = 4,5

Trung vị đánh giá là 4,5.

Trung vị bền vững trước giá trị cực đoan. Ngay cả nếu lương giám đốc là 800 triệu thay vì 80 triệu, trung vị vẫn là 12 triệu. Đây là lý do tin tức về thu nhập hộ gia đình ở Việt Nam thường dùng trung vị - vài người siêu giàu sẽ làm trung bình cộng gây hiểu lầm.

Yếu vị (Mode): Giá trị xuất hiện nhiều nhất

Yếu vị là giá trị xuất hiện thường xuyên nhất. Đây là khái niệm đơn giản nhất, và nó hoạt động với mọi loại dữ liệu - kể cả dữ liệu không phải số.

Ví dụ

Một cửa hàng giày trên Shopee theo dõi size bán chạy nhất trong tuần: 39, 40, 40, 41, 40, 42, 39, 40, 41, 40

Size 40 xuất hiện 5 lần - nhiều hơn bất kỳ size nào. Yếu vị là size 40.

Thông tin hữu ích: cửa hàng nên đảm bảo luôn có đủ hàng size 40.

Yếu vị cũng hoạt động cho dữ liệu phân loại. Nếu khảo sát hỏi người Hà Nội thích uống gì buổi sáng và "cà phê sữa đá" được chọn nhiều nhất, thì cà phê sữa đá là yếu vị.

Có thể có nhiều yếu vị?

Có. Nếu hai giá trị cùng xuất hiện nhiều nhất, bạn có hai yếu vị (bimodal). Nếu mọi giá trị xuất hiện cùng số lần, không có yếu vị.

So sánh ba cách: cùng một tập dữ liệu

Ví dụ

Giá phở bò tại 9 quán ở Hà Nội (nghìn đồng): 35, 40, 45, 45, 45, 50, 50, 55, 85

20 30 40 50 60 70 80

Trung bình: (35+40+45+45+45+50+50+55+85) ÷ 9 = 450 ÷ 9 = 50 nghìn

Trung vị: Giá trị thứ 5 (trong 9 giá trị) = 45 nghìn

Yếu vị: 45 nghìn xuất hiện 3 lần = 45 nghìn

Ở đây, trung bình (50k) cao hơn trung vị và yếu vị (45k) vì quán 85k kéo trung bình lên.

Khi nào dùng cái nào?

Dùng trung bình khi: dữ liệu phân bố khá đều, không có giá trị cực đoan. Phổ biến trong nghiên cứu khoa học và tính toán hàng ngày.

Dùng trung vị khi: dữ liệu có giá trị ngoại lai hoặc bị lệch. Đây là lý do báo cáo thu nhập của GSO thường dùng trung vị.

Dùng yếu vị khi: bạn muốn biết lựa chọn phổ biến nhất. Đặc biệt hữu ích cho dữ liệu phân loại (sản phẩm bán chạy, môn học được chọn nhiều nhất).

Cái bẫy trong đời thực

Khi bạn thấy từ "trung bình" trong tin tức, quảng cáo, hay báo cáo, hãy tự hỏi: trung bình nào? Một công ty có thể quảng cáo "lương trung bình 25 triệu" dùng mean - bị thổi phồng bởi vài quản lý lương cao - trong khi lương trung vị chỉ 12 triệu. Cả hai đều đúng về mặt kỹ thuật, nhưng kể hai câu chuyện rất khác nhau.

Điểm chính

Trung bình cộng (mean) cộng tất cả rồi chia - hữu ích nhưng nhạy cảm với giá trị cực đoan. Trung vị (median) chọn giá trị giữa - tốt hơn khi có giá trị ngoại lai. Yếu vị (mode) tìm giá trị xuất hiện nhiều nhất - hoạt động với mọi loại dữ liệu. Biết khi nào dùng cái nào (và người khác đã chọn dùng cái nào) giúp bạn hiểu con số thực sự nói gì.