Phân vị & biểu đồ hộp

Do Kho: Cơ bản Thoi Gian Doc: 10 phut

Phân vị là gì?

Phân vị cho biết bao nhiêu phần trăm giá trị trong tập dữ liệu nằm dưới một điểm nhất định. Nếu điểm thi của bạn ở phân vị thứ 85, nghĩa là bạn đạt cao hơn 85% thí sinh. Không có nghĩa là bạn trả lời đúng 85% câu hỏi - phân vị mô tả thứ hạng của bạn so với mọi người, không phải thành tích tuyệt đối.

Phân vị được dùng khắp nơi. Bác sĩ nhi khoa theo dõi chiều cao và cân nặng trẻ em bằng biểu đồ phân vị. Các bài thi chuẩn hóa như SAT và GRE báo cáo điểm dưới dạng phân vị. Khảo sát lương mô tả thu nhập bằng phân vị để công ty biết vị trí của mình so với thị trường.

Các phân vị được tham chiếu phổ biến nhất là tứ phân vị, chia dữ liệu thành bốn phần bằng nhau. Phân vị thứ 25 gọi là Q1 (tứ phân vị thứ nhất), phân vị thứ 50 là Q2 (trung vị), và phân vị thứ 75 là Q3 (tứ phân vị thứ ba). Cùng với giá trị nhỏ nhất và lớn nhất, năm giá trị này tạo thành tóm tắt năm số - bản chụp nhanh gọn gàng của toàn bộ tập dữ liệu.

12 20 28 36 44 52 55

Trong biểu đồ chấm ở trên, bạn thấy hầu hết giá trị tập trung trong khoảng 20-30, với vài giá trị thấp hơn và một ngoại lệ cao ở 55. Phân vị giúp mô tả phân phối này ngắn gọn mà không cần liệt kê mọi điểm dữ liệu.

Tóm tắt năm số

Tóm tắt năm số gồm năm giá trị: giá trị nhỏ nhất, Q1, trung vị, Q3, và giá trị lớn nhất. Năm con số này cho biết dữ liệu bắt đầu ở đâu, 50% giữa nằm ở đâu, và dữ liệu kết thúc ở đâu.

Ví dụ

Xét tiền tip hàng ngày của một phục vụ trong 20 ca: $12, $15, $17, $19, $21, $22, $23, $24, $25, $26, $27, $28, $29, $30, $31, $33, $35, $38, $42, $55. Tóm tắt năm số: Nhỏ nhất = $12, Q1 = $20, Trung vị = $26,50, Q3 = $32, Lớn nhất = $55. Nhìn nhanh, bạn thấy 50% giữa tip nằm giữa $20 và $32, tip điển hình khoảng $26-$27, và có một ngày tip bất thường ở $55.

Khoảng tứ phân vị (IQR)

Khoảng tứ phân vị đơn giản là Q3 trừ Q1. Nó đo độ phân tán của 50% giữa dữ liệu, bỏ qua các cực. Trong ví dụ phục vụ, IQR = $32 - $20 = $12.

IQR là thước đo phân tán vững hơn phạm vi (lớn nhất trừ nhỏ nhất) vì không bị ảnh hưởng bởi ngoại lệ. Phạm vi của phục vụ là $55 - $12 = $43, bị ảnh hưởng nặng bởi ngày tip cao. IQR $12 cho bức tranh chính xác hơn về biến thiên hàng ngày thông thường.

IQR cũng dùng để xác định ngoại lệ. Quy tắc phổ biến: bất kỳ giá trị nào dưới Q1 - 1,5 * IQR hoặc trên Q3 + 1,5 * IQR là ngoại lệ tiềm năng. Trong ví dụ phục vụ, giới hạn trên là $32 + 1,5 * $12 = $50. Ngày tip $55 vượt ngưỡng này, xác nhận là ngoại lệ thống kê.

Đọc biểu đồ hộp

Biểu đồ hộp (còn gọi là biểu đồ hộp-và-râu) là biểu diễn trực quan của tóm tắt năm số. Hộp kéo dài từ Q1 đến Q3, với đường bên trong đánh dấu trung vị. "Râu" mở rộng từ hộp đến giá trị không phải ngoại lệ nhỏ nhất và lớn nhất. Ngoại lệ xuất hiện dưới dạng chấm riêng ngoài râu.

Biểu đồ hộp đặc biệt hữu ích để so sánh nhiều nhóm cạnh nhau. Nếu muốn so sánh tip ở ba nhà hàng khác nhau, ba biểu đồ hộp đặt cạnh nhau sẽ ngay lập tức cho thấy nhà hàng nào có tip điển hình cao hơn, nhà hàng nào có biến thiên lớn hơn, và nhà hàng nào có nhiều ngoại lệ hơn.

12 Nhỏ nhất 20 Q1 26 Trung vị 32 Q3 55 Lớn nhất

Biểu đồ cột trên biểu diễn các giá trị tóm tắt năm số dưới dạng cột để bạn thấy vị trí tương đối. Lưu ý khoảng cách giữa Q3 và giá trị lớn nhất - sự bất đối xứng này gợi ý dữ liệu lệch phải, với đuôi dài về phía giá trị cao.

Biểu đồ hộp tiết lộ gì về hình dạng

Biểu đồ hộp cho biết về độ lệch của phân phối. Nếu đường trung vị ở giữa hộp và râu dài gần bằng nhau, dữ liệu đối xứng. Nếu trung vị gần Q1 và râu trên dài hơn, dữ liệu lệch phải (đuôi dài giá trị cao). Nếu trung vị gần Q3 và râu dưới dài hơn, dữ liệu lệch trái.

Ví dụ, dữ liệu thu nhập gần như luôn tạo biểu đồ hộp lệch phải: trung vị nằm thấp trong hộp, râu trên dài, và có nhiều ngoại lệ phía cao. Điểm thi trong khóa học thiết kế tốt thường tạo biểu đồ hộp lệch trái: hầu hết sinh viên làm tốt, nhưng vài người kéo râu dưới xuống.

Biểu đồ hộp hy sinh một số chi tiết so với histogram - bạn không thấy hình dạng chính xác của phân phối hay xác định nhiều đỉnh. Nhưng chúng xuất sắc trong so sánh gọn gàng và phát hiện ngoại lệ, đó là lý do chúng là công cụ chủ lực trong phân tích dữ liệu khám phá.

5 10 15 20 25 30
Điểm chính

Phân vị xếp hạng giá trị so với phần còn lại của dữ liệu, với tứ phân vị (Q1, trung vị, Q3) là các mốc quan trọng nhất. Tóm tắt năm số và IQR cung cấp bản chụp nhanh gọn gàng, kháng ngoại lệ của bất kỳ tập dữ liệu nào. Biểu đồ hộp biến tóm tắt này thành hình ảnh trực quan thể hiện trung tâm, phân tán, độ lệch và ngoại lệ trong nháy mắt - lý tưởng để so sánh nhanh nhiều nhóm.