Giá trị ngoại lai là gì?
Giá trị ngoại lai (outlier) là một quan sát khác biệt đáng kể so với phần còn lại của dữ liệu. Nó "nằm ngoài" phạm vi bình thường - quá cao, quá thấp, hoặc đơn giản là bất thường.
Giá nhà trung bình tại quận Bình Thạnh, TP.HCM (tỷ đồng): 3,2 - 3,5 - 3,8 - 4,0 - 4,2 - 4,5 - 25,0
6 căn nhà đầu có giá từ 3,2 đến 4,5 tỷ. Căn cuối cùng - 25 tỷ - là giá trị ngoại lai. Có thể đó là biệt thự, trong khi những căn khác là căn hộ chung cư.
Tại sao ngoại lai quan trọng?
Giá trị ngoại lai có thể ảnh hưởng mạnh đến kết quả thống kê, đặc biệt là trung bình cộng và độ lệch chuẩn.
Doanh thu hàng ngày của một quán cà phê ở Đà Nẵng (triệu đồng): 5, 6, 5, 7, 6, 5, 6, 45
Với giá trị ngoại lai (45): Trung bình = 85/8 = 10,6 triệu
Không có ngoại lai: Trung bình = 40/7 = 5,7 triệu
Một ngày doanh thu 45 triệu (có thể là đặt tiệc lớn) kéo trung bình từ 5,7 lên 10,6 - gần gấp đôi! Trung vị (6 triệu) không bị ảnh hưởng.
Cách phát hiện ngoại lai
1. Quy tắc IQR (Khoảng tứ phân vị)
Phương pháp phổ biến nhất: tính khoảng tứ phân vị (IQR = Q3 − Q1), rồi xác định giới hạn. Giá trị nằm ngoài Q1 − 1,5×IQR hoặc Q3 + 1,5×IQR được coi là ngoại lai.
Lương tháng (triệu đồng) của 10 nhân viên: 8, 9, 10, 10, 11, 12, 12, 13, 14, 35
Q1 = 10, Q3 = 13, IQR = 3
Giới hạn dưới: 10 − 1,5×3 = 5,5
Giới hạn trên: 13 + 1,5×3 = 17,5
35 triệu > 17,5 → là ngoại lai. Các giá trị 8-14 đều nằm trong phạm vi bình thường.
2. Quy tắc 3 độ lệch chuẩn
Giá trị cách trung bình hơn 3 độ lệch chuẩn thường được xem là ngoại lai. Với phân phối chuẩn, chỉ 0,3% dữ liệu nằm ngoài phạm vi này.
3. Quan sát trực quan
Biểu đồ hộp (box plot) và biểu đồ phân tán giúp phát hiện ngoại lai bằng mắt. Biểu đồ hộp hiển thị ngoại lai dưới dạng các điểm riêng biệt nằm ngoài "râu" (whiskers).
Nguyên nhân của ngoại lai
Hiểu tại sao ngoại lai xuất hiện giúp bạn quyết định xử lý thế nào:
- Lỗi nhập liệu: Gõ nhầm 50.000đ thành 500.000đ. Nên sửa lại.
- Lỗi đo lường: Cân hỏng cho kết quả sai. Nên loại bỏ.
- Giá trị thực nhưng hiếm: Một cầu thủ V-League ghi 5 bàn trong 1 trận - hiếm nhưng có thật. Nên cân nhắc kỹ trước khi loại.
- Dữ liệu thuộc nhóm khác: Một biệt thự trong bộ dữ liệu căn hộ - nên tách riêng phân tích.
Giữ hay loại bỏ?
Không có quy tắc cứng nhắc. Nguyên tắc chung:
- Loại bỏ nếu ngoại lai do lỗi (nhập sai, đo sai)
- Giữ lại nếu ngoại lai là dữ liệu thực và quan trọng
- Phân tích cả hai cách (có và không có ngoại lai) và so sánh kết quả
- Dùng thống kê bền vững (trung vị thay vì trung bình) khi ngoại lai không thể loại bỏ
GSO khảo sát thu nhập hộ gia đình. Một hộ khai thu nhập 2 tỷ đồng/tháng trong khu vực có thu nhập trung bình 8 triệu. Loại bỏ? Không nhất thiết - có thể hộ đó thực sự giàu. Nhưng GSO sẽ báo cáo trung vị thay vì trung bình để giá trị này không bóp méo bức tranh chung.
Ngoại lai có giá trị
Đôi khi ngoại lai chính là điều thú vị nhất. Phát hiện gian lận tài chính dựa trên việc tìm giao dịch ngoại lai. Chẩn đoán bệnh hiếm dựa trên kết quả xét nghiệm ngoại lai. Trong những trường hợp này, ngoại lai là tín hiệu, không phải nhiễu.
Giá trị ngoại lai là quan sát khác biệt đáng kể so với phần còn lại. Chúng có thể bóp méo trung bình và độ lệch chuẩn. Dùng quy tắc IQR hoặc 3 độ lệch chuẩn để phát hiện. Trước khi loại bỏ, hãy tìm hiểu nguyên nhân - ngoại lai do lỗi nên loại, ngoại lai thực nên cân nhắc kỹ. Đôi khi ngoại lai chính là phát hiện quan trọng nhất.