Định nghĩa
Giá trị ngoại lai là một điểm dữ liệu khác biệt đáng kể so với các quan sát khác trong tập dữ liệu. Nó nằm ở khoảng cách bất thường từ các giá trị khác, hoặc cao hơn hoặc thấp hơn nhiều so với phần lớn dữ liệu.
Cách nhận biết giá trị ngoại lai
Phương pháp phổ biến nhất sử dụng khoảng tứ phân vị (IQR). Bất kỳ giá trị nào dưới Q1 - 1,5 x IQR hoặc trên Q3 + 1,5 x IQR được đánh dấu là giá trị ngoại lai.
Chi phí hàng tháng của 8 nhân viên: $200, $250, $230, $210, $240, $220, $260, $1.500
Giá trị $1.500 là giá trị ngoại lai. Nó cao hơn nhiều so với các giá trị khác, tập trung từ $200 đến $260.
Trung bình với giá trị ngoại lai là $389. Không có nó, trung bình là $230. Một giá trị cực đoan đã làm tăng trung bình gần 70%.
Tại sao điều này quan trọng
Giá trị ngoại lai có thể ảnh hưởng mạnh mẽ đến các phép tính thống kê. Chúng kéo trung bình ra xa trung tâm, làm tăng độ lệch chuẩn và có thể làm sai lệch đường hồi quy. Không tính đến giá trị ngoại lai có thể dẫn đến kết luận sai.
Tuy nhiên, giá trị ngoại lai không phải lúc nào cũng xấu. Chúng có thể tiết lộ gian lận (giao dịch bất thường lớn), lỗi (dấu thập phân đặt sai chỗ) hoặc hiện tượng thực sự quan trọng (phép đo khoa học đột phá). Điều quan trọng là điều tra từng giá trị ngoại lai thay vì tự động xóa nó.
Luôn điều tra giá trị ngoại lai trước khi quyết định giữ hay loại bỏ chúng. Chúng có thể là lỗi làm sai lệch phân tích hoặc điểm dữ liệu thực chứa thông tin có giá trị.