Punkt, który nie pasuje
Wartość odstająca (outlier) to obserwacja, która znacząco różni się od reszty danych. Może być nieoczekiwanie wysoka lub niska. To jak osoba w letnich szortach na zimowym spotkaniu - wyróżnia się i budzi pytania.
Pensje w małej firmie: 4 500 zł, 5 000 zł, 4 800 zł, 5 200 zł, 48 000 zł. Ta ostatnia wartość to oczywista wartość odstająca - jest prawie 10 razy większa od pozostałych.
Skąd się biorą wartości odstające?
Mogą mieć różne przyczyny:
- Błąd w danych: ktoś wpisał 50 000 zamiast 5 000. To jest błąd, który należy poprawić.
- Błąd pomiaru: wadliwy termometr pokazał 45°C w Gdańsku w styczniu.
- Prawdziwa wartość ekstremalna: Robert Lewandowski strzela 40 goli w sezonie, gdy średnia w Ekstraklasie to 8. To nie błąd - to prawdziwy wyjątkowy wynik.
- Inna populacja: w zbiorze danych o mieszkaniach mogą znaleźć się penthousy i kawalerki - różne rynki.
Jak identyfikować wartości odstające
Metoda rozstępu międzykwartylowego (IQR)
Popularna metoda: oblicz kwartyl pierwszy (Q1, 25. percentyl) i trzeci (Q3, 75. percentyl). Rozstęp międzykwartylowy IQR = Q3 - Q1. Wartość jest odstająca, jeśli leży poniżej Q1 - 1,5 × IQR lub powyżej Q3 + 1,5 × IQR.
Dzienne wydatki w Biedronce przez 2 tygodnie (zł): 25, 30, 28, 35, 32, 27, 31, 29, 33, 26, 180, 34, 28, 30. Q1 ≈ 28, Q3 ≈ 33. IQR = 5. Górny limit = 33 + 1,5 × 5 = 40,5 zł. Wartość 180 zł przekracza ten limit - to wartość odstająca (może duże zakupy na weekend?).
Metoda odchyleń standardowych
Wartość leżąca dalej niż 2 lub 3 odchylenia standardowe od średniej jest często uznawana za odstającą.
Co robić z wartościami odstającymi?
To jedno z najważniejszych pytań w analizie danych. Nie ma jednej poprawnej odpowiedzi - zależy od kontekstu.
- Jeśli to błąd: popraw lub usuń. Oczywiste pomyłki w danych (literówki, błędy pomiaru) należy skorygować.
- Jeśli to prawdziwa wartość: zachowaj, ale rozważ jej wpływ. Możesz raportować wyniki zarówno z nią, jak i bez niej.
- Używaj odpornych miar: zamiast średniej używaj mediany, która jest niewrażliwa na wartości odstające.
Firma analizuje czas dostawy zamówień. Większość zamówień to: 1 dzień, 2 dni, 1 dzień, 2 dni, 1 dzień, 45 dni. Ta ostatnia dostawa (45 dni) to wartość odstająca. Czy ją usunąć? Najpierw sprawdź, co się stało - może była awaria magazynu, może klient zmienił adres. Jeśli to prawdziwy problem, nie usuwaj - to cenna informacja o tym, że system czasem zawodzi.
Wpływ na analizę
Wartości odstające mogą drastycznie zmienić wyniki statystyczne:
- Średnia: bardzo wrażliwa - jedna wartość może ją przesunąć o wiele
- Mediana: prawie niewrażliwa
- Odchylenie standardowe: bardzo wrażliwe - rośnie znacząco
- Korelacja: jedna wartość odstająca może stworzyć lub zniszczyć pozorny związek między zmiennymi
Wartości odstające to obserwacje znacząco różniące się od reszty danych. Mogą wynikać z błędów, ale też być prawdziwymi ekstremami. Identyfikuj je metodą IQR lub odchyleń standardowych. Zanim je usuniesz, zrozum ich przyczynę. Wartości odstające silnie wpływają na średnią i odchylenie standardowe, ale prawie nie wpływają na medianę.