Wartości odstające

Poziom trudności: Początkujący Czas czytania: 8 minut

Punkt, który nie pasuje

Wartość odstająca (outlier) to obserwacja, która znacząco różni się od reszty danych. Może być nieoczekiwanie wysoka lub niska. To jak osoba w letnich szortach na zimowym spotkaniu - wyróżnia się i budzi pytania.

22 26 30 34 38 42 45 27.8 25.5
Przykład

Pensje w małej firmie: 4 500 zł, 5 000 zł, 4 800 zł, 5 200 zł, 48 000 zł. Ta ostatnia wartość to oczywista wartość odstająca - jest prawie 10 razy większa od pozostałych.

Skąd się biorą wartości odstające?

Mogą mieć różne przyczyny:

  • Błąd w danych: ktoś wpisał 50 000 zamiast 5 000. To jest błąd, który należy poprawić.
  • Błąd pomiaru: wadliwy termometr pokazał 45°C w Gdańsku w styczniu.
  • Prawdziwa wartość ekstremalna: Robert Lewandowski strzela 40 goli w sezonie, gdy średnia w Ekstraklasie to 8. To nie błąd - to prawdziwy wyjątkowy wynik.
  • Inna populacja: w zbiorze danych o mieszkaniach mogą znaleźć się penthousy i kawalerki - różne rynki.

Jak identyfikować wartości odstające

Metoda rozstępu międzykwartylowego (IQR)

Popularna metoda: oblicz kwartyl pierwszy (Q1, 25. percentyl) i trzeci (Q3, 75. percentyl). Rozstęp międzykwartylowy IQR = Q3 - Q1. Wartość jest odstająca, jeśli leży poniżej Q1 - 1,5 × IQR lub powyżej Q3 + 1,5 × IQR.

8 20-24 15 25-29 5 30-34 2 35-39 1 40+
Przykład

Dzienne wydatki w Biedronce przez 2 tygodnie (zł): 25, 30, 28, 35, 32, 27, 31, 29, 33, 26, 180, 34, 28, 30. Q1 ≈ 28, Q3 ≈ 33. IQR = 5. Górny limit = 33 + 1,5 × 5 = 40,5 zł. Wartość 180 zł przekracza ten limit - to wartość odstająca (może duże zakupy na weekend?).

Metoda odchyleń standardowych

Wartość leżąca dalej niż 2 lub 3 odchylenia standardowe od średniej jest często uznawana za odstającą.

Co robić z wartościami odstającymi?

To jedno z najważniejszych pytań w analizie danych. Nie ma jednej poprawnej odpowiedzi - zależy od kontekstu.

  • Jeśli to błąd: popraw lub usuń. Oczywiste pomyłki w danych (literówki, błędy pomiaru) należy skorygować.
  • Jeśli to prawdziwa wartość: zachowaj, ale rozważ jej wpływ. Możesz raportować wyniki zarówno z nią, jak i bez niej.
  • Używaj odpornych miar: zamiast średniej używaj mediany, która jest niewrażliwa na wartości odstające.
Przykład

Firma analizuje czas dostawy zamówień. Większość zamówień to: 1 dzień, 2 dni, 1 dzień, 2 dni, 1 dzień, 45 dni. Ta ostatnia dostawa (45 dni) to wartość odstająca. Czy ją usunąć? Najpierw sprawdź, co się stało - może była awaria magazynu, może klient zmienił adres. Jeśli to prawdziwy problem, nie usuwaj - to cenna informacja o tym, że system czasem zawodzi.

Wpływ na analizę

Wartości odstające mogą drastycznie zmienić wyniki statystyczne:

22 23 24 25 26 27 28 25.0 25.0
  • Średnia: bardzo wrażliwa - jedna wartość może ją przesunąć o wiele
  • Mediana: prawie niewrażliwa
  • Odchylenie standardowe: bardzo wrażliwe - rośnie znacząco
  • Korelacja: jedna wartość odstająca może stworzyć lub zniszczyć pozorny związek między zmiennymi
Kluczowy wniosek

Wartości odstające to obserwacje znacząco różniące się od reszty danych. Mogą wynikać z błędów, ale też być prawdziwymi ekstremami. Identyfikuj je metodą IQR lub odchyleń standardowych. Zanim je usuniesz, zrozum ich przyczynę. Wartości odstające silnie wpływają na średnią i odchylenie standardowe, ale prawie nie wpływają na medianę.