Czym jest wartość odstająca w statystyce?

Definicja

Wartość odstająca to punkt danych, który znacząco różni się od innych obserwacji w zbiorze danych. Leży w nietypowej odległości od pozostałych wartości, będąc albo znacznie wyższy, albo znacznie niższy od większości danych.

Jak identyfikować wartości odstające

Najczęściej stosowana metoda wykorzystuje rozstęp ćwiartkowy (IQR). Każda wartość poniżej Q1 - 1,5 x IQR lub powyżej Q3 + 1,5 x IQR jest oznaczana jako wartość odstająca.

Przykład

Miesięczne wydatki 8 pracowników: 200 $, 250 $, 230 $, 210 $, 240 $, 220 $, 260 $, 1500 $

Wartość 1500 $ jest wartością odstającą. Jest znacznie powyżej innych wartości, które skupiają się między 200 $ a 260 $.

Średnia z wartością odstającą wynosi 389 $. Bez niej średnia to 230 $. Jedna skrajna wartość zawyżyła średnią o prawie 70%.

Dlaczego to ważne

Wartości odstające mogą dramatycznie wpływać na obliczenia statystyczne. Odciągają średnią od centrum, zawyżają odchylenie standardowe i mogą zniekształcać linie regresji. Nieuwzględnienie wartości odstających może prowadzić do błędnych wniosków.

Jednak wartości odstające nie zawsze są złe. Mogą ujawnić oszustwo (nietypowo duża transakcja), błędy (źle postawiony przecinek) lub autentycznie ważne zjawiska (przełomowy pomiar naukowy). Kluczem jest zbadanie każdej wartości odstającej zamiast automatycznego jej usuwania.

Kluczowy wniosek

Zawsze zbadaj wartości odstające, zanim zdecydujesz, czy je zachować, czy usunąć. Mogą być błędami zniekształcającymi analizę lub prawdziwymi punktami danych zawierającymi cenne informacje.

← Back to Glossary