Mis on erand statistikas?

Definitsioon

Erand on andmepunkt, mis erineb oluliselt teistest andmekogumi vaatlustest. See asub teistest väärtustest ebanormaalsel kaugusel, olles kas palju kõrgem või palju madalam kui enamus andmeid.

Kuidas erandeid tuvastada

Kõige levinum meetod kasutab kvartiilidevahelist ulatust (IQR). Iga väärtus alla Q1 - 1,5 x IQR või üle Q3 + 1,5 x IQR märgitakse erandina.

Näide

8 töötaja igakuised kulud: 200 $, 250 $, 230 $, 210 $, 240 $, 220 $, 260 $, 1500 $

1500 $ väärtus on erand. See on kaugel teistest väärtustest, mis koonduvad vahemikku 200 $ kuni 260 $.

Keskväärtus koos erandiga on 389 $. Ilma selleta on keskväärtus 230 $. Üks äärmuslik väärtus paisutas keskmist peaaegu 70%.

Miks see on oluline

Erandid võivad dramaatiliselt mõjutada statistilisi arvutusi. Need tõrjuvad keskmist keskpunktist eemale, paisutavad standardhälvet ja võivad moonutada regressioonisirgeid. Erandite arvestamata jätmine võib viia valede järeldusteni.

Siiski ei ole erandid alati halvad. Need võivad paljastada pettust (ebatavaliselt suur tehing), vigu (valesse kohta pandud komakohta) või tõeliselt olulisi nähtusi (murrangulise teadusliku mõõtmise). Võti on iga erandit uurida, mitte seda automaatselt kustutada.

Põhi-järeldus

Uurige alati erandeid enne otsustamist, kas neid hoida või eemaldada. Need võivad olla teie analüüsi moonutavad vead või väärtuslikku teavet sisaldavad tegelikud andmepunktid.

← Back to Glossary