Erandväärtused

Raskusaste: Algaja Lugemisaeg: 8 minutit

Mis on erandväärtus?

Erandväärtus on andmepunkt, mis erineb oluliselt ülejäänud andmetest. See on "kummaline" väärtus, mis ei sobi mustrisse. Erandväärtused võivad olla tõelised (keegi ongi väga rikas) või vead (andmete sisestamisel tehti viga).

22 26 30 34 38 42 45 27.8 25.5
Näide

Seitsme Eesti väikeettevõtte aastakäibed: 80 000 €, 95 000 €, 110 000 €, 105 000 €, 90 000 €, 120 000 €, 2 500 000 €

Kuus ettevõtet on 80 000 - 120 000 € vahemikus. Seitsmes (2,5 miljonit) on selge erandväärtus.

Kuidas erandväärtused andmeid mõjutavad

Mõju keskmisele

Erandväärtused tõmbavad keskmist endapoole. See on keskmise suurim nõrkus.

Näide

Kuue ettevõtte keskmine käive (ilma erandväärtuseta): (80+95+110+105+90+120)/6 = 100 000 €

Seitsme ettevõtte keskmine (erandväärtusega): (80+95+110+105+90+120+2500)/7 ≈ 442 857 €

Üks erandväärtus tõmbas keskmise 100 000-lt peaaegu 443 000-ni!

Mõju mediaanile

Mediaan on erandväärtuste suhtes palju vastupidavam. Seitsme väärtuse mediaan: 105 000 € - väga lähedal tegelikule "tüüpilisele" väärtusele.

Mõju standardhälbele

Erandväärtused suurendavad standardhälvet oluliselt, sest hälbe ruut on äärmisväärtuste puhul tõesti suur.

Kuidas erandväärtusi tuvastada

Visuaalne meetod

Hajuvusdiagramm või karpdiagramm näitab erandväärtusi kohe. Karpdiagrammil on erandväärtused üksikud punktid väljas "vurrudest".

8 20-24 15 25-29 5 30-34 2 35-39 1 40+

IQR meetod

Kvartiilide vahemik (IQR) on vahe 75. ja 25. protsentiili vahel. Väärtus loetakse erandväärtuseks, kui see on:

  • Alla Q1 − 1,5 × IQR
  • Üle Q3 + 1,5 × IQR
Näide

Bolt sõitude kestvused minutites (sorteeritud): 5, 7, 8, 9, 10, 11, 12, 14, 35

Q1 = 7,5 ja Q3 = 13 → IQR = 13 − 7,5 = 5,5

Ülemine piir: 13 + 1,5 × 5,5 = 21,25

35 minutit on üle 21,25 → see on erandväärtus.

Z-skoori meetod

Kui väärtuse z-skoor on suurem kui 3 või väiksem kui −3, loetakse seda tihti erandväärtuseks.

Mida erandväärtustega teha?

Erandväärtuse tuvastamine on alles esimene samm. Järgmisena pead otsustama, mida sellega teha:

1. Uuri põhjust

Kas see on andmeviga? Siis paranda. Kas see on tõeline, aga haruldane väärtus? Siis jäta alles.

Näide

Kliiniline uuring: patsiendi kehakaaluks on kirjutatud 7,5 kg. See on ilmselt viga (puudu null - 75 kg). Seda tuleb parandada, mitte lihtsalt eemaldada.

2. Raporteeri mõlemad

Näita tulemused nii erandväärtusega kui ilma. See annab lugejale täieliku pildi.

3. Kasuta robustseid meetodeid

Kasuta keskmise asemel mediaani. Kasuta standardhälbe asemel kvartiilide vahemikku.

Erandväärtused ei ole alati halvad

Mõned tähtsaimad avastused on tulnud erandväärtuste uurimisest. Kui keegi on ebatavaliselt terve vandusel, võib see viidata uuele ravimile. Kui üks piirkond on ebatavaliselt vaene, võib see viidata struktuursetele probleemidele.

22 23 24 25 26 27 28 25.0 25.0
Näide

Eesti Pank märkab, et üks pank töötleb ebaproportsionaalselt palju rahvusvahelisi ülekandeid. See on erandväärtus - ja see võib viidata rahapesule. Erandväärtus oli hoiatussignaal.

Peатükk

Erandväärtused on andmepunktid, mis erinevad oluliselt ülejäänud andmetest. Nad mõjutavad tugevalt keskmist ja standardhälvet, aga vähe mediaani. Tuvasta neid visuaalselt, IQR meetodiga või z-skooriga. Ära kunagi eemalda erandväärtust automaatselt - uuri kõigepealt põhjust. Mõnikord on erandväärtus kõige huvitavam osa andmetest.