Protsentiilid ja karpdiagrammid

Raskusaste: Algaja Lugemisaeg: 10 minutit

Mis on protsentiilid?

Protsentiil ütleb teile, mitu protsenti andmestiku väärtustest jääb alla teatud punkti. Kui teie testitulemus on 85. protsentiilil, tähendab see, et saite kõrgema tulemuse kui 85% testitegijaid. See ei tähenda, et vastasite õigesti 85% küsimustest -- protsentiilid kirjeldavad teie järjestust kõigi teiste suhtes, mitte absoluutset sooritust.

Protsentiilid on kasutusel kõikjal. Lastearstid jälgivad laste pikkust ja kaalu protsentiilidega. Standardiseeritud testid nagu SAT ja GRE esitavad tulemusi protsentiilidena. Palgauuringud kirjeldavad tasustamist protsentiilidena, et ettevõtted näeksid oma positsiooni turul.

Enim viidatavad protsentiilid on kvartiilid, mis jagavad andmed neljaks võrdseks osaks. 25. protsentiil on Q1 (esimene kvartiil), 50. protsentiil on Q2 (mediaan) ja 75. protsentiil on Q3 (kolmas kvartiil). Koos miinimumi ja maksimumiga moodustavad need viis väärtust viie arvu kokkuvõtte -- kogu andmestiku kompaktse hetktõmmise.

12 20 28 36 44 52 55

Ülaltoodud punktdiagrammil on näha, kuidas enamik väärtusi koondub 20ndate ja 30ndate vahele, mõne madalama väärtuse ja ühe kõrge erindi väärtusega 55. Protsentiilid aitavad meil seda jaotust lühidalt kirjeldada, ilma et peaks iga andmepunkti loetlema.

Viie arvu kokkuvõte

Viie arvu kokkuvõte koosneb viiest väärtusest: miinimum, Q1, mediaan, Q3 ja maksimum. Need viis arvu ütlevad teile, kust andmed algavad, kus keskmine 50% asub ja kus andmed lõpevad.

Näide

Mõelge kelneri päevastele jootraha sissetulekutele 20 vahetuse jooksul: 12$, 15$, 17$, 19$, 21$, 22$, 23$, 24$, 25$, 26$, 27$, 28$, 29$, 30$, 31$, 33$, 35$, 38$, 42$, 55$. Viie arvu kokkuvõte oleks: Miinimum = 12$, Q1 = 20$, Mediaan = 26,50$, Q3 = 32$, Maksimum = 55$. Esmapilgul näete, et jootraha keskmine 50% jääb 20$ ja 32$ vahele, tüüpiline jootraha on umbes 26-27$ ja üks ebatavaliselt suur jootrahapäev on 55$.

Kvartiilidevaheline ulatus (IQR)

Kvartiilidevaheline ulatus on lihtsalt Q3 miinus Q1. See mõõdab teie andmete keskmise 50% hajuvust, ignoreerides äärmuslikke väärtusi. Kelneri näites IQR = 32$ - 20$ = 12$.

IQR on tugevam hajuvuse mõõt kui ulatus (maksimum miinus miinimum), sest seda ei mõjuta erindid. Kelneri ulatus on 55$ - 12$ = 43$, mida mõjutab tugevalt see üks suurepärane jootrahapäev. 12$-ne IQR annab täpsema pildi tüüpilisest päevasest varieeruvusest.

IQR-i kasutatakse ka erindite tuvastamiseks. Levinud rusikareegel ütleb, et iga väärtus alla Q1 - 1,5 * IQR või üle Q3 + 1,5 * IQR on potentsiaalne erind. Kelneri näites oleks ülemine piir 32$ + 1,5 * 12$ = 50$. 55$-ne jootrahapäev ületab selle künnise, kinnitades seda statistilise erindina.

Karpdiagrammi lugemine

Karpdiagramm (tuntud ka kui karp-vurrud diagramm) on viie arvu kokkuvõtte visuaalne esitus. Karp ulatub Q1-st Q3-ni, joonega keskel, mis tähistab mediaani. "Vurrud" ulatuvad karbist väikseima ja suurima mitte-erindi väärtuseni. Erindid ilmuvad üksikute punktidena väljaspool vurre.

Karpdiagrammid on eriti kasulikud mitme grupi kõrvutamiseks. Kui sooviksite võrrelda jootrahasid kolmes erinevas restoranis, näitaksid kolm kõrvuti asetatud karpdiagrammi koheselt, millises restoranis on kõrgemad tüüpilised jootrahad, millises on rohkem varieeruvust ja millises on rohkem erindeid.

12 Min 20 Q1 26 Mediaan 32 Q3 55 Maks

Ülaltoodud tulpdiagramm esitab viie arvu kokkuvõtte väärtusi tulpadena, et näeksite nende suhtelisi positsioone. Pange tähele lünka Q3 ja maksimumi vahel -- see asümmeetria viitab sellele, et andmed on parempoolse kaldega, pika sabaga kõrgemate väärtuste suunas.

Mida karpdiagrammid kuju kohta paljastavad

Karpdiagrammid võivad teile öelda jaotuse kalduvuse kohta. Kui mediaanjoon on karbi keskel ja vurrud on umbes ühepikkused, on andmed sümmeetrilised. Kui mediaan on Q1-le lähemal ja ülemine vurr on pikem, on andmed parempoolse kaldega (pikk saba kõrgete väärtuste suunas). Kui mediaan on Q3-le lähemal ja alumine vurr on pikem, on andmed vasakpoolse kaldega.

Näiteks sissetulekuandmed annavad peaaegu alati parempoolse kaldega karpdiagrammi: mediaan on karbis madalal, ülemine vurr on pikk ja kõrgel otsal on palju erindeid. Hästi kavandatud kursuse eksamitulemused annavad sageli vasakpoolse kaldega karpdiagrammi: enamik õpilasi saab hästi hakkama, kuid mõned mahajääjad tõmbavad alumise vurru alla.

Karpdiagrammid ohverdavad mõningaid üksikasju võrreldes histogrammidega -- te ei näe jaotuse täpset kuju ega tuvasta mitut tippu. Kuid need paistavad silma kompaktse võrdluse ja erindite tuvastamise poolest, mistõttu on need uuriva andmeanalüüsi põhivahend.

5 10 15 20 25 30
Põhijäreldus

Protsentiilid järjestavad väärtusi ülejäänud andmete suhtes, kusjuures kvartiilid (Q1, mediaan, Q3) on kõige olulisemad orientiiriid. Viie arvu kokkuvõte ja IQR annavad mis tahes andmestiku kompaktse, erinditele vastupidava hetktõmmise. Karpdiagrammid muudavad selle kokkuvõtte visuaaliks, mis paljastab ühel pilgul keskme, hajuvuse, kalduvuse ja erindid -- muutes need ideaalseks mitme grupi kiireks võrdluseks.