Normaaljaotus ja Z-skoorid

Raskusaste: Keskmine Lugemisaeg: 12 minutit

Kellkõver on kõikjal

Kui mõõdaksite iga täiskasvanu pikkust suures linnas ja kannaksite tulemused graafikule, näeksite tuttavat kuju: siledat, sümmeetrilist kühmu, mis saavutab tipu keskel ja kahaneb mõlemal pool. Seda kuju nimetatakse normaaljaotuseks ja see on vaieldamatult kogu statistika kõige olulisem mõiste.

Normaaljaotus esineb märkimisväärselt paljudes kohtades. Testitulemused, vererõhu näidud, tööle ja tagasi sõitmise aeg, tehase tootmistolerantsid, isegi teaduslike mõõtmiste vead -- kõik need kipuvad järgima kellkujulist mustrit. Põhjus on matemaatiline: kui mõõtmist mõjutavad paljud väikesed, sõltumatud tegurid, kipub tulemus olema normaaljaotusega. See põhimõte on tihedalt seotud tsentraalse piirteoreemiga.

55 70 85 100 115 130 145

Ülaltoodud graafikul esindab tipp kõige levinumat väärtust (keskmist) ja kõver langeb sümmeetriliselt mõlemale poole. Enamik väärtusi koondub keskme lähedale, äärmuslike väärtuste poole liikudes esineb üha vähem vaatlusi.

Keskmine, standardhälve ja kuju

Normaaljaotus on täielikult määratletud vaid kahe arvuga: keskmine (kõvera keskpunkt) ja standardhälve (kui laiali andmed on). Keskmine ütleb, kus tipp arvjoonel asub. Standardhälve ütleb, kui lai või kitsas kell on.

Mõelge IQ-skooridele, mis on kavandatud järgima normaaljaotust keskmisega 100 ja standardhälbega 15. Enamik inimesi saab skoori vahemikus 85 kuni 115. Mõned saavad alla 70 või üle 130. Äärmiselt vähesed saavad alla 55 või üle 145. Muutke standardhälve 5-ks ja kell muutub palju kitsamaks -- peaaegu kõik koonduvad vahemikku 90 kuni 110. Muutke see 25-ks ja kell laieneb, skoorid jaotuvad palju laiemalt.

See ongi normaaljaotuse ilu: kui teate keskmist ja standardhälvet, teate kogu kuju ja saate arvutada mis tahes väärtuse esinemise tõenäosuse.

68-95-99,7 reegel

Üks normaaljaotuse praktilisemaid omadusi on empiiriline reegel, mida tuntakse ka kui 68-95-99,7 reeglit. See väidab, et mis tahes normaaljaotusega andmete puhul:

  • Ligikaudu 68% väärtustest jääb 1 standardhälbe kaugusele keskmisest.
  • Ligikaudu 95% väärtustest jääb 2 standardhälbe kaugusele.
  • Ligikaudu 99,7% väärtustest jääb 3 standardhälbe kaugusele.
-3 -2 -1 0 1 2 3

See reegel annab kiire viisi hinnata, kui ebatavaline mingi väärtus on. Kui teie andmed on normaaljaotusega ja keegi teatab väärtusest, mis on keskmisest rohkem kui 3 standardhälvet kaugusel, on see äärmiselt haruldane -- seda juhtub vähem kui 0,3% ajast. Kvaliteedikontrolli insenerid kasutavad seda ideed iga päev: tehase detail, mis jääb sihitmõõtmest kolme standardhälbe kaugusele, märgitakse praagiks.

Näide

Oletame, et keskmine igapäevane tööle sõitmise aeg linnas on 35 minutit standardhälbega 8 minutit. 68-95-99,7 reegli kohaselt kulub umbes 68% pendelrändajatest 27 kuni 43 minutit. Umbes 95% kulub 19 kuni 51 minutit. Ja peaaegu kõigil (99,7%) kulub 11 kuni 59 minutit. Kui keegi ütleb, et tema töölesõit kestab 65 minutit, on see rohkem kui 3 standardhälvet üle keskmise -- selle linna jaoks tõeliselt ebatavaline pendelränne.

Z-skoorid: universaalne mõõdupuu

Erinevad normaaljaotused kasutavad erinevaid ühikuid ja skaalasid. Kuidas võrrelda testi tulemust 82 eksamil, kus keskmine on 75 (standardhälve 5), tulemusega 720 SAT-eksamil, kus keskmine on 500 (standardhälve 100)? Kasutate Z-skoori.

Z-skoor ütleb, mitu standardhälvet on väärtus keskmisest üleval- või allpool. Valem on lihtne: lahutage keskmisest väärtus ja jagage standardhälbega. Eksami tulemuse puhul: (82 - 75) / 5 = 1,4. SAT puhul: (720 - 500) / 100 = 2,2. SAT-tulemus on oma jaotuse suhtes muljetavaldavam, sest see on standardhälbe ühikutes keskmisest kaugemal.

Z-skoor 0 tähendab, et väärtus on täpselt keskmine. Positiivne Z-skoor tähendab, et see on keskmisest kõrgem. Negatiivne Z-skoor tähendab, et see on keskmisest madalam. Suurus näitab, kui kaugel keskmisest see on. Z-skoor 2,0 tähendab, et väärtus on kõrgem kui umbes 97,7% kõigist jaotuse väärtustest.

-3 -2 -1 0 1 2 3

Z-skoorid on võimsad, sest need teisendavad mis tahes normaaljaotuse standardseks normaaljaotuseks -- kellkõveraks keskmisega 0 ja standardhälbega 1. See võimaldab kasutada ühte viitetabelit (või kalkulaatorit) tõenäosuste leidmiseks mis tahes normaaljaotusega muutuja jaoks, sõltumata selle algsest skaalast.

Reaalmaailma rakendused

Normaaljaotus ja Z-skoorid ei ole ainult õpikuideed. Kõveraga hindamine tähendab õpilaste tulemuste sobitamist normaaljaotusesse. Meditsiinilabori tulemused märgitakse sageli ebanormaalseteks, kui need jäävad populatsiooni keskmisest üle 2 standardhälbe kaugusele. Finantsanalüütikud modelleerivad aktsiate tootlust normaaljaotuse abil (kuigi tegelikkuses on sabad sageli paksemad, mis on kriitiline piirang). Kindlustusettevõtted kasutavad nõuete hindamiseks normaalseid mudeleid.

Oluline on ka teada, millal normaaljaotus ei kehti. Sissetulekujaotused on tugevalt paremale kaldu -- mõned väga kõrge sissetulekuga isikud tõmbavad keskmise mediaanist kaugele ülespoole. Ooteajad ja ellujäämisandmed on samuti sageli kaldu. Loendusandmed (nagu õnnetuste arv päevas) järgivad hoopis teisi jaotusi. Kontrollige alati enne nende tööriistade rakendamist, kas kellkõvera eeldus on mõistlik -- mitte kõik reaalmaailma andmed ei järgi kellkõverat.

Põhijäreldus

Normaaljaotus on sümmeetriline, kellkujuline kõver, mis on täielikult määratletud keskmise ja standardhälbega. 68-95-99,7 reegel annab kiire ülevaate andmete jaotumisest keskmise ümber. Z-skoorid võimaldavad teisendada mis tahes väärtuse universaalsele skaalale, mõõdetuna standardhälvetes, muutes võimalikuks tulemuste võrdlemise täiesti erinevates kontekstides. Kontrollige alati, kas teie andmed on ligikaudselt normaalsed, enne kui nendele tööriistadele tuginete -- mitte kõik reaalmaailma andmed ei järgi kellkõverat.