Statistika suurim idee
Tsentraalne piirväärtuste teoreem (TPT) on võib-olla kõige olulisem idee kogu statistikas. See selgitab, miks me saame väikese valimi põhjal teha usaldusväärseid järeldusi kogu üldkogumi kohta. Ja selle ilu seisneb lihtsuses.
Mida teoreem ütleb?
Kui võtad üldkogumist palju valimeid ja arvutad iga valimi keskmise, siis need valimikeskmised:
- Järgivad normaaljaotust (kellkõver), OLENEMATA sellest, milline on üldkogumi jaotus
- Koonduvad üldkogumi tegeliku keskmise ümber
- Hajuvad vähem kui üksikud väärtused (mida suurem valim, seda vähem hajuvust)
Eesti sissetulekud EI järgi normaaljaotust - nad on parempoolse viltuga (enamik teenib keskmist, vähesed teenivad väga palju). AGA: kui võtad 1000 juhuslikku 50-inimese valimit ja arvutad iga valimi keskmise sissetuleku, järgivad need 1000 keskmist peaaegu täiuslikku normaaljaotust!
Miks see toimib?
Keskmise arvutamine "silub" äärmseid väärtusi. Ühes valimis võib olla mõni rikas inimene, teises mitte - aga keskmiste arvutamisel need erandid tasakaalustavad teineteist. Mida suurem on valim, seda rohkem silumist toimub.
Standardviga
Valimikeskmiste standardhälvet nimetatakse standardveaks. See näitab, kui palju valimikeskmised üldkogumi keskmisest hajuvad.
Valem: Standardviga = standardhälve / √n, kus n on valimi suurus.
Eesti palkade standardhälve on 800 €. Kui valimi suurus on 100:
Standardviga = 800 / √100 = 800 / 10 = 80 €
Kui valimi suurus on 400:
Standardviga = 800 / √400 = 800 / 20 = 40 €
Neljakordne valim andis poole väiksema standardvea - mitte neljakordset paremust. Täpsus kasvab ruutjuure, mitte lineaarselt.
Kui suur valim on piisav?
Üldreegel: valim vähemalt 30 on tavaliselt piisav, et TPT toimiks. Aga:
- Kui üldkogum on juba normaaljaotusega, piisab isegi väikseimast valimist
- Kui üldkogum on väga viltu, on vaja suuremat valimit (50-100+)
Statistikaamet tahab hinnata Eesti leibkondade keskmist kuukulutust. Nad teavad, et kulutused on parempoolse viltuga (mõned leibkonnad kulutavad väga palju). Selle asemel, et küsitleda kõiki 600 000 leibkonda, küsitlevad 2 000 juhuslikku leibkonda. TPT tagab, et selle valimi keskmine on usaldusväärselt lähedal kogu rahvastiku keskmisele.
TPT ja usaldusintervallid
TPT on põhjus, miks me saame öelda asju nagu "95% usaldusega on Eesti keskmine palk 1 750-1 950 € vahel". Kuna valimikeskmised järgivad normaaljaotust, saame kasutada normaaljaotuse omadusi (68-95-99,7 reegel) usalduspiiride arvutamiseks.
TPT igapäevanäited
- Küsitlusuuringud: Miks piisab 1 000 inimese küsitusest, et hinnata 1,3 miljoni inimese arvamust? TPT!
- Kvaliteedikontroll: Tehases ei kontrollita iga toodet - kontrollitakse valimit ja tehakse järeldusi kogu partii kohta.
- Meditsiiniuuringud: Ravimi toimimine testitakse sadade, mitte miljonite patsientidega.
Bolt tahab teada oma sõitude keskmist ooteaega Tallinnas. Nad ei saa analüüsida iga sõitu (miljoneid). Selle asemel võtavad 500 juhusliku sõidu valimi. TPT lubab neil öelda: "95% kindlusega on keskmine ooteaeg 3,2 ja 4,1 minuti vahel."
Tsentraalne piirväärtuste teoreem ütleb, et valimikeskmised järgivad normaaljaotust - olenemata üldkogumi jaotusest - kui valim on piisavalt suur. Standardviga väheneb valimi suuruse ruutjuurega. See teoreem on põhjus, miks statistika üldse töötab: me saame väikese valimi põhjal teha usaldusväärseid järeldusi kogu üldkogumi kohta.