Keskmine ei räägi kogu lugu
Eelmises tunnis õppisime keskmist, mediaani ja moodi. Need ütlevad, kus andmete "keskpunkt" on. Aga nad ei ütle midagi selle kohta, kui laiali andmed on. Kaks väga erinevat andmestikku võivad omada sama keskmist.
Kaks rühma õpilasi said riigieksamil:
Rühm A: 70, 72, 75, 78, 80 - keskmine: 75
Rühm B: 40, 55, 75, 95, 110 - keskmine: 75
Sama keskmine, aga hoopis erinev pilt! Rühm A on ühtlane, rühm B on laiali paisatud.
Ulatus: lihtsaim hajuvuse mõõt
Ulatus on lihtsalt vahe suurima ja väiksema väärtuse vahel.
Valem: Ulatus = Suurim väärtus − Väikseim väärtus
Rühm A ulatus: 80 − 70 = 10 punkti
Rühm B ulatus: 110 − 40 = 70 punkti
Rühm B andmed on palju rohkem laiali. Ulatus näitab seda selgelt.
Ulatus on lihtne arvutada, aga sellel on suur puudus: see sõltub ainult kahest väärtusest (suurimast ja väikseimast). Üks äärmine väärtus võib ulatust drastiliselt muuta.
Bolt sõitude kestvused minutites: 8, 10, 11, 12, 12, 13, 14, 45
Ulatus: 45 − 8 = 37 minutit. Aga see 45-minutiline sõit oli erandlik - ehk tihe liiklus või kaugem sihtkoht. Ilma selleta oleks ulatus 14 − 8 = 6 minutit. Üks erandväärtus moonutas kogu pilti.
Dispersioon: keskmise hälbe ruut
Dispersioon mõõdab, kui kaugel on iga andmepunkt keskmisest, võtad selle vahe ruutu ja arvutad keskmise. See annab palju täpsema pildi hajuvusest kui ulatus.
Kuidas dispersiooni arvutada
- Arvuta keskmine
- Lahuta iga väärtusest keskmine (hälve)
- Võtad iga hälbe ruutu
- Arvutad ruutude keskmise
Premium Liiga meeskonna väravad 5 mängus: 1, 2, 3, 2, 2
Samm 1: Keskmine = (1+2+3+2+2)/5 = 10/5 = 2
Samm 2: Hälbed: 1−2=−1, 2−2=0, 3−2=1, 2−2=0, 2−2=0
Samm 3: Ruudud: 1, 0, 1, 0, 0
Samm 4: Keskmine: (1+0+1+0+0)/5 = 2/5 = 0,4
Dispersioon on 0,4.
Miks ruutu võtad?
Hälbed (vahede keskmisest) on osalt positiivsed ja osalt negatiivsed. Kui lihtsalt liidaksid, tühistaksid nad teineteist ja summa oleks alati null. Ruutu võtmine kaotab negatiivsuse ja annab alati positiivse tulemuse.
Üldkogumi vs valimi dispersioon
On väike, aga oluline erinevus:
- Üldkogumi dispersioon: jagad N-ga (kõigi väärtuste arv)
- Valimi dispersioon: jagad N−1-ga (üks vähem). See kompenseerib asjaolu, et valim alahindab tegelikku hajuvust.
Statistikaamet uurib 5 leibkonna kuukulutusi eurodes: 800, 1000, 1200, 1100, 900
Keskmine: 1000 €
Hälbed: −200, 0, 200, 100, −100
Ruudud: 40000, 0, 40000, 10000, 10000
Üldkogumi dispersioon: 100000/5 = 20 000
Valimi dispersioon: 100000/4 = 25 000
Kuna need 5 leibkonda on valim (mitte kõik leibkonnad Eestis), kasutame valimi dispersiooni: 25 000.
Dispersiooni tõlgendamine
Dispersiooni probleem on see, et selle ühik on algse ühiku ruut. Kui mõõdad palku eurodes, on dispersiooni ühik "euro ruudus" - see ei ole intuitiivne. Selle lahendamiseks võetakse dispersioonist ruutjuur ja saadakse standardhälve - sellest rohkem järgmises tunnis.
Millal millist mõõdikut kasutada?
- Ulatus: Kiire ülevaade hajuvusest. Hea esmaseks hindamiseks, aga ebausaldusväärsem äärmisväärtuste korral.
- Dispersioon: Täpsem hajuvuse mõõt, mis arvestab iga andmepunkti. Kasutatakse tihti statistilistes valemites.
Ulatus on lihtsaim hajuvuse mõõt - suurima ja väiksema vahe - aga tundlik äärmisväärtuste suhtes. Dispersioon mõõdab keskmist kaugust keskmisest (ruutudes) ja arvestab iga andmepunkti. Valimi dispersiooni puhul jaga N−1-ga. Need mõõdikud täiendavad keskmist ja annavad täielikuma pildi andmetest.