Ulatus ja dispersioon

Raskusaste: Algaja Lugemisaeg: 10 minutit

Keskmine ei räägi kogu lugu

Eelmises tunnis õppisime keskmist, mediaani ja moodi. Need ütlevad, kus andmete "keskpunkt" on. Aga nad ei ütle midagi selle kohta, kui laiali andmed on. Kaks väga erinevat andmestikku võivad omada sama keskmist.

10 12 14 16 18 20 15.0
Näide

Kaks rühma õpilasi said riigieksamil:

Rühm A: 70, 72, 75, 78, 80 - keskmine: 75

Rühm B: 40, 55, 75, 95, 110 - keskmine: 75

Sama keskmine, aga hoopis erinev pilt! Rühm A on ühtlane, rühm B on laiali paisatud.

Ulatus: lihtsaim hajuvuse mõõt

Ulatus on lihtsalt vahe suurima ja väiksema väärtuse vahel.

Valem: Ulatus = Suurim väärtus − Väikseim väärtus

Näide

Rühm A ulatus: 80 − 70 = 10 punkti

Rühm B ulatus: 110 − 40 = 70 punkti

Rühm B andmed on palju rohkem laiali. Ulatus näitab seda selgelt.

Ulatus on lihtne arvutada, aga sellel on suur puudus: see sõltub ainult kahest väärtusest (suurimast ja väikseimast). Üks äärmine väärtus võib ulatust drastiliselt muuta.

Näide

Bolt sõitude kestvused minutites: 8, 10, 11, 12, 12, 13, 14, 45

Ulatus: 45 − 8 = 37 minutit. Aga see 45-minutiline sõit oli erandlik - ehk tihe liiklus või kaugem sihtkoht. Ilma selleta oleks ulatus 14 − 8 = 6 minutit. Üks erandväärtus moonutas kogu pilti.

Dispersioon: keskmise hälbe ruut

Dispersioon mõõdab, kui kaugel on iga andmepunkt keskmisest, võtad selle vahe ruutu ja arvutad keskmise. See annab palju täpsema pildi hajuvusest kui ulatus.

Kuidas dispersiooni arvutada

  1. Arvuta keskmine
  2. Lahuta iga väärtusest keskmine (hälve)
  3. Võtad iga hälbe ruutu
  4. Arvutad ruutude keskmise
Näide

Premium Liiga meeskonna väravad 5 mängus: 1, 2, 3, 2, 2

Samm 1: Keskmine = (1+2+3+2+2)/5 = 10/5 = 2

Samm 2: Hälbed: 1−2=−1, 2−2=0, 3−2=1, 2−2=0, 2−2=0

Samm 3: Ruudud: 1, 0, 1, 0, 0

Samm 4: Keskmine: (1+0+1+0+0)/5 = 2/5 = 0,4

Dispersioon on 0,4.

Miks ruutu võtad?

Hälbed (vahede keskmisest) on osalt positiivsed ja osalt negatiivsed. Kui lihtsalt liidaksid, tühistaksid nad teineteist ja summa oleks alati null. Ruutu võtmine kaotab negatiivsuse ja annab alati positiivse tulemuse.

Üldkogumi vs valimi dispersioon

On väike, aga oluline erinevus:

  • Üldkogumi dispersioon: jagad N-ga (kõigi väärtuste arv)
  • Valimi dispersioon: jagad N−1-ga (üks vähem). See kompenseerib asjaolu, et valim alahindab tegelikku hajuvust.
Näide

Statistikaamet uurib 5 leibkonna kuukulutusi eurodes: 800, 1000, 1200, 1100, 900

Keskmine: 1000 €

Hälbed: −200, 0, 200, 100, −100

Ruudud: 40000, 0, 40000, 10000, 10000

Üldkogumi dispersioon: 100000/5 = 20 000

Valimi dispersioon: 100000/4 = 25 000

Kuna need 5 leibkonda on valim (mitte kõik leibkonnad Eestis), kasutame valimi dispersiooni: 25 000.

Dispersiooni tõlgendamine

Dispersiooni probleem on see, et selle ühik on algse ühiku ruut. Kui mõõdad palku eurodes, on dispersiooni ühik "euro ruudus" - see ei ole intuitiivne. Selle lahendamiseks võetakse dispersioonist ruutjuur ja saadakse standardhälve - sellest rohkem järgmises tunnis.

Millal millist mõõdikut kasutada?

  • Ulatus: Kiire ülevaade hajuvusest. Hea esmaseks hindamiseks, aga ebausaldusväärsem äärmisväärtuste korral.
  • Dispersioon: Täpsem hajuvuse mõõt, mis arvestab iga andmepunkti. Kasutatakse tihti statistilistes valemites.
Peатükk

Ulatus on lihtsaim hajuvuse mõõt - suurima ja väiksema vahe - aga tundlik äärmisväärtuste suhtes. Dispersioon mõõdab keskmist kaugust keskmisest (ruutudes) ja arvestab iga andmepunkti. Valimi dispersiooni puhul jaga N−1-ga. Need mõõdikud täiendavad keskmist ja annavad täielikuma pildi andmetest.