Levinumad statistilised vead

Raskusaste: Algaja Lugemisaeg: 10 minutit

Miks statistilised vead on levinud?

Statistilisi vigu ei tee ainult algajad - isegi kogenud uurijad, ajakirjanikud ja otsustajad eksivad. Põhjus on lihtne: inimese intuitsioon ei ole loodud statistiliseks mõtlemiseks. Me oleme loodud nägema mustreid isegi seal, kus neid pole, ja tegema kiireid järeldusi piiratud info põhjal.

-3 -2 -1 0 1 2 3

1. Korrelatsioon = põhjuslikkus

Kõige levinum viga. Ainult see, et kaks asja muutuvad koos, ei tähenda, et üks põhjustab teist.

Näide

"Maades, kus süüakse rohkem šokolaadi, on rohkem Nobeli preemia laureaate." See on tõeline korrelatsioon! Aga šokolaadi söömine ei tee kedagi Nobeli laureaadiks. Rikkamad riigid söövad rohkem šokolaadi JA investeerivad rohkem haridusse ja teadusse.

2. Väikese valimi üldistamine

Suurte järelduste tegemine väiksest valimist on ohtlik. Mida väiksem valim, seda suurem on juhusliku varieeruvuse roll.

Näide

"Ma küsitlesin 5 sõpra ja 4 neist eelistab Bolti. Seega 80% eestlastest eelistab Bolti!" See on jabur üldistamine. 5 inimest ei esinda 1,3 miljonit.

3. Aluse määra ignoreerimine

Inimesed unustavad tihti, kui sage või haruldane miski on, ja koonduvad ainult testi täpsusele.

Näide

Turvakaamera "tuvastab terroriste 99% täpsusega". Lennujaamast läbib päevas 50 000 inimest, kellest 0 on terrorist. 1% valepositiivse määraga märgistab süsteem 500 süütut inimest päevas. 99% täpsus kõlab hästi, aga praktikas on tulemus katastroof.

4. Hasartmänguri eksitus

Uskumus, et eelmised juhuslikud tulemused mõjutavad järgmisi. "Rulett on 5 korda järjest näidanud punast, seega must on ootel." Iga voor on sõltumatu - eelmised tulemused ei mõjuta järgmist.

5. Keskmise üksi kasutamine

Keskmine ilma hajuvusmõõduta (standardhälve, ulatus) annab pooliku pildi.

Näide

Kaks restorani "keskmise" hinnanguga 4,0 viiest:

Restoran A: kõik hinnangud 3,8-4,2 (ühtlane)

Restoran B: pooled 5,0 ja pooled 3,0 (polariseeriv)

Sama keskmine, täielikult erinev kogemus. Ilma hajuvust teadmata ei saa mõistlikku otsust teha.

6. "Pärast" valik

Valida andmeid või analüüsimeetodeid PÄRAST tulemuste nägemist, et saada soovitud tulemus. See on p-hacking ja see moonutab tulemusi.

Näide

Turundusmeeskond testib 10 reklaamikampaaniat. Üks näitab "statistiliselt olulist" tulemust. Nad raporteerivad ainult selle - mainimata, et 9 teist ebaõnnestusid. 10 testist 1 oluline tulemus on oodatav juhuse tõttu.

7. Protsentide väärkaupamine

Protsendid võivad eksitada, eriti väikeste arvude puhul.

Näide

"Meie ettevõtte käive kasvas 200%!" Kõlab muljetavaldavalt. Aga kui eelmise aasta käive oli 1 000 eurot, on 200% kasv 3 000 eurot - endiselt väga väike ettevõte.

8. Ekstrapolatsioon

Trendi pikendamine väljapoole andmete ulatust. Ainult see, et miski kasvas 10 aastat, ei tähenda, et see kasvab igavesti.

Näide

Eesti IT-sektori tööjõud on kasvanud 15% aastas viimasel 5 aastal. Kui ekstrapoleerida, oleks 20 aasta pärast iga eestlane IT-töötaja. Ilmselgelt võimatu - kasvul on lagi.

Kuidas vigu vältida

  • Küsi alati: "Kas on alternatiivne selgitus?"
  • Vaata valimi suurust ja koosseisu
  • Nõua nii keskmist KUI hajuvusmõõdikut
  • Erista korrelatsiooni põhjuslikkusest
  • Ole ettevaatlik protsentidega, eriti väikeste arvude juures
  • Ära ekstrapolee pimedalt
Peатükk

Levinumad statistilised vead: korrelatsiooni samastamine põhjuslikkusega, väikese valimi üldistamine, aluse määra ignoreerimine, hasartmänguri eksitus, keskmise üksi kasutamine, andmete "pärast" valik, protsentide väärkaupamine ja liialdne ekstrapolatsioon. Nende vigade tundmine teeb sinust parema andmete lugeja ja otsustaja.