What are the most common statistical mistakes?

Confusing correlation with causation, ignoring sample size, p-hacking, survivorship bias, and misinterpreting percentages are very common.

P-hacking is manipulating data or analysis until you get a statistically significant result, inflating false positive rates.

What is the base rate fallacy?

The base rate fallacy is ignoring the overall prevalence of an event when judging probability, leading to overestimation of rare outcomes.

What is the ecological fallacy in statistics?

The ecological fallacy assumes that group-level trends apply to individuals. Average income in a city does not tell you any one person's income.

Levinumad statistilised vead

Miks statistilised vead on levinud?

Statistilisi vigu ei tee ainult algajad - isegi kogenud uurijad, ajakirjanikud ja otsustajad eksivad. Põhjus on lihtne: inimese intuitsioon ei ole loodud statistiliseks mõtlemiseks. Me oleme loodud nägema mustreid isegi seal, kus neid pole, ja tegema kiireid järeldusi piiratud info põhjal.

1. Korrelatsioon = põhjuslikkus

Kõige levinum viga. Ainult see, et kaks asja muutuvad koos, ei tähenda, et üks põhjustab teist.

Näide

"Maades, kus süüakse rohkem šokolaadi, on rohkem Nobeli preemia laureaate." See on tõeline korrelatsioon! Aga šokolaadi söömine ei tee kedagi Nobeli laureaadiks. Rikkamad riigid söövad rohkem šokolaadi JA investeerivad rohkem haridusse ja teadusse.

2. Väikese valimi üldistamine

Suurte järelduste tegemine väiksest valimist on ohtlik. Mida väiksem valim, seda suurem on juhusliku varieeruvuse roll.

Näide

"Ma küsitlesin 5 sõpra ja 4 neist eelistab Bolti. Seega 80% eestlastest eelistab Bolti!" See on jabur üldistamine. 5 inimest ei esinda 1,3 miljonit.

3. Aluse määra ignoreerimine

Inimesed unustavad tihti, kui sage või haruldane miski on, ja koonduvad ainult testi täpsusele.

Näide

Turvakaamera "tuvastab terroriste 99% täpsusega". Lennujaamast läbib päevas 50 000 inimest, kellest 0 on terrorist. 1% valepositiivse määraga märgistab süsteem 500 süütut inimest päevas. 99% täpsus kõlab hästi, aga praktikas on tulemus katastroof.

4. Hasartmänguri eksitus

Uskumus, et eelmised juhuslikud tulemused mõjutavad järgmisi. "Rulett on 5 korda järjest näidanud punast, seega must on ootel." Iga voor on sõltumatu - eelmised tulemused ei mõjuta järgmist.

5. Keskmise üksi kasutamine

Keskmine ilma hajuvusmõõduta (standardhälve, ulatus) annab pooliku pildi.

Näide

Kaks restorani "keskmise" hinnanguga 4,0 viiest:

Restoran A: kõik hinnangud 3,8-4,2 (ühtlane)

Restoran B: pooled 5,0 ja pooled 3,0 (polariseeriv)

Sama keskmine, täielikult erinev kogemus. Ilma hajuvust teadmata ei saa mõistlikku otsust teha.

6. "Pärast" valik

Valida andmeid või analüüsimeetodeid PÄRAST tulemuste nägemist, et saada soovitud tulemus. See on p-hacking ja see moonutab tulemusi.

Näide

Turundusmeeskond testib 10 reklaamikampaaniat. Üks näitab "statistiliselt olulist" tulemust. Nad raporteerivad ainult selle - mainimata, et 9 teist ebaõnnestusid. 10 testist 1 oluline tulemus on oodatav juhuse tõttu.

7. Protsentide väärkaupamine

Protsendid võivad eksitada, eriti väikeste arvude puhul.

Näide

"Meie ettevõtte käive kasvas 200%!" Kõlab muljetavaldavalt. Aga kui eelmise aasta käive oli 1 000 eurot, on 200% kasv 3 000 eurot - endiselt väga väike ettevõte.

8. Ekstrapolatsioon

Trendi pikendamine väljapoole andmete ulatust. Ainult see, et miski kasvas 10 aastat, ei tähenda, et see kasvab igavesti.

Näide

Eesti IT-sektori tööjõud on kasvanud 15% aastas viimasel 5 aastal. Kui ekstrapoleerida, oleks 20 aasta pärast iga eestlane IT-töötaja. Ilmselgelt võimatu - kasvul on lagi.

Kuidas vigu vältida

Küsi alati: "Kas on alternatiivne selgitus?"
Vaata valimi suurust ja koosseisu
Nõua nii keskmist KUI hajuvusmõõdikut
Erista korrelatsiooni põhjuslikkusest
Ole ettevaatlik protsentidega, eriti väikeste arvude juures
Ära ekstrapolee pimedalt

Peатükk

Levinumad statistilised vead: korrelatsiooni samastamine põhjuslikkusega, väikese valimi üldistamine, aluse määra ignoreerimine, hasartmänguri eksitus, keskmise üksi kasutamine, andmete "pärast" valik, protsentide väärkaupamine ja liialdne ekstrapolatsioon. Nende vigade tundmine teeb sinust parema andmete lugeja ja otsustaja.

Levinumad statistilised vead

Miks statistilised vead on levinud?

1. Korrelatsioon = põhjuslikkus

2. Väikese valimi üldistamine

3. Aluse määra ignoreerimine

4. Hasartmänguri eksitus

5. Keskmise üksi kasutamine

6. "Pärast" valik

7. Protsentide väärkaupamine

8. Ekstrapolatsioon

Kuidas vigu vältida

Seotud tunnid