Mis on korrelatsioon?
Korrelatsioon mõõdab, kui tugevalt on kaks muutujat omavahel seotud. Kas ühe kasvades kasvab ka teine? Või ühe kasvades teine väheneb? Või puudub seos?
Korrelatsioonikordaja (r) on number −1 ja +1 vahel:
- r = +1: Täiuslik positiivne seos - ühe kasvades kasvab alati ka teine
- r = 0: Seos puudub
- r = −1: Täiuslik negatiivne seos - ühe kasvades teine väheneb
Õppimistundide ja riigieksamitulemuse korrelatsioon 50 õpilase põhjal: r = 0,72
See on tugev positiivne seos - rohkem õppinud õpilased said üldiselt paremaid tulemusi. (Aga mitte alati - korrelatsioon näitab trendi, mitte garantiid.)
Korrelatsiooni tugevus
- |r| = 0,00 kuni 0,19: Seos puudub või on väga nõrk
- |r| = 0,20 kuni 0,39: Nõrk seos
- |r| = 0,40 kuni 0,59: Mõõdukas seos
- |r| = 0,60 kuni 0,79: Tugev seos
- |r| = 0,80 kuni 1,00: Väga tugev seos
Positiivne vs negatiivne korrelatsioon
Positiivne korrelatsioon: Eesti leibkonna sissetulek ja kulutused toidule (r ≈ 0,65). Suurema sissetulekuga leibkonnad kulutavad toidule rohkem.
Negatiivne korrelatsioon: Temperatuur ja küttekulu Eestis (r ≈ −0,85). Mida külmem, seda suurem on küttearve.
Korrelatsioon puudub: Jalanumbri suurus ja matemaatika riigieksamitulemus (r ≈ 0,02). Need asjad ei ole seotud.
Korrelatsioon EI ole põhjuslikkus
See on statistika üks olulisemaid õpetusi. Ainult see, et kaks asja muutuvad koos, ei tähenda, et üks PÕHJUSTAB teist.
Andmed näitavad tugevat korrelatsiooni jäätisekoguste tarbimise ja uppumiste arvu vahel Eesti suvekuudel (r ≈ 0,87). Kas jäätis põhjustab uppumisi? Muidugi mitte!
Kolmas tegur - soe ilm - põhjustab mõlemat. Soojema ilmaga süüakse rohkem jäätist JA käiakse rohkem ujumas. See on segav muutuja.
Miks korrelatsioon võib eksitada
1. Segavad muutujad
Kolmas tegur mõjutab mõlemat muutujat, luues näilise seose.
2. Vastupidine põhjuslikkus
Võib-olla B põhjustab A-d, mitte A B-d.
Uuringud näitavad korrelatsiooni spordi tegemise ja parema tervise vahel. Aga kas sport teeb terveks või teevad terved inimesed rohkem sporti? Või mõlemad? Korrelatsioon ei ütle suunda.
3. Juhuslik korrelatsioon
Kui otsid piisavalt, leiad seosed, mis on puhas kokkusattumus. Näiteks: Nicolas Cage'i filmide arv aastas korreleerub basseinides uppunute arvuga USAs.
Hajuvusdiagramm
Parim viis korrelatsiooni visualiseerida on hajuvusdiagramm. Punktide muster näitab seose suunda ja tugevust:
- Punktid moodustavad ülessuunaline joone → positiivne korrelatsioon
- Punktid moodustavad allasuunalise joone → negatiivne korrelatsioon
- Punktid on hajutatud → korrelatsioon puudub
Pearsoni vs Spearmani korrelatsioon
- Pearsoni r: Mõõdab lineaarset seost. Eeldab normaaljaotust ja intervall-/suhteskaalat.
- Spearmani ρ: Mõõdab järjestuslikku seost. Sobib ordinaalandmetele ja mittelineaarsetele seostele.
Korrelatsioon (r) mõõdab kahe muutuja vahelise seose tugevust ja suunda, skaalal −1 kuni +1. Positiivne r tähendab, et mõlemad kasvavad koos; negatiivne, et ühe kasvades teine väheneb. Kõige olulisem reegel: korrelatsioon EI tähenda põhjuslikkust. Alati küsi, kas kolmas tegur võib selgitada nähtud seost.