Mis on regressioon?
Korrelatsioon ütleb sulle, KAS kaks muutujat on seotud. Regressioon läheb sammu kaugemale - see annab sulle valemi, millega saad ühe muutuja põhjal ENNUSTADA teist. See on nagu joonlaud, mille asetad andmepunktide vahele ja vaatad, kuhu joon viitab.
Lineaarne regressioon
Lihtsaim vorm on lineaarne regressioon: sa otsid sirget joont, mis sobib andmepunktidega kõige paremini.
Valem: y = a + bx
- y: sõltuv muutuja (mida ennustad)
- x: sõltumatu muutuja (mille põhjal ennustad)
- a: vabaliige (kus joon lõikab y-telge)
- b: tõusunurk (kui palju y muutub iga x ühiku kohta)
Tartu Ülikooli uurijad uurivad seost õppimistundide ja riigieksamitulemuse vahel. 50 õpilase andmetest saadakse regressioonivõrrand:
Tulemus = 40 + 2,5 × õppimistunnid
See tähendab:
- Õpilane, kes ei õpi üldse (0 tundi), saab ennustatavalt 40 punkti
- Iga lisatund õppimist lisab ennustatavalt 2,5 punkti
- Õpilane, kes õpib 20 tundi: 40 + 2,5 × 20 = 90 punkti
Vähimruutude meetod
Kuidas leida "parimat" joont? Regressioonijoon valitakse nii, et vahede joonest andmepunktideni (jäägid) oleksid kokkuvõttes võimalikult väiksed. Täpsemalt: ruutude summa on minimaalne.
Kui regressioon ennustab õpilasele 75 punkti, aga ta sai tegelikult 78, on jääk 78 − 75 = 3 punkti. Meetod minimeerib kõigi selliste jääkide ruutude summat.
R² - determinatsioonikordaja
R² ütleb, kui suure osa sõltuva muutuja varieeruvusest sõltumatu muutuja selgitab. See on number 0 ja 1 vahel:
- R² = 0: mudel ei selgita midagi
- R² = 1: mudel selgitab kogu varieeruvust (täiuslik sobivus)
- R² = 0,64: mudel selgitab 64% varieeruvusest
Õppimistundide ja eksamitulemuse regressiooni R² = 0,52. See tähendab, et õppimistunnid selgitavad 52% eksamitulemuste varieeruvusest. Ülejäänud 48% sõltub teistest teguritest (and, motivatsioon, õpetaja kvaliteet, uni jne).
Regressiooni tõlgendamine
Tõusunurk (b)
Tõusunurk ütleb mõju suuruse. Meie näites: b = 2,5 tähendab, et iga lisatund toob 2,5 lisapunkti. See on konkreetne ja praktiline teadmine.
Vabaliige (a)
See on y väärtus, kui x = 0. Mõnikord on see mõttekas (0 tunni õppimine → 40 punkti algteadmised), mõnikord mitte (0 cm pikkus → ennustatav kaal on -10 kg - mõttetu).
Regressiooni ohud
Ekstrapolatsioon
Regressioon toimib ainult andmete ulatuses. Ennustamine väljapoole on ohtlik.
Eesti SKP kasvas 2010-2024 lineaarselt. Regressiooniga saad ennustada 2025. aastat. Aga 2050. aasta ennustamine sama joonena on ebausaldusväärne - maailm muutub ja trendid ei jätku lõpmatult.
Korrelatsioon vs põhjuslikkus
Regressioon näitab seost, mitte põhjuslikkust. See, et mudel ennustab hästi, ei tähenda, et x PÕHJUSTAB y-d.
Mittelineaarsed seosed
Kui seos ei ole sirgjooneline, annab lineaarne regressioon halbu tulemusi. Alati vaata esmalt hajuvusdiagrammi!
Mitmene regressioon
Tegelikus maailmas mõjutab tulemust rohkem kui üks tegur. Mitmene regressioon lubab kasutada mitut sõltumatut muutujat korraga.
Korterite hindade ennustamine Tallinnas:
Hind = 500 + 2 100 × m² + 15 000 × korrus + 8 000 × renoveerimine
See mudel arvestab pindala, korruse ja renoveerituse mõju korraga. R² = 0,78 - mudel selgitab 78% hindade varieeruvusest.
Lineaarne regressioon leiab parima sirge joone andmepunktide vahele ja võimaldab ennustada tulemusi. Valem y = a + bx, kus b näitab mõju suurust iga x ühiku kohta. R² näitab, kui hästi mudel andmeid selgitab. Ära ekstrapolee väljapoole andmete ulatust ja pea meeles, et regressioon ei tõesta põhjuslikkust.