What is regression analysis in simple terms?

Regression analysis models the relationship between variables, letting you predict an outcome based on one or more input factors.

What is the difference between correlation and regression?

Correlation measures the strength of a relationship, while regression provides an equation to predict one variable from another.

What is R-squared in regression?

R-squared is the proportion of variance in the dependent variable explained by the model. An R-squared of 0.8 means 80% of variation is explained.

What is a residual in regression?

A residual is the difference between an observed value and the value predicted by the regression model. Smaller residuals mean better fit.

Regressiooni alused

Mis on regressioon?

Korrelatsioon ütleb sulle, KAS kaks muutujat on seotud. Regressioon läheb sammu kaugemale - see annab sulle valemi, millega saad ühe muutuja põhjal ENNUSTADA teist. See on nagu joonlaud, mille asetad andmepunktide vahele ja vaatad, kuhu joon viitab.

Lineaarne regressioon

Lihtsaim vorm on lineaarne regressioon: sa otsid sirget joont, mis sobib andmepunktidega kõige paremini.

Valem: y = a + bx

y: sõltuv muutuja (mida ennustad)
x: sõltumatu muutuja (mille põhjal ennustad)
a: vabaliige (kus joon lõikab y-telge)
b: tõusunurk (kui palju y muutub iga x ühiku kohta)

Näide

Tartu Ülikooli uurijad uurivad seost õppimistundide ja riigieksamitulemuse vahel. 50 õpilase andmetest saadakse regressioonivõrrand:

Tulemus = 40 + 2,5 × õppimistunnid

See tähendab:

Õpilane, kes ei õpi üldse (0 tundi), saab ennustatavalt 40 punkti
Iga lisatund õppimist lisab ennustatavalt 2,5 punkti
Õpilane, kes õpib 20 tundi: 40 + 2,5 × 20 = 90 punkti

Vähimruutude meetod

Kuidas leida "parimat" joont? Regressioonijoon valitakse nii, et vahede joonest andmepunktideni (jäägid) oleksid kokkuvõttes võimalikult väiksed. Täpsemalt: ruutude summa on minimaalne.

Näide

Kui regressioon ennustab õpilasele 75 punkti, aga ta sai tegelikult 78, on jääk 78 − 75 = 3 punkti. Meetod minimeerib kõigi selliste jääkide ruutude summat.

R² - determinatsioonikordaja

R² ütleb, kui suure osa sõltuva muutuja varieeruvusest sõltumatu muutuja selgitab. See on number 0 ja 1 vahel:

R² = 0: mudel ei selgita midagi
R² = 1: mudel selgitab kogu varieeruvust (täiuslik sobivus)
R² = 0,64: mudel selgitab 64% varieeruvusest

Näide

Õppimistundide ja eksamitulemuse regressiooni R² = 0,52. See tähendab, et õppimistunnid selgitavad 52% eksamitulemuste varieeruvusest. Ülejäänud 48% sõltub teistest teguritest (and, motivatsioon, õpetaja kvaliteet, uni jne).

Regressiooni tõlgendamine

Tõusunurk (b)

Tõusunurk ütleb mõju suuruse. Meie näites: b = 2,5 tähendab, et iga lisatund toob 2,5 lisapunkti. See on konkreetne ja praktiline teadmine.

Vabaliige (a)

See on y väärtus, kui x = 0. Mõnikord on see mõttekas (0 tunni õppimine → 40 punkti algteadmised), mõnikord mitte (0 cm pikkus → ennustatav kaal on -10 kg - mõttetu).

Regressiooni ohud

Ekstrapolatsioon

Regressioon toimib ainult andmete ulatuses. Ennustamine väljapoole on ohtlik.

Näide

Eesti SKP kasvas 2010-2024 lineaarselt. Regressiooniga saad ennustada 2025. aastat. Aga 2050. aasta ennustamine sama joonena on ebausaldusväärne - maailm muutub ja trendid ei jätku lõpmatult.

Korrelatsioon vs põhjuslikkus

Regressioon näitab seost, mitte põhjuslikkust. See, et mudel ennustab hästi, ei tähenda, et x PÕHJUSTAB y-d.

Mittelineaarsed seosed

Kui seos ei ole sirgjooneline, annab lineaarne regressioon halbu tulemusi. Alati vaata esmalt hajuvusdiagrammi!

Mitmene regressioon

Tegelikus maailmas mõjutab tulemust rohkem kui üks tegur. Mitmene regressioon lubab kasutada mitut sõltumatut muutujat korraga.

Näide

Korterite hindade ennustamine Tallinnas:

Hind = 500 + 2 100 × m² + 15 000 × korrus + 8 000 × renoveerimine

See mudel arvestab pindala, korruse ja renoveerituse mõju korraga. R² = 0,78 - mudel selgitab 78% hindade varieeruvusest.

Peатükk

Lineaarne regressioon leiab parima sirge joone andmepunktide vahele ja võimaldab ennustada tulemusi. Valem y = a + bx, kus b näitab mõju suurust iga x ühiku kohta. R² näitab, kui hästi mudel andmeid selgitab. Ära ekstrapolee väljapoole andmete ulatust ja pea meeles, et regressioon ei tõesta põhjuslikkust.

Regressiooni alused

Mis on regressioon?

Lineaarne regressioon

Vähimruutude meetod

R² - determinatsioonikordaja

Regressiooni tõlgendamine

Tõusunurk (b)

Vabaliige (a)

Regressiooni ohud

Ekstrapolatsioon

Korrelatsioon vs põhjuslikkus

Mittelineaarsed seosed

Mitmene regressioon

Seotud tunnid