ሪግሬሽን ምንድነው?
ኮሪሌሽን ሁለት ተለዋዋጮች ግንኙነት ካለ ይነግረናል ነገር ግን ሪግሬሽን ከዚያ ያለፈ ነው - ግንኙነቱን ቀመር ያደርገዋል ስለዚህ ለትንበያ ይጠቅማል። "ጥናት ሰዓት እና ፈተና ውጤት ግንኙነት አላቸው" (ኮሪሌሽን) ከማለት "ተማሪ 5 ሰዓት ቢያጠና ምን ያህል ውጤት ይጠበቃል?" (ሪግሬሽን) ማለት ይቻላል።
ቀላል ሊኒየር ሪግሬሽን
ቀላል ሊኒየር ሪግሬሽን ሁለት ተለዋዋጮች ግንኙነት ቀጥተኛ (straight line) ብሎ ያስብና ያ መስመር ቀመር ያሰላል፡
y = a + bx
- y: ጥገኛ ተለዋዋጭ (ልንተነብይ የምንፈልገው)
- x: ነፃ ተለዋዋጭ (ለትንበያ የምንጠቀምበት)
- b: ቁልቁለት (slope) - x ለ1 ሲጨምር y ምን ያህል ይለወጣል
- a: y-intercept - x = 0 ሲሆን y ምን ያህል ነው
የማዳበሪያ መጠን እና ጤፍ ምርት
ሪግሬሽን ቀመር፡ ምርት = 10 + 0.4 × ማዳበሪያ (ኩንታል ለሄክታር)
ማለት ያለ ማዳበሪያ 10 ኩንታል ይጠበቃል (a = 10)። ለ1 ኪሎ ማዳበሪያ ጭማሪ 0.4 ኩንታል ምርት ይጨምራል (b = 0.4)።
50 ኪሎ ማዳበሪያ ቢጠቀም? ምርት = 10 + 0.4 × 50 = 30 ኩንታል።
ምርጥ መስመር እንዴት ይገኛል?
ሪግሬሽን "ዝቅተኛ ስኩዌር" (least squares) ዘዴ ይጠቀማል - ዳታ ነጥቦች ከመስመሩ ያላቸው ርቀት (ስህተት) ድምር ካሬ ዝቅተኛ የሚያደርገውን መስመር ይመርጣል። ይህ "ምርጥ ተስማሚ" (best fit) መስመር ነው።
R² - ምን ያህል ተስማሚ ነው?
R² (R-squared) ሪግሬሽን ሞዴል ዳታውን ምን ያህል እንደሚያብራራ ያሳያል - ከ0 እስከ 1።
- R² = 0: ሞዴሉ ምንም አያብራራም
- R² = 1: ሞዴሉ ሁሉንም ያብራራል (ሁሉም ነጥቦች መስመር ላይ)
- R² = 0.6: ሞዴሉ 60% ልዩነት ያብራራል
የጥናት ሰዓት እና ፈተና ውጤት
ሪግሬሽን ቀመር፡ ውጤት = 200 + 50 × ሰዓት
R² = 0.49 ማለት 49% የፈተና ውጤት ልዩነት በጥናት ሰዓት ይገለጻል ማለት ነው። ቀሪ 51% በሌሎች ነገሮች - ተሰጥኦ፣ ት/ቤት ጥራት፣ ጤና ወዘተ - ይገለጻል።
ሪግሬሽን ገደቦች
- ከዳታ ክልል ውጭ አትተንብይ (extrapolation): ዳታ 10-50 ኪሎ ማዳበሪያ ከሆነ 200 ኪሎ ለመተንበይ ሞዴሉ ሊሰራ አይችልም - ግንኙነቱ ይለወጥ ይሆናል።
- ኮሪሌሽን ≠ መንስኤ: ሪግሬሽንም ቢሆን መንስኤ አያረጋግጥም - ግንኙነት ብቻ ያሳያል።
- ቀጥተኛ ግንኙነት ብቻ: ሊኒየር ሪግሬሽን ቀጥተኛ ግንኙነት ያስባል - ጠመዝማዛ ከሆነ ሌላ ዘዴ ያስፈልጋል።
ቴሌብር ተጠቃሚ ትንበያ
ባለፉት 12 ወራት ተጠቃሚ ብዛት ማደግ ቀመር ይታይ ተበልኖ ሪግሬሽን ተሰራ፡ ተጠቃሚዎች = 5,000,000 + 200,000 × ወር (ከጃንዋሪ)። ወር 6 ላይ = 5,000,000 + 1,200,000 = 6,200,000 ተጠቃሚ ይጠበቃል። ነገር ግን ወር 36 ላይ (3 ዓመት) ይህ ቀመር ትክክል ላይሆን ይችላል - ገበያ ይጠግብ ይሆናል።
ሪግሬሽን ሁለት ተለዋዋጮች ግንኙነት ቀመር ሰጥቶ ለትንበያ ያገለግላል (y = a + bx)። R² ሞዴሉ ምን ያህል ተስማሚ እንደሆነ ያሳያል (ከ0 እስከ 1)። ሪግሬሽን ኃይለኛ ነው ነገር ግን ከዳታ ክልል ውጭ መተንበይ አደገኛ ነው፣ ቀጥተኛ ግንኙነት ብቻ ይያዛል እና ግንኙነት መንስኤ ማለት አይደለም።