Regression အခြေခံ

ခက်ခဲမှု: အလယ်အလတ် ဖတ်ရှုချိန်: 15 မိနစ်

Regression ဆိုတာ ဘာလဲ?

Regression ဆိုတာ ကိန်းရှင်တစ်ခုကို သုံးပြီး နောက်တစ်ခုကို ခန့်မှန်းတဲ့ နည်းလမ်းပါ။ Correlation က "ဆက်နွယ်မှု ရှိမရှိ" ပြောပြီး regression က "ဘယ်လောက် ပြောင်းလဲမလဲ" ခန့်မှန်းပါတယ်။

2 4 6 8 10 5 10

Linear Regression (မျဉ်းဖြောင့် Regression)

အရိုးရှင်းဆုံး regression ပုံစံက: Y = a + bX

  • Y: ခန့်မှန်းလိုတဲ့ ကိန်းရှင် (မှီခိုကိန်းရှင်)
  • X: ခန့်မှန်းဖို့ သုံးတဲ့ ကိန်းရှင် (လွတ်လပ်ကိန်းရှင်)
  • a: Y-intercept (X = ₀ ဖြစ်တဲ့အခါ Y တန်ဖိုး)
  • b: slope (X တစ်ယူနစ် တိုးတိုင်း Y ဘယ်လောက် ပြောင်းသလဲ)
ဥပမာ

တက္ကသိုလ်ဝင်တန်း ကျောင်းသား ₈₀ ယောက်မှာ "နေ့စဉ် စာကျက်ချိန် (X, နာရီ)" နဲ့ "ရမှတ် (Y)" ကြား regression ဆန်းစစ်ပါတယ်:

Y = ₂₅₀ + ₃₀X

  • a = ₂₅₀: စာမကျက်ဘဲ (X=₀) ခန့်မှန်း ရမှတ်
  • b = ₃₀: နေ့စဉ် ₁ နာရီ ပိုကျက်တိုင်း ရမှတ် ₃₀ မှတ် ပိုရ (ပျမ်းမျှ)

ကျောင်းသားတစ်ယောက် နေ့စဉ် ₃ နာရီ ကျက်ရင်: Y = ₂₅₀ + ₃₀(₃) = ₃₄₀ မှတ် ခန့်မှန်းနိုင်ပါတယ်။

R² (R-squared)

R² က regression model က ဒေတာမှာ ကွဲပြားမှုကို ဘယ်လောက် ရှင်းပြနိုင်သလဲ ပြတဲ့ ကိန်းဂဏန်းပါ။ ₀ မှ ₁ ကြား ရှိပါတယ်။

-3 -2 -1 0 1 2 3
  • R² = ₀.₈₀: ရမှတ် ကွဲပြားမှုရဲ့ ₈₀% ကို စာကျက်ချိန်နဲ့ ရှင်းပြနိုင်
  • R² = ₀.₂₀: ₂₀% ပဲ ရှင်းပြနိုင် - ကျန် ₈₀% က အခြား အကြောင်းတရားများကြောင့်
ဥပမာ

ရန်ကုန်မှာ "အိမ်ခန်း ဧရိယာ (စတုရန်းပေ)" နဲ့ "ငှားရမ်းခ (ကျပ်/လ)" ကြား regression:

ငှားရမ်းခ = ₅₀,₀₀₀ + ₂₅₀ × ဧရိယာ

R² = ₀.₆₅

ဧရိယာ ₈₀₀ စတုရန်းပေ အခန်း ငှားရမ်းခ ≈ ₅₀,₀₀₀ + ₂₅₀(₈₀₀) = ကျပ် ₂₅₀,₀₀₀

ဧရိယာက ငှားရမ်းခ ကွဲပြားမှုရဲ့ ₆₅% ကို ရှင်းပြနိုင်ပါတယ်။ ကျန် ₃₅% က တည်နေရာ၊ အထပ်၊ ပြင်ဆင်မှု စတာတွေကြောင့်ပါ။

Regression ရဲ့ ကန့်သတ်ချက်များ

  • ဒေတာ အပြင်ဘက် ခန့်မှန်းခြင်း: ₁-₅ နာရီ စာကျက်ချိန်ဒေတာနဲ့ ₁₂ နာရီ ကျက်ရင် ရမှတ်ခန့်မှန်းတာ ယုံကြည်စိတ်ချရမှု နည်းပါတယ်
  • ဆက်နွယ်မှု ≠ အကြောင်းဆီလျော်မှု: Regression က ခန့်မှန်းပေးပေမဲ့ "X က Y ကို ဖြစ်စေတယ်" ဆိုတဲ့ အဓိပ္ပါယ် မဟုတ်ပါ
  • Outlier: ခြားနားချက်ကြီးတဲ့ တန်ဖိုးတွေက regression မျဉ်းကို ဆွဲနိုင်ပါတယ်
ဥပမာ

မြန်မာ့ဆန် ပို့ကုန်: "ပိုလန်ကယ်ရီ ဧရိယာ (ဧက)" နဲ့ "ဆန်ထွက်နှုန်း (တန်)" ကြား regression model ဆောက်ပါတယ်။ ဒါက လာမယ့်ရာသီ ဆန်ထွက်နှုန်း ခန့်မှန်းဖို့ အသုံးဝင်ပါတယ်။ ဒါပေမဲ့ ရေကြီးမှု သို့မဟုတ် မိုးခေါင်မှု ဖြစ်ရင် model ခန့်မှန်းချက် မှားနိုင်ပါတယ် - regression model ထဲ မပါတဲ့ ကိန်းရှင်တွေကြောင့်ပါ။

2 4 6 8 10 2 4 6 8 10
အဓိကအချက်

Linear regression က Y = a + bX ပုံစံနဲ့ ကိန်းရှင်တစ်ခုကနေ နောက်တစ်ခုကို ခန့်မှန်းပါတယ်။ b (slope) က X တစ်ယူနစ် ပြောင်းလဲတိုင်း Y ဘယ်လောက် ပြောင်းသလဲ ပြပါတယ်။ R² က model ရဲ့ ရှင်းပြနိုင်စွမ်း ပြပါတယ်။ Regression ဒေတာ အတွင်း ခန့်မှန်းဖို့ အသုံးဝင်ပေမဲ့ ဒေတာ ပြင်ပ ခန့်မှန်းမှုနဲ့ အကြောင်းဆီလျော်မှုမှာ သတိထားရပါတယ်။