Regression ဆိုတာ ဘာလဲ?
Regression ဆိုတာ ကိန်းရှင်တစ်ခုကို သုံးပြီး နောက်တစ်ခုကို ခန့်မှန်းတဲ့ နည်းလမ်းပါ။ Correlation က "ဆက်နွယ်မှု ရှိမရှိ" ပြောပြီး regression က "ဘယ်လောက် ပြောင်းလဲမလဲ" ခန့်မှန်းပါတယ်။
Linear Regression (မျဉ်းဖြောင့် Regression)
အရိုးရှင်းဆုံး regression ပုံစံက: Y = a + bX
- Y: ခန့်မှန်းလိုတဲ့ ကိန်းရှင် (မှီခိုကိန်းရှင်)
- X: ခန့်မှန်းဖို့ သုံးတဲ့ ကိန်းရှင် (လွတ်လပ်ကိန်းရှင်)
- a: Y-intercept (X = ₀ ဖြစ်တဲ့အခါ Y တန်ဖိုး)
- b: slope (X တစ်ယူနစ် တိုးတိုင်း Y ဘယ်လောက် ပြောင်းသလဲ)
တက္ကသိုလ်ဝင်တန်း ကျောင်းသား ₈₀ ယောက်မှာ "နေ့စဉ် စာကျက်ချိန် (X, နာရီ)" နဲ့ "ရမှတ် (Y)" ကြား regression ဆန်းစစ်ပါတယ်:
Y = ₂₅₀ + ₃₀X
- a = ₂₅₀: စာမကျက်ဘဲ (X=₀) ခန့်မှန်း ရမှတ်
- b = ₃₀: နေ့စဉ် ₁ နာရီ ပိုကျက်တိုင်း ရမှတ် ₃₀ မှတ် ပိုရ (ပျမ်းမျှ)
ကျောင်းသားတစ်ယောက် နေ့စဉ် ₃ နာရီ ကျက်ရင်: Y = ₂₅₀ + ₃₀(₃) = ₃₄₀ မှတ် ခန့်မှန်းနိုင်ပါတယ်။
R² (R-squared)
R² က regression model က ဒေတာမှာ ကွဲပြားမှုကို ဘယ်လောက် ရှင်းပြနိုင်သလဲ ပြတဲ့ ကိန်းဂဏန်းပါ။ ₀ မှ ₁ ကြား ရှိပါတယ်။
- R² = ₀.₈₀: ရမှတ် ကွဲပြားမှုရဲ့ ₈₀% ကို စာကျက်ချိန်နဲ့ ရှင်းပြနိုင်
- R² = ₀.₂₀: ₂₀% ပဲ ရှင်းပြနိုင် - ကျန် ₈₀% က အခြား အကြောင်းတရားများကြောင့်
ရန်ကုန်မှာ "အိမ်ခန်း ဧရိယာ (စတုရန်းပေ)" နဲ့ "ငှားရမ်းခ (ကျပ်/လ)" ကြား regression:
ငှားရမ်းခ = ₅₀,₀₀₀ + ₂₅₀ × ဧရိယာ
R² = ₀.₆₅
ဧရိယာ ₈₀₀ စတုရန်းပေ အခန်း ငှားရမ်းခ ≈ ₅₀,₀₀₀ + ₂₅₀(₈₀₀) = ကျပ် ₂₅₀,₀₀₀
ဧရိယာက ငှားရမ်းခ ကွဲပြားမှုရဲ့ ₆₅% ကို ရှင်းပြနိုင်ပါတယ်။ ကျန် ₃₅% က တည်နေရာ၊ အထပ်၊ ပြင်ဆင်မှု စတာတွေကြောင့်ပါ။
Regression ရဲ့ ကန့်သတ်ချက်များ
- ဒေတာ အပြင်ဘက် ခန့်မှန်းခြင်း: ₁-₅ နာရီ စာကျက်ချိန်ဒေတာနဲ့ ₁₂ နာရီ ကျက်ရင် ရမှတ်ခန့်မှန်းတာ ယုံကြည်စိတ်ချရမှု နည်းပါတယ်
- ဆက်နွယ်မှု ≠ အကြောင်းဆီလျော်မှု: Regression က ခန့်မှန်းပေးပေမဲ့ "X က Y ကို ဖြစ်စေတယ်" ဆိုတဲ့ အဓိပ္ပါယ် မဟုတ်ပါ
- Outlier: ခြားနားချက်ကြီးတဲ့ တန်ဖိုးတွေက regression မျဉ်းကို ဆွဲနိုင်ပါတယ်
မြန်မာ့ဆန် ပို့ကုန်: "ပိုလန်ကယ်ရီ ဧရိယာ (ဧက)" နဲ့ "ဆန်ထွက်နှုန်း (တန်)" ကြား regression model ဆောက်ပါတယ်။ ဒါက လာမယ့်ရာသီ ဆန်ထွက်နှုန်း ခန့်မှန်းဖို့ အသုံးဝင်ပါတယ်။ ဒါပေမဲ့ ရေကြီးမှု သို့မဟုတ် မိုးခေါင်မှု ဖြစ်ရင် model ခန့်မှန်းချက် မှားနိုင်ပါတယ် - regression model ထဲ မပါတဲ့ ကိန်းရှင်တွေကြောင့်ပါ။
Linear regression က Y = a + bX ပုံစံနဲ့ ကိန်းရှင်တစ်ခုကနေ နောက်တစ်ခုကို ခန့်မှန်းပါတယ်။ b (slope) က X တစ်ယူနစ် ပြောင်းလဲတိုင်း Y ဘယ်လောက် ပြောင်းသလဲ ပြပါတယ်။ R² က model ရဲ့ ရှင်းပြနိုင်စွမ်း ပြပါတယ်။ Regression ဒေတာ အတွင်း ခန့်မှန်းဖို့ အသုံးဝင်ပေမဲ့ ဒေတာ ပြင်ပ ခန့်မှန်းမှုနဲ့ အကြောင်းဆီလျော်မှုမှာ သတိထားရပါတယ်။