Chi-Square စစ်ဆေးမှု

ခက်ခဲမှု: အလယ်အလတ် ဖတ်ရှုချိန်: 12 မိနစ်

Chi-Square Test ဆိုတာ ဘာလဲ?

Chi-Square (χ²) test က အမျိုးအစား (categorical) ဒေတာအတွက် အသုံးပြုတဲ့ စစ်ဆေးမှုပါ။ "ကိန်းဂဏန်းတွေ" ပျမ်းမျှ နှိုင်းယှဉ်တဲ့ t-test နဲ့ မတူဘဲ "အရေအတွက်/ကြိမ်နှုန်း" တွေ ဆက်နွယ်မှု ရှိမရှိ စစ်ဆေးပါတယ်။

30 A 25 B 28 C 17 D

Goodness-of-Fit Test

တွေ့ရှိတဲ့ ဖြန့်ဝေမှုက ထင်ထားတဲ့ ဖြန့်ဝေမှုနဲ့ ကိုက်ညီသလား စစ်ဆေးပါတယ်။

ဥပမာ

အန်စာတုံး တစ်လုံးက မျှတတယ် (fair) ဆိုတာ စစ်ဆေးဖို့ ₆₀₀ ကြိမ် ပစ်ပါတယ်။ မျှတရင် ဂဏန်းတိုင်း ₁₀₀ ကြိမ်လောက် ထွက်ရမယ်:

  • ₁: ₉₅ ကြိမ် (ထင်ထား ₁₀₀)
  • ₂: ₁₀₅ ကြိမ်
  • ₃: ₁₁₀ ကြိမ်
  • ₄: ₈₈ ကြိမ်
  • ₅: ₉₈ ကြိမ်
  • ₆: ₁₀₄ ကြိမ်

Chi-square test က "ဒီကွာခြားချက်တွေ ကျပန်းကြောင့် ဖြစ်နိုင်သလား?" စစ်ဆေးပါတယ်။ p > ₀.₀₅ ရရင် "မျှတတယ်" လို့ ငြင်းပယ်စရာ အကြောင်း မရှိပါ။

Test of Independence

ကိန်းရှင်နှစ်ခု (နှစ်ခုလုံး အမျိုးအစား ဒေတာ) ကြား ဆက်နွယ်မှု ရှိမရှိ စစ်ဆေးပါတယ်။

ဥပမာ

မြန်မာနိုင်ငံ စစ်တမ်းတစ်ခုက "နေရာ (ရန်ကုန်/မန္တလေး/ကျေးလက်)" နဲ့ "အသုံးအများဆုံး သယ်ယူပို့ဆောင်ရေး (ဘတ်စ်ကား/ဆိုင်ကယ်/ကိုယ်ပိုင်ကား)" ကြား ဆက်နွယ်မှု ရှိမရှိ:

ဘတ်စ်ကားဆိုင်ကယ်ကိုယ်ပိုင်ကား
ရန်ကုန်₁₅₀₅₀₁₀₀
မန္တလေး₈₀₁₂₀₅₀
ကျေးလက်₃₀₁₈₀₁₀

H₀: နေရာနဲ့ သယ်ယူပို့ဆောင်ရေး ဆက်နွယ်မှု မရှိ
H₁: ဆက်နွယ်မှု ရှိ

Chi-square test: p < ₀.₀₀₁ → ဆက်နွယ်မှု ခိုင်မာစွာ ရှိတယ်။ ကျေးလက်မှာ ဆိုင်ကယ် လွှမ်းမိုးပြီး ရန်ကုန်မှာ ဘတ်စ်ကား ပိုသုံးတယ်ဆိုတာ ကိန်းဂဏန်းတွေ ပြနေပါတယ်။

Chi-Square တွက်ချက်နည်း အကျဉ်း

χ² = Σ (တွေ့ရှိ - ထင်ထား)² ÷ ထင်ထား

ကွက်တိုင်းမှာ "တွေ့ရှိတဲ့ အရေအတွက်" နဲ့ "ဆက်နွယ်မှု မရှိရင် ထင်ထားတဲ့ အရေအတွက်" ကြား ကွာခြားချက်ကို တွက်ချက်ပါတယ်။ ကွာခြားချက် ကြီးလေ χ² ကြီးလေ p-value ငယ်လေပါ။

ဘယ်အချိန် Chi-Square သုံးရမလဲ?

  • ကိန်းရှင်နှစ်ခုလုံး အမျိုးအစား (categorical) ဖြစ်ရမယ်
  • ကွက်တိုင်းမှာ ထင်ထားတဲ့ အရေအတွက် ₅ ထက်မနည်းသင့် (စည်းမျဉ်း)
  • ကိန်းဂဏန်း ပျမ်းမျှ နှိုင်းယှဉ်ချင်ရင် t-test သုံးပါ၊ chi-square မဟုတ်
အဓိကအချက်

Chi-square test က အမျိုးအစား ဒေတာအတွက် အသုံးပြုပါတယ်။ Goodness-of-fit test က တွေ့ရှိတဲ့ ဖြန့်ဝေမှုကို ထင်ထားတဲ့ ဖြန့်ဝေမှုနဲ့ နှိုင်းယှဉ်ပါတယ်။ Test of independence က အမျိုးအစား ကိန်းရှင်နှစ်ခုကြား ဆက်နွယ်မှု ရှိမရှိ စစ်ဆေးပါတယ်။ တွေ့ရှိတဲ့ အရေအတွက်နဲ့ ထင်ထားတဲ့ အရေအတွက်ကြား ကွာခြားချက် ကြီးလေ ဆက်နွယ်မှု ခိုင်မာလေပါ။

30 တွေ့ A 25 မျှော် A 15 တွေ့ B 25 မျှော် B 35 တွေ့ C 25 မျှော် C 20 တွေ့ D 25 မျှော် D