Outlier များကို နားလည်ခြင်း

ခက်ခဲမှု: အခြေခံ ဖတ်ရှုချိန်: 8 မိနစ်

Outlier ဆိုတာ ဘာလဲ?

Outlier ဆိုတာ ကျန်တဲ့ ဒေတာနဲ့ သိသိသာသာ ကွဲပြားနေတဲ့ တန်ဖိုးပါ။ ကိန်းဂဏန်း အများစုက တစ်နေရာမှာ စုဝေးနေပြီး outlier က ဝေးဝေးမှာ တစ်ယောက်တည်း ရပ်နေတယ်လို့ မြင်ကြည့်ပါ။

22 26 30 34 38 42 45 27.8 25.5
ဥပမာ

ရန်ကုန် ရပ်ကွက်တစ်ခုမှာ အိမ်ခန်း ငှားရမ်းခ (ကျပ်/လ): ₁₅₀,₀₀₀ · ₁₈₀,₀₀₀ · ₂₀₀,₀₀₀ · ₁₇₀,₀₀₀ · ₁₉₀,₀₀₀ · ₂,₅₀₀,₀₀₀

ကျပ် ₂,₅₀₀,₀₀₀ က outlier ပါ - ကျန်တာတွေနဲ့ သိသိသာသာ ကွဲပြားပါတယ် (ဇိမ်ခန်း ဖြစ်နိုင်ပါတယ်)။

Outlier ဘယ်လို သက်ရောက်မှု ရှိသလဲ?

Outlier က mean ကို ပြင်းပြင်းထန်ထန် ဆွဲနိုင်ပါတယ်:

ဥပမာ

အထက်ပါ ငှားရမ်းခ:

  • Outlier ပါရင်: Mean = ₅₆₅,₀₀₀ ကျပ် - ဒါက ရပ်ကွက်ရဲ့ "ပျမ်းမျှ" ငှားရမ်းခအဖြစ် ထင်ယောင်ထင်မှား ဖြစ်စေနိုင်
  • Outlier မပါရင်: Mean = ₁₇₈,₀₀₀ ကျပ် - ပိုမှန်ကန်တဲ့ ပုံရိပ်
  • Median: ₁₈₅,₀₀₀ ကျပ် - outlier ပါသည်ဖြစ်စေ မပါသည်ဖြစ်စေ ပြောင်းလဲမှု နည်း

Outlier ဖြစ်ရတဲ့ အကြောင်းရင်းများ

  • မှတ်တမ်းတင်မှု အမှား: ₁₅,₀₀₀ အစား ₁₅₀,₀₀₀ လို့ ရိုက်မိခြင်း - ဒါက ပြင်ဆင်သင့်ပါတယ်
  • တိုင်းတာမှု အမှား: ချိန်ခွင်က ကျိုးနေတဲ့အတွက် ကိုယ်အလေးချိန် ₃₀₀ ကီလို ပြခြင်း
  • သဘာဝ ကွဲပြားမှု: ချမ်းသာတဲ့ လူတစ်ယောက်ရဲ့ ဝင်ငွေ - ဒါက တကယ့်ဒေတာပါ၊ အမှားမဟုတ်ပါ
  • မတူညီတဲ့ လူဦးရေစု: ကလေးတွေ ကိုယ်အလေးချိန် ဒေတာထဲ လူကြီးတစ်ယောက် ပါဝင်ခြင်း

Outlier ကို ဖယ်ထုတ်သင့်သလား?

ဒါက ရိုးရှင်းတဲ့ "ဟုတ်/မဟုတ်" မေးခွန်း မဟုတ်ပါဘူး။ အကြောင်းရင်းကို စုံစမ်းပြီးမှ ဆုံးဖြတ်ပါ:

8 20-24 15 25-29 5 30-34 2 35-39 1 40+
  • ဖယ်ထုတ်ပါ: ဒေတာ ထည့်သွင်းမှု အမှား ဖြစ်ရင် (₁₅₀,₀₀₀ အစား ₁,₅₀₀,₀₀₀ ရိုက်မိတာ)
  • မဖယ်ထုတ်ပါနဲ့: တကယ့် ဒေတာ ဖြစ်ရင် - ချမ်းသာတဲ့ လူတစ်ယောက်ရဲ့ ဝင်ငွေကို ဖယ်ထုတ်ခြင်းက ပုံရိပ် ပုံပျက်စေနိုင်ပါတယ်
  • သီးခြားခွဲ ဆန်းစစ်ပါ: outlier ပါတဲ့ ဆန်းစစ်မှုနဲ့ မပါတဲ့ ဆန်းစစ်မှု နှစ်ခုလုံး လုပ်ပြီး ရလဒ် ဘယ်လို ကွဲပြားသလဲ ကြည့်ပါ
ဥပမာ

မြန်မာ့ကျောက်မျက် ပြပွဲမှာ ပတ္တမြား ၅₀ လုံးရဲ့ ဈေးနှုန်း: အများစုက ကျပ် ₅ သိန်း - ₂₀ သိန်းကြား ရှိပြီး တစ်လုံးက ကျပ် ₅ ကုဋေ (₅₀₀ သိန်း) ပါ။ ဒီကျောက်ကို ဖယ်ထုတ်သင့်ပါသလား?

မဟုတ်ပါ - ဒါက တကယ့် တန်ဖိုးပါ (ရှားပါး ပီဂျင် ဘလတ် ပတ္တမြား)။ ဒါပေမဲ့ ပျမ်းမျှ ဈေးနှုန်း အစီရင်ခံချိန်မှာ mean အစား median ကို သုံးသင့်ပါတယ်။ သို့မဟုတ် "₅ ကုဋေတန် ကျောက်မပါဘဲ ပျမ်းမျှ" နဲ့ "ပါရင် ပျမ်းမျှ" နှစ်ခုလုံး ပြသင့်ပါတယ်။

Outlier ကို ရှာဖွေတဲ့ နည်းလမ်းများ

  • ရုပ်ပုံ: Box plot သို့မဟုတ် scatter plot ဆွဲပြီး မျက်စိနဲ့ ကြည့်ခြင်း
  • ₃ SD စည်းမျဉ်း: Mean ± ₃ SD ပြင်ပမှာ ကျရောက်တဲ့ တန်ဖိုး
  • IQR နည်းလမ်း: Q₁ - ₁.₅ × IQR ထက်နိမ့် သို့မဟုတ် Q₃ + ₁.₅ × IQR ထက်မြင့်တဲ့ တန်ဖိုး
အဓိကအချက်

Outlier ဆိုတာ ကျန်ဒေတာနဲ့ သိသိသာသာ ကွဲပြားတဲ့ တန်ဖိုးပါ။ Mean ကို ပြင်းပြင်းထန်ထန် သက်ရောက်မှု ရှိနိုင်ပေမဲ့ median ကို သိပ်မသက်ရောက်ပါ။ Outlier ကို အလိုအလျောက် ဖယ်ထုတ်ခြင်းထက် အကြောင်းရင်းကို စုံစမ်းပြီးမှ ဆုံးဖြတ်ပါ - အမှားကြောင့်ဖြစ်ရင် ပြင်ဆင်ပါ၊ တကယ့်ဒေတာဖြစ်ရင် median သုံးခြင်း သို့မဟုတ် သီးခြားခွဲ ဆန်းစစ်ခြင်းကို စဉ်းစားပါ။

22 23 24 25 26 27 28 25.0 25.0