ဒေတာ အမျိုးအစားများ

ခက်ခဲမှု: အခြေခံ ဖတ်ရှုချိန်: 10 မိနစ်

ဒေတာ အားလုံး တူညီတာ မဟုတ်ပါ

စာရင်းအင်းပညာမှာ ဒေတာ ဆိုတာ ကျွန်တော်တို့ စုဆောင်းတဲ့ အချက်အလက်တိုင်းကို ဆိုလိုပါတယ်။ ဒါပေမဲ့ ဒေတာ အားလုံးက တူညီတာ မဟုတ်ပါဘူး။ ရန်ကုန်မှာ ယနေ့ အပူချိန် ၃၅ ဒီဂရီ ဆယ်လ်ဆီးယပ်စ် ဆိုတာ ကိန်းဂဏန်းပါ။ "မန္တလေးက ပူတယ်" ဆိုတာ ထင်မြင်ချက်ပါ။ ဖုတ်ဘော အသင်းရဲ့ ဂျာစီအရောင်က "အနီ" ဆိုတာ အမျိုးအစားတစ်ခုပါ။ ဒေတာ အမျိုးအစား ကွဲပြားချက်ကို နားလည်ရင် မှန်ကန်တဲ့ ဆန်းစစ်မှု နည်းလမ်းကို ရွေးချယ်နိုင်ပါတယ်။

25 A 40 B 15 C 30 D 10 F

အရည်အသွေးဆိုင်ရာ ဒေတာနဲ့ အရေအတွက်ဆိုင်ရာ ဒေတာ

ပထမဆုံး အကြီးမားဆုံး ခွဲခြားချက်က ဒေတာက ကိန်းဂဏန်းလား သို့မဟုတ် အမျိုးအစားတစ်ခုလား ဆိုတာပါ။

အရည်အသွေးဆိုင်ရာ ဒေတာ (Qualitative)

အရည်အသွေးဆိုင်ရာ ဒေတာက အမျိုးအစား သို့မဟုတ် အညွှန်း ဖြစ်ပါတယ်။ ကိန်းဂဏန်းနဲ့ တိုင်းတာလို့ မရပါဘူး။ ဒေတာကို အုပ်စုတွေ ခွဲထားတာပါ။

ဥပမာ

မြန်မာနိုင်ငံမှ အရည်အသွေးဆိုင်ရာ ဒေတာ ဥပမာများ:

  • တိုင်းဒေသကြီး/ပြည်နယ် (ရန်ကုန်၊ မန္တလေး၊ ရှမ်းပြည်နယ်)
  • ဘာသာစကား (မြန်မာ၊ ရှမ်း၊ ကရင်)
  • ကျောက်မျက်ရတနာ အမျိုးအစား (ပတ္တမြား၊ နီလာ၊ စိန်)
  • သယ်ယူပို့ဆောင်ရေး နည်းလမ်း (ဘတ်စ်ကား၊ ရထား၊ မော်တော်ဆိုင်ကယ်)

ဒီဒေတာတွေကို ပေါင်းစု၊ ပျမ်းမျှ သို့မဟုတ် နှုတ်ကြ ရလို့ မရပါဘူး - ရန်ကုန်နဲ့ မန္တလေးကို "ပေါင်း" လို့ မရသလိုပဲ။

အရေအတွက်ဆိုင်ရာ ဒေတာ (Quantitative)

အရေအတွက်ဆိုင်ရာ ဒေတာက ကိန်းဂဏန်း ဖြစ်ပါတယ်။ တိုင်းတာနိုင်ပြီး ဂဏန်းတွက်ချက်မှု လုပ်နိုင်ပါတယ်။

ဥပမာ

မြန်မာနိုင်ငံမှ အရေအတွက်ဆိုင်ရာ ဒေတာ ဥပမာများ:

  • ဆန်တစ်အိတ် ဈေးနှုန်း (ကျပ် ၃၅,၀၀၀)
  • တက္ကသိုလ်ဝင်တန်း စာမေးပွဲ ရမှတ် (၄၂၀ မှတ်)
  • ရန်ကုန်မှ မန္တလေး ခရီးအကွာအဝေး (ကီလိုမီတာ ၆၂၀)
  • မိသားစု တစ်စုရဲ့ လစဉ်ဝင်ငွေ (ကျပ် ၅၀၀,၀၀၀)

ဒီကိန်းဂဏန်းတွေကို ပေါင်းစု၊ နှုတ်ကြ၊ ပျမ်းမျှ တွက်ချက်နိုင်ပါတယ်။

ကွဲကွဲပြားပြား ဒေတာနဲ့ ဆက်တိုက် ဒေတာ

အရေအတွက်ဆိုင်ရာ ဒေတာကို ထပ်မံ ခွဲခြားနိုင်ပါတယ်: ကွဲကွဲပြားပြား (discrete) နဲ့ ဆက်တိုက် (continuous)။

ကွဲကွဲပြားပြား ဒေတာ (Discrete)

ကွဲကွဲပြားပြား ဒေတာက ရေတွက်လို့ရတဲ့ ကိန်းပြည့်တွေပါ။ ကြားထဲမှာ တန်ဖိုး ရှိလို့ မရပါဘူး။

ဥပမာ
  • MNL ဘောလုံးပွဲတစ်ပွဲမှာ သွင်းဂိုးအရေအတွက်: ၀၊ ၁၊ ၂၊ ၃ (ဂိုး ၂.၅ လုံး သွင်းလို့ မရပါဘူး)
  • အိမ်ထောင်စုတစ်စုမှာ ကလေးအရေအတွက်: ၁၊ ၂၊ ၃ (ကလေး ၁.၅ ယောက် ရှိလို့ မရပါဘူး)
  • စာမေးပွဲ ဖြေဆိုသူ အရေအတွက်: ၅၀၀ ယောက် (လူ ၅၀၀.၃ ယောက် ရှိလို့ မရပါဘူး)

ဆက်တိုက် ဒေတာ (Continuous)

ဆက်တိုက် ဒေတာက ကိန်းဂဏန်းနှစ်ခုကြားမှာ ကြားခံတန်ဖိုး မည်မျှမဆို ယူနိုင်ပါတယ်။ တိုင်းတာခြင်းဖြင့် ရရှိပါတယ်။

ဥပမာ
  • ကျောင်းသား တစ်ယောက်ရဲ့ အရပ်: ၅ ပေ ၃ လက်မ (သို့) ၅ ပေ ၃.၅ လက်မ (သို့) ၅ ပေ ၃.၂၇ လက်မ
  • ရန်ကုန်ရဲ့ နေ့စဉ် အပူချိန်: ၃၅.၂°C၊ ၃၅.၂၅°C ဘယ်လောက်ပဲ တိကျတိကျ တိုင်းတာနိုင်
  • ဆန်အိတ်တစ်အိတ်ရဲ့ အလေးချိန်: ၄၉.၈ ကီလိုဂရမ် သို့မဟုတ် ၅၀.၂ ကီလိုဂရမ်

အဓိကကွာခြားချက်က ရိုးရှင်းပါတယ်: ရေတွက်ရင် ကွဲကွဲပြားပြား၊ တိုင်းတာရင် ဆက်တိုက် ပါ။ MNL ပွဲတစ်ပွဲမှာ ပရိသတ် ဦးရေ ရေတွက်ပါတယ် (ကွဲကွဲပြားပြား)။ ပွဲကြာချိန် တိုင်းတာပါတယ် (ဆက်တိုက်)။

ဖွဲ့စည်းထားတဲ့ ဒေတာနဲ့ ဖွဲ့စည်းမထားတဲ့ ဒေတာ

ဒေတာ အမျိုးအစားခွဲခြားတဲ့ နောက်ထပ် နည်းလမ်းတစ်ခုက ဒေတာကို ဘယ်လို သိမ်းဆည်းထားလဲ ဆိုတာပါ။

ဖွဲ့စည်းထားတဲ့ ဒေတာ (Structured)

ဖွဲ့စည်းထားတဲ့ ဒေတာက ဇယား သို့မဟုတ် spreadsheet တစ်ခုမှာ အတန်းနဲ့ ကော်လံတွေနဲ့ ကျနကျန စီစဉ်ထားပါတယ်။ CSO ရဲ့ လူဦးရေ သန်းခေါင်စာရင်း ဒေတာဘေ့စ်မှာ တိုင်းဒေသကြီးတိုင်းအတွက် လူဦးရေ၊ အိမ်ထောင်စုအရေအတွက်၊ ပျမ်းမျှ ဝင်ငွေ စသည်ဖြင့် ကော်လံတွေ ရှိပါတယ်။

ဖွဲ့စည်းမထားတဲ့ ဒေတာ (Unstructured)

ဖွဲ့စည်းမထားတဲ့ ဒေတာက ဇယားထဲ ကျနကျန မကျတဲ့ အချက်အလက်ပါ - ဓာတ်ပုံများ၊ ဗီဒီယိုများ၊ ဖေ့စ်ဘုတ် ပို့စ်တွေ၊ ဆေးရုံမှတ်တမ်းတွေ။ မြန်မာနိုင်ငံမှာ လူတွေ ဖေ့စ်ဘုတ်မှာ ရေးတဲ့ ကုန်ပစ္စည်း သုံးသပ်ချက်တွေက ဖွဲ့စည်းမထားတဲ့ ဒေတာ ဥပမာကောင်း တစ်ခုပါ - အသုံးဝင်တဲ့ အချက်အလက် ပါပေမဲ့ ကွန်ပျူတာက တိုက်ရိုက် ဆန်းစစ်ဖို့ ခက်ပါတယ်။

ဘာကြောင့် ဒေတာ အမျိုးအစားကို ဂရုစိုက်ဖို့ လိုသလဲ?

ဒေတာ အမျိုးအစားက သင် ဘယ်လို ဆန်းစစ်နည်း သုံးနိုင်တယ်ဆိုတာ ဆုံးဖြတ်ပါတယ်။ အရည်အသွေးဆိုင်ရာ ဒေတာကို ပျမ်းမျှ တွက်လို့ မရပါဘူး - ရန်ကုန်၊ မန္တလေး၊ နေပြည်တော် ရဲ့ "ပျမ်းမျှ" က ဘာမှ အဓိပ္ပါယ် မရှိပါဘူး။ ဒါပေမဲ့ ဘယ်မြို့က အများဆုံး ရွေးချယ်ခံရတယ်ဆိုတာ (mode) တော့ ရေတွက်နိုင်ပါတယ်။

အလားတူပဲ ကွဲကွဲပြားပြား ဒေတာကို ဆက်တိုက် ဒေတာနည်းတူ ကိုင်တွယ်ရင် မှားယွင်းတဲ့ ရလဒ်တွေ ရနိုင်ပါတယ်။ ဒေတာ အမျိုးအစားကို မှန်ကန်စွာ ခွဲခြားသိမြင်ခြင်းက စာရင်းအင်းပညာရဲ့ ပထမခြေလှမ်းပါ။

ဥပမာ

မြန်မာ့ကျောက်မျက်ရတနာ ပြပွဲမှာ ကုန်သည်တစ်ယောက်က ပတ္တမြားတွေကို မှတ်တမ်းတင်ပါတယ်။ ကျောက်တစ်လုံးချင်းစီအတွက် "အရောင် (နက်နဲသော အနီ၊ ပန်းရောင်)" က အရည်အသွေးဆိုင်ရာ ဒေတာပါ။ "အလေးချိန် (၂.၃ ကာရက်)" က ဆက်တိုက် အရေအတွက်ဆိုင်ရာ ဒေတာပါ။ "ဈေးနှုန်း (ကျပ် ၅,၀၀၀,၀၀၀)" က ဆက်တိုက် အရေအတွက်ဆိုင်ရာ ဒေတာပါ။ ဆန်းစစ်ချိန်မှာ ဒေတာ အမျိုးအစားတိုင်းကို သင့်တော်တဲ့ နည်းလမ်းနဲ့ ကိုင်တွယ်ရပါတယ်။

လက်တွေ့ အသုံးချချက်

ဒေတာ အမျိုးအစား ခွဲခြားသိခြင်းက နေ့စဉ် ဘဝမှာ အသုံးဝင်ပါတယ်။ ဈေးကွက်စစ်တမ်း ပြုလုပ်ချိန်မှာ "ခင်ဗျားရဲ့ အကြိုက်ဆုံး လက်ဖက်ရည်ဆိုင်" ဆိုတာ အရည်အသွေးဆိုင်ရာ ဒေတာ (အမျိုးအစား) ဖြစ်ပြီး "တစ်ပတ်မှာ ဘယ်နှစ်ခါ လာတယ်" ဆိုတာ ကွဲကွဲပြားပြား ဒေတာ ဖြစ်ပါတယ်။ ဒေတာ အမျိုးအစား မှားရင် ဆန်းစစ်မှု တစ်ခုလုံး မှားနိုင်ပါတယ်။

အဓိကအချက်

ဒေတာကို အရည်အသွေးဆိုင်ရာ (အမျိုးအစားများ) နဲ့ အရေအတွက်ဆိုင်ရာ (ကိန်းဂဏန်းများ) ဟု ခွဲခြားနိုင်ပါတယ်။ အရေအတွက်ဆိုင်ရာ ဒေတာကို ကွဲကွဲပြားပြား (ရေတွက်နိုင်) နဲ့ ဆက်တိုက် (တိုင်းတာနိုင်) ဟု ထပ်မံ ခွဲခြားနိုင်ပါတယ်။ ဖွဲ့စည်းထားတဲ့ ဒေတာက ဇယားတွေမှာ ကျနကျန ရှိပြီး ဖွဲ့စည်းမထားတဲ့ ဒေတာက စာသား၊ ဓာတ်ပုံ စသည်ဖြင့် ဖြစ်ပါတယ်။ ဒေတာ အမျိုးအစားကို မှန်ကန်စွာ ခွဲခြားသိမြင်ခြင်းက မှန်ကန်တဲ့ ဆန်းစစ်မှု နည်းလမ်း ရွေးချယ်ဖို့ ပထမခြေလှမ်းပါ။