ডেটা মানে কী?
ডেটা হলো তথ্যের টুকরো যা আমরা সংগ্রহ করি। আপনার ফোনের কন্টাক্ট লিস্ট, SSC পরীক্ষার ফলাফল, বাজারের চালের দাম, ঢাকা শহরের তাপমাত্রার রেকর্ড - সব কিছুই ডেটা। কিন্তু সব ডেটা একই রকম নয়। পরিসংখ্যানে সঠিক বিশ্লেষণ করতে হলে প্রথমে জানতে হবে আপনি কোন ধরনের ডেটা নিয়ে কাজ করছেন।
বড় দুটো ভাগ: গুণগত আর পরিমাণগত
সব ডেটাকে মোটামুটি দুই ভাগে ভাগ করা যায়। এটা বোঝা খুবই গুরুত্বপূর্ণ, কারণ এর উপর নির্ভর করে আপনি কোন ধরনের বিশ্লেষণ করবেন।
গুণগত (Qualitative) ডেটা
এই ধরনের ডেটা বৈশিষ্ট্য বা গুণ বর্ণনা করে। এগুলো সংখ্যা নয়, বরং শ্রেণি বা ক্যাটাগরি। আপনি এগুলো যোগ-বিয়োগ করতে পারবেন না - কারণ এদের কোনো গাণিতিক মান নেই।
গুণগত ডেটার কিছু উদাহরণ:
- বিভাগ: ঢাকা, চট্টগ্রাম, রাজশাহী, খুলনা
- রক্তের গ্রুপ: A, B, AB, O
- পছন্দের ক্রিকেট দল: বাংলাদেশ, ভারত, অস্ট্রেলিয়া
- পেশা: শিক্ষক, ডাক্তার, ইঞ্জিনিয়ার, গার্মেন্টস কর্মী
- বৈবাহিক অবস্থা: বিবাহিত, অবিবাহিত
লক্ষ্য করুন - "ঢাকা + চট্টগ্রাম" বলে কোনো কিছু হয় না। এগুলো গণনা করা যায় (কতজন ঢাকায় থাকে), কিন্তু নিজেরা সংখ্যা নয়।
পরিমাণগত (Quantitative) ডেটা
এই ডেটা সংখ্যা দিয়ে প্রকাশ করা হয় এবং এদের সাথে গাণিতিক কাজ করা যায়। এগুলো পরিমাপ বা গণনা করা হয়।
পরিমাণগত ডেটার কিছু উদাহরণ:
- SSC পরীক্ষায় প্রাপ্ত নম্বর: ৭৮, ৮৫, ৯২
- মাসিক আয়: ২৫,০০০ টাকা, ৪০,০০০ টাকা
- উচ্চতা: ৫ ফুট ৪ ইঞ্চি, ৫ ফুট ৯ ইঞ্চি
- পরিবারের সদস্য সংখ্যা: ৩, ৫, ৭
- ঢাকায় দৈনিক তাপমাত্রা: ৩২°সে, ৩৫°সে
এগুলো যোগ করা যায়, গড় বের করা যায়, তুলনা করা যায়।
পরিমাণগত ডেটার দুই ধরন
পরিমাণগত ডেটাকে আবার দুই ভাগে ভাগ করা যায়, এবং এই পার্থক্যটা জানা দরকার।
বিচ্ছিন্ন (Discrete) ডেটা
বিচ্ছিন্ন ডেটা গোনা যায় এবং নির্দিষ্ট মান নেয়। দুটো মানের মাঝে কোনো মান থাকতে পারে না। আপনার পরিবারে ৩.৫ জন সদস্য থাকতে পারে না - হয় ৩, না হয় ৪।
বিচ্ছিন্ন ডেটা:
- একটা ওভারে বাউন্ডারির সংখ্যা: ০, ১, ২, ৩...
- একটা পরিবারে সন্তান সংখ্যা: ০, ১, ২, ৩...
- একটা ক্লাসে উপস্থিত ছাত্রছাত্রীর সংখ্যা: ৩০, ৩২, ২৮...
- একটা দোকানে দিনে বিক্রি হওয়া শাড়ির সংখ্যা: ৫, ১২, ৮...
অবিচ্ছিন্ন (Continuous) ডেটা
অবিচ্ছিন্ন ডেটা একটা পরিসরের মধ্যে যেকোনো মান নিতে পারে। দুটো মানের মাঝে সবসময় আরেকটা মান সম্ভব। এটা মাপা হয়, গোনা হয় না।
অবিচ্ছিন্ন ডেটা:
- শরীরের ওজন: ৬৫.৩ কেজি, ৬৫.৩৫ কেজি - যত সূক্ষ্ম মাপবেন তত দশমিকের পর সংখ্যা বাড়বে
- ঢাকা থেকে চট্টগ্রামের দূরত্ব: ২৬৩.৫ কিলোমিটার
- দিনের তাপমাত্রা: ৩২.৭°সে
- একটা গার্মেন্টস ফ্যাক্টরিতে শার্ট সেলাইয়ের সময়: ১২.৫ মিনিট
কেন এই পার্থক্য গুরুত্বপূর্ণ?
আপনি হয়তো ভাবছেন - এত ভাগাভাগি করে কী হবে? উত্তরটা সোজা: ভুল ধরনের ডেটায় ভুল পদ্ধতি ব্যবহার করলে ভুল ফলাফল পাবেন।
- গুণগত ডেটায় গড় বের করা যায় না। "ঢাকা" আর "চট্টগ্রাম"-এর গড় কী? কোনো মানে হয় না। কিন্তু আপনি গুণগত ডেটায় প্রচুরক (mode) বের করতে পারেন - সবচেয়ে বেশি কতজন কোন বিভাগের।
- বিচ্ছিন্ন ডেটায় দশমিক উত্তর সবসময় যুক্তিসঙ্গত নয়। "গড়ে ২.৩ সন্তান" গাণিতিকভাবে ঠিক, কিন্তু বাস্তবে ২.৩ সন্তান হয় না।
- চার্ট নির্বাচন নির্ভর করে ডেটার ধরনের উপর। গুণগত ডেটার জন্য বার চার্ট বা পাই চার্ট ভালো, অবিচ্ছিন্ন ডেটার জন্য হিস্টোগ্রাম বা লাইন গ্রাফ।
বাস্তব উদাহরণ: আদমশুমারি
বাংলাদেশ পরিসংখ্যান ব্যুরো (BBS) যখন আদমশুমারি করে, তখন তারা দুই ধরনের ডেটাই সংগ্রহ করে:
- গুণগত: ধর্ম, পেশা, শিক্ষাগত যোগ্যতা, বসবাসের জেলা
- পরিমাণগত বিচ্ছিন্ন: পরিবারের সদস্য সংখ্যা, ঘরের সংখ্যা
- পরিমাণগত অবিচ্ছিন্ন: মাসিক আয়, জমির পরিমাণ (একর/শতাংশে)
প্রতিটা ধরনের ডেটা আলাদাভাবে বিশ্লেষণ করা হয়। ধর্মভিত্তিক জনসংখ্যার হিসাব (গুণগত) আর গড় পরিবারের আকার (পরিমাণগত) বের করার পদ্ধতি আলাদা।
দ্রুত পরীক্ষা: নিজে চেষ্টা করুন
নিচের প্রতিটা ডেটা কোন ধরনের ভাবুন:
- একটা ক্রিকেট ম্যাচে দলের মোট রান (উত্তর: পরিমাণগত, বিচ্ছিন্ন)
- জার্সির রং (উত্তর: গুণগত)
- একজন বোলারের বলের গতি কিমি/ঘণ্টায় (উত্তর: পরিমাণগত, অবিচ্ছিন্ন)
- ম্যান অফ দ্য ম্যাচ পুরস্কার বিজয়ীর নাম (উত্তর: গুণগত)
- স্টেডিয়ামে দর্শক সংখ্যা (উত্তর: পরিমাণগত, বিচ্ছিন্ন)
ডেটা দুই ধরনের: গুণগত (শ্রেণি বা বৈশিষ্ট্য) এবং পরিমাণগত (সংখ্যা)। পরিমাণগত ডেটা আবার বিচ্ছিন্ন (গোনা যায়) এবং অবিচ্ছিন্ন (মাপা হয়) হতে পারে। সঠিক বিশ্লেষণ পদ্ধতি বেছে নেওয়ার জন্য ডেটার ধরন চেনা প্রথম পদক্ষেপ। ভুল ডেটায় ভুল পদ্ধতি মানে ভুল সিদ্ধান্ত।