শুধু কেন্দ্র জানলেই হয় না
আগের পাঠে আমরা শিখেছি ডেটার কেন্দ্র কীভাবে বোঝা যায় - গড়, মধ্যমা, প্রচুরক। কিন্তু শুধু কেন্দ্র জানলে পুরো ছবি বোঝা যায় না। ডেটা কতটা ছড়িয়ে আছে সেটাও জানা দরকার।
দুটো ক্রিকেট দলের শেষ ৫ ম্যাচের রান:
দল ক: ১৪৮, ১৫০, ১৫২, ১৪৯, ১৫১ - গড় ১৫০
দল খ: ৮০, ১২০, ১৫০, ২০০, ২০০ - গড় ১৫০
দুই দলের গড় একই! কিন্তু দল ক খুব ধারাবাহিক (consistent), আর দল খ অত্যন্ত ওঠানামা করছে। ক্যাপ্টেন হিসেবে কোন দল বেশি নির্ভরযোগ্য? নিশ্চয়ই দল ক।
পরিসর (Range): সবচেয়ে সহজ মাপ
পরিসর হলো সর্বোচ্চ আর সর্বনিম্ন মানের পার্থক্য।
পরিসর = সর্বোচ্চ মান - সর্বনিম্ন মান
উপরের দুই দলের পরিসর:
দল ক: ১৫২ - ১৪৮ = ৪ রান
দল খ: ২০০ - ৮০ = ১২০ রান
পরিসর স্পষ্ট বলছে দল খ-এর পারফরম্যান্স অনেক বেশি ওঠানামা করে।
পরিসরের সীমাবদ্ধতা
পরিসর শুধু দুটো মান (সর্বোচ্চ আর সর্বনিম্ন) দেখে - মাঝখানের ডেটা সম্পূর্ণ উপেক্ষা করে। তাই একটা চরম মান পরিসরকে অনেক বড় করে দিতে পারে।
দৈনিক তাপমাত্রা (°সে): ৩০, ৩১, ৩২, ৩১, ৩০, ৩২, ৩১, ৩০, ৩১, ৪২
পরিসর = ৪২ - ৩০ = ১২°সে
কিন্তু ৪২°সে সম্ভবত একটা অস্বাভাবিক দিন ছিল। বাকি ৯ দিনের পরিসর মাত্র ২°সে। একটা চরম মান পুরো ছবি বদলে দিলো।
ভেদাঙ্ক (Variance): পুরো ডেটা দেখে
ভেদাঙ্ক পরিসরের চেয়ে ভালো কারণ এটা সব মান বিবেচনা করে। মূল ধারণা: প্রতিটা মান গড় থেকে কতটা দূরে সেটা মাপা।
ভেদাঙ্ক হিসাবের ধাপ
- গড় বের করুন
- প্রতিটা মান থেকে গড় বিয়োগ করুন (বিচ্যুতি)
- প্রতিটা বিচ্যুতিকে বর্গ করুন (ঋণাত্মক দূর করতে)
- বর্গ বিচ্যুতিগুলোর গড় বের করুন
পাঁচটা চায়ের দোকানে এক কাপ চায়ের দাম (টাকা): ১০, ১২, ১৫, ১৮, ২০
ধাপ ১: গড় = (১০+১২+১৫+১৮+২০) ÷ ৫ = ৭৫ ÷ ৫ = ১৫ টাকা
ধাপ ২ ও ৩: বিচ্যুতি ও বর্গ:
- ১০ - ১৫ = -৫, বর্গ = ২৫
- ১২ - ১৫ = -৩, বর্গ = ৯
- ১৫ - ১৫ = ০, বর্গ = ০
- ১৮ - ১৫ = ৩, বর্গ = ৯
- ২০ - ১৫ = ৫, বর্গ = ২৫
ধাপ ৪: ভেদাঙ্ক = (২৫+৯+০+৯+২৫) ÷ ৫ = ৬৮ ÷ ৫ = ১৩.৬
কেন বর্গ করি?
বিচ্যুতিগুলো সরাসরি যোগ করলে ধনাত্মক আর ঋণাত্মক মান কেটে গিয়ে সবসময় ০ হয়। বর্গ করলে সব ধনাত্মক হয়ে যায় - তাই আসল ছড়ানো পরিমাণ ধরা পড়ে।
জনসংখ্যা ভেদাঙ্ক বনাম নমুনা ভেদাঙ্ক
একটা ছোট কিন্তু গুরুত্বপূর্ণ পার্থক্য:
- জনসংখ্যা ভেদাঙ্ক: n দিয়ে ভাগ (পুরো ডেটা থাকলে)
- নমুনা ভেদাঙ্ক: n-১ দিয়ে ভাগ (নমুনা থেকে হিসাব করলে)
n-১ ব্যবহারের কারণ গাণিতিক - এটা জনসংখ্যা ভেদাঙ্কের আরো নির্ভুল অনুমান দেয়। বাস্তবে আমরা প্রায়ই নমুনা নিয়ে কাজ করি, তাই n-১ দিয়ে ভাগ বেশি ব্যবহৃত।
ভেদাঙ্কের একটা সমস্যা
চায়ের দামের ভেদাঙ্ক ১৩.৬ পেলাম - কিন্তু এর একক কী? টাকার বর্গ? "টাকা²" বলে কিছু বোঝা যায় না! এই সমস্যার সমাধান হলো আদর্শ বিচ্যুতি - পরের পাঠে সেটা শিখবো। আদর্শ বিচ্যুতি হলো ভেদাঙ্কের বর্গমূল, যেটার একক আসল ডেটার মতোই থাকে।
বাস্তব উদাহরণ: চালের দামের ওঠানামা
দুটো বাজারে এক কেজি মিনিকেট চালের দাম গত ৫ সপ্তাহে:
কারওয়ান বাজার: ৬২, ৬৩, ৬৫, ৬৪, ৬৬ টাকা
একটা গ্রামের হাট: ৫৫, ৬০, ৭০, ৫৮, ৭৭ টাকা
দুটোরই গড় প্রায় ৬৪ টাকা। কিন্তু:
- কারওয়ান বাজার: পরিসর = ৪ টাকা - দাম স্থিতিশীল
- গ্রামের হাট: পরিসর = ২২ টাকা - দাম অনেক ওঠানামা করে
পরিকল্পনা করতে হলে শুধু গড় দাম না, দামের স্থিতিশীলতাও জানা দরকার।
পরিসর হলো সর্বোচ্চ ও সর্বনিম্নের পার্থক্য - সহজ কিন্তু চরম মানে প্রভাবিত। ভেদাঙ্ক প্রতিটা মান গড় থেকে কতটা দূরে সেটা মাপে - আরো সম্পূর্ণ চিত্র দেয়। ডেটার কেন্দ্র (গড়/মধ্যমা) আর ছড়ানো (পরিসর/ভেদাঙ্ক) - দুটোই জানা দরকার পুরো ছবি বুঝতে।