কেন্দ্রীয় সীমা উপপাদ্য

কঠিনতা: মধ্যবর্তী পড়ার সময়: 15 মিনিট

পরিসংখ্যানের সবচেয়ে গুরুত্বপূর্ণ উপপাদ্য

যদি বলি পরিসংখ্যানে একটা মাত্র ধারণা বোঝার সুযোগ আছে, সেটা হবে কেন্দ্রীয় সীমা উপপাদ্য (Central Limit Theorem বা CLT)। এটা ব্যাখ্যা করে কেন আমরা একটা ছোট নমুনা থেকে পুরো জনসংখ্যা সম্পর্কে নির্ভরযোগ্য কথা বলতে পারি। এটাই অনুমানমূলক পরিসংখ্যানের ভিত্তি।

0 9 18 27 36 42 46 47 48 49 50 51 52 53 54

মূল ধারণাটা কী?

কেন্দ্রীয় সীমা উপপাদ্য বলে: যদি আপনি একটা জনসংখ্যা থেকে বারবার যথেষ্ট বড় নমুনা নেন এবং প্রতিটা নমুনার গড় হিসাব করেন, তাহলে এই গড়গুলোর বিন্যাস প্রায় স্বাভাবিক (ঘণ্টা আকৃতির) হবে - জনসংখ্যার আসল বিন্যাস যাই হোক না কেন।

এটা অবিশ্বাস্য শোনায়। জনসংখ্যা হেলানো হতে পারে, সমতল হতে পারে, দুই চূড়াবিশিষ্ট হতে পারে - কিন্তু নমুনা গড়গুলো সবসময় ঘণ্টা বক্ররেখায় জড়ো হবে।

উদাহরণ

ধরুন ঢাকায় রিকশাচালকদের দৈনিক আয়ের বিন্যাস ডানদিকে হেলানো - বেশিরভাগ ৩০০-৫০০ টাকা আয় করে, কিন্তু কেউ কেউ অটো-রিকশায় ১৫০০+ টাকা। বিন্যাস স্বাভাবিক নয়।

এবার ধরুন আপনি বারবার ৫০ জন রিকশাচালকের নমুনা নিয়ে প্রতিবার গড় আয় হিসাব করলেন। ১০০ বার করলে ১০০টা গড় পাবেন। এই ১০০টা গড়ের বিন্যাস - আশ্চর্যজনকভাবে - প্রায় ঘণ্টা আকৃতির হবে! এবং এই গড়গুলোর কেন্দ্র হবে জনসংখ্যার আসল গড়ের কাছাকাছি।

তিনটি গুরুত্বপূর্ণ বৈশিষ্ট্য

১. নমুনা গড়ের বিন্যাস স্বাভাবিক হয়

জনসংখ্যার বিন্যাস যাই হোক। এটাই CLT-এর জাদু।

44 46 48 50 52 54 56

২. নমুনা গড়ের কেন্দ্র = জনসংখ্যার গড়

যদি রিকশাচালকদের আসল গড় আয় ৪৫০ টাকা হয়, তাহলে আপনার নমুনা গড়গুলোর কেন্দ্রও ৪৫০ টাকার কাছাকাছি হবে। নমুনা গড় জনসংখ্যার গড়ের "নিরপেক্ষ" অনুমান।

৩. নমুনা বড় হলে ছড়ানো কমে

বড় নমুনায় গড়গুলো আসল গড়ের আরো কাছাকাছি জড়ো হয়। গাণিতিকভাবে, নমুনা গড়ের আদর্শ বিচ্যুতি = জনসংখ্যার আদর্শ বিচ্যুতি ÷ √নমুনার আকার। তাই নমুনা চারগুণ করলে অনিশ্চয়তা অর্ধেক হয়।

উদাহরণ

বাংলাদেশে চালের দামের আদর্শ বিচ্যুতি ধরুন ১০ টাকা/কেজি।

  • ২৫টা দোকানের নমুনা: গড়ের আদর্শ বিচ্যুতি = ১০ ÷ √২৫ = ১০ ÷ ৫ = ২ টাকা
  • ১০০টা দোকানের নমুনা: গড়ের আদর্শ বিচ্যুতি = ১০ ÷ √১০০ = ১০ ÷ ১০ = ১ টাকা

১০০টা দোকানে জরিপ করলে আপনার অনুমান ২৫টার চেয়ে অর্ধেক অনিশ্চিত।

"যথেষ্ট বড়" মানে কত বড়?

সাধারণ নিয়ম: নমুনার আকার ৩০ বা তার বেশি হলে CLT কাজ করতে শুরু করে। তবে জনসংখ্যার বিন্যাস যত বেশি অসম, তত বড় নমুনা দরকার। আর জনসংখ্যা যদি আগে থেকেই স্বাভাবিক বিন্যাসে হয়, তাহলে ছোট নমুনাতেও কাজ হয়।

কেন এটা এত গুরুত্বপূর্ণ?

CLT ছাড়া আমরা নমুনা থেকে জনসংখ্যা সম্পর্কে কিছু বলতে পারতাম না - কারণ জানতাম না নমুনা গড় কোন বিন্যাস মানে। CLT বলে এটা স্বাভাবিক বিন্যাস - আর স্বাভাবিক বিন্যাসের গণিত আমরা খুব ভালো জানি। তাই:

40 1 25 2 15 3 10 4 6 5 4 6
  • আস্থা ব্যবধান তৈরি করতে পারি
  • প্রকল্প পরীক্ষণ চালাতে পারি
  • P-মান হিসাব করতে পারি

এই সবগুলো CLT-এর উপর দাঁড়িয়ে আছে।

উদাহরণ

BBS জানতে চায় বাংলাদেশের পরিবারগুলোর গড় মাসিক খরচ কত। তারা ৫,০০০ পরিবারের নমুনা নিয়ে দেখলো গড় খরচ ২৫,০০০ টাকা, আদর্শ বিচ্যুতি ৮,০০০ টাকা।

CLT অনুযায়ী, নমুনা গড়ের আদর্শ ত্রুটি = ৮,০০০ ÷ √৫,০০০ ≈ ১১৩ টাকা। তাই তারা ৯৫% আস্থায় বলতে পারে আসল গড় ২৫,০০০ ± ২২৬ টাকা, অর্থাৎ ২৪,৭৭৪ থেকে ২৫,২২৬ টাকার মধ্যে।

৫,০০০ পরিবার দিয়ে ৪ কোটি পরিবারের গড় সম্পর্কে এত নির্ভুল অনুমান - এটাই CLT-এর ক্ষমতা!

মূল বিষয়

কেন্দ্রীয় সীমা উপপাদ্য বলে যে যথেষ্ট বড় নমুনার গড় সবসময় প্রায় স্বাভাবিক বিন্যাস মানে - মূল ডেটা যেমনই হোক। এই কারণে আমরা ছোট নমুনা থেকে বিশাল জনসংখ্যা সম্পর্কে নির্ভরযোগ্য অনুমান করতে পারি। এটা আস্থা ব্যবধান, প্রকল্প পরীক্ষণ এবং আধুনিক পরিসংখ্যানের প্রায় সবকিছুর ভিত্তি।