اوسطوں میں ایک حیران کن نمونہ
تصور کریں آپ اسلام آباد میں ایک بیکری چلاتے ہیں۔ ہر روز مختلف تعداد میں نان فروخت ہوتے ہیں - کبھی 40، کبھی 120، کبھی 75۔ روزانہ فروخت کا کوئی صاف نمونہ نہیں - سب بے ترتیب ہے۔
لیکن ایک حیران کن بات ہے۔ اگر آپ ہر ہفتے کی اوسط فروخت لکھیں، ہفتہ در ہفتہ، تو وہ ہفتہ وار اوسطیں ایک مانوس بیل کرو شکل میں جمع ہونا شروع ہو جاتی ہیں۔ روزانہ اعداد بے ترتیب اور بے قاعدہ تھے لیکن اوسطیں منظم ہو گئیں۔
یہی مرکزی حد نظریہ (CLT) ہے - شماریات کے سب سے اہم خیالات میں سے ایک۔
نظریہ کیا کہتا ہے
مرکزی حد نظریہ کہتا ہے: اگر آپ آبادی سے بار بار کافی بڑے نمونے لیں اور ہر نمونے کی اوسط نکالیں تو ان اوسطوں کی تقسیم تقریباً نارمل (بیل کرو) ہوگی - چاہے اصل آبادی کی تقسیم کچھ بھی ہو۔
یہ حیرت انگیز ہے۔ اصل ڈیٹا ترچھا ہو سکتا ہے، یکساں ہو سکتا ہے، U شکل میں ہو سکتا ہے - اوسطیں پھر بھی بیل کرو بنائیں گی۔
پاکستان میں آمدنی کی تقسیم بہت ترچھی ہے - زیادہ تر لوگ کم کماتے ہیں اور چند بہت زیادہ۔ یہ بالکل بیل کرو نہیں ہے۔
لیکن اگر آپ بے ترتیب طور پر 50 لوگوں کا نمونہ لیں، اوسط نکالیں، اور یہ عمل 1,000 بار دہرائیں، تو ان 1,000 اوسطوں کا ہسٹوگرام بیل کرو ہوگا۔
اصل تقسیم ترچھی تھی لیکن اوسطوں کی تقسیم نارمل ہے۔ یہی CLT کا جادو ہے۔
نمونے کا حجم کتنا بڑا ہونا چاہیے؟
عام طور پر 30 یا اس سے زیادہ کا نمونہ کافی ہے۔ اگر اصل تقسیم پہلے سے تقریباً نارمل ہے تو چھوٹا نمونہ بھی کام کرے گا۔ اگر اصل تقسیم بہت ترچھی یا عجیب ہے تو بڑے نمونے کی ضرورت ہے۔
یہ اتنا اہم کیوں ہے
CLT وہ بنیاد ہے جس پر زیادہ تر استنباطی شماریات کھڑی ہے:
- اعتماد کے وقفے اس پر انحصار کرتے ہیں کہ نمونے کی اوسط تقریباً نارمل تقسیم ہوتی ہے۔
- فرضیے کی جانچ اسی اصول پر مبنی ہے۔
- سروے اور رائے شماری - جب 1,500 لوگوں سے 22 کروڑ کے بارے میں نتائج نکالے جاتے ہیں تو CLT ہی اس کو ممکن بناتا ہے۔
PBS جب پاکستان کی اوسط گھریلو آمدنی رپورٹ کرتا ہے تو وہ ہر گھرانے سے نہیں پوچھتا۔ وہ ہزاروں گھرانوں کا نمونہ لیتا ہے۔ CLT کی بدولت وہ جانتا ہے کہ نمونے کی اوسط حقیقی اوسط کے قریب ہوگی اور اس اندازے میں کتنا ممکنہ فرق ہو سکتا ہے۔
نمونے کی اوسط کا معیاری خطا
CLT ایک اور اہم بات بتاتا ہے: نمونے کی اوسطوں کا پھیلاؤ نمونے کے حجم کے بڑھنے سے کم ہوتا ہے۔ اسے "معیاری خطا" کہتے ہیں:
معیاری خطا = معیاری انحراف ÷ √نمونے کا حجم
فرض کریں پاکستانی مردوں کے قد کا معیاری انحراف 7 سینٹی میٹر ہے۔
25 لوگوں کا نمونہ: معیاری خطا = 7 ÷ √25 = 7 ÷ 5 = 1.4 سینٹی میٹر
100 لوگوں کا نمونہ: معیاری خطا = 7 ÷ √100 = 7 ÷ 10 = 0.7 سینٹی میٹر
نمونہ چار گنا بڑا کرنے سے معیاری خطا نصف ہو گیا۔ بڑا نمونہ = زیادہ درست اندازہ۔
ایک عام غلط فہمی
CLT یہ نہیں کہتا کہ اصل ڈیٹا نارمل ہو جائے گا۔ آمدنی کی تقسیم ترچھی ہے اور رہے گی۔ CLT کہتا ہے کہ نمونوں کی اوسطوں کی تقسیم نارمل ہوگی۔ اصل ڈیٹا اور نمونوں کی اوسطیں دو الگ چیزیں ہیں۔
مرکزی حد نظریہ شماریات کی بنیاد ہے۔ یہ بتاتا ہے کہ کافی بڑے نمونوں (عموماً 30+) کی اوسطوں کی تقسیم تقریباً نارمل ہوتی ہے - چاہے اصل ڈیٹا کسی بھی شکل کا ہو۔ یہی وجہ ہے کہ ہم نمونوں سے پوری آبادی کے بارے میں قابل اعتماد نتائج نکال سکتے ہیں۔ معیاری خطا بتاتا ہے کہ ہمارا اندازہ کتنا درست ہے، اور یہ نمونے کے حجم کے بڑھنے سے کم ہوتا ہے۔