جب آپ کا ڈیٹا اعداد نہیں ہے
تمام ڈیٹا قد، وزن یا نمبروں جیسی پیمائشوں پر مشتمل نہیں ہوتا۔ بعض اوقات آپ کا ڈیٹا زمروں کے بارے میں ہوتا ہے - ہاں یا نہیں، برانڈ کی ترجیح، منتخب رنگ، یا کھانے کی قسم۔ جب آپ جاننا چاہتے ہیں کہ دو زمرے ایک دوسرے سے تعلق رکھتے ہیں تو ایک مختلف اوزار کی ضرورت ہوتی ہے۔ وہ اوزار کائی مربع ٹیسٹ ہے (تلفظ: "کائی مربع")۔
بنیادی سوال
کائی مربع ٹیسٹ پوچھتا ہے: "مشاہدہ شدہ تعدد اور متوقع تعدد میں فرق اتنا بڑا ہے کہ اتفاق سے نہیں ہو سکتا؟"
ایک ریستوران جاننا چاہتا ہے کیا کھانے کی ترجیح (بریانی، کڑاہی، نہاری) صوبے سے تعلق رکھتی ہے (پنجاب، سندھ، خیبر پختونخوا)۔
اگر کوئی تعلق نہ ہوتا تو ہر صوبے میں ہر کھانے کی ترجیح تقریباً برابر ہوتی۔ کائی مربع ٹیسٹ جانچتا ہے کہ اصل تعداد متوقع سے کتنی مختلف ہے۔
حساب کا طریقہ
- مشاہدہ شدہ تعدد لکھیں: اصل ڈیٹا سے گنتی۔
- متوقع تعدد نکالیں: اگر کوئی تعلق نہ ہوتا تو ہر خانے میں کتنی تعداد ہونی چاہیے تھی۔
- فارمولا لگائیں: χ² = Σ [(مشاہدہ - متوقع)² ÷ متوقع]
- P-value نکالیں: آزادی کے درجات اور χ² قدر سے۔
300 لوگوں سے پوچھا: "آپ PSL دیکھتے ہیں؟" جنس کے لحاظ سے:
| ہاں | نہیں | کل | |
| مرد | 120 | 30 | 150 |
| خواتین | 90 | 60 | 150 |
| کل | 210 | 90 | 300 |
اگر جنس اور PSL دیکھنے میں کوئی تعلق نہ ہوتا تو ہر گروہ میں 70 فیصد (210/300) ہاں کہتے۔
متوقع: مرد-ہاں = 150 × 0.70 = 105۔ مرد-نہیں = 45۔ خواتین-ہاں = 105۔ خواتین-نہیں = 45۔
χ² = (120-105)²/105 + (30-45)²/45 + (90-105)²/105 + (60-45)²/45
= 2.14 + 5.0 + 2.14 + 5.0 = 14.28
P-value بہت چھوٹا (< 0.001)۔ نتیجہ: جنس اور PSL دیکھنے میں شماریاتی طور پر اہم تعلق ہے۔
کب استعمال کریں
- دونوں متغیرات زمرہ جاتی ہوں (اسمی یا ترتیبی)
- ڈیٹا تعدد/گنتی ہو (فیصد نہیں)
- نمونہ کافی بڑا ہو (عموماً ہر خانے میں متوقع تعدد 5 سے زیادہ)
حقیقی دنیا میں استعمال
ایک تعلیمی محقق جاننا چاہتا ہے کیا سکول کی قسم (سرکاری/پرائیویٹ) اور میٹرک میں پوزیشن (A+/A/B/C) میں تعلق ہے۔ 500 طلبا کا ڈیٹا جمع کرتا ہے اور کائی مربع ٹیسٹ لگاتا ہے۔
اگر P-value < 0.05 تو سکول کی قسم اور نتائج میں شماریاتی تعلق ہے۔ لیکن یاد رکھیں: اس کا مطلب سرکاری سکول خراب نتائج کا "سبب" بنتا ہے ضروری نہیں - بہت سے الجھانے والے متغیرات (خاندانی آمدنی، علاقہ، وسائل) ہو سکتے ہیں۔
اہم تنبیہات
- کائی مربع تعلق بتاتا ہے، سببیت نہیں۔
- یہ تعلق کی سمت نہیں بتاتا - صرف یہ کہ تعلق ہے یا نہیں۔
- بہت بڑے نمونوں میں چھوٹا فرق بھی "اہم" نکل سکتا ہے - اثر کا حجم بھی دیکھیں (Cramér's V)۔
کائی مربع ٹیسٹ زمرہ جاتی ڈیٹا میں تعلق جانچنے کا اوزار ہے۔ یہ مشاہدہ شدہ تعدد کا متوقع تعدد (اگر کوئی تعلق نہ ہوتا) سے موازنہ کرتا ہے۔ بڑا فرق بتاتا ہے تعلق ہے۔ لیکن یاد رکھیں: یہ تعلق ثابت کرتا ہے، سببیت نہیں۔ ہمیشہ اثر کے حجم اور ممکنہ الجھانے والے متغیرات پر غور کریں۔