کائی مربع ٹیسٹ

مشکل: درمیانی پڑھنے کا وقت: 12 منٹ

جب آپ کا ڈیٹا اعداد نہیں ہے

تمام ڈیٹا قد، وزن یا نمبروں جیسی پیمائشوں پر مشتمل نہیں ہوتا۔ بعض اوقات آپ کا ڈیٹا زمروں کے بارے میں ہوتا ہے - ہاں یا نہیں، برانڈ کی ترجیح، منتخب رنگ، یا کھانے کی قسم۔ جب آپ جاننا چاہتے ہیں کہ دو زمرے ایک دوسرے سے تعلق رکھتے ہیں تو ایک مختلف اوزار کی ضرورت ہوتی ہے۔ وہ اوزار کائی مربع ٹیسٹ ہے (تلفظ: "کائی مربع")۔

30 A 25 B 28 C 17 D

بنیادی سوال

کائی مربع ٹیسٹ پوچھتا ہے: "مشاہدہ شدہ تعدد اور متوقع تعدد میں فرق اتنا بڑا ہے کہ اتفاق سے نہیں ہو سکتا؟"

مثال

ایک ریستوران جاننا چاہتا ہے کیا کھانے کی ترجیح (بریانی، کڑاہی، نہاری) صوبے سے تعلق رکھتی ہے (پنجاب، سندھ، خیبر پختونخوا)۔

اگر کوئی تعلق نہ ہوتا تو ہر صوبے میں ہر کھانے کی ترجیح تقریباً برابر ہوتی۔ کائی مربع ٹیسٹ جانچتا ہے کہ اصل تعداد متوقع سے کتنی مختلف ہے۔

حساب کا طریقہ

  1. مشاہدہ شدہ تعدد لکھیں: اصل ڈیٹا سے گنتی۔
  2. متوقع تعدد نکالیں: اگر کوئی تعلق نہ ہوتا تو ہر خانے میں کتنی تعداد ہونی چاہیے تھی۔
  3. فارمولا لگائیں: χ² = Σ [(مشاہدہ - متوقع)² ÷ متوقع]
  4. P-value نکالیں: آزادی کے درجات اور χ² قدر سے۔
مثال

300 لوگوں سے پوچھا: "آپ PSL دیکھتے ہیں؟" جنس کے لحاظ سے:

ہاںنہیںکل
مرد12030150
خواتین9060150
کل21090300

اگر جنس اور PSL دیکھنے میں کوئی تعلق نہ ہوتا تو ہر گروہ میں 70 فیصد (210/300) ہاں کہتے۔

متوقع: مرد-ہاں = 150 × 0.70 = 105۔ مرد-نہیں = 45۔ خواتین-ہاں = 105۔ خواتین-نہیں = 45۔

χ² = (120-105)²/105 + (30-45)²/45 + (90-105)²/105 + (60-45)²/45

= 2.14 + 5.0 + 2.14 + 5.0 = 14.28

P-value بہت چھوٹا (< 0.001)۔ نتیجہ: جنس اور PSL دیکھنے میں شماریاتی طور پر اہم تعلق ہے۔

کب استعمال کریں

  • دونوں متغیرات زمرہ جاتی ہوں (اسمی یا ترتیبی)
  • ڈیٹا تعدد/گنتی ہو (فیصد نہیں)
  • نمونہ کافی بڑا ہو (عموماً ہر خانے میں متوقع تعدد 5 سے زیادہ)

حقیقی دنیا میں استعمال

مثال

ایک تعلیمی محقق جاننا چاہتا ہے کیا سکول کی قسم (سرکاری/پرائیویٹ) اور میٹرک میں پوزیشن (A+/A/B/C) میں تعلق ہے۔ 500 طلبا کا ڈیٹا جمع کرتا ہے اور کائی مربع ٹیسٹ لگاتا ہے۔

30 مشا A 25 متو A 15 مشا B 25 متو B 35 مشا C 25 متو C 20 مشا D 25 متو D

اگر P-value < 0.05 تو سکول کی قسم اور نتائج میں شماریاتی تعلق ہے۔ لیکن یاد رکھیں: اس کا مطلب سرکاری سکول خراب نتائج کا "سبب" بنتا ہے ضروری نہیں - بہت سے الجھانے والے متغیرات (خاندانی آمدنی، علاقہ، وسائل) ہو سکتے ہیں۔

اہم تنبیہات

  • کائی مربع تعلق بتاتا ہے، سببیت نہیں۔
  • یہ تعلق کی سمت نہیں بتاتا - صرف یہ کہ تعلق ہے یا نہیں۔
  • بہت بڑے نمونوں میں چھوٹا فرق بھی "اہم" نکل سکتا ہے - اثر کا حجم بھی دیکھیں (Cramér's V)۔
اہم نکتہ

کائی مربع ٹیسٹ زمرہ جاتی ڈیٹا میں تعلق جانچنے کا اوزار ہے۔ یہ مشاہدہ شدہ تعدد کا متوقع تعدد (اگر کوئی تعلق نہ ہوتا) سے موازنہ کرتا ہے۔ بڑا فرق بتاتا ہے تعلق ہے۔ لیکن یاد رکھیں: یہ تعلق ثابت کرتا ہے، سببیت نہیں۔ ہمیشہ اثر کے حجم اور ممکنہ الجھانے والے متغیرات پر غور کریں۔