ایک رجحان جو الٹ جاتا ہے
تصور کریں آپ دو ہسپتالوں کا موازنہ کر رہے ہیں۔ ہسپتال A میں دل کی سرجری کے مریضوں کی بقا کی شرح ہسپتال B سے زیادہ ہے۔ ہسپتال A میں عام سرجری کے مریضوں کی بھی۔ تو مجموعی طور پر ہسپتال A بہتر ہونا چاہیے، ہے نا؟ ضروری نہیں۔ ڈیٹا ملانے پر ہسپتال B کی مجموعی بقا شرح زیادہ ہو سکتی ہے۔ یہ سمپسن کا تضاد ہے۔
برکلے داخلے کا واقعہ
1973 میں، برکلے کے مجموعی گریجویٹ داخلے کے ڈیٹا سے معلوم ہوا کہ 44% مرد درخواست دہندگان کو داخلہ ملا بمقابلہ صرف 35% خواتین۔
لیکن ہر شعبے کو الگ دیکھنے پر زیادہ تر شعبوں میں خواتین کو برابر یا زیادہ شرح سے داخلہ ملا تھا۔ خواتین نے سب سے مقابلے والے شعبوں میں درخواست دی تھی۔
یہ کیوں ہوتا ہے: پوشیدہ متغیرات
سمپسن کا تضاد پوشیدہ متغیر کی وجہ سے ہوتا ہے جو گروہوں کے درمیان ڈیٹا کا مرکب بدل دیتا ہے۔
ایک کمپنی کے دو ڈویژن ہیں۔ ڈویژن X میں نئے پروگرام نے 50 میں سے 40 (80%) کی کارکردگی بہتر کی۔ ڈویژن Y میں 10 میں سے 9 (90%) کی۔ مجموعی شرح 60 میں سے 49 یعنی 82%۔ دوسری کمپنی کا پروگرام ڈویژن X میں 20 میں سے 17 (85%) اور ڈویژن Y میں 40 میں سے 38 (95%)۔ ان کی مجموعی شرح 60 میں سے 55 یعنی 92%۔ دوسری کمپنی مجموعی طور پر بہتر لگتی ہے لیکن پہلی نے دونوں ڈویژنوں میں بہتر شرح حاصل کی۔
طب اور کاروبار میں
طب میں یہ تضاد علاج کے موازنوں پر اثر ڈال سکتا ہے۔ کاروبار میں تبادلے کی شرحوں میں دکھ سکتا ہے۔ مجموعی اعداد پر فیصلے آپ کو بہترین چینل ختم کرنے پر مجبور کر سکتے ہیں۔
دھوکے سے کیسے بچیں
ہمیشہ غور کریں کہ کیا ذیلی گروہ ہیں جو مختلف کہانی بتا سکتے ہیں۔ جب بھی ممکن ہو ڈیٹا دونوں طریقوں سے دیکھیں۔ مجموعی اور ذیلی گروہی تجزیے متفق ہوں تو زیادہ اعتماد ہو سکتا ہے۔ متفق نہ ہوں تو نتائج نکالنے سے پہلے گہرائی میں کھودیں۔
سمپسن کا تضاد اس وقت ہوتا ہے جب ہر ذیلی گروہ میں موجود رجحان گروہ ملانے پر الٹ جاتا ہے۔ یہ اس لیے ہوتا ہے کہ پوشیدہ متغیر گروہوں میں ڈیٹا کی ساخت بدل دیتا ہے۔ علاج یہ ہے کہ اپنا ڈیٹا متعدد سطحوں پر دیکھیں اور ہمیشہ پوچھیں کہ کیا پوشیدہ ذیلی گروہ مجموعی نمونے کو چلا رہے ہیں۔