What is Simpson's paradox?

Simpson's paradox occurs when a trend that appears in grouped data reverses or disappears when the groups are combined.

What is a real example of Simpson's paradox?

A famous example is the UC Berkeley gender bias case, where overall admission rates favored men, but within each department, women had higher rates.

How do you avoid Simpson's paradox?

Always examine data at multiple levels of aggregation and control for lurking variables that may differ across subgroups.

Why does Simpson's paradox happen?

It happens when a confounding variable creates unequal group sizes or distributions, causing the combined data to tell a different story.

سمپسن کا تضاد

ایک رجحان جو الٹ جاتا ہے

تصور کریں آپ دو ہسپتالوں کا موازنہ کر رہے ہیں۔ ہسپتال A میں دل کی سرجری کے مریضوں کی بقا کی شرح ہسپتال B سے زیادہ ہے۔ ہسپتال A میں عام سرجری کے مریضوں کی بھی۔ تو مجموعی طور پر ہسپتال A بہتر ہونا چاہیے، ہے نا؟ ضروری نہیں۔ ڈیٹا ملانے پر ہسپتال B کی مجموعی بقا شرح زیادہ ہو سکتی ہے۔ یہ سمپسن کا تضاد ہے۔

برکلے داخلے کا واقعہ

1973 میں، برکلے کے مجموعی گریجویٹ داخلے کے ڈیٹا سے معلوم ہوا کہ 44% مرد درخواست دہندگان کو داخلہ ملا بمقابلہ صرف 35% خواتین۔

لیکن ہر شعبے کو الگ دیکھنے پر زیادہ تر شعبوں میں خواتین کو برابر یا زیادہ شرح سے داخلہ ملا تھا۔ خواتین نے سب سے مقابلے والے شعبوں میں درخواست دی تھی۔

یہ کیوں ہوتا ہے: پوشیدہ متغیرات

سمپسن کا تضاد پوشیدہ متغیر کی وجہ سے ہوتا ہے جو گروہوں کے درمیان ڈیٹا کا مرکب بدل دیتا ہے۔

مثال

ایک کمپنی کے دو ڈویژن ہیں۔ ڈویژن X میں نئے پروگرام نے 50 میں سے 40 (80%) کی کارکردگی بہتر کی۔ ڈویژن Y میں 10 میں سے 9 (90%) کی۔ مجموعی شرح 60 میں سے 49 یعنی 82%۔ دوسری کمپنی کا پروگرام ڈویژن X میں 20 میں سے 17 (85%) اور ڈویژن Y میں 40 میں سے 38 (95%)۔ ان کی مجموعی شرح 60 میں سے 55 یعنی 92%۔ دوسری کمپنی مجموعی طور پر بہتر لگتی ہے لیکن پہلی نے دونوں ڈویژنوں میں بہتر شرح حاصل کی۔

طب اور کاروبار میں

طب میں یہ تضاد علاج کے موازنوں پر اثر ڈال سکتا ہے۔ کاروبار میں تبادلے کی شرحوں میں دکھ سکتا ہے۔ مجموعی اعداد پر فیصلے آپ کو بہترین چینل ختم کرنے پر مجبور کر سکتے ہیں۔

دھوکے سے کیسے بچیں

ہمیشہ غور کریں کہ کیا ذیلی گروہ ہیں جو مختلف کہانی بتا سکتے ہیں۔ جب بھی ممکن ہو ڈیٹا دونوں طریقوں سے دیکھیں۔ مجموعی اور ذیلی گروہی تجزیے متفق ہوں تو زیادہ اعتماد ہو سکتا ہے۔ متفق نہ ہوں تو نتائج نکالنے سے پہلے گہرائی میں کھودیں۔

کلیدی نکتہ

سمپسن کا تضاد اس وقت ہوتا ہے جب ہر ذیلی گروہ میں موجود رجحان گروہ ملانے پر الٹ جاتا ہے۔ یہ اس لیے ہوتا ہے کہ پوشیدہ متغیر گروہوں میں ڈیٹا کی ساخت بدل دیتا ہے۔ علاج یہ ہے کہ اپنا ڈیٹا متعدد سطحوں پر دیکھیں اور ہمیشہ پوچھیں کہ کیا پوشیدہ ذیلی گروہ مجموعی نمونے کو چلا رہے ہیں۔