Kitendawili cha Simpson

Kiwango cha Ugumu: Kati Muda wa Kusoma: 12 dakika

Mwenendo Unaobadilika

Fikiria unalinganisha hospitali mbili. Hospitali A ina kiwango cha juu cha kuishi kuliko Hospitali B kwa wagonjwa wa upasuaji wa moyo. Hospitali A pia ina kiwango cha juu cha kuishi kwa wagonjwa wa upasuaji wa kawaida. Kwa hivyo Hospitali A lazima iwe bora kwa jumla, sivyo? Si lazima. Unapochanganya data, Hospitali B inaweza kuwa na kiwango cha juu cha kuishi kwa jumla. Hii ni Kitendawili cha Simpson: mwenendo unaoonekana katika vikundi tofauti unabadilika au kutoweka vikundi vinapochanganywa.

Inaonekana haiwezekani, lakini inatokea mara kwa mara katika data halisi. Kitendawili kinatokea kwa sababu ya kutokuwa na usawa katika jinsi kesi zinavyosambazwa kati ya vikundi. Kuelewa hili ni muhimu kwa mtu yeyote anayefanya kazi na data au kusoma utafiti, kwa sababu nambari zilizojumuishwa zinaweza kusimulia hadithi inayopotosha kabisa.

Kesi ya Udahili wa Berkeley

Mfano maarufu zaidi wa Kitendawili cha Simpson unatoka Chuo Kikuu cha California, Berkeley. Mnamo 1973, data ya jumla ya udahili wa wahitimu ilionyesha kuwa 44% ya waombaji wa kiume walikubaliwa kulinganisha na 35% tu ya waombaji wa kike. Hii ilionekana kama ushahidi wazi wa ubaguzi wa kijinsia dhidi ya wanawake.

44 Wanaume (Jumla) 35 Wanawake (Jumla)

Lakini watafiti walipochunguza kila idara kivyake, walipata jambo la kushangaza. Katika idara nyingi, wanawake walikubaliwa kwa viwango sawa au hata vya juu kuliko wanaume. Hakukuwa na upendeleo wa kiwango cha idara dhidi ya wanawake. Basi nambari za jumla zingeonyeshaje pengo kama hilo?

Jibu lilikuwa kuwa wanawake kwa uwiano mkubwa waliomba katika idara zenye ushindani mkubwa zaidi, ambazo zilikuwa na viwango vya chini vya udahili kwa kila mtu. Wanaume walielekea kuomba katika idara zisizo na ushindani mkubwa zenye viwango vya juu vya udahili. Idara zote zilipochanganywa pamoja, tofauti za mahali wanaume na wanawake walioomba ziliunda udanganyifu wa upendeleo ambao haukuwepo katika kiwango cha idara.

62 Idara A - Wanaume 82 Idara A - Wanawake 63 Idara B - Wanaume 68 Idara B - Wanawake 6 Idara F - Wanaume 7 Idara F - Wanawake

Kama unavyoweza kuona katika data ya kiwango cha idara hapo juu, wanawake kweli walikuwa na viwango vya udahili vinavyolingana au bora ndani ya idara za mtu mmoja. Pengo la jumla lilisababishwa kabisa na muundo wa nani aliomba wapi.

Kwa Nini Kinatokea: Vigezo Vilivyofichwa

Kitendawili cha Simpson kinatokea kwa sababu ya kigezo kilichofichwa, kinachojulikana pia kama kigezo cha kuchanganya, kinachobadilisha mchanganyiko wa data kati ya vikundi. Katika mfano wa Berkeley, kigezo kilichofichwa kilikuwa chaguo la idara. Kilikuwa kinahusiana na jinsia (wanawake walichagua idara tofauti) na matokeo (idara fulani zilikuwa ngumu zaidi kuingia).

Fikiria kwa njia hii: ukichanganya data kutoka hali tofauti sana, uwiano wa kila hali katika kila kikundi unaweza kutawala matokeo. Kikundi kidogo chenye kiwango cha juu na kikundi kikubwa chenye kiwango cha chini kitazalisha kiwango cha jumla kinachovutwa kuelekea kikundi kikubwa. Vikundi viwili vikiwa na uwiano tofauti wa kesi "rahisi" na "ngumu," viwango vyao vya jumla vinaweza kubadilika.

Mfano

Kampuni ina vitengo viwili. Katika Kitengo X, programu mpya ya mafunzo iliboresha utendaji kwa 80% ya washiriki (40 kati ya 50). Katika Kitengo Y, iliboresha utendaji kwa 90% ya washiriki (9 kati ya 10). Kiwango cha jumla cha uboreshaji ni 49 kati ya 60, au takriban 82%. Wakati huo huo, programu ya kampuni nyingine iliboresha 85% katika Kitengo X (17 kati ya 20) na 95% katika Kitengo Y (38 kati ya 40). Kiwango chao cha jumla ni 55 kati ya 60, au takriban 92%. Kampuni ya pili inaonekana bora kwa jumla, lakini programu ya kampuni ya kwanza ilikuwa na kiwango cha juu katika vitengo vyote viwili. Kitendawili kinatokea kwa sababu kampuni ya kwanza iliweka watu wengi kupitia kitengo kigumu zaidi.

Kitendawili cha Simpson katika Tiba na Biashara

Katika tiba, Kitendawili cha Simpson kinaweza kuathiri ulinganisho wa matibabu. Utafiti unaweza kuonyesha kuwa Matibabu A yana matokeo bora kuliko Matibabu B kwa jumla, lakini unapotenganisha wagonjwa kwa ukali, Matibabu B ni bora kwa kesi za upole na kali. Hii inaweza kutokea ikiwa Matibabu B yanatolewa kwa uwiano mkubwa kwa wagonjwa wakali zaidi, na kupunguza wastani wake wa jumla.

Katika biashara, unaweza kuiona katika viwango vya ubadilishaji. Chaneli ya masoko inaweza kuwa na kiwango cha chini cha ubadilishaji kwa jumla lakini kufanya vizuri zaidi katika kila sehemu ya wateja. Tofauti inatokea kwa sababu chaneli hiyo inaleta wateja zaidi kutoka sehemu ngumu kubadilisha. Kufanya maamuzi kulingana na nambari ya jumla kunaweza kukupelekea kukata chaneli yako inayofanya vizuri zaidi.

Wastani wa kupiga kwenye besiboli pia umeonyesha kitendawili kwa umaarufu. Mchezaji anaweza kuwa na wastani wa juu wa kupiga kuliko mchezaji mwingine katika kila mwaka mmoja mmoja lakini wastani wa chini miaka inapochanganywa, kwa sababu idadi ya kuzipiga katika kila mwaka inatofautiana sana.

Jinsi ya Kuepuka Kudanganywa

Ulinzi mkuu dhidi ya Kitendawili cha Simpson ni kuzingatia daima kama vikundi vidogo vipo ambavyo vinaweza kusimulia hadithi tofauti. Unapoona data iliyojumuishwa, jiulize: je kuna makundi ya maana ndani ya data hii? Je mchanganyiko wa makundi hayo unaweza kutofautiana kati ya vikundi vinavyolinganishwa?

Hii haimaanishi daima upendelee matokeo ya vikundi vidogo. Wakati mwingine mtazamo wa jumla ndio sahihi. Njia sahihi inategemea swali lako maalum na kinachosababisha tofauti. Ikiwa kigezo kilichofichwa ni cha kuchanganya unachohitaji kudhibiti, basi uchambuzi wa vikundi vidogo ni wa kuaminika zaidi. Ikiwa kigezo kilichofichwa kinaonyesha kipengele halisi cha ulinganisho, jumla inaweza kufaa.

Inapowezekana, angalia data kwa njia zote mbili. Ikiwa uchambuzi wa jumla na wa vikundi vidogo unakubaliana, unaweza kuwa na uhakika zaidi. Usipokubaliana, chimba zaidi kabla ya kutoa hitimisho. Kitendawili ni ukumbusho wenye nguvu kuwa muhtasari wa data unaweza kuficha mengi kama unavyoonyesha.

Jambo Muhimu

Kitendawili cha Simpson kinatokea wakati mwenendo unaoshikilia ndani ya kila kikundi kidogo unabadilika vikundi vinapochanganywa. Kinatokea kwa sababu kigezo kilichofichwa kinabadilisha muundo wa data kati ya vikundi. Tiba ni kuangalia data yako katika viwango vingi na daima kuuliza kama vikundi vidogo vilivyofichwa vinaweza kuendesha muundo wa jumla. Data iliyojumuishwa inaweza kusimulia hadithi tofauti kabisa na mtazamo wa kina.