Trend, który się odwraca
Wyobraź sobie, że porównujesz dwa szpitale. Szpital A ma wyższy wskaźnik przeżywalności niż Szpital B wśród pacjentów kardiochirurgicznych. Szpital A ma też wyższy wskaźnik przeżywalności wśród pacjentów chirurgii ogólnej. Więc Szpital A musi być lepszy ogólnie, prawda? Niekoniecznie. Po połączeniu danych Szpital B może mieć wyższy ogólny wskaźnik przeżywalności. To Paradoks Simpsona: trend widoczny w oddzielnych grupach odwraca się lub znika po połączeniu grup.
Brzmi to niemożliwie, ale zdarza się stale w prawdziwych danych. Paradoks powstaje z powodu nierównowagi w rozkładzie przypadków między grupami. Zrozumienie go jest kluczowe dla każdego, kto pracuje z danymi lub czyta badania, ponieważ zagregowane liczby mogą opowiadać kompletnie mylącą historię.
Przypadek rekrutacji w Berkeley
Najsłynniejszy przykład Paradoksu Simpsona pochodzi z Uniwersytetu Kalifornijskiego w Berkeley. W 1973 roku ogólne dane rekrutacyjne na studia podyplomowe pokazywały, że 44% kandydatów płci męskiej zostało przyjętych w porównaniu z zaledwie 35% kandydatek. Wyglądało to na wyraźny dowód dyskryminacji ze względu na płeć.
Jednak gdy badacze przeanalizowali każdy wydział osobno, odkryli coś zdumiewającego. Na większości wydziałów kobiety były przyjmowane w równym lub nawet wyższym odsetku niż mężczyźni. Na poziomie wydziałów nie było uprzedzeń wobec kobiet. Jak więc ogólne liczby mogły pokazywać taką lukę?
Odpowiedź była taka, że kobiety nieproporcjonalnie aplikowały na najbardziej konkurencyjne wydziały -- te z niskim wskaźnikiem przyjęć dla wszystkich. Mężczyźni mieli tendencję do aplikowania na mniej konkurencyjne wydziały z wyższymi wskaźnikami przyjęć. Po połączeniu wszystkich wydziałów różnice w tym, gdzie aplikowali mężczyźni i kobiety, stworzyły iluzję uprzedzeń, które nie istniały na poziomie wydziałowym.
Jak widać na danych wydziałowych powyżej, kobiety miały porównywalne lub lepsze wskaźniki przyjęć w poszczególnych wydziałach. Ogólna luka była całkowicie napędzana przez strukturę tego, kto gdzie aplikował.
Dlaczego to się dzieje: ukryte zmienne
Paradoks Simpsona występuje z powodu ukrytej zmiennej, zwanej też zmienną zakłócającą, która zmienia proporcje danych między grupami. W przykładzie Berkeley ukrytą zmienną był wybór wydziału. Był on powiązany zarówno z płcią (kobiety wybierały inne wydziały), jak i z wynikiem (na niektóre wydziały trudniej było się dostać).
Pomyśl o tym tak: jeśli mieszasz dane z bardzo różnych sytuacji, proporcje każdej sytuacji w każdej grupie mogą zdominować wyniki. Mała grupa z wysokim wskaźnikiem i duża grupa z niskim wskaźnikiem dadzą łączny wskaźnik ciągnięty w stronę większej grupy. Jeśli dwie grupy mają różne proporcje "łatwych" i "trudnych" przypadków, ich łączne wskaźniki mogą się odwrócić.
Firma ma dwa działy. W Dziale X nowy program szkoleniowy poprawił wyniki u 80% uczestników (40 z 50). W Dziale Y poprawił wyniki u 90% uczestników (9 z 10). Ogólny wskaźnik poprawy to 49 z 60, czyli około 82%. Tymczasem program innej firmy poprawił 85% w Dziale X (17 z 20) i 95% w Dziale Y (38 z 40). Ich ogólny wskaźnik to 55 z 60, czyli około 92%. Druga firma wygląda lepiej ogólnie, ale program pierwszej firmy miał wyższy wskaźnik w obu działach. Paradoks powstaje, ponieważ pierwsza firma skierowała większość ludzi do trudniejszego działu.
Paradoks Simpsona w medycynie i biznesie
W medycynie Paradoks Simpsona może wpłynąć na porównania leczenia. Badanie może pokazać, że Leczenie A ma lepsze wyniki niż Leczenie B ogólnie, ale gdy rozdzielisz pacjentów według ciężkości, Leczenie B jest lepsze zarówno dla łagodnych, jak i ciężkich przypadków. Może się tak zdarzyć, jeśli Leczenie B było nieproporcjonalnie podawane najciężej chorym pacjentom, obniżając jego ogólną średnią.
W biznesie możesz to zobaczyć we wskaźnikach konwersji. Kanał marketingowy może mieć niższy ogólny wskaźnik konwersji, ale przewyższać pozostałe w każdym segmencie klientów. Różnica wynika z tego, że ten kanał przyciąga więcej klientów z segmentów trudnych do konwersji. Podejmowanie decyzji na podstawie zagregowanej liczby mogłoby doprowadzić do odcięcia najlepiej działającego kanału.
Średnie w baseballu również słynnie demonstrowały ten paradoks. Zawodnik może mieć wyższą średnią uderzeń niż inny zawodnik w każdym pojedynczym roku, ale niższą średnią po połączeniu lat, ponieważ liczba uderzeń w każdym roku różniła się dramatycznie.
Jak nie dać się oszukać
Kluczową obroną przed Paradoksem Simpsona jest zawsze rozważenie, czy istnieją podgrupy, które mogą opowiadać inną historię. Gdy widzisz zagregowane dane, zadaj sobie pytanie: czy w tych danych istnieją znaczące kategorie? Czy proporcje tych kategorii mogą różnić się między porównywanymi grupami?
Nie oznacza to, że zawsze powinieneś preferować wyniki podgrupowe. Czasem widok zagregowany jest właściwy. Prawidłowe podejście zależy od twojego konkretnego pytania i tego, co powoduje różnicę. Jeśli ukryta zmienna jest czynnikiem zakłócającym, który musisz kontrolować, analiza podgrupowa jest bardziej wiarygodna. Jeśli ukryta zmienna odzwierciedla rzeczywisty aspekt porównania, widok zagregowany może być odpowiedni.
Kiedy to możliwe, patrz na dane na oba sposoby. Jeśli analiza zagregowana i podgrupowa się zgadzają, możesz być bardziej pewny. Jeśli się nie zgadzają, zagłęb się, zanim wyciągniesz wnioski. Paradoks jest mocnym przypomnieniem, że podsumowania danych mogą ukrywać tyle, ile ujawniają.
Paradoks Simpsona występuje, gdy trend utrzymujący się w każdej podgrupie odwraca się po połączeniu grup. Dzieje się tak, ponieważ ukryta zmienna zmienia strukturę danych w poszczególnych grupach. Antidotum to patrzenie na dane na wielu poziomach i zawsze pytanie, czy ukryte podgrupy mogą napędzać ogólny wzorzec. Zagregowane dane mogą opowiadać kompletnie inną historię niż widok szczegółowy.