Una tendencia que se invierte
Imagina que estás comparando dos hospitales. El Hospital A tiene una tasa de supervivencia más alta que el Hospital B para pacientes de cirugía cardíaca. El Hospital A también tiene una tasa de supervivencia más alta para pacientes de cirugía general. Entonces el Hospital A debe ser mejor en general, ¿verdad? No necesariamente. Cuando combinas los datos, el Hospital B puede tener la tasa de supervivencia general más alta. Esta es la Paradoja de Simpson: una tendencia que aparece en grupos separados se invierte o desaparece cuando los grupos se combinan.
Suena imposible, pero ocurre todo el tiempo en datos reales. La paradoja surge por un desequilibrio en cómo los casos se distribuyen entre los grupos. Comprenderla es fundamental para cualquiera que trabaje con datos o lea investigaciones, porque los números agregados pueden contar una historia completamente engañosa.
El caso de admisiones de Berkeley
El ejemplo más famoso de la Paradoja de Simpson proviene de la Universidad de California en Berkeley. En 1973, los datos generales de admisión a posgrado mostraban que el 44% de los solicitantes masculinos fueron admitidos comparado con solo el 35% de las solicitantes femeninas. Esto parecía evidencia clara de discriminación de género contra las mujeres.
Pero cuando los investigadores examinaron cada departamento individualmente, encontraron algo sorprendente. En la mayoría de los departamentos, las mujeres fueron admitidas a tasas iguales o incluso más altas que los hombres. No había sesgo a nivel de departamento contra las mujeres. Entonces, ¿cómo podían los números generales mostrar tal brecha?
La respuesta fue que las mujeres postulaban desproporcionadamente a los departamentos más competitivos, aquellos con tasas de admisión bajas para todos. Los hombres tendían a postular a departamentos menos competitivos con tasas de admisión más altas. Cuando se combinaban todos los departamentos, las diferencias en dónde postulaban hombres y mujeres creaban la ilusión de un sesgo que no existía a nivel departamental.
Como puedes ver en los datos a nivel departamental arriba, las mujeres tenían tasas de admisión comparables o mejores dentro de los departamentos individuales. La brecha general fue completamente impulsada por la composición de quién postulaba a dónde.
Por qué ocurre: variables ocultas
La Paradoja de Simpson ocurre debido a una variable oculta, también llamada variable de confusión, que cambia la mezcla de datos entre los grupos. En el ejemplo de Berkeley, la variable oculta era la elección de departamento. Estaba relacionada tanto con el género (las mujeres elegían departamentos diferentes) como con el resultado (algunos departamentos eran más difíciles de ingresar).
Piénsalo de esta manera: si mezclas datos de situaciones muy diferentes, las proporciones de cada situación en cada grupo pueden dominar los resultados. Un grupo pequeño con una tasa alta y un grupo grande con una tasa baja producirán una tasa combinada que se acerca al grupo más grande. Si dos grupos tienen diferentes proporciones de casos "fáciles" y "difíciles", sus tasas combinadas pueden invertirse.
Una empresa tiene dos divisiones. En la División X, el nuevo programa de capacitación mejoró el rendimiento del 80% de los participantes (40 de 50). En la División Y, mejoró el rendimiento del 90% de los participantes (9 de 10). La tasa general de mejora es 49 de 60, o aproximadamente 82%. Mientras tanto, el programa de otra empresa mejoró el 85% en la División X (17 de 20) y el 95% en la División Y (38 de 40). Su tasa general es 55 de 60, o aproximadamente 92%. La segunda empresa se ve mejor en general, pero el programa de la primera empresa tuvo una tasa más alta en ambas divisiones. La paradoja surge porque la primera empresa puso a la mayoría de las personas en la división más difícil.
La Paradoja de Simpson en medicina y negocios
En medicina, la Paradoja de Simpson puede afectar las comparaciones de tratamientos. Un estudio podría mostrar que el Tratamiento A tiene mejores resultados que el Tratamiento B en general, pero cuando separas a los pacientes por gravedad, el Tratamiento B es realmente mejor tanto para casos leves como graves. Esto puede ocurrir si el Tratamiento B se administra desproporcionadamente a los pacientes más graves, bajando su promedio general.
En negocios, podrías verlo en las tasas de conversión. Un canal de marketing podría tener una tasa de conversión general más baja pero superar en cada segmento de clientes. La diferencia surge porque ese canal atrae más clientes de segmentos difíciles de convertir. Tomar decisiones basadas en el número agregado podría llevarte a eliminar tu canal con mejor rendimiento.
Los promedios de bateo en béisbol también han demostrado famosamente la paradoja. Un jugador puede tener un promedio de bateo más alto que otro jugador en cada año individual pero un promedio más bajo cuando los años se combinan, porque el número de turnos al bate en cada año difiere dramáticamente.
Cómo evitar ser engañado
La defensa clave contra la Paradoja de Simpson es siempre considerar si existen subgrupos que podrían contar una historia diferente. Cuando veas datos agregados, pregúntate: ¿hay categorías significativas dentro de estos datos? ¿Podría la composición de esas categorías diferir entre los grupos que se comparan?
Esto no significa que siempre debas preferir los resultados de los subgrupos. A veces la vista agregada es la correcta. El enfoque correcto depende de tu pregunta específica y qué está causando la diferencia. Si la variable oculta es un factor de confusión que necesitas controlar, entonces el análisis de subgrupos es más confiable. Si la variable oculta refleja un aspecto genuino de la comparación, el agregado puede ser apropiado.
Siempre que sea posible, mira los datos de ambas maneras. Si los análisis agregado y de subgrupos coinciden, puedes tener más confianza. Si no coinciden, profundiza antes de sacar conclusiones. La paradoja es un poderoso recordatorio de que los resúmenes de datos pueden ocultar tanto como revelan.
La Paradoja de Simpson ocurre cuando una tendencia que se mantiene dentro de cada subgrupo se invierte cuando los grupos se combinan. Sucede porque una variable oculta cambia la composición de los datos entre los grupos. El antídoto es mirar tus datos a múltiples niveles y siempre preguntar si subgrupos ocultos podrían estar impulsando el patrón general. Los datos agregados pueden contar una historia completamente diferente a la vista detallada.