ANOVA: Comparación de múltiples grupos

Dificultad: Intermedio Tiempo de Lectura: 15 minutos

Más allá de dos grupos

La prueba t es una herramienta fundamental para comparar dos grupos. Pero, ¿qué sucede cuando tienes tres, cuatro o diez grupos? Supón que una empresa prueba tres diseños diferentes de sitio web y mide las tasas de conversión de cada uno. O un agricultor prueba cuatro tipos de fertilizante y mide el rendimiento de los cultivos. No puedes simplemente realizar pruebas t en cada par posible de grupos -- ese enfoque crea problemas serios.

Cuando realizas muchas pruebas t, cada una tiene una pequeña probabilidad de producir un falso positivo (típicamente 5%). Realiza suficientes pruebas, y la probabilidad de que al menos una prueba dé un resultado engañoso crece rápidamente. Con tres grupos, necesitarías tres comparaciones por pares. Con cinco grupos, necesitarías diez. Con diez grupos, cuarenta y cinco. Cuantas más pruebas realizas, más probable es que "encuentres" una diferencia que no es real. Este problema se llama inflación de comparaciones múltiples.

4.2 Diseño A 5.8 Diseño B 5.1 Diseño C

ANOVA -- abreviatura de Análisis de Varianza -- resuelve esto probando todos los grupos a la vez con una sola prueba. En lugar de preguntar "¿es el grupo A diferente del grupo B?", hace una pregunta más amplia: "¿hay alguna diferencia significativa entre todos estos grupos?" Si la respuesta es sí, puedes profundizar para descubrir qué grupos específicos difieren.

La idea central: dos tipos de varianza

A pesar de su nombre, ANOVA trata fundamentalmente de comparar medias, no varianzas. Pero usa la varianza como herramienta. La lógica es la siguiente: si divides los datos en grupos, la variabilidad total de los datos proviene de dos fuentes.

La varianza entre grupos mide cuánto difieren los promedios de los grupos entre sí. Si los tres diseños de sitio web tienen tasas de conversión muy diferentes, la varianza entre grupos será grande. La varianza dentro de los grupos mide cuánto varían los valores individuales dentro de cada grupo. Incluso dentro de un solo diseño, diferentes usuarios convertirán a diferentes tasas -- esa dispersión natural es la varianza dentro de los grupos.

Si la varianza entre grupos es grande en relación con la varianza dentro de los grupos, sugiere que los grupos realmente son diferentes. Si la varianza entre grupos es pequeña comparada con el ruido dentro de los grupos, las diferencias en los promedios podrían fácilmente deberse al azar.

El estadístico F

ANOVA produce un número llamado estadístico F (nombrado en honor al estadístico Ronald Fisher). Es simplemente la razón de la varianza entre grupos a la varianza dentro de los grupos.

Un estadístico F cercano a 1 significa que los grupos se ven similares -- la variación entre ellos es aproximadamente la misma que la variación dentro de ellos. Un estadístico F mucho mayor que 1 sugiere que al menos un grupo es genuinamente diferente. Cuanto más se aleja el estadístico F de 1, más fuerte es la evidencia.

42 Entre grupos 18 Dentro de grupos

En el gráfico anterior, la varianza entre grupos es más del doble de la varianza dentro de los grupos, produciendo un estadístico F muy por encima de 1. Esto probablemente resultaría en un valor p pequeño, sugiriendo una diferencia real entre los grupos.

Ejemplo

Un distrito escolar prueba tres programas de lectura con 90 estudiantes (30 por programa). Las puntuaciones promedio son 72, 78 y 81. ANOVA calcula que la varianza entre grupos (impulsada por las diferencias entre 72, 78 y 81) es 4.6 veces la varianza dentro de los grupos (impulsada por las diferencias individuales de los estudiantes dentro de cada programa). Este estadístico F de 4.6 produce un valor p de 0.013 -- por debajo del umbral de 0.05 -- por lo que el distrito concluye que al menos un programa produce resultados significativamente diferentes.

Supuestos de ANOVA

Como la prueba t, ANOVA viene con supuestos que debes verificar antes de confiar en los resultados:

  • Independencia: Las observaciones dentro de y entre los grupos deben ser independientes. El resultado de una persona no debe influir en el de otra.
  • Normalidad: Los datos dentro de cada grupo deben estar aproximadamente distribuidos normalmente. Con 30 o más observaciones por grupo, esto se vuelve menos crítico.
  • Varianzas iguales (homogeneidad): La dispersión de los datos dentro de cada grupo debe ser aproximadamente similar. Si un grupo tiene una desviación estándar de 5 y otro de 20, el ANOVA estándar puede ser engañoso. La prueba de Levene puede verificar este supuesto, y el ANOVA de Welch es una alternativa robusta cuando las varianzas son desiguales.

Violar estos supuestos no invalida automáticamente tus resultados, especialmente con muestras más grandes, pero es buena práctica verificarlos.

Después de ANOVA: pruebas post-hoc

ANOVA te dice que al menos un grupo difiere, pero no te dice qué grupos son diferentes de cuáles. Para averiguarlo, realizas pruebas post-hoc -- comparaciones de seguimiento que controlan el problema de comparaciones múltiples.

La prueba post-hoc más común es la DHS de Tukey (Diferencia Honestamente Significativa). Compara cada par de grupos mientras ajusta el umbral de significancia para que la tasa global de falsos positivos se mantenga en 5%. Otras opciones incluyen la corrección de Bonferroni (más simple pero más conservadora) y la prueba de Scheffé (más flexible pero menos potente).

Piensa en ANOVA como una prueba de detección y las pruebas post-hoc como el seguimiento detallado. Solo realizas el seguimiento si la prueba de detección es significativa. Este enfoque de dos etapas mantiene la tasa de falsos positivos bajo control mientras te permite identificar diferencias específicas.

34 Fertilizante A 41 Fertilizante B 38 Fertilizante C 45 Fertilizante D

Variaciones de ANOVA

La versión descrita arriba es ANOVA de una vía, que examina el efecto de un solo factor (como el método de enseñanza o el tipo de fertilizante). Existen versiones más avanzadas para diseños más complejos. ANOVA de dos vías examina dos factores simultáneamente -- por ejemplo, tanto el tipo de fertilizante como la frecuencia de riego -- y puede detectar si los dos factores interactúan. ANOVA de medidas repetidas se usa cuando los mismos sujetos son medidos múltiples veces, como al evaluar pacientes antes del tratamiento, durante el tratamiento y después del tratamiento.

Independientemente de la variación, la lógica fundamental sigue siendo la misma: comparar la varianza explicada por la pertenencia al grupo con la varianza no explicada dentro de los grupos, y decidir si las diferencias entre grupos son demasiado grandes para atribuirlas al azar.

Conclusión clave

ANOVA te permite comparar las medias de tres o más grupos en una sola prueba, evitando el riesgo inflado de falsos positivos que resulta de realizar múltiples pruebas t. Funciona comparando la varianza entre grupos con la varianza dentro de los grupos a través del estadístico F. Un estadístico F grande sugiere que al menos un grupo difiere. Usa pruebas post-hoc como la DHS de Tukey después para identificar qué grupos específicos son diferentes. Siempre verifica los supuestos de independencia, normalidad y varianzas iguales antes de interpretar los resultados.