What is effect size in statistics?

Effect size quantifies the magnitude of a difference or relationship, independent of sample size, telling you how meaningful a result is.

Cohen's d measures the difference between two group means in standard deviation units. Values of 0.2, 0.5, and 0.8 are small, medium, and large.

Why is effect size important?

P-values only tell you if a result is unlikely by chance. Effect size tells you whether the difference is large enough to matter in practice.

How do you interpret effect size?

Small effects may be negligible, medium effects are noticeable, and large effects have clear practical importance. Always consider the context.

Tamaño del efecto

El problema de los valores p por sí solos

Realizas un estudio, obtienes un valor p de 0.03 y declaras tu resultado "estadísticamente significativo." Pero, ¿qué te dice eso realmente? Un valor p te dice qué tan sorprendentes serían tus resultados si realmente no hubiera efecto. No te dice qué tan grande o importante es el efecto.

Aquí está el problema: con una muestra suficientemente grande, casi cualquier diferencia -- sin importar lo trivialmente pequeña que sea -- se volverá estadísticamente significativa. Si comparas la estatura promedio de 100,000 personas que beben café con 100,000 personas que no lo hacen, podrías encontrar una diferencia estadísticamente significativa de 0.2 centímetros. El valor p podría ser diminuto (p = 0.001), pero la diferencia es insignificante en términos prácticos. A nadie le importa una quinta parte de un centímetro.

Aquí es donde entra el tamaño del efecto. El tamaño del efecto mide la magnitud de una diferencia o relación, independientemente del tamaño de la muestra. Responde a la pregunta que realmente importa: ¿qué tan grande es este efecto y tiene importancia en el mundo real?

d de Cohen: midiendo la diferencia

La medida de tamaño del efecto más utilizada para comparar dos grupos es la d de Cohen. Expresa la diferencia entre las medias de dos grupos en términos de desviaciones estándar. La fórmula es sencilla: toma la diferencia entre las dos medias y divide por la desviación estándar combinada.

Por ejemplo, si el Grupo A tiene una media de 75 y el Grupo B tiene una media de 80, y la desviación estándar combinada es 10, entonces la d de Cohen = (80 - 75) / 10 = 0.5. Esto significa que los dos grupos están separados por media desviación estándar.

La visualización anterior muestra una curva normal estándar. La región sombreada en el centro representa la zona de superposición entre dos grupos separados por un efecto de pequeño a mediano. Cuanto más se superponen las curvas, menor es la diferencia práctica entre los grupos.

Efectos pequeños, medianos y grandes

Jacob Cohen, el psicólogo que popularizó esta medida, propuso puntos de referencia aproximados para interpretar los tamaños del efecto:

Efecto pequeño (d = 0.2): La diferencia es real pero difícil de ver a simple vista. Los dos grupos se superponen casi completamente. Ejemplo: la diferencia de estatura entre chicas de 15 y 16 años.
Efecto mediano (d = 0.5): La diferencia es notable para observadores atentos. Hay una separación significativa entre los grupos, aunque persiste una superposición sustancial. Ejemplo: la diferencia de estatura entre chicas de 14 y 18 años.
Efecto grande (d = 0.8): La diferencia es obvia y prácticamente significativa. Los grupos son claramente diferentes, aunque existe algo de superposición. Ejemplo: la diferencia de estatura entre chicas de 13 y 18 años.

Estos puntos de referencia son guías, no reglas rígidas. En algunos campos, un tamaño del efecto "pequeño" es enormemente importante. Un medicamento que reduce el riesgo de infarto en una cantidad pequeña (d = 0.2) podría salvar miles de vidas cuando se aplica a millones de personas. El contexto determina si un efecto es prácticamente significativo.

Por qué el tamaño del efecto importa para la toma de decisiones

Considera dos escenarios. El Estudio A prueba un nuevo programa de capacitación para empleados en 20 personas y encuentra una mejora de 10 puntos en las puntuaciones de rendimiento (p = 0.08, d = 0.9). El Estudio B prueba el mismo programa en 5,000 personas y encuentra una mejora de 1 punto (p = 0.001, d = 0.05). ¿Qué estudio proporciona evidencia más fuerte de que el programa vale la pena adoptarlo?

Si solo miras los valores p, el Estudio B "gana" -- su resultado es altamente significativo. Pero el tamaño del efecto cuenta una historia diferente. El Estudio A encontró una mejora grande y significativa. El Estudio B encontró una mejora trivialmente pequeña que alcanzó significancia solo por el tamaño masivo de la muestra. Un tomador de decisiones reflexivo tomaría más en serio el resultado del Estudio A, reconociendo que necesita replicación con una muestra más grande.

Por eso muchas revistas científicas ahora requieren que se reporten los tamaños del efecto junto con los valores p. La Asociación Americana de Psicología ha recomendado reportar tamaños del efecto desde 1994. Una imagen completa de un hallazgo requiere ambos: el valor p te dice si el efecto es probablemente real, y el tamaño del efecto te dice si vale la pena prestarle atención.

Otras medidas del tamaño del efecto

La d de Cohen no es la única métrica de tamaño del efecto. Diferentes situaciones requieren diferentes medidas. La r de Pearson (el coeficiente de correlación) es en sí misma un tamaño del efecto para la fuerza de una relación entre dos variables, con puntos de referencia de 0.1 (pequeño), 0.3 (mediano) y 0.5 (grande). Eta-cuadrado y eta-cuadrado parcial se usan con ANOVA para expresar cuánta de la varianza total es explicada por la pertenencia al grupo. Las razones de momios son comunes en investigación médica para comparar la probabilidad de resultados entre grupos.

La elección de la medida depende de tu tipo de análisis. Para comparar dos medias, usa la d de Cohen. Para correlaciones, usa r. Para ANOVA, usa eta-cuadrado. Para resultados binarios, usa razones de momios. Lo que importa es que siempre reportes alguna medida de la magnitud del efecto, no solo un valor p.

Aplicaciones prácticas

Los tamaños del efecto son esenciales para el análisis de poder -- determinar cuántos participantes necesitas antes de realizar un estudio. Si esperas un efecto pequeño, necesitas una muestra mucho más grande para detectarlo de manera confiable que si esperas un efecto grande. Planificar el tamaño de muestra sin considerar el tamaño del efecto es como hacer las maletas para un viaje sin saber el destino.

Los tamaños del efecto también hacen posible el meta-análisis. Cuando los investigadores combinan resultados de muchos estudios sobre el mismo tema, convierten los resultados de cada estudio en una métrica común de tamaño del efecto. Esto les permite sintetizar evidencia entre estudios que usaron diferentes tamaños de muestra, diferentes escalas y diferentes poblaciones. Un solo estudio podría ser inconcluso, pero el tamaño del efecto agrupado de 50 estudios puede ser muy informativo.

El gráfico anterior compara tamaños del efecto hipotéticos para tres fármacos que tratan la misma condición. Los tres podrían tener valores p estadísticamente significativos, pero las diferencias prácticas son dramáticas. El Fármaco B tiene el doble del efecto del Fármaco A y seis veces el efecto del Fármaco C. Un médico eligiendo entre ellos debería enfocarse en el tamaño del efecto, no solo en la significancia.

Conclusión clave

La significancia estadística te dice si un efecto es probablemente real, pero el tamaño del efecto te dice si importa. La d de Cohen es la métrica estándar para comparar dos grupos, con puntos de referencia de 0.2 (pequeño), 0.5 (mediano) y 0.8 (grande). Siempre reporta los tamaños del efecto junto con los valores p. Con muestras grandes, incluso diferencias triviales se vuelven "significativas", por lo que el tamaño del efecto es esencial para una toma de decisiones sólida, el análisis de poder y la comparación de resultados entre estudios.