Significancia estadística vs práctica

Dificultad: Principiante Tiempo de Lectura: 10 minutos

¿Qué significa realmente "significativo"?

Cuando un investigador dice que un resultado es "estadísticamente significativo", quiere decir que el efecto observado es improbable que haya ocurrido por puro azar. Específicamente, la probabilidad de ver tal resultado si realmente no hubiera efecto es muy pequeña, típicamente menos del 5%. Esto es lo que mide el valor p.

Pero aquí está el truco: estadísticamente significativo no significa importante, relevante ni útil. Un resultado puede ser estadísticamente significativo mientras es tan pequeño que a nadie le importaría en la práctica. Comprender esta distinción es una de las habilidades más valiosas que puedes desarrollar como consumidor de investigación.

Cuando efectos diminutos parecen impresionantes

Imagina que una empresa prueba un nuevo diseño de sitio web y encuentra que aumenta el tiempo promedio que los usuarios pasan en el sitio en 0.8 segundos. Con una muestra de 500,000 visitantes, esta diferencia produce un valor p de 0.001, que es altamente significativo estadísticamente. Pero, ¿realmente importan 0.8 segundos adicionales de navegación para el negocio? Probablemente no. El efecto es real en el sentido estadístico, pero no tiene valor práctico.

47.2 Diseño anterior 48 Diseño nuevo

Esto sucede porque la significancia estadística depende en gran medida del tamaño de la muestra. Con una muestra suficientemente grande, incluso la diferencia más pequeña entre dos grupos producirá un valor p pequeño. La prueba se vuelve tan sensible que detecta efectos a nivel de ruido que serían invisibles e irrelevantes en el mundo real.

Ejemplo

Una empresa farmacéutica prueba un nuevo medicamento para la presión arterial en 50,000 pacientes. El medicamento reduce la presión arterial sistólica en 1.2 mmHg comparado con un placebo, y el resultado es estadísticamente significativo (p = 0.003). Sin embargo, los médicos consideran que una reducción de al menos 5-10 mmHg es clínicamente significativa. Una caída de 1.2 mmHg no cambiaría ninguna decisión de tratamiento. El medicamento "funciona" estadísticamente, pero es prácticamente inútil.

Significancia práctica: ¿realmente importa?

La significancia práctica hace una pregunta diferente: ¿es el efecto lo suficientemente grande como para importar en el mundo real? Esto depende del contexto, no solo de las matemáticas. Una mejora del 2% en la eficiencia del combustible podría ser prácticamente significativa para una aerolínea que quema millones de galones al año, pero insignificante para alguien que conduce al supermercado una vez por semana.

Los investigadores usan un concepto llamado "tamaño del efecto" para medir qué tan grande es realmente una diferencia, independientemente del tamaño de la muestra. Las medidas comunes del tamaño del efecto incluyen la d de Cohen (para comparar medias de dos grupos) y los coeficientes de correlación. Un tamaño del efecto pequeño combinado con un valor p pequeño debería hacerte cauteloso. El resultado es real pero puede que no valga la pena actuar al respecto.

Efecto del fármaco (mmHg) 0.4 2
Clínicamente significativo 6.1 10.9

Observa en los intervalos de confianza anteriores cómo el efecto del fármaco y todo su rango de valores plausibles caen muy por debajo de lo que los médicos considerarían un cambio significativo. Aunque estamos seguros de que el efecto no es cero, sigue siendo demasiado pequeño para importar.

Cómo el tamaño de muestra crea confusión

Las muestras pequeñas tienen el problema opuesto. Con muy pocos participantes, un estudio puede no detectar un efecto real e importante simplemente porque la muestra no era lo suficientemente grande para producir un valor p significativo. Esto se llama bajo poder estadístico. Un estudio de 20 personas podría encontrar una diferencia grande y prácticamente significativa pero reportarla como "no estadísticamente significativa" porque la muestra era demasiado pequeña para estar seguro.

Esto significa que puedes ser engañado en ambas direcciones. Las muestras grandes pueden hacer que efectos triviales parezcan significativos, y las muestras pequeñas pueden hacer que efectos importantes parezcan insignificantes. Ni el valor p ni el tamaño de muestra por sí solos te dicen si un resultado importa. Necesitas mirar el tamaño real del efecto y juzgarlo contra el contexto.

Cuando las estadísticas engañan: trampas del mundo real

A los titulares les encanta reportar hallazgos estadísticamente significativos sin mencionar el tamaño del efecto. "¡Un estudio encuentra que comer chocolate está asociado con menor estrés!" podría basarse en un estudio donde los consumidores de chocolate puntuaron 0.3 puntos menos en una escala de estrés de 100 puntos. Técnicamente cierto, prácticamente insignificante.

Los equipos de marketing también explotan esto. "Clínicamente comprobado para mejorar la hidratación de la piel" podría significar que un hidratante aumentó la hidratación en un 2% comparado con no usar nada, probado en miles de personas. La afirmación está técnicamente respaldada por un valor p significativo, pero el efecto es invisible para cualquiera que use el producto.

Para protegerte, siempre pregunta: ¿qué tan grande es el efecto? ¿Está expresado en unidades que puedas entender? ¿Esta diferencia cambiaría tu comportamiento o decisiones? Si el estudio solo reporta un valor p sin decirte el tamaño del efecto, esa es una señal de alerta.

Conclusión clave

La significancia estadística te dice si un efecto es probablemente real. La significancia práctica te dice si realmente importa. Un resultado puede ser estadísticamente significativo pero demasiado pequeño para preocuparse por él, especialmente con muestras grandes. Siempre mira el tamaño del efecto, no solo el valor p, y pregúntate si la diferencia cambiaría alguna decisión en el mundo real.