Valores P Explicados

Dificultad: Intermedio Tiempo de Lectura: 12 minutos

El numero mas malinterpretado de la estadistica

Si alguna vez has leido un articulo cientifico, probablemente has visto frases como "p < 0.05" o "el resultado fue estadisticamente significativo". Detras de esas frases hay un solo numero llamado valor p. Es uno de los conceptos mas utilizados - y mas malinterpretados - de toda la estadistica.

-3 -2 -1 0 1 2 3

Vamos a aclarar las cosas con lenguaje sencillo y un experimento simple.

Empecemos con una pregunta

Imagina que tu amigo dice que puede predecir el resultado de lanzar una moneda. Tu no le crees. Asi que disenas una prueba: lanza una moneda 20 veces y deja que el adivine cada resultado. Si solo esta adivinando al azar, deberia acertar unas 10 de 20 veces, mas o menos el 50%.

Acierta 14 de 20. Es impresionante o pudo pasar facilmente por suerte?

Exactamente ese tipo de pregunta es la que responde un valor p.

Que es realmente un valor p

Un valor p responde esta pregunta especifica: Si no esta pasando nada especial, que tan probable es que obtengamos resultados al menos tan extremos como estos?

45 p<0.01 30 p<0.05 15 p<0.10 10 p>0.10

En el ejemplo de la moneda: si tu amigo no tiene ninguna habilidad real (la hipotesis nula), cual es la probabilidad de acertar 14 o mas de 20 solo por suerte?

La respuesta resulta ser aproximadamente 0.058, es decir, una probabilidad de alrededor del 6%. Ese es el valor p.

Ejemplo

Tu amigo adivina 14 de 20 lanzamientos de moneda correctamente.

Hipotesis nula: Solo esta adivinando (50% de probabilidad cada vez).

Valor p: Aproximadamente 0.058, lo que significa que hay una probabilidad de mas o menos 6% de acertar 14 o mas por pura suerte.

Es 6% lo suficientemente bajo para convencerte de que tiene una habilidad real? Eso depende de tu umbral. Con el punto de corte comun de 5%, dirias "no hay suficiente evidencia". Si hubiera acertado 15 (p aproximadamente 0.02), quiza te convencerias mas.

El umbral de 0.05

En la mayoria de los campos de investigacion, un valor p por debajo de 0.05 (5%) se considera "estadisticamente significativo". Esto significa que los resultados ocurririan menos del 5% de las veces por puro azar, lo cual se considera suficientemente improbable como para tomarlo en serio.

Por que 0.05? Honestamente, es algo arbitrario. El estadistico Ronald Fisher lo sugirio en la decada de 1920 como un punto de referencia conveniente. Se quedo, y ahora se usa en casi todas partes. Algunos campos usan umbrales mas estrictos. En la fisica de particulas, por ejemplo, se necesita un valor de 0.0000003 (aproximadamente 1 en 3.5 millones) para declarar un descubrimiento.

La idea clave: un valor p mas pequeno significa evidencia mas fuerte en contra de la hipotesis nula. Un valor p de 0.001 es mucho mas convincente que uno de 0.04.

Lo que un valor p NO significa

Aqui es donde vive la mayor parte de la confusion. Estos son los errores mas comunes:

-3 -2 -1 0 1 2 3

Error 1: "El valor p es la probabilidad de que la hipotesis nula sea cierta"

No. Un valor p de 0.03 NO significa que hay un 3% de probabilidad de que no este pasando nada. El valor p asume que la hipotesis nula es verdadera y pregunta que tan sorprendentes serian los datos. No te dice la probabilidad de que una hipotesis sea verdadera o falsa.

Error 2: "Un valor p pequeno significa que el efecto es grande o importante"

No. Puedes obtener un valor p diminuto para un efecto muy pequeno y practicamente insignificante, especialmente con una muestra grande. Si encuestas a un millon de personas, incluso una diferencia trivial entre dos grupos puede producir un valor p de 0.0001. El efecto puede ser real, pero demasiado pequeno para importar.

Error 3: "Un valor p mayor a 0.05 significa que no hay efecto"

No. Significa que no encontraste evidencia suficientemente fuerte de un efecto. Eso es diferente a probar que no existe ninguno. Quiza no tenias suficientes datos. Quiza el efecto es real pero pequeno. La ausencia de evidencia no es evidencia de ausencia.

En terminos cotidianos

Piensa en el valor p como un "medidor de sorpresa". Empiezas asumiendo que la explicacion aburrida es cierta (no esta pasando nada especial). Luego miras tus datos y preguntas: que tan sorprendido deberia estar?

  • Valor p cerca de 1.0: Nada de sorpresa. Tus datos son completamente consistentes con la explicacion aburrida.
  • Valor p alrededor de 0.5: Tus datos no tienen nada de especial. Podrian ocurrir facilmente por azar.
  • Valor p alrededor de 0.05: Se pone interesante. Esto solo pasaria 1 de cada 20 veces por azar.
  • Valor p alrededor de 0.001: Muy sorprendente. Solo 1 de cada 1,000 veces por azar. Evidencia fuerte de que algo real esta pasando.

Por que el corte de 0.05 causa problemas

Tratar el 0.05 como una linea rigida crea situaciones extravagantes. Un estudio con p = 0.049 se publica como un "hallazgo significativo". Un estudio con p = 0.051 se trata como si no se hubiera encontrado nada. Pero esos dos resultados son practicamente identicos; la pequena diferencia podria deberse a una persona mas en el estudio.

Muchos estadisticos ahora argumentan que deberiamos dejar de tratar el 0.05 como un umbral magico. En su lugar, sugieren reportar el valor p real y dejar que los lectores juzguen la fuerza de la evidencia por si mismos.

Ejemplo

Dos investigadores estudian si cierta rutina de ejercicio reduce la presion arterial.

Investigador A encuentra p = 0.048 y escribe: "El ejercicio redujo significativamente la presion arterial".

Investigador B encuentra p = 0.052 y escribe: "El ejercicio no tuvo un efecto significativo en la presion arterial".

Sus resultados son casi identicos! Pero como uno cruzo la linea del 0.05 y el otro no, las conclusiones suenan completamente diferentes. Por eso es tan importante mirar los numeros reales, y no solo si es "significativo o no".

Valores p en el mundo real

Los valores p aparecen en estudios medicos, experimentos de negocios, investigacion en ciencias sociales y titulares de noticias. Cuando los veas, preguntate:

  • Que tan pequeno es el valor p? (Mas pequeno = evidencia mas fuerte)
  • Que tan grande es el efecto real? (Un efecto real pero diminuto podria no importar)
  • Que tan grande fue la muestra? (Muestras enormes pueden hacer que efectos minusculos sean "significativos")
  • Estaba bien disenado el estudio? (Un valor p de un estudio mal disenado significa poco)
Punto Clave

Un valor p te dice que tan sorprendentes serian tus datos si no estuviera pasando nada especial. Un valor p pequeno (tipicamente por debajo de 0.05) sugiere que es poco probable que los datos hayan ocurrido solo por azar. Pero un valor p NO es la probabilidad de que una hipotesis sea cierta, y un resultado "significativo" no significa automaticamente que el hallazgo sea importante o grande. Siempre mira el tamano del efecto y la calidad del estudio junto con el valor p.