Distribución normal y puntuaciones Z

Dificultad: Intermedio Tiempo de Lectura: 12 minutos

La curva de campana está en todas partes

Si midieras la estatura de cada adulto en una gran ciudad y la representaras en un gráfico, verías una forma familiar: una colina suave y simétrica que alcanza su punto máximo en el centro y se reduce a ambos lados. Esta forma se llama distribución normal, y es posiblemente el concepto más importante de toda la estadística.

La distribución normal aparece en una cantidad sorprendente de lugares. Las calificaciones de exámenes, las lecturas de presión arterial, el tiempo que toma ir al trabajo, las tolerancias de fabricación en una planta industrial, incluso los errores en mediciones científicas -- todo esto tiende a seguir un patrón en forma de campana. La razón es matemática: siempre que una medición está influenciada por muchos factores pequeños e independientes, el resultado tiende a distribuirse normalmente. Este principio está estrechamente relacionado con el Teorema del Límite Central.

55 70 85 100 115 130 145

En el gráfico anterior, el pico representa el valor más común (la media), y la curva desciende simétricamente a cada lado. La mayoría de los valores se agrupan cerca del centro, con cada vez menos observaciones a medida que te alejas hacia los extremos.

Media, desviación estándar y forma

Una distribución normal se define completamente con solo dos números: la media (el centro de la curva) y la desviación estándar (qué tan dispersos están los datos). La media indica dónde se sitúa el pico en la recta numérica. La desviación estándar indica qué tan ancha o estrecha es la campana.

Consideremos las puntuaciones de CI, que están diseñadas para seguir una distribución normal con una media de 100 y una desviación estándar de 15. La mayoría de las personas obtienen entre 85 y 115. Unas pocas puntúan por debajo de 70 o por encima de 130. Muy pocas puntúan por debajo de 55 o por encima de 145. Si cambias la desviación estándar a 5, la campana se vuelve mucho más estrecha -- casi todos se agrupan entre 90 y 110. Si la cambias a 25, la campana se aplana y las puntuaciones se distribuyen mucho más ampliamente.

Esta es la belleza de la distribución normal: una vez que conoces la media y la desviación estándar, conoces la forma completa y puedes calcular la probabilidad de que ocurra cualquier valor.

La regla 68-95-99.7

Una de las características más prácticas de la distribución normal es la regla empírica, también llamada regla 68-95-99.7. Establece que para cualquier dato distribuido normalmente:

  • Aproximadamente el 68% de los valores caen dentro de 1 desviación estándar de la media.
  • Aproximadamente el 95% de los valores caen dentro de 2 desviaciones estándar.
  • Aproximadamente el 99.7% de los valores caen dentro de 3 desviaciones estándar.
-3 -2 -1 0 1 2 3

Esta regla te da una forma rápida de evaluar qué tan inusual es un valor. Si tus datos se distribuyen normalmente y alguien reporta un valor a más de 3 desviaciones estándar de la media, eso es extremadamente raro -- ocurre menos del 0.3% de las veces. Los ingenieros de control de calidad usan esta idea todos los días: una pieza de fábrica que cae fuera de tres desviaciones estándar de la dimensión objetivo se marca como defectuosa.

Ejemplo

Supón que el tiempo promedio de traslado diario en una ciudad es de 35 minutos con una desviación estándar de 8 minutos. Según la regla 68-95-99.7, aproximadamente el 68% de los viajeros tardan entre 27 y 43 minutos. Aproximadamente el 95% tardan entre 19 y 51 minutos. Y casi todos (99.7%) tardan entre 11 y 59 minutos. Si alguien dice que su traslado es de 65 minutos, eso está a más de 3 desviaciones estándar por encima de la media -- un traslado genuinamente inusual para esta ciudad.

Puntuaciones Z: una regla universal

Diferentes distribuciones normales usan diferentes unidades y escalas. ¿Cómo comparas una calificación de 82 en un examen donde el promedio es 75 (desviación estándar 5) con una puntuación de 720 en el SAT donde el promedio es 500 (desviación estándar 100)? Usas una puntuación Z.

Una puntuación Z te dice cuántas desviaciones estándar está un valor por encima o por debajo de la media. La fórmula es sencilla: resta la media del valor y luego divide por la desviación estándar. Para la calificación del examen: (82 - 75) / 5 = 1.4. Para el SAT: (720 - 500) / 100 = 2.2. La puntuación del SAT es más impresionante en relación con su distribución porque está más lejos de la media en unidades de desviación estándar.

Una puntuación Z de 0 significa que el valor es exactamente promedio. Una puntuación Z positiva significa que está por encima del promedio. Una puntuación Z negativa significa que está por debajo del promedio. La magnitud indica qué tan lejos del promedio se encuentra. Una puntuación Z de 2.0 significa que el valor es mayor que aproximadamente el 97.7% de todos los valores en la distribución.

-3 -2 -1 0 1 2 3

Las puntuaciones Z son poderosas porque convierten cualquier distribución normal en la distribución normal estándar -- una curva de campana con media 0 y desviación estándar 1. Esto te permite usar una sola tabla de referencia (o calculadora) para encontrar probabilidades de cualquier variable distribuida normalmente, independientemente de su escala original.

Aplicaciones en el mundo real

La distribución normal y las puntuaciones Z no son solo ideas de libro de texto. Calificar en curva significa ajustar las puntuaciones de los estudiantes a una distribución normal. Los resultados de laboratorio médico a menudo se marcan como anormales cuando caen más allá de 2 desviaciones estándar del promedio de la población. Los analistas financieros modelan los rendimientos bursátiles usando distribuciones normales (aunque las colas suelen ser más gruesas en la realidad, lo cual es una limitación crítica). Las compañías de seguros usan modelos normales para estimar reclamaciones.

También es importante saber cuándo la distribución normal no aplica. Las distribuciones de ingresos tienen una fuerte asimetría a la derecha -- unos pocos ingresos muy altos empujan la media muy por encima de la mediana. Los tiempos de espera y los datos de supervivencia a menudo también son asimétricos. Los datos de conteo (como el número de accidentes por día) siguen otras distribuciones completamente diferentes. Siempre verifica si la suposición de curva de campana es razonable antes de aplicar estas herramientas.

Conclusión clave

La distribución normal es una curva simétrica en forma de campana definida completamente por su media y desviación estándar. La regla 68-95-99.7 te da una idea rápida de cómo se distribuyen los datos alrededor del promedio. Las puntuaciones Z te permiten traducir cualquier valor a una escala universal medida en desviaciones estándar, haciendo posible comparar puntuaciones en contextos completamente diferentes. Siempre verifica que tus datos sean aproximadamente normales antes de confiar en estas herramientas -- no todos los datos del mundo real siguen una curva de campana.