Percentiles y diagramas de caja

Dificultad: Principiante Tiempo de Lectura: 10 minutos

¿Qué son los percentiles?

Un percentil te dice qué porcentaje de valores en un conjunto de datos se encuentran por debajo de un punto dado. Si tu calificación de examen está en el percentil 85, significa que obtuviste una puntuación más alta que el 85% de los examinados. No significa que acertaste el 85% de las preguntas -- los percentiles describen tu posición relativa respecto a los demás, no tu rendimiento absoluto.

Los percentiles se usan en todas partes. Los pediatras rastrean la altura y el peso de los niños usando gráficos de percentiles. Los exámenes estandarizados como el SAT y el GRE reportan puntuaciones como percentiles. Las encuestas salariales describen la compensación en percentiles para que las empresas puedan ver dónde se ubican respecto al mercado.

Los percentiles más referenciados son los cuartiles, que dividen los datos en cuatro partes iguales. El percentil 25 se llama Q1 (el primer cuartil), el percentil 50 es Q2 (la mediana) y el percentil 75 es Q3 (el tercer cuartil). Junto con el mínimo y el máximo, estos cinco valores forman el resumen de cinco números -- una instantánea compacta de un conjunto de datos completo.

12 20 28 36 44 52 55

En el diagrama de puntos anterior, puedes ver cómo la mayoría de los valores se agrupan entre los 20 y los 30, con algunos valores más bajos y un valor atípico alto en 55. Los percentiles nos ayudan a describir esta distribución de manera concisa sin necesidad de listar cada punto de datos.

El resumen de cinco números

El resumen de cinco números consiste en cinco valores: el mínimo, Q1, mediana, Q3 y máximo. Estos cinco números te dicen dónde comienzan los datos, dónde se sitúa el 50% central y dónde terminan los datos.

Ejemplo

Considera las propinas diarias ganadas por un mesero en 20 turnos: $12, $15, $17, $19, $21, $22, $23, $24, $25, $26, $27, $28, $29, $30, $31, $33, $35, $38, $42, $55. El resumen de cinco números sería: Mínimo = $12, Q1 = $20, Mediana = $26.50, Q3 = $32, Máximo = $55. De un vistazo, puedes ver que el 50% central de las propinas cae entre $20 y $32, la propina típica es alrededor de $26-$27, y hay un día con una propina inusualmente grande de $55.

El rango intercuartílico (RIC)

El rango intercuartílico es simplemente Q3 menos Q1. Mide la dispersión del 50% central de tus datos, ignorando los extremos. En el ejemplo del mesero, RIC = $32 - $20 = $12.

El RIC es una medida de dispersión más robusta que el rango (máximo menos mínimo) porque no se ve afectado por los valores atípicos. El rango del mesero es $55 - $12 = $43, que está muy influenciado por ese único gran día de propinas. El RIC de $12 da una imagen más precisa de la variación típica del día a día.

El RIC también se usa para identificar valores atípicos. Una regla empírica común dice que cualquier valor por debajo de Q1 - 1.5 * RIC o por encima de Q3 + 1.5 * RIC es un potencial valor atípico. En el ejemplo del mesero, el límite superior sería $32 + 1.5 * $12 = $50. El día de propinas de $55 supera este umbral, confirmándolo como un valor atípico estadístico.

Lectura de un diagrama de caja

Un diagrama de caja (también llamado diagrama de caja y bigotes) es la representación visual del resumen de cinco números. La caja se extiende de Q1 a Q3, con una línea interior que marca la mediana. Los "bigotes" se extienden desde la caja hasta los valores más pequeños y más grandes que no son atípicos. Cualquier valor atípico aparece como puntos individuales más allá de los bigotes.

Los diagramas de caja son especialmente útiles para comparar múltiples grupos lado a lado. Si quisieras comparar propinas en tres restaurantes diferentes, tres diagramas de caja colocados uno al lado del otro mostrarían instantáneamente qué restaurante tiene propinas típicas más altas, cuál tiene más variación y cuál tiene más valores atípicos.

12 Mín 20 Q1 26 Mediana 32 Q3 55 Máx

El gráfico de barras anterior representa los valores del resumen de cinco números como barras para que puedas ver sus posiciones relativas. Nota la brecha entre Q3 y el máximo -- esta asimetría sugiere que los datos tienen sesgo a la derecha, con una cola larga hacia valores más altos.

Lo que revelan los diagramas de caja sobre la forma

Los diagramas de caja pueden decirte sobre la asimetría de una distribución. Si la línea de la mediana está centrada en la caja y los bigotes son aproximadamente iguales en longitud, los datos son simétricos. Si la mediana está más cerca de Q1 y el bigote superior es más largo, los datos tienen sesgo a la derecha (una cola larga de valores altos). Si la mediana está más cerca de Q3 y el bigote inferior es más largo, los datos tienen sesgo a la izquierda.

Por ejemplo, los datos de ingresos casi siempre producen un diagrama de caja con sesgo a la derecha: la mediana está baja en la caja, el bigote superior es largo y hay muchos valores atípicos en el extremo alto. Las calificaciones de exámenes en un curso bien diseñado a menudo producen un diagrama de caja con sesgo a la izquierda: la mayoría de los estudiantes lo hacen bien, pero algunos rezagados jalan el bigote inferior hacia abajo.

Los diagramas de caja sacrifican algo de detalle comparados con los histogramas -- no puedes ver la forma exacta de la distribución ni identificar múltiples picos. Pero destacan en comparación compacta y detección de valores atípicos, por lo que son un elemento básico del análisis exploratorio de datos.

5 10 15 20 25 30
Conclusión clave

Los percentiles clasifican valores en relación con el resto de los datos, siendo los cuartiles (Q1, mediana, Q3) los puntos de referencia más importantes. El resumen de cinco números y el RIC proporcionan una instantánea concisa y resistente a valores atípicos de cualquier conjunto de datos. Los diagramas de caja convierten este resumen en un visual que revela centro, dispersión, asimetría y valores atípicos de un vistazo -- lo que los hace ideales para comparaciones rápidas entre múltiples grupos.