Que es un valor atipico?
Un valor atipico (tambien conocido como outlier) es un dato que es notablemente diferente del resto. Se ubica lejos de donde se agrupan los demas valores. Los valores atipicos no son automaticamente errores; a veces son la parte mas interesante de tus datos.
Nueve estudiantes presentan un examen. Sus calificaciones son: 62, 65, 67, 68, 70, 71, 72, 74, 98
La mayoria de las calificaciones estan agrupadas entre 62 y 74. La calificacion de 98 resalta: es mucho mas alta que todo lo demas. Ese es un valor atipico.
Los valores atipicos pueden aparecer en cualquier extremo. Un valor puede ser inusualmente alto o inusualmente bajo. A veces hay mas de un valor atipico en un conjunto de datos.
Como afectan los valores atipicos a la media
Como aprendimos en la leccion sobre media, mediana y moda, la media es sensible a valores extremos. Esta es la consecuencia practica mas importante de los valores atipicos.
Una empresa pequena tiene 6 empleados con estos salarios mensuales (en pesos):
$15,000 · $17,000 · $18,000 · $19,000 · $20,000 · $120,000
Con el valor atipico ($120,000):
- Media = $34,833
- Mediana = $18,500
Sin el valor atipico:
- Media = $17,800
- Mediana = $18,000
Quitar el salario alto reduce la media en casi $17,000, pero la mediana apenas cambia. Por eso se prefiere la mediana cuando hay valores atipicos.
Como afectan los valores atipicos a otras estadisticas
No solo la media se ve afectada. Los valores atipicos tambien inflan el rango, la varianza y la desviacion estandar, haciendo que los datos parezcan mas dispersos de lo que realmente son para la mayoria de los valores.
Clientes diarios de una panaderia durante 7 dias: 45, 48, 50, 52, 47, 51, 310
En seis de esos dias, el trafico fue estable alrededor de 45-52 clientes. Pero un dia, un evento local trajo 310 personas.
Rango con el valor atipico: 310 − 45 = 265
Rango sin el: 52 − 45 = 7
El valor atipico hace que la panaderia parezca tremendamente inconsistente cuando, en realidad, tiene un trafico diario muy estable.
De donde vienen los valores atipicos?
Entender por que existe un valor atipico te ayuda a decidir que hacer con el. Hay varias causas comunes:
1. Errores de captura de datos
Alguien escribe 1000 en vez de 100. Un sensor falla y registra una temperatura de 500°C en una habitacion. Estos son errores, y deben corregirse o eliminarse.
2. Errores de medicion
Una bascula no estaba calibrada correctamente, o una pregunta de encuesta era confusa y alguien la malinterpreto. De nuevo, estos valores atipicos no representan informacion real y generalmente se pueden apartar.
3. Valores extremos genuinos
A veces la realidad produce numeros extremos. Un jugador profesional de futbol en una liga amateur, una mansion en un barrio de casas modestas, una publicacion viral en redes sociales entre cientos normales. Estos valores atipicos son reales y significativos.
4. Poblaciones diferentes mezcladas
Si accidentalmente combinas datos de dos grupos muy diferentes (digamos, salarios de empleados de medio tiempo y directores ejecutivos en el mismo conjunto de datos), los salarios de los directores pareceran valores atipicos. Esto frecuentemente indica que los datos deberian analizarse en grupos separados.
Cuando conservar los valores atipicos
Los valores atipicos deben conservarse cuando representan datos genuinos y precisos que son parte de la historia que intentas entender.
Un hospital registra cuanto tiempo esperan los pacientes en urgencias. La mayoria espera entre 20 y 45 minutos, pero un paciente espero 6 horas debido a una falla del sistema.
Esa espera de 6 horas es un valor atipico, pero es real. Eliminarlo esconderia un problema serio. En este caso, el valor atipico es posiblemente el dato mas importante.
En general, conserva los valores atipicos cuando:
- Son mediciones precisas (no errores)
- Representan eventos o patrones importantes
- Eliminarlos esconderia informacion que tu audiencia necesita
- Estas intentando entender el rango completo de lo que es posible
Cuando eliminar (o separar) valores atipicos
A veces los valores atipicos distorsionan tanto tu analisis que te impiden entender el patron principal en tus datos.
Estas analizando el gasto tipico en despensa de un vecindario. La mayoria de las familias gastan entre $3,000 y $6,000 pesos al mes. Una familia gasta $80,000 porque tiene un negocio de catering en casa.
Incluir a esa familia sesga tus promedios y da una imagen enganosa del gasto tipico. Podrias reportar los resultados de ambas formas: "La familia promedio gasta $4,200 al mes, excluyendo un comprador comercial que gasta $80,000".
Considera eliminar o reportar por separado los valores atipicos cuando:
- Son causados por errores (tecleo incorrecto, fallas de equipo)
- Provienen de una poblacion diferente a la que estas estudiando
- Distorsionan el analisis del grupo principal tanto que los patrones se vuelven invisibles
- Notas claramente su eliminacion para que tu analisis siga siendo honesto
La regla de oro: siempre reporta lo que hiciste
Ya sea que conserves los valores atipicos o los elimines, la transparencia es esencial. Si eliminas datos, dilo. Explica por que. Muestra los resultados con y sin los valores atipicos cuando sea posible. Quitar silenciosamente datos inconvenientes es una de las formas mas comunes de manipular estadisticas, incluso sin intencion.
Metodos simples para identificar valores atipicos
Como decides si un valor califica como atipico? Aqui hay dos enfoques sencillos:
El metodo de la desviacion estandar: Cualquier valor a mas de 2 o 3 desviaciones estandar de la media se considera frecuentemente un valor atipico. Usando la regla 68-95-99.7, un valor mas alla de 3 desviaciones estandar ocurre menos del 0.3% de las veces en datos con forma de campana.
El metodo del IQR (rango intercuartilico): Encuentra el 50% central de tus datos (el rango intercuartilico, o IQR). Cualquier valor a mas de 1.5 veces el IQR por debajo del primer cuartil o por encima del tercer cuartil se marca como atipico. Este es el metodo detras de los "bigotes" en los diagramas de caja.
No necesitas memorizar estas formulas ahora. Lo importante es saber que hay formas sistematicas de identificar valores atipicos; no es solo un presentimiento.
Los valores atipicos son datos que se ubican lejos del resto de tus valores. Pueden ser causados por errores, eventos extremos genuinos o poblaciones mezcladas. Los valores atipicos jalan la media, inflan el rango y aumentan la desviacion estandar. La respuesta correcta depende del contexto: conservalos cuando son reales e importantes, eliminalos o reportalos por separado cuando distorsionan tu comprension del patron principal. Hagas lo que hagas, siempre se transparente al respecto.