El promedio no es suficiente
Imagina dos ciudades que tienen una temperatura promedio diaria de 20°C. Suena como si tuvieran un clima parecido, verdad? Pero que pasa si la Ciudad A se mantiene entre 18°C y 22°C todo el ano, mientras la Ciudad B oscila entre -5°C en invierno y 45°C en verano? El promedio es el mismo, pero la experiencia de vivir ahi es completamente diferente.
Por eso necesitamos medir la dispersion: cuanto varian los valores de un conjunto de datos entre si. Dos de las herramientas mas importantes para medir la dispersion son el rango y la varianza.
El rango: la medida de dispersion mas simple
El rango es la medida de dispersion mas facil de entender. Tomas el valor mas alto, le restas el mas bajo, y eso es tu rango.
Rango = Valor mas alto − Valor mas bajo
Un jugador del America anota estos goles en 5 partidos: 0, 1, 2, 1, 3
Mayor cantidad de goles: 3. Menor cantidad: 0.
Rango = 3 − 0 = 3 goles
Esto nos dice que el rendimiento del jugador vario por 3 goles entre su peor y mejor partido.
El rango te da una foto rapida, pero tiene una limitacion importante: solo mira los dos valores mas extremos e ignora todo lo que hay en medio.
Considera las calificaciones de dos estudiantes en 5 examenes:
Estudiante A: 60, 80, 82, 83, 100 → Rango = 40
Estudiante B: 60, 61, 62, 63, 100 → Rango = 40
Ambos tienen el mismo rango de 40, pero las calificaciones del Estudiante A estan mas agrupadas en el medio, mientras el Estudiante B tiene calificaciones bajas con un valor alto atipico. El rango no puede decirte esto.
Cuando el rango es util
A pesar de sus limitaciones, el rango es practico para revisiones rapidas. Una enfermera revisando la presion arterial de un paciente durante una semana podria notar primero el rango: "Tu presion sistolica oscilo entre 118 y 142". Eso le dice algo util de inmediato tanto a la enfermera como al paciente.
Presentando la varianza: una medida mas inteligente de dispersion
La varianza mira cada valor de tus datos y pregunta: que tan lejos esta de la media? Luego combina todas esas distancias en un solo numero. Una varianza baja significa que los valores estan agrupados cerca de la media. Una varianza alta significa que estan esparcidos lejos.
Calculando la varianza paso a paso
Vamos a recorrer el proceso con un ejemplo sencillo para que la idea quede clara.
Ventas diarias de tacos en un puesto durante 4 dias: 80, 100, 120, 100 (en unidades)
Paso 1 - Encuentra la media:
(80 + 100 + 120 + 100) / 4 = 100
Paso 2 - Encuentra la distancia de cada valor a la media:
- 80 − 100 = −20
- 100 − 100 = 0
- 120 − 100 = +20
- 100 − 100 = 0
Paso 3 - Eleva al cuadrado cada distancia (para eliminar los signos negativos y enfatizar las diferencias grandes):
- (−20)² = 400
- (0)² = 0
- (20)² = 400
- (0)² = 0
Paso 4 - Encuentra la media de esas distancias al cuadrado:
(400 + 0 + 400 + 0) / 4 = 200
La varianza es 200 (en "unidades al cuadrado", lo cual es un poco extrano - abordaremos esto en la proxima leccion sobre desviacion estandar).
Por que elevamos al cuadrado las distancias?
Esta es una pregunta que muchos principiantes hacen, y es muy buena. Si simplemente sumaras las distancias sin elevar al cuadrado, los positivos y negativos se cancelarian mutuamente y siempre obtendrias cero. Elevar al cuadrado hace que todos los valores sean positivos y ademas da mas peso a los valores que estan lejos de la media.
Varianza poblacional vs. varianza muestral
Puede que encuentres dos formulas ligeramente diferentes para la varianza. La diferencia es pequena pero vale la pena conocerla.
Si tus datos incluyen a cada miembro del grupo que te importa (por ejemplo, todos los alumnos de un salon), divides entre el total. Esto se llama varianza poblacional.
Si tus datos son una muestra, un grupo mas pequeno elegido para representar a uno mayor (por ejemplo, 100 compradores encuestados de miles), divides entre uno menos que el total. Esto se llama varianza muestral, y el pequeno ajuste ayuda a que la estimacion sea mas precisa.
Encuestas a 5 personas sobre cuantas tazas de cafe toman al dia: 1, 2, 3, 2, 2. La media es 2.
Distancias al cuadrado respecto a la media: 1, 0, 1, 0, 0
Varianza poblacional (si estas 5 son todas las que te importan): (1+0+1+0+0) / 5 = 0.4
Varianza muestral (si estas 5 representan un grupo mayor): (1+0+1+0+0) / 4 = 0.5
La diferencia es pequena aqui, y se hace aun mas pequena conforme crece el tamano de la muestra.
Por que la dispersion importa en la vida real
Clima y planificacion de viajes
Si estas haciendo la maleta para un viaje y la temperatura promedio en tu destino es 22°C, tal vez solo empaques ropa ligera. Pero si la varianza es alta, las temperaturas podrian oscilar entre 10°C por la noche y 34°C durante el dia. Necesitarias capas. El promedio solo no te prepara.
Negociaciones salariales
Una oferta de trabajo dice que el salario promedio para un puesto es de $25,000 pesos mensuales. Pero cual es la dispersion? Si el rango es de $22,000 a $28,000, los salarios estan apretados y sabes mas o menos que esperar. Si el rango es de $12,000 a $80,000, el salario real depende mucho de la experiencia, la ubicacion y la negociacion. La dispersion cambia como abordas la conversacion.
Consistencia en el futbol
Dos delanteros promedian cada uno 1 gol por partido durante la temporada. El Jugador A anota 0 o 1 en la mayoria de los partidos: muy consistente. El Jugador B anota 0 en muchos partidos pero ocasionalmente mete 4 o 5: varianza alta. Un director tecnico decidiendo entre ellos podria preferir al Jugador A por su confiabilidad, o al Jugador B para un partido decisivo donde una gran actuacion podria hacer la diferencia.
Comparando rango y varianza
El rango es rapido y facil pero solo considera dos puntos de datos. La varianza usa cada punto y te da una imagen mas completa de la dispersion. Piensa en el rango como mirar el termometro una vez en la manana y una vez en la noche, mientras la varianza es como revisarlo cada hora y calcular cuanto fluctuo la temperatura a lo largo del dia.
El rango te dice la diferencia entre el valor mas alto y el mas bajo: rapido y simple, pero se pierde los detalles. La varianza te dice que tan dispersos estan todos los valores alrededor de la media: usa cada punto de dato y da una imagen mucho mas rica. Junto con la media, estas medidas te ayudan a entender no solo lo que es tipico, sino cuanto varian las cosas. Y en la vida real, la variacion frecuentemente importa mas que el promedio.