Teorema del Limite Central

Dificultad: Intermedio Tiempo de Lectura: 15 minutos

Un patron sorprendente en los promedios

Imagina que tienes una taqueria. Cada dia vendes una cantidad diferente de tacos: algunos dias 40, otros 120, otros 75. Las ventas diarias no siguen ningun patron ordenado. Son impredecibles.

0 9 18 27 36 42 46 47 48 49 50 51 52 53 54

Pero aqui viene algo notable. Si anotas tu promedio de ventas semanal, semana tras semana, esos promedios semanales empiezan a agruparse en una familiar curva con forma de campana. Aunque los numeros diarios eran desordenados e impredecibles, los promedios se vuelven ordenados.

Esto es el Teorema del Limite Central en accion, una de las ideas mas importantes de toda la estadistica.

Que dice el Teorema del Limite Central

El Teorema del Limite Central (TLC) nos dice lo siguiente: cuando tomas muchas muestras aleatorias de cualquier poblacion y calculas el promedio de cada muestra, esos promedios formaran una campana de Gauss (una distribucion normal), sin importar la forma que tengan los datos originales.

No importa si los datos originales son sesgados, planos, irregulares o completamente asimetricos. Mientras tus muestras sean lo suficientemente grandes, los promedios se acomodaran en esa forma suave y simetrica de campana.

Esto funciona gracias a una especie de acto de equilibrio matematico. En cualquier muestra, los valores inusualmente altos y los inusualmente bajos tienden a cancelarse mutuamente. Mientras mas datos tenga cada muestra, mas ocurre esta cancelacion, y mas cerca cae el promedio del verdadero centro.

El experimento de los dados

Hagamos esto concreto con algo que puedes probar en casa.

44 46 48 50 52 54 56
Ejemplo

Lanza un solo dado 100 veces y anota cada resultado. Obtendras cantidades mas o menos iguales de 1, 2, 3, 4, 5 y 6. La distribucion es plana: no tiene forma de campana para nada.

Ahora lanza dos dados 100 veces y anota el promedio de cada par. Empezaras a ver mas resultados cerca de 3.5 y menos cerca de 1 o 6. Una ligera forma de loma aparece.

Lanza cinco dados 100 veces y promedia cada grupo de cinco. Ahora los resultados se agrupan aun mas fuertemente alrededor de 3.5, formando una clara campana de Gauss. Los extremos (todos unos o todos seises) se vuelven muy raros.

Empezaste con una distribucion plana (un solo dado), pero los promedios formaron una campana. Eso es el Teorema del Limite Central.

Por que importa esto?

El TLC es la razon por la cual tanto de la estadistica realmente funciona. Aqui esta por que importa en la vida cotidiana:

  • Encuestas y sondeos - Cuando una encuestadora entrevista a 1,000 personas sobre unas elecciones en Mexico o Colombia, estan tomando una muestra de millones de votantes. El TLC les dice que el promedio de opinion en su muestra estara cerca del promedio real, y pueden calcular que tan cerca.
  • Control de calidad - Una fabrica no prueba cada foco que produce. Prueba lotes. El TLC garantiza que la vida util promedio de un lote es una estimacion confiable del promedio de todos los focos.
  • Investigacion medica - Cuando los doctores prueban un nuevo tratamiento en 200 pacientes, se apoyan en el TLC para saber que el resultado promedio de su estudio refleja lo que pasaria con toda la poblacion.

Que tan grande necesita ser la muestra?

Una pregunta comun: cuantos datos necesitas en cada muestra antes de que el TLC funcione?

40 1 25 2 15 3 10 4 6 5 4 6

La regla general estandar es 30 o mas. Con muestras de 30 o mas datos, los promedios usualmente formaran una campana de Gauss sin importar la distribucion original.

Sin embargo, si tus datos originales ya estan cerca de una campana de Gauss, muestras de incluso 10 o 15 funcionaran. Si tus datos son extremadamente sesgados (como datos de ingresos, donde unos pocos multimillonarios jalan el promedio hacia arriba), podrias necesitar muestras de 50 o mas.

Un ejemplo del mundo real: estaturas

Ejemplo

Supongamos que quieres conocer la estatura promedio de los adultos en tu ciudad. No puedes medir a todos, asi que tomas muestras aleatorias.

Vas a 50 lugares diferentes - un parque, un supermercado, una parada de autobus - y en cada lugar mides la estatura de 40 personas al azar. Luego calculas la estatura promedio para cada grupo de 40.

Aunque las estaturas individuales varian enormemente (de 1.50 m a 1.95 m), los 50 promedios muestrales se agruparan firmemente alrededor del verdadero promedio de la ciudad, formando una campana de Gauss. La mayoria de tus promedios muestrales estaran muy cerca de la respuesta real. Algunos podrian estar un poco mas altos o bajos, pero ninguno estara drasticamente fuera.

Tres propiedades clave

El TLC nos dice tres cosas especificas sobre la distribucion de los promedios muestrales:

  1. Centro: El promedio de todos los promedios muestrales es igual al verdadero promedio de la poblacion. La campana esta centrada en el lugar correcto.
  2. Dispersion: La campana de los promedios es mas estrecha que los datos originales. Muestras mas grandes producen campanas aun mas estrechas, lo que significa estimaciones mas precisas.
  3. Forma: Sin importar la forma de los datos originales, la distribucion de los promedios se acerca a una campana de Gauss conforme aumenta el tamano de la muestra.

Un malentendido comun

Mucha gente cree que el TLC dice "si recopilas suficientes datos, tus datos tendran forma de campana". Eso no es lo que dice.

Los datos originales pueden verse como quieran. El TLC se refiere a los promedios de muestras repetidas, no a los datos en si. Si los ingresos familiares estan fuertemente sesgados a la derecha (unas pocas personas muy ricas estiran la cola), recopilar mas datos de ingresos no cambiara ese sesgo. Pero si tomas muchas muestras y calculas el ingreso promedio de cada muestra, esos promedios formaran una campana de Gauss.

Por que se llama "teorema"

En matematicas, un teorema es algo que ha sido demostrado como verdadero, no solo observado, sino rigurosamente probado con logica. El Teorema del Limite Central no es solo un patron que parece funcionar. Los matematicos han demostrado que debe funcionar, bajo condiciones muy amplias. Eso es lo que da a los estadisticos la confianza para construir tantas herramientas sobre el.

Punto Clave

El Teorema del Limite Central dice que cuando tomas muestras aleatorias repetidas y calculas sus promedios, esos promedios forman una campana de Gauss, sin importar como se vean los datos originales. Por eso los estadisticos pueden hacer predicciones confiables a partir de muestras. Es el fundamento que hace que las encuestas, los experimentos y las pruebas de calidad sean confiables.