Por que un solo numero no es suficiente
Imagina que un noticiero dice: "El mexicano promedio gasta $45,000 pesos al ano en comer fuera de casa". Suena preciso, pero ese dato salio de una encuesta a solo 500 personas. Que tan cerca esta ese numero de la verdad para los mas de 120 millones de mexicanos?
Un solo numero (llamado "estimacion puntual") te da la mejor suposicion, pero no te dice nada sobre que tan confiable es esa suposicion. Para eso sirven los intervalos de confianza. Te dan un rango que probablemente contiene la respuesta verdadera.
Que es un intervalo de confianza?
Un intervalo de confianza es un rango de valores que creemos contiene el valor real de la poblacion, basado en los datos de nuestra muestra. En vez de decir "el promedio es $45,000", dirias "tenemos 95% de confianza en que el promedio real esta entre $41,500 y $48,500".
Ese rango - $41,500 a $48,500 - es el intervalo de confianza. Los "$3,500 arriba y abajo" son el margen de error.
El ejemplo de la encuesta electoral
Antes de unas elecciones en Colombia, una encuestadora entrevista a 1,200 votantes probables. Encuentran que el 52% apoya al candidato A.
Pero no reportan solo "52%". Reportan: "52% con un margen de error de 3 puntos, con 95% de confianza".
Esto significa: basandonos en esta muestra, tenemos 95% de confianza en que el apoyo real al candidato A, entre TODOS los votantes, esta en algun lugar entre 49% y 55%.
Fijate que 49% esta por debajo del 50%. Asi que aunque la encuesta muestra al candidato A "adelante", el intervalo de confianza nos dice que la carrera todavia podria ir para cualquier lado. Esa es informacion increiblemente util que el solo numero "52%" no revela por si mismo.
Que significa realmente "95% de confianza"
Esta es una de las frases mas malinterpretadas de la estadistica. Veamos que significa y que no:
NO significa: "Hay un 95% de probabilidad de que el valor real este en este intervalo especifico". Una vez que el intervalo se calcula, el valor real o esta dentro o no esta. No hay probabilidad al respecto.
SI significa: "Si repitieramos todo este estudio muchas veces - tomando una nueva muestra cada vez y calculando un nuevo intervalo - alrededor del 95% de esos intervalos contendrian el valor real".
Piensa en ello como una red de pesca. Si lanzas el mismo tipo de red 100 veces, esperarias atrapar el pez unas 95 veces. Cualquier lanzamiento individual podria fallar, pero el metodo es confiable a largo plazo.
Margen de error
El margen de error es la parte de "mas o menos" de un intervalo de confianza. Te dice que tan lejos podria estar tu estimacion de la realidad. Un margen de error mas pequeno significa una estimacion mas precisa.
Tres cosas afectan el margen de error:
- Tamano de la muestra: Muestras mas grandes producen margenes de error mas pequenos. Encuestar a 2,000 personas da un rango mas ajustado que encuestar a 200.
- Variabilidad en los datos: Si todos en la poblacion son muy similares, necesitas menos datos para estimar el promedio. Si las personas varian mucho, necesitas mas.
- Nivel de confianza: Un intervalo de confianza del 99% es mas ancho que uno del 95%. Exigir mas certeza significa aceptar un rango mas amplio.
Una escuela quiere saber cuanto tiempo dedican los alumnos a la tarea cada noche.
Encuestan a 50 alumnos y encuentran un promedio de 1.8 horas, con un intervalo de confianza del 95% de 1.5 a 2.1 horas.
Si hubieran encuestado a 200 alumnos, el intervalo podria reducirse a 1.65 a 1.95 horas - una estimacion mas precisa con mas datos.
Si solo hubieran encuestado a 15 alumnos, el intervalo podria ampliarse a 1.2 a 2.4 horas - mucho menos util porque el rango es demasiado amplio.
Como afecta el tamano de la muestra al ancho
Esta es una de las ideas mas practicas de la estadistica. La relacion entre el tamano de la muestra y la precision no es lineal, sino que sigue una "regla de la raiz cuadrada".
Para reducir tu margen de error a la mitad, necesitas cuadruplicar el tamano de la muestra. Pasar de 100 a 400 personas reduce el margen de error a la mitad. Pasar de 400 a 1,600 lo reduce a la mitad otra vez.
Esto explica por que la mayoria de las encuestas nacionales entrevistan entre 1,000 y 1,500 personas. Mas alla de eso, la mejora en precision no justifica el costo adicional. Encuestar a 10,000 personas en vez de 1,000 solo hace el intervalo unas tres veces mas estrecho, a menudo no vale el esfuerzo diez veces mayor.
Diferentes niveles de confianza
Puedes elegir diferentes niveles de confianza segun tus necesidades:
- 90% de confianza: Intervalo mas estrecho, pero mas posibilidad de no incluir el valor real.
- 95% de confianza: La opcion mas comun. Un buen equilibrio entre precision y confiabilidad.
- 99% de confianza: Intervalo mas ancho, pero casi seguro de que el valor real esta incluido.
Mayor confianza significa una red mas ancha. Es mas probable que captures la verdad, pero tu estimacion es menos precisa. Es un equilibrio que eliges segun cuanto riesgo puedes aceptar.
Leer intervalos de confianza en las noticias
Cuando veas intervalos de confianza reportados, aqui van algunos consejos practicos:
- Si dos intervalos de confianza no se superponen, los grupos probablemente son genuinamente diferentes.
- Si un intervalo de confianza para una diferencia incluye el cero, la diferencia podria no ser real.
- Un intervalo muy ancho significa que la estimacion no es confiable, probablemente por una muestra pequena o datos muy variables.
- Siempre revisa el nivel de confianza. Un intervalo del 90% se ve mas estrecho que uno del 99% con los mismos datos, pero es menos confiable.
Un intervalo de confianza te da un rango de valores plausibles para una medida de la poblacion, en lugar de una sola suposicion. El margen de error te dice que tan ancho es ese rango. Muestras mas grandes producen intervalos mas estrechos y precisos. Cuando veas "95% de confianza", significa que el metodo funciona el 95% de las veces a lo largo de muchas repeticiones, no que haya un 95% de probabilidad de que este intervalo particular sea correcto. Los intervalos de confianza son esenciales para entender cuanta confianza depositar en cualquier estimacion.