Cuando tus datos no son numeros
No todos los datos involucran mediciones como estatura, peso o calificaciones. A veces tus datos tratan sobre categorias: si o no, preferencias de marca, colores elegidos o tipos de comida pedidos. Cuando quieres saber si dos categorias estan relacionadas, necesitas una herramienta diferente. Esa herramienta es la prueba chi-cuadrado (pronunciada "ji-cuadrado").
La pregunta central
La prueba chi-cuadrado responde una pregunta simple: estan dos variables categoricas relacionadas o son independientes?
Por ejemplo: el grupo de edad de una persona afecta que plataforma de streaming prefiere? Los hombres y las mujeres eligen carreras universitarias diferentes a tasas distintas? Hay una relacion entre la region donde vive alguien y como vota?
Estas preguntas involucran contar cuantas personas caen en diferentes combinaciones de categorias, y luego verificar si el patron que observas podria haber ocurrido por azar.
Observado vs. esperado
La prueba chi-cuadrado funciona comparando dos cosas:
- Conteos observados: Lo que realmente encontraste en tus datos.
- Conteos esperados: Lo que esperarias encontrar si las dos categorias no tuvieran absolutamente ninguna relacion.
Si los conteos observados son muy diferentes de los esperados, eso es evidencia de que las categorias estan relacionadas. Si son cercanos, las categorias probablemente son independientes.
Una tienda de telefonos en Buenos Aires encuesta a 400 clientes y registra su genero y su marca preferida:
| Apple | Samsung | Otra | Total | |
|---|---|---|---|---|
| Mujeres | 120 | 55 | 25 | 200 |
| Hombres | 90 | 80 | 30 | 200 |
| Total | 210 | 135 | 55 | 400 |
Si el genero y la preferencia de marca fueran completamente independientes, esperarias que cada genero prefiera las marcas a las mismas tasas. Como 210 de 400 clientes totales prefieren Apple (52.5%), esperarias que alrededor del 52.5% de las mujeres (105) y el 52.5% de los hombres (105) prefieran Apple.
Pero los numeros reales son 120 mujeres y 90 hombres. Eso es notablemente diferente del 105 esperado para cada uno. La prueba chi-cuadrado mide si diferencias como esta son lo suficientemente grandes para ser significativas o si podrian ocurrir por azar.
Como funciona (sin las matematicas)
La prueba chi-cuadrado sigue estos pasos:
- Cuenta lo que observaste. Suma cuantas personas o cosas caen en cada combinacion de categorias.
- Calcula lo que esperarias. Determina como se verian los conteos si las dos categorias fueran completamente independientes.
- Compara lo observado con lo esperado. Para cada celda de tu tabla, mide que tan lejos esta el conteo observado del esperado.
- Combina las diferencias. Suma todas esas diferencias (despues de elevarlas al cuadrado y ajustarlas por los conteos esperados) para obtener un solo numero: el estadistico chi-cuadrado.
- Obtiene un valor p. Usa el estadistico chi-cuadrado para determinar que tan probable es que vieras diferencias tan grandes por puro azar.
Un estadistico chi-cuadrado grande (y un valor p pequeno) significa que las categorias probablemente estan relacionadas. Un estadistico chi-cuadrado pequeno significa que probablemente son independientes.
Otro uso comun: prueba de bondad de ajuste
Hay un segundo tipo de prueba chi-cuadrado llamada la prueba de bondad de ajuste. En vez de preguntar si dos categorias estan relacionadas, pregunta si tus datos coinciden con una distribucion especifica que esperabas.
Una empresa de dulces afirma que sus bolsas contienen proporciones iguales de cinco colores: rojo, azul, verde, amarillo y naranja (20% cada uno). Compras una bolsa y cuentas 100 dulces:
- Rojo: 28, Azul: 15, Verde: 22, Amarillo: 18, Naranja: 17
Si la afirmacion de la empresa es cierta, esperarias alrededor de 20 de cada color. Tu bolsa tiene notablemente mas rojos y menos azules. Una prueba chi-cuadrado de bondad de ajuste verifica si estas diferencias son lo suficientemente grandes como para dudar de la afirmacion de la empresa, o si estan dentro del rango de variacion aleatoria normal.
Cuando usar una prueba chi-cuadrado
La prueba chi-cuadrado es la opcion correcta cuando:
- Tus datos consisten en conteos o frecuencias en categorias (no mediciones como estaturas o calificaciones).
- Cada observacion cae en exactamente una categoria por variable.
- Tienes una muestra razonablemente grande: generalmente, cada conteo esperado por celda deberia ser al menos 5.
- Las observaciones son independientes: cada persona o elemento se cuenta solo una vez.
Limitaciones
La prueba chi-cuadrado te dice si existe una relacion entre categorias, pero no que tan fuerte es. Una muestra muy grande puede producir un resultado significativo incluso para una relacion trivialmente pequena. Para medir la fuerza de la asociacion, los estadisticos usan medidas adicionales como la V de Cramer junto con la prueba chi-cuadrado.
Ademas, como todas las pruebas estadisticas, encontrar una relacion no prueba causalidad. Si hombres y mujeres prefieren diferentes marcas de telefono, la prueba no te dice por que. Podria ser el marketing, la influencia de los pares, las preferencias de funciones u otros muchos factores.
La prueba chi-cuadrado se usa cuando tus datos involucran categorias en lugar de numeros. Compara lo que realmente observaste con lo que esperarias si dos categorias no estuvieran relacionadas. Una gran diferencia entre los conteos observados y esperados (que resulta en un valor p pequeno) sugiere que las categorias estan conectadas. Se usa ampliamente en encuestas, investigacion de mercado y ciencias sociales, cada vez que preguntas si la pertenencia a un grupo afecta las decisiones que toman las personas.