Correlacion

Dificultad: Intermedio Tiempo de Lectura: 12 minutos

Se mueven dos cosas juntas?

En la vida cotidiana, constantemente notamos patrones. Las personas mas altas tienden a pesar mas. Los estudiantes que estudian mas horas tienden a obtener mejores calificaciones. Las ciudades con mas policia tienden a tener mas delincuencia. (Espera, eso ultimo significa que la policia causa la delincuencia?)

2 4 6 8 10 2 4 6 8 10 12

La correlacion es como los estadisticos miden y describen estas relaciones. Te dice si dos cosas tienden a moverse juntas y que tan fuertemente. Pero como sugiere ese tercer ejemplo, no te dice por que.

Que es la correlacion?

La correlacion mide la fuerza y la direccion de una relacion lineal entre dos variables. Cuando una variable sube, la otra tiende a subir tambien? A bajar? O no hay un patron consistente?

La medida mas comun es el coeficiente de correlacion, usualmente escrito como r. Es un solo numero entre -1 y +1.

Leyendo el coeficiente de correlacion

  • r = +1: Correlacion positiva perfecta. Cuando una variable aumenta, la otra aumenta en una cantidad perfectamente predecible. Cada punto cae exactamente sobre una linea ascendente.
  • r = -1: Correlacion negativa perfecta. Cuando una sube, la otra baja de manera perfectamente predecible.
  • r = 0: No hay relacion lineal. Conocer una variable no te dice nada sobre la otra.

En la practica, casi nunca veras exactamente +1, -1 o 0. Los datos reales son desordenados. Aqui tienes una guia aproximada:

2 4 6 8 10 5 10
  • 0.7 a 1.0 (o -0.7 a -1.0): Relacion fuerte
  • 0.4 a 0.7 (o -0.4 a -0.7): Relacion moderada
  • 0.1 a 0.4 (o -0.1 a -0.4): Relacion debil
  • 0.0 a 0.1 (o 0.0 a -0.1): Esencialmente sin relacion
Ejemplo

Estatura y peso - Entre adultos, la estatura y el peso tienen una correlacion positiva de aproximadamente r = 0.5 a 0.7. Las personas mas altas tienden a pesar mas, pero hay mucha variacion. Una persona de 1.65 m podria pesar mas que una de 1.80 m.

La correlacion es positiva (ambas suben juntas) y moderada a fuerte (el patron es notable pero no perfecto).

Correlacion positiva vs. negativa

Correlacion positiva significa que ambas variables se mueven en la misma direccion. Cuando una sube, la otra tiende a subir. Cuando una baja, la otra tiende a bajar.

  • Horas de estudio y calificaciones en examenes (mas estudio, mejores notas)
  • Temperatura y ventas de helado (dias mas calientes, mas helado vendido)
  • Experiencia laboral y salario (mas anos trabajando, mayor paga, generalmente)

Correlacion negativa significa que se mueven en direcciones opuestas. Cuando una sube, la otra tiende a bajar.

  • Ejercicio y frecuencia cardiaca en reposo (mas ejercicio, menor frecuencia)
  • Precio y demanda (precio mas alto, menos personas compran)
  • Faltas a clase y calificaciones (mas ausencias, notas mas bajas)

Correlacion no significa causalidad

Esta es la regla mas importante de la estadistica, y aparece constantemente con la correlacion. Solo porque dos cosas estan correlacionadas no significa que una cause la otra.

2 4 6 8 10 2 4 6 8 10
Ejemplo

Ventas de helado y ahogamientos estan positivamente correlacionados. Cuando las ventas de helado suben, los ahogamientos tambien suben. El helado causa ahogamientos?

Por supuesto que no. Ambos son causados por una tercera variable: el calor. Cuando hace calor, mas personas compran helado Y mas personas van a nadar (lo que lleva a mas incidentes de ahogamiento). El helado y los ahogamientos estan relacionados, pero ninguno causa al otro.

Esto se llama una variable confusora: un factor oculto que influye en ambas cosas que estas midiendo.

Hay varias razones por las que dos cosas pueden estar correlacionadas sin que una cause a la otra:

  • Una tercera variable causa ambas. (El calor causa tanto las ventas de helado como la natacion.)
  • Causalidad inversa. Quiza A no causa B; mas bien, B causa A. Las ciudades con mas delincuencia podrian contratar mas policia, no al reves.
  • Pura coincidencia. Con suficientes datos, encontraras correlaciones aleatorias. El numero de peliculas en las que aparecio Nicolas Cage se correlaciona con ahogamientos en piscinas, pero obviamente eso no significa nada.

Lo que la correlacion no detecta

El coeficiente de correlacion solo mide relaciones lineales (en linea recta). Si la relacion entre dos variables es curva, el coeficiente de correlacion puede ser enganoso.

Por ejemplo, el estres y el rendimiento tienen una relacion curva: un poco de estres mejora el rendimiento, pero demasiado estres lo perjudica. El coeficiente de correlacion podria mostrar r = 0, sugiriendo que no hay relacion, cuando claramente la hay, solo que no es una linea recta.

Por eso siempre es buena idea graficar tus datos antes de depender de un solo numero.

Correlacion en la vida cotidiana

Te encuentras con correlaciones todo el tiempo, muchas veces sin darte cuenta:

  • Tu medico podria senalar que tu nivel de colesterol se correlaciona con el riesgo de enfermedades cardiacas.
  • Un negocio podria descubrir que las puntuaciones de satisfaccion del cliente se correlacionan con las compras repetidas.
  • Una escuela podria descubrir que la asistencia se correlaciona con las tasas de graduacion.

En cada caso, la correlacion es informacion util, pero necesitas investigar mas antes de concluir que una cosa causa la otra.

Punto Clave

La correlacion mide si dos cosas tienden a moverse juntas (correlacion positiva) o en direcciones opuestas (correlacion negativa), en una escala de -1 a +1. Es una herramienta poderosa para detectar patrones, pero tiene una limitacion crucial: la correlacion no prueba causalidad. Dos cosas pueden estar correlacionadas por un tercer factor oculto, por causalidad inversa o por pura coincidencia. Siempre pregunta "por que" antes de saltar a conclusiones sobre que causa que.