Fundamentos de Regresion

Dificultad: Intermedio Tiempo de Lectura: 15 minutos

De relaciones a predicciones

En la leccion de correlacion, aprendimos a medir si dos cosas se mueven juntas. Pero la correlacion solo te dice que hay una relacion; no te permite hacer predicciones especificas. Para eso sirve la regresion.

2 4 6 8 10 5 10

La regresion toma la relacion entre dos variables y traza una linea a traves de ella. Esa linea se convierte en una herramienta de prediccion: dame un numero y te estimo el otro.

La linea de mejor ajuste

Imagina que tienes datos de 50 casas: el tamano de cada casa (en metros cuadrados) y su precio de venta. Si graficas estos datos, veras una nube de puntos que tiende hacia arriba: las casas mas grandes generalmente cuestan mas.

La regresion encuentra la unica linea recta que se acerca lo mas posible a todos esos puntos. A esto se le llama la linea de mejor ajuste (o linea de regresion). No pasa por cada punto - los datos reales son demasiado desordenados para eso. En cambio, minimiza la distancia total entre la linea y todos los puntos.

Ejemplo

Recopilas datos de tamanos y precios de casas en tu colonia en Guadalajara:

  • Casa de 80 m² se vendio por $1,200,000 pesos
  • Casa de 110 m² se vendio por $1,750,000 pesos
  • Casa de 140 m² se vendio por $2,200,000 pesos
  • Casa de 170 m² se vendio por $2,600,000 pesos
  • Casa de 200 m² se vendio por $3,100,000 pesos

La regresion traza la mejor linea a traves de estos puntos. La linea podria ser algo como: Precio = $200,000 + ($14,500 x Metros Cuadrados).

Ahora puedes predecir: una casa de 160 m² costaria aproximadamente $200,000 + ($14,500 x 160) = $2,520,000. Ese es el poder de la regresion: convierte un patron en una prediccion especifica.

La ecuacion de la linea

Cada linea de regresion puede escribirse como una ecuacion simple:

-3 -2 -1 0 1 2 3

Y = a + bX

Donde:

  • Y es lo que intentas predecir (la variable "dependiente" o "resultado"), como el precio de la casa.
  • X es lo que usas para hacer la prediccion (la variable "independiente" o "predictora"), como el tamano de la casa.
  • b es la pendiente: cuanto cambia Y por cada aumento de una unidad en X. En nuestro ejemplo, cada metro cuadrado adicional agrega $14,500 al precio predicho.
  • a es el intercepto: el valor predicho de Y cuando X es cero. A veces tiene sentido practico (una casa teorica de "cero metros" costaria $200,000 por el terreno) y a veces no.

Que hace que la linea sea "la mejor"?

Hay infinitas lineas que podrias trazar a traves de una nube de puntos. La regresion elige la que minimiza la suma de errores al cuadrado. Que significa eso en lenguaje sencillo?

Para cada dato, el "error" es la distancia vertical entre el punto y la linea. Algunos puntos caen arriba de la linea (la linea subestimo) y algunos caen abajo (sobreestimo). La regresion eleva al cuadrado cada error (lo que hace que todos sean positivos), los suma todos, y encuentra la linea que hace este total lo mas pequeno posible.

Este metodo se llama regresion de minimos cuadrados y se ha usado durante mas de 200 anos.

Leyendo los resultados de una regresion

Cuando un programa ejecuta una regresion, te da varios numeros clave. Esto es lo que debes buscar:

2 4 6 8 10 2 4 6 8 10

R-cuadrado (R²)

Te dice cuanto de la variacion en tu resultado es explicada por tu predictor. Va de 0 a 1 (o 0% a 100%).

  • R² = 0.85 significa que el tamano de la casa explica el 85% de la variacion en el precio. Eso es fuerte: el tamano es un buen predictor.
  • R² = 0.15 significa que el predictor solo explica el 15% de la variacion. Otros factores importan mucho mas.

La pendiente (y su valor p)

La pendiente te dice la direccion y el tamano de la relacion. El valor p asociado a la pendiente te dice si la relacion es estadisticamente significativa, es decir, si es probable que sea real o si podria ser una casualidad de una muestra pequena.

Error estandar

Te dice aproximadamente que tan lejos estaran tipicamente tus predicciones. Un error estandar de $150,000 en las predicciones de precios de casas significa que la mayoria de tus estimaciones estaran dentro de unos $150,000 del precio real, aunque algunas estaran mas lejos.

Ejemplo

Un gerente de una tienda en linea quiere predecir las ventas mensuales basandose en el gasto en publicidad. Despues de recopilar 24 meses de datos, la regresion da:

  • Ecuacion: Ventas = $100,000 + ($5 x Gasto en Publicidad)
  • R² = 0.72 - El gasto en publicidad explica el 72% de la variacion en ventas.
  • Valor p de la pendiente = 0.001 - Es muy poco probable que la relacion sea coincidencia.
  • Error estandar = $35,000 - Las predicciones tipicamente se desviaran unos $35,000.

Si la empresa gasta $80,000 en publicidad el proximo mes, la prediccion es $100,000 + ($5 x $80,000) = $500,000 en ventas. Pero deberian esperar que el resultado real este en algun lugar entre $465,000 y $535,000.

Limitaciones y precauciones

La regresion es increiblemente util, pero tiene limitaciones importantes:

  • No extrapoles demasiado. Si tus datos cubren casas de 60 a 250 m², no uses la linea para predecir el precio de una mansion de 800 m². La relacion puede no continuar en linea recta mas alla del rango de tus datos.
  • Correlacion, no causalidad. Solo porque puedas predecir Y a partir de X no significa que X cause Y. Las ventas de helado predicen ahogamientos, pero comprar helado no causa ahogamientos.
  • Un predictor a menudo no es suficiente. El precio de una casa depende del tamano, pero tambien de la ubicacion, la antiguedad, el estado y muchas otras cosas. La regresion simple usa un predictor; la regresion multiple usa varios.
  • Los valores atipicos pueden distorsionar la linea. Un solo dato inusual - como una casa diminuta que se vendio por millones por su ubicacion - puede desviar toda la linea.

La regresion en la vida real

La regresion es una de las herramientas estadisticas mas utilizadas en el mundo:

  • Bienes raices: Estimar el valor de viviendas a partir de tamano, ubicacion y caracteristicas.
  • Salud: Predecir resultados de pacientes a partir de edad, peso y factores de estilo de vida.
  • Negocios: Pronosticar ventas a partir de presupuestos de publicidad, temporada e indicadores economicos.
  • Educacion: Predecir el rendimiento estudiantil a partir de horas de estudio, asistencia y calificaciones previas.

Cada vez que un sitio web dice "tiempo estimado de entrega" o "precio estimado", probablemente hay un modelo de regresion funcionando detras de escena.

Punto Clave

La regresion encuentra la mejor linea recta a traves de tus datos, convirtiendo una relacion entre dos variables en una herramienta de prediccion. La ecuacion Y = a + bX te da un pronostico especifico para cualquier valor de X. R-cuadrado te dice cuanto del resultado explica el predictor, y el error estandar te dice que tan precisas tienden a ser tus predicciones. Es una de las herramientas mas practicas de la estadistica, pero recuerda: las predicciones funcionan mejor dentro del rango de tus datos originales, y predecir algo no es lo mismo que causarlo.