Cuando el resultado es sí o no
La regresión lineal funciona perfectamente cuando estás prediciendo un número continuo, como el precio de una casa, la temperatura o una calificación de examen. Pero, ¿qué pasa cuando lo que quieres predecir tiene solo dos resultados posibles? ¿Comprará el cliente o no? ¿Se recuperará el paciente o no? ¿Es el correo electrónico spam o no? Para estos resultados binarios, la regresión lineal falla y la regresión logística toma su lugar.
El problema fundamental de usar regresión lineal para resultados binarios es que puede producir predicciones por debajo de 0 o por encima de 1, lo cual no tiene sentido como probabilidades. Si intentaras trazar una línea recta a través de datos donde el resultado es 0 o 1, la línea inevitablemente se extendería a territorio imposible. La regresión logística resuelve esto usando una forma completamente diferente.
La curva sigmoide
En lugar de ajustar una línea recta, la regresión logística ajusta una curva en forma de S llamada función sigmoide (o logística). Esta curva comienza cerca de 0 a la izquierda, sube a 0.5 en el medio y se aproxima a 1 a la derecha, pero nunca alcanza realmente 0 o 1. Esto significa que los valores predichos siempre son probabilidades válidas, entre 0 y 1.
En el diagrama de dispersión anterior, imagina que el eje x representa años de experiencia y el eje y representa si alguien aprobó un examen de certificación (1 = aprobó, 0 = reprobó). Los datos brutos muestran un patrón claro: más experiencia hace más probable aprobar. Un modelo de regresión logística ajustaría una curva sigmoide a través de estos puntos, dándote la probabilidad estimada de aprobar en cualquier nivel de experiencia.
Matemáticamente, el modelo toma una combinación lineal de tus variables de entrada (igual que la regresión regular) pero luego la envuelve dentro de la función sigmoide. Esto significa que obtienes todos los conceptos familiares de coeficientes y predictores pero con una salida que se comporta como una probabilidad.
Comprender las probabilidades y razones de momios
La regresión logística no predice directamente probabilidades en sus cálculos internos. En su lugar, trabaja con momios (odds). Si la probabilidad de un evento es 0.8, los momios son 0.8 / 0.2 = 4, lo que significa que el evento tiene cuatro veces más probabilidad de ocurrir que de no ocurrir. El modelo realmente predice el logaritmo de los momios (llamado log-momios o logit), por lo que a veces se le llama regresión logit.
Los coeficientes en una regresión logística se expresan como log-momios, que no son intuitivos. Para hacerlos interpretables, los investigadores los convierten en razones de momios elevando e a la potencia del coeficiente. Una razón de momios de 2.5 para una variable significa que un aumento de una unidad en esa variable multiplica los momios del resultado por 2.5. Una razón de momios de 1 significa sin efecto, mayor que 1 significa mayores momios y menor que 1 significa menores momios.
Un hospital construye un modelo de regresión logística para predecir si un paciente será readmitido dentro de 30 días. El modelo encuentra que cada condición crónica adicional que tiene un paciente aumenta los momios de readmisión por un factor de 1.4 (razón de momios = 1.4). Un paciente con 3 condiciones crónicas tiene aproximadamente 1.4 por 1.4 por 1.4 = 2.74 veces los momios de readmisión comparado con un paciente sin condiciones crónicas. Esto da a los médicos un factor de riesgo claro y cuantificable.
Cuándo elegir regresión logística sobre lineal
La decisión es sencilla: si tu variable de resultado es binaria (dos categorías), usa regresión logística. Si tu resultado es continuo, usa regresión lineal. Intentar forzar un resultado binario en un modelo lineal te dará resultados engañosos, predicciones sin sentido y supuestos violados.
Existen extensiones de la regresión logística para resultados con más de dos categorías. La regresión logística multinomial maneja casos donde el resultado es una de tres o más categorías no ordenadas (como elegir entre autobús, coche o bicicleta). La regresión logística ordinal maneja categorías ordenadas (como calificar algo como bajo, medio o alto). Pero la versión binaria estándar es con diferencia la más común.
El segundo diagrama de dispersión anterior podría representar la edad (eje x) versus si una persona tiene una condición de salud particular (eje y). Observa cómo una línea recta sería un mal ajuste, pero una curva en forma de S capturaría la transición de baja probabilidad en edades jóvenes a alta probabilidad en edades avanzadas.
Interpretación y evaluación del modelo
A diferencia de la regresión lineal, la regresión logística no usa R-cuadrado para medir el ajuste. En su lugar, se evalúa por qué tan bien clasifica los casos. Las métricas comunes incluyen exactitud (qué porcentaje de predicciones fueron correctas), sensibilidad (cuántos positivos reales detectó), especificidad (cuántos negativos reales identificó correctamente) y el área bajo la curva ROC (AUC), que resume la capacidad general de clasificación en una escala de 0.5 (adivinación al azar) a 1.0 (perfecto).
También necesitas elegir un umbral de clasificación. El modelo produce una probabilidad, pero para tomar una decisión sí/no, necesitas escoger un punto de corte. Típicamente se usa 0.5: si la probabilidad predicha está por encima de 0.5, se predice "sí." Pero en algunos contextos, podrías bajar el umbral. Una prueba de detección médica podría usar 0.3 para captar más casos verdaderos, aceptando más falsas alarmas como compensación.
La regresión logística asume una relación lineal entre las variables de entrada y el log-momios del resultado. También asume que las observaciones son independientes entre sí. Es relativamente simple comparada con métodos avanzados de aprendizaje automático, lo cual es en realidad una fortaleza: los resultados son interpretables, las razones de momios son significativas y el modelo es fácil de explicar a audiencias no técnicas.
La regresión logística en el mundo real
La regresión logística está en todas partes. Los bancos la usan para decidir si aprueban un préstamo (incumplimiento vs no incumplimiento). Los proveedores de correo electrónico la usan para clasificar spam. Los mercadólogos la usan para predecir qué clientes se irán. Los investigadores médicos la usan para identificar factores de riesgo de enfermedades. Su popularidad proviene de una combinación de simplicidad, interpretabilidad y fuerte rendimiento en muchos problemas del mundo real.
Cuando lees un estudio que reporta razones de momios, estás viendo el resultado de una regresión logística. Comprender qué significan esos números -- que una razón de momios de 1.8 significa un 80% más de momios, no un 80% más de probabilidad -- es esencial para interpretar correctamente la investigación médica y en ciencias sociales.
La regresión logística es el método estándar para predecir resultados binarios. Usa la función sigmoide para mantener las predicciones entre 0 y 1, y sus coeficientes se interpretan como razones de momios. Úsala siempre que tu resultado sea sí/no, aprobado/reprobado o cualquier variable de dos categorías. Aunque las matemáticas involucran log-momios, la interpretación práctica es clara: cada predictor aumenta o disminuye los momios del resultado en una cantidad cuantificable.