Логистическая регрессия

Сложность: Продвинутый Время чтения: 15 минут

Когда результат -- да или нет

Линейная регрессия отлично работает для прогнозирования непрерывных величин -- цены дома, температуры или результата теста. Но что делать, когда прогнозируемая величина имеет только два возможных исхода? Купит ли клиент или нет? Выздоровеет пациент или нет? Является ли письмо спамом или нет? Для таких бинарных исходов линейная регрессия не подходит, и на её место приходит логистическая регрессия.

Основная проблема использования линейной регрессии для бинарных исходов в том, что она может давать прогнозы ниже 0 или выше 1, что не имеет смысла в качестве вероятностей. Если попытаться провести прямую линию через данные, где исход равен 0 или 1, линия неизбежно уйдёт в невозможную область. Логистическая регрессия решает это, используя совершенно другую форму.

Сигмоидная кривая

Вместо прямой линии логистическая регрессия подгоняет S-образную кривую, называемую сигмоидной (или логистической) функцией. Эта кривая начинается вблизи 0 слева, проходит через 0.5 в середине и приближается к 1 справа, но никогда не достигает 0 или 1. Это означает, что прогнозируемые значения всегда являются допустимыми вероятностями -- от 0 до 1.

5 10 15 0 0.2 0.4 0.6000000000000001 0.8 1

На диаграмме рассеяния выше представьте, что ось x -- это годы опыта, а ось y -- сдал ли человек сертификационный экзамен (1 = сдал, 0 = не сдал). Сырые данные показывают чёткий паттерн: больше опыта повышает вероятность сдачи. Модель логистической регрессии подгонит сигмоидную кривую через эти точки, давая оценку вероятности сдачи при любом уровне опыта.

Математически модель берёт линейную комбинацию входных переменных (как и обычная регрессия), но затем оборачивает её в сигмоидную функцию. Это означает, что вы получаете все знакомые концепции коэффициентов и предикторов, но с выходом, который ведёт себя как вероятность.

Понимание шансов и отношений шансов

Логистическая регрессия не прогнозирует вероятности напрямую в своих внутренних вычислениях. Вместо этого она работает с шансами. Если вероятность события 0.8, шансы равны 0.8 / 0.2 = 4, то есть событие в четыре раза вероятнее, чем его отсутствие. Модель фактически прогнозирует логарифм шансов (называемый лог-шансами или логитом), поэтому её иногда называют логит-регрессией.

Коэффициенты логистической регрессии выражаются в лог-шансах, что не интуитивно. Для интерпретации исследователи преобразуют их в отношения шансов, возведя e в степень коэффициента. Отношение шансов 2.5 для переменной означает, что увеличение переменной на единицу умножает шансы исхода на 2.5. Отношение шансов 1 означает отсутствие эффекта, больше 1 -- повышенные шансы, меньше 1 -- пониженные.

Пример

Больница строит модель логистической регрессии для прогнозирования повторной госпитализации пациента в течение 30 дней. Модель выявляет, что каждое дополнительное хроническое заболевание увеличивает шансы повторной госпитализации в 1.4 раза (отношение шансов = 1.4). Пациент с 3 хроническими заболеваниями имеет примерно 1.4 * 1.4 * 1.4 = 2.74 раза большие шансы повторной госпитализации по сравнению с пациентом без хронических заболеваний. Это даёт врачам чёткий, количественный фактор риска.

Когда выбирать логистическую вместо линейной регрессии

Решение простое: если ваша переменная-исход бинарная (две категории), используйте логистическую регрессию. Если исход непрерывный -- линейную. Попытка втиснуть бинарный исход в линейную модель даст обманчивые результаты, бессмысленные прогнозы и нарушенные предположения.

Существуют расширения логистической регрессии для исходов с более чем двумя категориями. Мультиномиальная логистическая регрессия работает со случаями, когда исход -- одна из трёх и более неупорядоченных категорий (например, выбор между автобусом, машиной или велосипедом). Ординальная логистическая регрессия -- для упорядоченных категорий (например, оценка: низкая, средняя, высокая). Но стандартная бинарная версия встречается чаще всего.

20 30 40 50 60 70 0 0.2 0.4 0.6000000000000001 0.8 1

Вторая диаграмма рассеяния может представлять возраст (ось x) и наличие определённого заболевания (ось y). Обратите внимание, что прямая линия была бы плохим приближением, но S-образная кривая хорошо отразила бы переход от низкой вероятности в молодом возрасте к высокой -- в старшем.

Интерпретация и оценка модели

В отличие от линейной регрессии, логистическая не использует R-квадрат для оценки качества. Вместо этого её оценивают по качеству классификации. Распространённые метрики включают точность (какой процент прогнозов оказался верным), чувствительность (сколько реальных положительных случаев выявлено), специфичность (сколько реальных отрицательных верно определено) и площадь под ROC-кривой (AUC), которая обобщает способность классификации по шкале от 0.5 (случайное угадывание) до 1.0 (идеально).

Также необходимо выбрать порог классификации. Модель выдаёт вероятность, но для принятия решения да/нет нужно задать отсечку. Обычно используется 0.5: если прогнозируемая вероятность выше 0.5 -- предсказываем «да». Но в некоторых контекстах порог снижают. Медицинский скрининг может использовать 0.3, чтобы выявить больше истинных случаев, допуская больше ложных тревог как компромисс.

Логистическая регрессия предполагает линейную связь между входными переменными и лог-шансами исхода. Также предполагается, что наблюдения независимы друг от друга. Она относительно проста по сравнению с продвинутыми методами машинного обучения, что является её силой: результаты интерпретируемы, отношения шансов осмысленны, и модель легко объяснить нетехнической аудитории.

Логистическая регрессия в реальном мире

Логистическая регрессия повсюду. Банки используют её для решения об одобрении кредита (дефолт или нет). Почтовые провайдеры -- для классификации спама. Маркетологи -- для прогнозирования оттока клиентов. Медицинские исследователи -- для выявления факторов риска заболеваний. Её популярность обусловлена сочетанием простоты, интерпретируемости и хорошей производительности на многих практических задачах.

Когда вы читаете исследование, в котором указаны отношения шансов, вы смотрите на результат логистической регрессии. Понимание того, что означают эти числа -- отношение шансов 1.8 означает на 80% более высокие шансы, а не на 80% более высокую вероятность -- необходимо для правильной интерпретации медицинских и социальных исследований.

Ключевой вывод

Логистическая регрессия -- стандартный метод прогнозирования бинарных исходов. Она использует сигмоидную функцию для удержания прогнозов в диапазоне от 0 до 1, а её коэффициенты интерпретируются как отношения шансов. Используйте её всякий раз, когда исход -- да/нет, сдал/не сдал или любая двухкатегориальная переменная. Хотя математика включает лог-шансы, практическая интерпретация ясна: каждый предиктор увеличивает или уменьшает шансы исхода на количественно определённую величину.