Логістична регресія

Складність: Просунутий Час читання: 15 хвилин

Коли результат - так чи ні

Лінійна регресія чудово працює, коли ви прогнозуєте неперервне число - ціну будинку, температуру або бал тесту. Але що робити, коли те, що ви хочете прогнозувати, має лише два можливі результати? Купить клієнт чи не купить? Одужає пацієнт чи ні? Чи є лист спамом чи ні? Для таких бінарних результатів лінійна регресія не підходить, і на допомогу приходить логістична регресія.

Основна проблема використання лінійної регресії для бінарних результатів полягає в тому, що вона може давати прогнози нижче 0 або вище 1, що не має сенсу як ймовірність. Якщо спробувати провести пряму лінію через дані, де результат або 0, або 1, лінія неминуче вийде в неможливу зону. Логістична регресія вирішує це, використовуючи зовсім іншу форму.

Сигмоїдна крива

Замість прямої лінії логістична регресія підганяє S-подібну криву, звану сигмоїдною (або логістичною) функцією. Ця крива починається близько до 0 зліва, проходить через 0,5 посередині та наближається до 1 справа, але ніколи фактично не досягає 0 чи 1. Це означає, що прогнозовані значення завжди є допустимими ймовірностями - від 0 до 1.

5 10 15 0 0.2 0.4 0.6000000000000001 0.8 1

На діаграмі розсіювання вище уявіть, що вісь X - це роки досвіду, а вісь Y - чи склала людина сертифікаційний іспит (1 = склав, 0 = не склав). Необроблені дані показують чітку закономірність: більший досвід підвищує ймовірність складання. Модель логістичної регресії підгонить сигмоїдну криву через ці точки, даючи оцінку ймовірності складання при будь-якому рівні досвіду.

Математично модель бере лінійну комбінацію вхідних змінних (як у звичайній регресії), а потім загортає її у сигмоїдну функцію. Це означає, що ви отримуєте всі звичні поняття коефіцієнтів та предикторів, але з виходом, що поводиться як ймовірність.

Розуміння шансів та відношення шансів

Логістична регресія не прогнозує ймовірності безпосередньо у своїх внутрішніх розрахунках. Натомість вона працює з шансами. Якщо ймовірність події 0,8, шанси становлять 0,8 / 0,2 = 4, тобто подія в чотири рази ймовірніше станеться, ніж ні. Модель фактично прогнозує логарифм шансів (званий лог-шанси або логіт), тому її іноді називають логіт-регресією.

Коефіцієнти логістичної регресії виражаються як лог-шанси, що не дуже інтуїтивно. Для полегшення інтерпретації дослідники перетворюють їх на відношення шансів, піднісши e до степеня коефіцієнта. Відношення шансів 2,5 для змінної означає, що збільшення цієї змінної на одну одиницю множить шанси результату на 2,5. Відношення шансів 1 означає відсутність ефекту, більше 1 - вищі шанси, менше 1 - нижчі шанси.

Приклад

Лікарня будує модель логістичної регресії для прогнозування повторної госпіталізації пацієнта протягом 30 днів. Модель виявляє, що кожне додаткове хронічне захворювання збільшує шанси повторної госпіталізації у 1,4 разу (відношення шансів = 1,4). Пацієнт із 3 хронічними захворюваннями має приблизно 1,4 помножити на 1,4 помножити на 1,4 = 2,74 разу вищі шанси повторної госпіталізації порівняно з пацієнтом без хронічних захворювань. Це дає лікарям чіткий, кількісно визначений фактор ризику.

Коли обирати логістичну замість лінійної регресії

Рішення просте: якщо ваша залежна змінна бінарна (дві категорії), використовуйте логістичну регресію. Якщо результат неперервний, використовуйте лінійну регресію. Спроба нав'язати бінарний результат лінійній моделі дасть хибні результати, безглузді прогнози та порушені припущення.

Існують розширення логістичної регресії для результатів з більш ніж двома категоріями. Мультиноміальна логістична регресія працює з випадками, коли результат - одна з трьох чи більше невпорядкованих категорій (наприклад, вибір між автобусом, автомобілем або велосипедом). Порядкова логістична регресія працює з впорядкованими категоріями (наприклад, оцінка як низька, середня або висока). Але стандартна бінарна версія є найпоширенішою.

20 30 40 50 60 70 0 0.2 0.4 0.6000000000000001 0.8 1

Друга діаграма розсіювання вище може представляти вік (вісь X) та наявність певного стану здоров'я (вісь Y). Зверніть увагу, як пряма лінія була б поганим наближенням, але S-подібна крива вловила б перехід від низької ймовірності у молодшому віці до високої ймовірності у старшому.

Інтерпретація та оцінка моделі

На відміну від лінійної регресії, логістична регресія не використовує R-квадрат для вимірювання якості підгонки. Натомість її оцінюють за якістю класифікації. Поширені метрики включають точність (який відсоток прогнозів був правильним), чутливість (скільки фактичних позитивних випадків було виявлено), специфічність (скільки фактичних негативних випадків було правильно визначено) та площу під кривою ROC (AUC), яка узагальнює загальну здатність класифікації за шкалою від 0,5 (випадкове вгадування) до 1,0 (ідеально).

Також потрібно обрати поріг класифікації. Модель видає ймовірність, але для прийняття рішення так/ні потрібен поріг. Зазвичай використовується 0,5: якщо прогнозована ймовірність вище 0,5 - прогноз «так». Але в деяких контекстах поріг можна знизити. Медичний скринінговий тест може використовувати 0,3 для виявлення більшої кількості справжніх випадків, приймаючи більше хибних тривог як компроміс.

Логістична регресія припускає лінійний зв'язок між вхідними змінними та лог-шансами результату. Вона також припускає, що спостереження незалежні одне від одного. Вона відносно проста порівняно з передовими методами машинного навчання, що насправді є перевагою: результати інтерпретовані, відношення шансів змістовні, і модель легко пояснити нетехнічній аудиторії.

Логістична регресія в реальному світі

Логістична регресія скрізь. Банки використовують її для вирішення, чи схвалити кредит (дефолт чи ні). Поштові сервіси - для класифікації спаму. Маркетологи - для прогнозування відтоку клієнтів. Медичні дослідники - для виявлення факторів ризику захворювань. Її популярність зумовлена поєднанням простоти, інтерпретованості та високої ефективності на багатьох реальних задачах.

Коли ви читаєте дослідження, що повідомляє відношення шансів, ви дивитеся на результат логістичної регресії. Розуміння того, що ці числа означають - що відношення шансів 1,8 означає на 80% вищі шанси, а не на 80% вищу ймовірність - є необхідним для правильної інтерпретації медичних та соціальних досліджень.

Ключовий висновок

Логістична регресія - стандартний метод прогнозування бінарних результатів. Вона використовує сигмоїдну функцію, щоб тримати прогнози від 0 до 1, а її коефіцієнти інтерпретуються як відношення шансів. Використовуйте її, коли результат - так/ні, склав/не склав, або будь-яка двокатегоріальна змінна. Хоча математика включає лог-шанси, практична інтерпретація зрозуміла: кожен предиктор або збільшує, або зменшує шанси результату на кількісно визначену величину.