Нәтиҗә әйе яки юк булганда
Сызыкча регрессия өзлексез санны - өй бәясе, температура, тест баллы кебек - алдан әйтергә кирәк булганда бик яхшы эшли. Ләкин алдан әйтәсе нәрсәнең бары тик ике мөмкин нәтиҗәсе булганда нәрсә була? Клиент сатып алыр яки алмас? Пациент терелерме яки юкмы? Электрон хат спаммы яки түгелме? Бу бинар нәтиҗәләр өчен сызыкча регрессия эшләми, логистик регрессия килеп кертелә.
Бинар нәтиҗәләр өчен сызыкча регрессия кулланудагы төп проблема - ул 0 дан түбән яки 1 дән югары алдан әйтүләр чыгарырга мөмкин, ихтималлыклар буларак мәгънәсез. Нәтиҗәсе 0 яки 1 булган мәгълүматлар аша туры сызык сызарга тырышсагыз, сызык мөмкин булмаган территориягә чыгачак. Логистик регрессия бөтенләй башка форма кулланып бу проблеманы чишә.
Сигмоид кривойы
Туры сызык урынына логистик регрессия S-формасындагы кривой - сигмоид (яки логистик) функция - сыздыра. Бу кривой сул яктан 0 гә якын башлана, уртада 0.5 аша күтәрелә, уң якта 1 гә якынлаша, ләкин чыннан да 0 яки 1 гә ирешми. Бу алдан әйтелгән кыйммәтләрнең һәрвакыт яраклы ихтималлыклар - 0 белән 1 арасында - булуын аңлата.
Өстәге чәчмә диаграммада x үгенең тәҗрибә елларын, y үгенең сертификация имтиханын тапшыруын (1 = тапшырды, 0 = тапшырмады) чагылдырганын күз алдына китерегез. Чимал мәгълүматта ачык үрнәк бар: тәҗрибә күбрәк булгач тапшыру мөмкинрәк. Логистик регрессия моделе бу нокталар аша сигмоид кривой сыздырыр, сезгә теләсә нинди тәҗрибә дәрәҗәсендә тапшыру ихтималлыгын бирер.
Математик яктан модель кертү үзгәрүчәннәрегезнең сызыкча кушылмасын (гади регрессия кебек) ала, аннары аны сигмоид функциясе эченә ура. Бу сезгә коэффициентлар һәм алдан әйтүчеләрнең таныш төшенчәләрен бирә, ләкин чыганак ихтималлык буларак эшли.
Ихтималлык нисбәтләрен аңлау
Логистик регрессия эчке математикасында ихтималлыкларны турыдан-туры алдан әйтми. Аның урынына ул ихтималлыклар белән эшли. Вакыйганың ихтималлыгы 0.8 булса, ихтималлык нисбәте 0.8 / 0.2 = 4, ягъни вакыйга булмаганга караганда дүрт тапкыр мөмкинрәк. Модель чыннан да ихтималлык нисбәтенең логарифмын (лог-ихтималлык яки логит дип атала) алдан әйтә, шуңа күрә ул кайвакыт логит регрессия дип атала.
Логистик регрессиядәге коэффициентлар лог-ихтималлыклар буларак белдерелә, алар интуитив түгел. Аларны аңлашыла итү өчен тикшеренүчеләр аларны коэффициент дәрәҗәсенә күтәрелгән e алып ихтималлык нисбәтләренә әйләндерәләр. Бер үзгәрүчән өчен 2.5 ихтималлык нисбәте бу үзгәрүчәндә бер берәмлек арту нәтиҗәнең ихтималлык нисбәтен 2.5 кә тапкырлавын аңлата. 1 ихтималлык нисбәте - эффект юк, 1 дән зуррак - ихтималлык артып, 1 дән кечерәк - ихтималлык кимеп.
Хастаханә пациентның 30 көн эчендә кабат ятуын алдан әйтү өчен логистик регрессия моделе төзи. Модель таба: пациентта һәр артык сөрәкле авыру кабат яту ихтималлыгын 1.4 тапкыр арттыра (ихтималлык нисбәте = 1.4). 3 сөрәкле авыруы булган пациентның сөрәкле авыруы булмаган пациентка караганда якынча 1.4 тапкыр 1.4 тапкыр 1.4 = 2.74 тапкыр зур кабат яту ихтималлыгы бар. Бу табибларга ачык, санлы риск факторы бирә.
Логистик яки сызыкча регрессияне кайчан сайларга
Карар гади: нәтиҗә үзгәрүчәнегез бинар (ике категория) булса, логистик регрессия кулланыгыз. Нәтиҗәгез өзлексез булса, сызыкча регрессия кулланыгыз. Бинар нәтиҗәне сызыкча моделгә мәҗбүри кертү ялгыш юнәлтүче нәтиҗәләр, мәгънәсез алдан әйтүләр бирер.
Логистик регрессиянең ике категориядән артык нәтиҗәләр өчен киңәйтүләре бар. Мультиномиаль логистик регрессия нәтиҗәнең өч яки артык тәртиптә булмаган категориянең берсе булган очракларны (мәсәлән, автобус, машина яки велосипед арасында сайлау) эшли. Ординаль логистик регрессия тәртиптәге категорияларны (мәсәлән, түбән, урта, югары дип бәяләү) эшли. Ләкин стандарт бинар версия иң еш кулланыла.
Икенче чәчмә диаграмма яшьне (x үге) кешедә билгеле бер сәламәтлек хәленең булу-булмавын (y үге) чагылдыра ала. Туры сызыкның начар туры килүенә, ләкин S-формасындагы кривойның яшь кешеләрдәге түбән ихтималлыктан олырак кешеләрдәге югары ихтималлыкка күчешне тотуына игътибар итегез.
Модельне аңлату һәм бәяләү
Сызыкча регрессиядән аермалы буларак, логистик регрессия туры килүне үлчәү өчен R-квадрат кулланмый. Аның урынына аны очракларны ни тиклем яхшы классификацияләвенә карап бәялиләр. Таралган метрикалар: төгәллек (алдан әйтүләрнең ничә проценты дөрес иде), сизгерлек (чын уңай очракларның ничәсен тотты), спецификлык (чын тискәре очракларның ничәсен дөрес ачыклады) һәм ROC кривойы астындагы мәйдан (AUC) - гомуми классификация сәләтен 0.5 (очраклы уйлау) тан 1.0 (камил) кадәр шкалада йомгаклый.
Шулай ук классификация чиген сайларга кирәк. Модель ихтималлык чыгара, ләкин әйе/юк карары кабул итү өчен чик сайлау кирәк. Гадәттә 0.5 кулланыла: алдан әйтелгән ихтималлык 0.5 тән артык булса, "әйе" дип алдан әйтегез. Ләкин кайбер контекстларда чикне кимайтергә мөмкин. Медицина скрининг тесты күбрәк чын очракларны тоту өчен 0.3 куллана ала, ялган тревогаларны алмаштыру буларак кабул итеп.
Логистик регрессия кертү үзгәрүчәннәре белән нәтиҗәнең лог-ихтималлыклары арасында сызыкча бәйләнеш булуын фараз итә. Шулай ук күзәтүләрнең бер-берсеннән мөстәкыйль булуын фараз итә. Ул алдынгы машина укыту ысулларына караганда чагыштырмача гади, бу чыннан да көчле як: нәтиҗәләр аңлашыла, ихтималлык нисбәтләре мәгънәле, модельне техник булмаган аудиториягә аңлатырга җиңел.
Чын тормышта логистик регрессия
Логистик регрессия һәрнәрсәдә бар. Банклар кредит раслыймы-юкмы дигән карар кабул итү өчен (дефолт яки дефолт юк) куллана. Электрон почта провайдерлары спамны классификацияләү өчен куллана. Маркетологлар нинди клиентларның китәчәген алдан әйтү өчен куллана. Медицина тикшеренүчеләре авыру өчен риск факторларын ачыклау өчен куллана. Аның популярлыгы гадилек, аңлашылу һәм күп чын тормыш проблемаларында яхшы эш итүнең кушылмасыннан килә.
Ихтималлык нисбәтләрен белдергән тикшеренү укысагыз, сез логистик регрессия чыганагына карыйсыз. Бу саннарның нәрсә аңлатуын аңлау - 1.8 ихтималлык нисбәте 80% югарырак ихтималлыкны аңлата, 80% югарырак ихтималлыкны түгел - медицина һәм социаль фәннәр тикшеренүләрен дөрес аңлату өчен мөһим.
Логистик регрессия - бинар нәтиҗәләрне алдан әйтүнең стандарт ысулы. Ул алдан әйтүләрне 0 белән 1 арасында тоту өчен сигмоид функциясен куллана, аның коэффициентлары ихтималлык нисбәтләре буларак аңлатыла. Нәтиҗәгез әйе/юк, тапшырды/тапшырмады яки теләсә нинди ике категорияле үзгәрүчән булганда кулланыгыз. Математика лог-ихтималлыклар белән эшләсә дә, практик аңлату ачык: һәр алдан әйтүче нәтиҗәнең ихтималлыгын сан белән белдерелгән күләмдә арттыра яки кимайтә.