Kui tulemus on jah või ei
Lineaarne regressioon töötab suurepäraselt, kui ennustate pidevat arvu nagu maja hind, temperatuur või testitulemus. Aga mis juhtub, kui asjal, mida soovite ennustada, on ainult kaks võimalikku tulemust? Kas klient ostab või ei osta? Kas patsient paraneb või ei parane? Kas e-kiri on rämpspost või mitte? Nende binaarsete tulemuste jaoks lineaarne regressioon ebaõnnestub ja logistiline regressioon astub mängu.
Lineaarse regressiooni põhiprobleem binaarsete tulemuste puhul on see, et see võib anda ennustusi alla 0 või üle 1, mis ei ole tõenäosustena mõistlikud. Kui prooviksite tõmmata sirget joont läbi andmete, kus tulemus on kas 0 või 1, ulatuks joon paratamatult võimatusse piirkonda. Logistiline regressioon lahendab selle, kasutades hoopis teist kuju.
Sigmoidkõver
Sirge joone sobitamise asemel sobitab logistiline regressioon S-kujulise kõvera, mida nimetatakse sigmoidfunktsiooniks (või logistiliseks funktsiooniks). See kõver algab vasakul 0 lähedalt, tõuseb keskel läbi 0,5 ja läheneb paremal 1-le, kuid ei jõua kunagi tegelikult 0-ni ega 1-ni. See tähendab, et ennustatud väärtused on alati kehtivad tõenäosused, vahemikus 0 kuni 1.
Ülaltoodud hajuvusdiagrammil kujutage ette, et x-telg esindab töökogemuse aastaid ja y-telg seda, kas keegi läbis sertifitseerimiseksami (1 = läbis, 0 = kukkus). Toorandmed näitavad selget mustrit: rohkem kogemust suurendab läbimise tõenäosust. Logistilise regressiooni mudel sobitaks sigmoidkõvera läbi nende punktide, andes iga kogemustaseme jaoks hinnangulise läbimise tõenäosuse.
Matemaatiliselt võtab mudel sisendmuutujate lineaarkombinatsiooni (nagu tavaline regressioon), kuid mähib selle sigmoidfunktsiooni sisse. See tähendab, et saate kõik tuttavad koefitsientide ja ennustajate mõisted, kuid väljund käitub tõenäosusena.
Šansside ja šansisuhete mõistmine
Logistiline regressioon ei ennusta oma sisemises matemaatikas otse tõenäosusi. Selle asemel töötab see šanssidega. Kui sündmuse tõenäosus on 0,8, on šansid 0,8 / 0,2 = 4, mis tähendab, et sündmus on neli korda tõenäolisem kui selle mittetoimumine. Mudel ennustab tegelikult šansside logaritmi (nn log-odds ehk logit), mistõttu nimetatakse seda mõnikord logit-regressiooniks.
Logistilise regressiooni koefitsiendid on väljendatud log-odds'idena, mis ei ole intuitiivsed. Tõlgendatavaks muutmiseks teisendavad teadlased need šansisuheteks, tõstes e koefitsiendi astmesse. Šansisuhe 2,5 muutuja jaoks tähendab, et selle muutuja üheühikuline suurenemine korrutab tulemuse šansid 2,5-ga. Šansisuhe 1 tähendab efekti puudumist, üle 1 tähendab kõrgemaid šansse ja alla 1 tähendab madalamaid šansse.
Haigla ehitab logistilise regressiooni mudeli ennustamaks, kas patsient satub 30 päeva jooksul uuesti haiglasse. Mudel leiab, et iga lisanduv krooniline haigus suurendab taashospitaliseerimise šansse 1,4 korda (šansisuhe = 1,4). Patsiendil, kellel on 3 kroonilist haigust, on ligikaudu 1,4 korda 1,4 korda 1,4 = 2,74 korda suuremad taashospitaliseerimise šansid võrreldes patsiendiga, kellel kroonilisi haigusi ei ole. See annab arstidele selge, mõõdetava riskiteguri.
Millal valida logistiline lineaarse asemel
Otsus on lihtne: kui teie tulemmuutuja on binaarne (kaks kategooriat), kasutage logistilist regressiooni. Kui tulemus on pidev, kasutage lineaarset regressiooni. Binaarse tulemuse surumine lineaarsesse mudelisse annab eksitavaid tulemusi, mõttetuid ennustusi ja rikutud eeldusi.
Rohkem kui kahe kategooriaga tulemuste jaoks on logistilise regressiooni laiendused. Multinomiaalne logistiline regressioon käsitleb juhtumeid, kus tulemus on üks kolmest või enamast järjestamata kategooriast (nagu valik bussi, auto või jalgratta vahel). Ordinaalne logistiline regressioon käsitleb järjestatud kategooriaid (nagu hindamine madal, keskmine, kõrge). Kuid standardne binaarne versioon on kaugelt levinuim.
Teine hajuvusdiagramm ülal võiks esindada vanust (x-telg) versus seda, kas isikul on teatud tervislik seisund (y-telg). Pange tähele, kuidas sirge joon oleks kehv sobitus, kuid S-kujuline kõver tabaks ülemineku madalalt tõenäosuselt nooremas eas kõrgele tõenäosusele vanemas eas.
Mudeli tõlgendamine ja hindamine
Erinevalt lineaarsest regressioonist ei kasuta logistiline regressioon sobivuse mõõtmiseks R-ruutu. Selle asemel hindate seda selle järgi, kui hästi see juhtumeid klassifitseerib. Levinud mõõdikud hõlmavad täpsust (mitu protsenti ennustustest olid õiged), tundlikkust (mitu tegelikku positiivset tabati), spetsiifilisust (mitu tegelikku negatiivset õigesti tuvastati) ja ROC-kõvera alust pinda (AUC), mis võtab kokku üldise klassifitseerimisvõime skaalal 0,5-st (juhuslik arvamine) kuni 1,0-ni (täiuslik).
Peate ka valima klassifitseerimiskünnise. Mudel väljastab tõenäosuse, kuid jah/ei otsuse tegemiseks vajate piirväärtust. Tavaliselt kasutatakse 0,5: kui ennustatud tõenäosus on üle 0,5, ennustage "jah". Kuid mõnes kontekstis võite künnist alandada. Meditsiiniline sõeltest võib kasutada 0,3, et tabada rohkem tegelikke juhtumeid, aktsepteerides rohkem valealarme.
Logistiline regressioon eeldab lineaarset seost sisendmuutujate ja tulemuse log-odds'i vahel. Samuti eeldab, et vaatlused on üksteisest sõltumatud. See on suhteliselt lihtne võrreldes edasijõudnud masinõppe meetoditega, mis on tegelikult tugevus: tulemused on tõlgendatavad, šansisuhted on tähenduslikud ja mudelit on lihtne mittetehnilistele kuulajatele selgitada.
Logistiline regressioon reaalmaailmas
Logistiline regressioon on kõikjal. Pangad kasutavad seda laenu andmise otsustamiseks. E-posti teenusepakkujad klassifitseerivad rämpsposti. Turundajad ennustavad, millised kliendid lahkuvad. Meditsiiniteadlased tuvastavad haiguste riskitegureid. Selle populaarsus tuleneb lihtsuse, tõlgendatavuse ja hea soorituse kombinatsioonist paljude reaalmaailma probleemide puhul.
Kui loete uuringut, mis raporteerib šansisunteid, vaatate logistilise regressiooni väljundit. Nende numbrite tähenduse mõistmine -- et šansisuhe 1,8 tähendab 80% kõrgemaid šansse, mitte 80% kõrgemat tõenäosust -- on hädavajalik meditsiiniliste ja sotsiaalteaduslike uuringute õigeks tõlgendamiseks.
Logistiline regressioon on standardmeetod binaarsete tulemuste ennustamiseks. See kasutab sigmoidfunktsiooni, et hoida ennustusi 0 ja 1 vahel, ning selle koefitsiente tõlgendatakse šansisuhetena. Kasutage seda, kui tulemus on jah/ei, läbis/kukkus või mis tahes kahe kategooriaga muutuja. Kuigi matemaatika hõlmab log-odds'e, on praktiline tõlgendus selge: iga ennustaja kas suurendab või vähendab tulemuse šansse mõõdetava summa võrra.