Regression ya Logistic

Kiwango cha Ugumu: Juu Muda wa Kusoma: 15 dakika

Matokeo Yanapokuwa Ndiyo au Hapana

Regression ya mstari inafanya kazi vizuri unapotabiri nambari inayoendelea, kama bei ya nyumba, halijoto, au alama ya mtihani. Lakini nini kinatokea kitu unachotaka kutabiri kina matokeo mawili tu yanayowezekana? Je mteja atanunua au hatanunua? Je mgonjwa atapona au hatapona? Je barua pepe ni taka au si taka? Kwa matokeo haya ya binary, regression ya mstari inashindwa, na regression ya logistic inaingia.

Tatizo kuu la kutumia regression ya mstari kwa matokeo ya binary ni kwamba inaweza kuzalisha utabiri chini ya 0 au zaidi ya 1, ambayo haina maana kama uwezekano. Ukijaribu kuchora mstari wa moja kwa moja kupitia data ambapo matokeo ni 0 au 1, mstari bila shaka utaenea katika eneo lisilowezekana. Regression ya logistic inatatua hili kwa kutumia umbo tofauti kabisa.

Mkunjo wa Sigmoid

Badala ya kudondosha mstari wa moja kwa moja, regression ya logistic inadondosha mkunjo wa umbo la S unaoitwa sigmoid (au logistic). Mkunjo huu unaanza karibu na 0 upande wa kushoto, unapanda kupitia 0.5 katikati, na kufikia karibu 1 upande wa kulia, lakini haufikii 0 au 1 kamwe. Hii ina maana thamani zilizotabiriwa daima ni uwezekano halali, kati ya 0 na 1.

5 10 15 0 0.2 0.4 0.6000000000000001 0.8 1

Katika chati ya kutawanya hapo juu, fikiria mhimili wa x unawakilisha miaka ya uzoefu na mhimili wa y unawakilisha kama mtu alipita mtihani wa uthibitisho (1 = kupita, 0 = kushindwa). Data mbichi inaonyesha muundo wazi: uzoefu zaidi unafanya kupita kuwa uwezekano zaidi. Mfano wa regression ya logistic ungedondosha mkunjo wa sigmoid kupitia nukta hizi, kukupa uwezekano uliokadiriwa wa kupita kwa kiwango chochote cha uzoefu.

Kihisabati, mfano unachukua mchanganyiko wa mstari wa vigezo vyako vya ingizo (kama regression ya kawaida) lakini kisha kuifunga ndani ya kazi ya sigmoid. Hii ina maana unapata dhana zote za kawaida za mgawo na vitabiri lakini na matokeo yanayotenda kama uwezekano.

Kuelewa Nafasi na Uwiano wa Nafasi

Regression ya logistic haiwezi kutabiri uwezekano moja kwa moja katika hisabati yake ya ndani. Badala yake, inafanya kazi na nafasi. Ikiwa uwezekano wa tukio ni 0.8, nafasi ni 0.8 / 0.2 = 4, ikimaanisha tukio lina uwezekano mara nne zaidi kutokea kuliko kutokutokea. Mfano kweli unatabiri log ya nafasi (inayoitwa log-nafasi au logit), ndiyo maana wakati mwingine inaitwa regression ya logit.

Mgawo katika regression ya logistic unaelezwa kama log-nafasi, ambayo si ya angavu. Ili kuyafanya yaeleweke, watafiti wanayabadilisha kuwa uwiano wa nafasi kwa kuinua e kwa nguvu ya mgawo. Uwiano wa nafasi wa 2.5 kwa kigezo ina maana kuwa ongezeko la kitengo kimoja katika kigezo hicho linazidisha nafasi za matokeo kwa 2.5. Uwiano wa nafasi wa 1 ina maana hakuna athari, zaidi ya 1 ina maana nafasi za juu, na chini ya 1 ina maana nafasi za chini.

Mfano

Hospitali inajenga mfano wa regression ya logistic kutabiri kama mgonjwa atarudishwa ndani ya siku 30. Mfano unagundua kuwa kila hali ya ziada sugu ambayo mgonjwa anayo inaongeza nafasi za kurudishwa kwa mara 1.4 (uwiano wa nafasi = 1.4). Mgonjwa mwenye hali 3 sugu ana takriban 1.4 mara 1.4 mara 1.4 = 2.74 mara nafasi za kurudishwa kulinganisha na mgonjwa asiye na hali sugu. Hii inawapa madaktari kipengele cha hatari kilicho wazi na kinachoweza kupimwa.

Lini Kuchagua Logistic Badala ya Regression ya Mstari

Uamuzi ni wa moja kwa moja: ikiwa kigezo chako cha matokeo ni binary (makundi mawili), tumia regression ya logistic. Ikiwa matokeo yako ni ya kuendelea, tumia regression ya mstari. Kujaribu kulazimisha matokeo ya binary katika mfano wa mstari kutakupa matokeo yanayopotosha, utabiri usio na maana, na madhania yaliyovunjwa.

Kuna viendelezi vya regression ya logistic kwa matokeo yenye makundi zaidi ya mawili. Regression ya logistic ya multinomial inashughulikia hali ambapo matokeo ni moja ya makundi matatu au zaidi yasiyo na mpangilio (kama kuchagua kati ya basi, gari, au baiskeli). Regression ya logistic ya ordinal inashughulikia makundi yenye mpangilio (kama kutathmini kitu kama chini, kati, au juu). Lakini toleo la kawaida la binary ndilo linalotumika zaidi kwa mbali.

20 30 40 50 60 70 0 0.2 0.4 0.6000000000000001 0.8 1

Chati ya pili ya kutawanya hapo juu inaweza kuwakilisha umri (mhimili wa x) dhidi ya kama mtu ana hali fulani ya afya (mhimili wa y). Angalia jinsi mstari wa moja kwa moja ungekuwa na dondosho baya, lakini mkunjo wa umbo la S ungenasa mpito kutoka uwezekano mdogo katika umri mdogo hadi uwezekano mkubwa katika umri mkubwa.

Kutafsiri na Kutathmini Mfano

Tofauti na regression ya mstari, regression ya logistic haitumii R-mraba kupima dondosho. Badala yake, unaitathmini kwa jinsi inavyoainisha kesi vizuri. Vipimo vya kawaida ni pamoja na usahihi (ni asilimia ngapi ya utabiri ulikuwa sahihi), unyeti (ni chanya ngapi za kweli ulizoziibua), umaalumu (ni hasi ngapi za kweli ulizozitambua kwa usahihi), na eneo chini ya mkunjo wa ROC (AUC), ambayo inafupisha uwezo wa jumla wa uainishaji kwenye kipimo kutoka 0.5 (kubahatisha kwa nasibu) hadi 1.0 (kamili).

Unahitaji pia kuchagua kizingiti cha uainishaji. Mfano unatoa uwezekano, lakini kufanya uamuzi wa ndiyo/hapana, unahitaji kuchagua hatua. Kawaida 0.5 inatumika: ikiwa uwezekano uliotabiriwa uko juu ya 0.5, tabiri "ndiyo." Lakini katika muktadha fulani, unaweza kupunguza kizingiti. Jaribio la uchunguzi wa matibabu linaweza kutumia 0.3 kukamata kesi zaidi za kweli, likikubali kengele zaidi za uongo kama ubadilishanaji.

Regression ya logistic inadhani uhusiano wa mstari kati ya vigezo vya ingizo na log-nafasi za matokeo. Pia inadhani uchunguzi ni huru wa kila moja. Ni rahisi kulinganisha na mbinu za hali ya juu za kujifunza kwa mashine, ambayo kweli ni nguvu: matokeo yanaweza kutafsiriwa, uwiano wa nafasi ni wenye maana, na mfano ni rahisi kuelezea kwa hadhira isiyokuwa ya kiufundi.

Regression ya Logistic katika Ulimwengu Halisi

Regression ya logistic iko kila mahali. Benki zinaitumia kuamua kuidhinisha mkopo (kushindwa kulipa au la). Watoa huduma za barua pepe wanaitumia kuainisha taka. Wafanyabiashara wanaitumia kutabiri wateja wapi wataondoka. Watafiti wa matibabu wanaitumia kutambua vipengele vya hatari ya ugonjwa. Umaarufu wake unatoka kwa mchanganyiko wa urahisi, ufasiri, na utendaji mzuri kwenye matatizo mengi ya ulimwengu halisi.

Unaposoma utafiti unaripoti uwiano wa nafasi, unaangalia matokeo ya regression ya logistic. Kuelewa nambari hizo zinamaanisha nini -- kwamba uwiano wa nafasi wa 1.8 unamaanisha nafasi 80% za juu, si uwezekano 80% wa juu -- ni muhimu kwa kutafsiri utafiti wa matibabu na sayansi ya jamii kwa usahihi.

Jambo Muhimu

Regression ya logistic ni mbinu ya kawaida ya kutabiri matokeo ya binary. Inatumia kazi ya sigmoid kuweka utabiri kati ya 0 na 1, na mgawo wake unatafsiriwa kama uwiano wa nafasi. Itumie wakati wowote matokeo yako ni ndiyo/hapana, kupita/kushindwa, au kigezo chochote cha makundi mawili. Ingawa hisabati inahusisha log-nafasi, tafsiri ya vitendo ni wazi: kila kitabiri kinaongeza au kupunguza nafasi za matokeo kwa kiasi kinachoweza kupimwa.