Gdy wynik to tak lub nie
Regresja liniowa działa doskonale, gdy przewidujesz liczbę ciągłą, jak cena domu, temperatura czy wynik testu. Ale co się dzieje, gdy rzecz, którą chcesz przewidzieć, ma tylko dwa możliwe wyniki? Czy klient kupi czy nie? Czy pacjent wyzdrowieje czy nie? Czy e-mail jest spamem czy nie? Dla tych binarnych wyników regresja liniowa zawodzi, a regresja logistyczna wkracza do akcji.
Podstawowym problemem z użyciem regresji liniowej dla wyników binarnych jest to, że może produkować przewidywania poniżej 0 lub powyżej 1, co nie ma sensu jako prawdopodobieństwo. Gdybyś próbował narysować prostą linię przez dane, gdzie wynik to 0 lub 1, linia nieuchronnie wyszłaby w niemożliwy zakres. Regresja logistyczna rozwiązuje to, używając zupełnie innego kształtu.
Krzywa sigmoidalna
Zamiast dopasowywać prostą linię, regresja logistyczna dopasowuje krzywą w kształcie litery S, zwaną funkcją sigmoidalną (lub logistyczną). Krzywa ta zaczyna się blisko 0 po lewej, rośnie przez 0,5 w środku i zbliża się do 1 po prawej, ale nigdy tak naprawdę nie osiąga 0 ani 1. Oznacza to, że przewidywane wartości są zawsze poprawnymi prawdopodobieństwami, między 0 a 1.
Na wykresie rozrzutu powyżej wyobraź sobie, że oś x reprezentuje lata doświadczenia, a oś y to czy ktoś zdał egzamin certyfikacyjny (1 = zdał, 0 = nie zdał). Surowe dane pokazują wyraźny wzorzec: więcej doświadczenia zwiększa szansę zdania. Model regresji logistycznej dopasowałby krzywą sigmoidalną przez te punkty, dając szacowane prawdopodobieństwo zdania przy dowolnym poziomie doświadczenia.
Matematycznie model bierze liniową kombinację zmiennych wejściowych (tak jak zwykła regresja), ale owija ją funkcją sigmoidalną. Oznacza to, że dostajesz wszystkie znane pojęcia współczynników i predyktorów, ale z wyjściem zachowującym się jak prawdopodobieństwo.
Rozumienie szans i ilorazów szans
Regresja logistyczna w swojej wewnętrznej matematyce nie przewiduje bezpośrednio prawdopodobieństw. Zamiast tego pracuje z szansami. Jeśli prawdopodobieństwo zdarzenia wynosi 0,8, szanse wynoszą 0,8 / 0,2 = 4, co oznacza, że zdarzenie jest cztery razy bardziej prawdopodobne niż jego brak. Model faktycznie przewiduje logarytm szans (zwany log-odds lub logit), dlatego bywa nazywany regresją logitową.
Współczynniki w regresji logistycznej wyrażone są jako log-odds, które nie są intuicyjne. Aby uczynić je interpretowalnymi, badacze przeliczają je na ilorazy szans, podnosząc e do potęgi współczynnika. Iloraz szans 2,5 dla zmiennej oznacza, że jednostkowy wzrost tej zmiennej mnoży szanse wyniku przez 2,5. Iloraz szans 1 oznacza brak efektu, powyżej 1 to wyższe szanse, poniżej 1 to niższe szanse.
Szpital buduje model regresji logistycznej do przewidywania, czy pacjent zostanie ponownie przyjęty w ciągu 30 dni. Model stwierdza, że każda dodatkowa choroba przewlekła zwiększa szanse ponownego przyjęcia o czynnik 1,4 (iloraz szans = 1,4). Pacjent z 3 chorobami przewlekłymi ma około 1,4 razy 1,4 razy 1,4 = 2,74 razy większe szanse ponownego przyjęcia niż pacjent bez chorób przewlekłych. To daje lekarzom jasny, mierzalny czynnik ryzyka.
Kiedy wybrać logistyczną zamiast liniowej
Decyzja jest prosta: jeśli zmienna wynikowa jest binarna (dwie kategorie), użyj regresji logistycznej. Jeśli wynik jest ciągły, użyj regresji liniowej. Próba wymuszenia binarnego wyniku w modelu liniowym da mylące wyniki, bezsensowne przewidywania i naruszone założenia.
Istnieją rozszerzenia regresji logistycznej dla wyników z więcej niż dwiema kategoriami. Wielomianowa regresja logistyczna obsługuje przypadki, gdy wynik to jedna z trzech lub więcej nieuporządkowanych kategorii (jak wybór między autobusem, samochodem a rowerem). Porządkowa regresja logistyczna obsługuje uporządkowane kategorie (jak ocena niski, średni, wysoki). Ale standardowa wersja binarna jest zdecydowanie najczęstsza.
Drugi wykres rozrzutu powyżej mógłby reprezentować wiek (oś x) a to, czy dana osoba ma określone schorzenie (oś y). Zauważ, jak linia prosta byłaby słabym dopasowaniem, ale krzywa w kształcie S uchwyciłaby przejście od niskiego prawdopodobieństwa w młodszym wieku do wysokiego prawdopodobieństwa w starszym.
Interpretacja i ocena modelu
W przeciwieństwie do regresji liniowej, regresja logistyczna nie używa R-kwadrat do mierzenia dopasowania. Zamiast tego oceniasz ją na podstawie tego, jak dobrze klasyfikuje przypadki. Typowe metryki obejmują dokładność (jaki procent przewidywań był poprawny), czułość (ile prawdziwych pozytywów wychwycono), swoistość (ile prawdziwych negatywów poprawnie zidentyfikowano) oraz pole pod krzywą ROC (AUC), które podsumowuje ogólną zdolność klasyfikacji na skali od 0,5 (zgadywanie) do 1,0 (perfekcja).
Musisz też wybrać próg klasyfikacji. Model generuje prawdopodobieństwo, ale do podjęcia decyzji tak/nie potrzebujesz wartości odcięcia. Zazwyczaj używa się 0,5: jeśli przewidywane prawdopodobieństwo jest powyżej 0,5, przewiduj "tak." Ale w niektórych kontekstach możesz obniżyć próg. Medyczny test przesiewowy może używać 0,3, aby wychwycić więcej prawdziwych przypadków, akceptując więcej fałszywych alarmów.
Regresja logistyczna zakłada liniowy związek między zmiennymi wejściowymi a log-odds wyniku. Zakłada również, że obserwacje są od siebie niezależne. Jest stosunkowo prosta w porównaniu z zaawansowanymi metodami uczenia maszynowego, co jest zaletą: wyniki są interpretowalne, ilorazy szans mają znaczenie, a model łatwo wytłumaczyć nietechnicznej publiczności.
Regresja logistyczna w świecie rzeczywistym
Regresja logistyczna jest wszędzie. Banki używają jej do decydowania o przyznaniu kredytu. Dostawcy poczty e-mail klasyfikują spam. Marketerzy przewidują, którzy klienci odejdą. Badacze medyczni identyfikują czynniki ryzyka chorób. Jej popularność wynika z połączenia prostoty, interpretowalności i dobrej wydajności na wielu realnych problemach.
Gdy czytasz badanie raportujące ilorazy szans, patrzysz na wynik regresji logistycznej. Zrozumienie, co te liczby oznaczają -- że iloraz szans 1,8 oznacza 80% wyższe szanse, nie 80% wyższe prawdopodobieństwo -- jest niezbędne do prawidłowej interpretacji badań medycznych i społecznych.
Regresja logistyczna jest standardową metodą przewidywania wyników binarnych. Używa funkcji sigmoidalnej, aby utrzymać przewidywania między 0 a 1, a jej współczynniki interpretuje się jako ilorazy szans. Stosuj ją, gdy wynik to tak/nie, zdał/nie zdał lub dowolna zmienna dwukategoriowa. Choć matematyka obejmuje log-odds, praktyczna interpretacja jest jasna: każdy predyktor zwiększa lub zmniejsza szanse wyniku o mierzalną wartość.