Lojistik Regresyon

Zorluk: İleri Okuma Süresi: 15 dakika

Sonuç Evet veya Hayır Olduğunda

Lineer regresyon, ev fiyatı, sıcaklık veya test puanı gibi sürekli bir sayıyı tahmin ederken mükemmel çalışır. Ama tahmin etmek istediğiniz şeyin yalnızca iki olası sonucu olduğunda ne olur? Müşteri satın alacak mı almayacak mı? Hasta iyileşecek mi iyileşmeyecek mi? E-posta spam mı değil mi? Bu ikili sonuçlar için lineer regresyon çöker ve lojistik regresyon devreye girer.

İkili sonuçlar için lineer regresyon kullanmanın temel sorunu, 0'ın altında veya 1'in üzerinde tahminler üretebilmesidir ki bunlar olasılık olarak anlam ifade etmez. Sonucun 0 veya 1 olduğu verilere düz bir çizgi çizmeye çalışırsanız, çizgi kaçınılmaz olarak imkânsız bölgeye uzanacaktır. Lojistik regresyon bunu tamamen farklı bir şekil kullanarak çözer.

Sigmoid Eğrisi

Düz bir çizgi oturtmak yerine, lojistik regresyon sigmoid (veya lojistik) fonksiyonu adı verilen S şeklinde bir eğri oturtur. Bu eğri solda 0'a yakın başlar, ortada 0,5'ten geçerek yükselir ve sağda 1'e yaklaşır, ancak hiçbir zaman gerçekten 0 veya 1'e ulaşmaz. Bu, tahmin edilen değerlerin her zaman 0 ile 1 arasında geçerli olasılıklar olduğu anlamına gelir.

5 10 15 0 0.2 0.4 0.6000000000000001 0.8 1

Yukarıdaki saçılım grafiğinde, x ekseninin deneyim yıllarını ve y ekseninin birinin sertifika sınavını geçip geçmediğini (1 = geçti, 0 = kaldı) temsil ettiğini düşünün. Ham veriler net bir örüntü gösterir: daha fazla deneyim geçme olasılığını artırır. Bir lojistik regresyon modeli bu noktalar üzerinden bir sigmoid eğrisi oturtarak, herhangi bir deneyim düzeyinde geçme olasılığının tahmini değerini verir.

Matematiksel olarak model, girdi değişkenlerinizin lineer bir kombinasyonunu (tıpkı normal regresyon gibi) alır ve ardından sigmoid fonksiyonunun içine sarar. Bu, katsayılar ve yordayıcıların tüm tanıdık kavramlarını elde etmeniz, ancak olasılık gibi davranan bir çıktı almanız anlamına gelir.

Odds ve Odds Oranlarını Anlama

Lojistik regresyon, iç matematiğinde doğrudan olasılıkları tahmin etmez. Bunun yerine odds ile çalışır. Bir olayın olasılığı 0,8 ise, odds 0,8 / 0,2 = 4'tür, yani olay olmama ihtimalinden dört kat daha olasıdır. Model aslında odds'un logaritmasını (log-odds veya logit adı verilir) tahmin eder, bu yüzden bazen logit regresyonu olarak da adlandırılır.

Lojistik regresyondaki katsayılar log-odds olarak ifade edilir ki bunlar sezgisel değildir. Yorumlanabilir hale getirmek için araştırmacılar bunları katsayının üssü olarak e'yi alarak odds oranlarına dönüştürürler. Bir değişken için 2,5'lik bir odds oranı, o değişkendeki bir birimlik artışın sonucun odds'unu 2,5 ile çarptığı anlamına gelir. 1'lik bir odds oranı etki yok demektir, 1'den büyük daha yüksek odds, 1'den küçük daha düşük odds anlamına gelir.

Örnek

Bir hastane, bir hastanın 30 gün içinde tekrar yatırılıp yatırılmayacağını tahmin etmek için bir lojistik regresyon modeli oluşturur. Model, bir hastanın sahip olduğu her ek kronik hastalığın tekrar yatış odds'unu 1,4 kat artırdığını bulur (odds oranı = 1,4). 3 kronik hastalığa sahip bir hastanın, hiç kronik hastalığı olmayan bir hastaya kıyasla yaklaşık 1,4 çarpı 1,4 çarpı 1,4 = 2,74 kat tekrar yatış odds'u vardır. Bu doktorlara net, ölçülebilir bir risk faktörü verir.

Lojistik Regresyon Ne Zaman Tercih Edilir

Karar basittir: sonuç değişkeniniz ikili (iki kategorili) ise lojistik regresyon kullanın. Sonucunuz sürekli ise lineer regresyon kullanın. İkili bir sonucu lineer modele zorlamaya çalışmak yanıltıcı sonuçlar, anlamsız tahminler ve ihlal edilmiş varsayımlar verir.

İkiden fazla kategoriye sahip sonuçlar için lojistik regresyonun uzantıları vardır. Çok terimli lojistik regresyon, sonucun sırasız üç veya daha fazla kategoriden biri olduğu durumları (otobüs, araba veya bisiklet arasında seçim gibi) ele alır. Sıralı lojistik regresyon, sıralı kategorileri (düşük, orta veya yüksek olarak değerlendirme gibi) ele alır. Ancak standart ikili sürüm açık ara en yaygın olanıdır.

20 30 40 50 60 70 0 0.2 0.4 0.6000000000000001 0.8 1

Yukarıdaki ikinci saçılım grafiği yaş (x ekseni) ile bir kişinin belirli bir sağlık durumuna sahip olup olmadığını (y ekseni) temsil edebilir. Düz bir çizginin zayıf bir uyum olacağına, ancak S şeklinde bir eğrinin genç yaşlarda düşük olasılıktan yaşlı yaşlarda yüksek olasılığa geçişi yakalayacağına dikkat edin.

Modeli Yorumlama ve Değerlendirme

Lineer regresyonun aksine, lojistik regresyon uyumu ölçmek için R-kare kullanmaz. Bunun yerine vakaları ne kadar iyi sınıflandırdığına göre değerlendirilir. Yaygın metrikler arasında doğruluk (tahminlerin yüzde kaçı doğruydu), duyarlılık (gerçek pozitif vakaların kaçını yakaladı), özgüllük (gerçek negatif vakaların kaçını doğru tanımladı) ve ROC eğrisi altındaki alan (AUC) bulunur. AUC, 0,5 (rastgele tahmin) ile 1,0 (mükemmel) arasında bir ölçekte genel sınıflandırma yeteneğini özetler.

Ayrıca bir sınıflandırma eşiği seçmeniz gerekir. Model bir olasılık çıktısı verir, ancak evet/hayır kararı vermek için bir kesme noktası seçmeniz gerekir. Tipik olarak 0,5 kullanılır: tahmin edilen olasılık 0,5'in üzerindeyse "evet" tahmin edin. Ancak bazı bağlamlarda eşiği düşürebilirsiniz. Bir tıbbi tarama testi, daha fazla yanlış alarmı kabul etme karşılığında daha fazla gerçek vakayı yakalamak için 0,3 kullanabilir.

Lojistik regresyon, girdi değişkenleri ile sonucun log-odds'u arasında lineer bir ilişki varsayar. Ayrıca gözlemlerin birbirinden bağımsız olduğunu varsayar. Gelişmiş makine öğrenimi yöntemlerine kıyasla nispeten basittir, ki bu aslında bir güçtür: sonuçlar yorumlanabilir, odds oranları anlamlıdır ve modeli teknik olmayan kitlelere açıklamak kolaydır.

Gerçek Dünyada Lojistik Regresyon

Lojistik regresyon her yerdedir. Bankalar bir krediyi onaylayıp onaylamamaya karar vermek için kullanır (temerrüt / temerrüt yok). E-posta sağlayıcıları spam sınıflandırmak için kullanır. Pazarlamacılar hangi müşterilerin ayrılacağını tahmin etmek için kullanır. Tıbbi araştırmacılar hastalık risk faktörlerini belirlemek için kullanır. Popülerliği basitlik, yorumlanabilirlik ve birçok gerçek dünya sorununda güçlü performansın birleşiminden gelir.

Odds oranları raporlayan bir çalışma okuduğunuzda, lojistik regresyonun çıktısına bakıyorsunuz. Bu sayıların ne anlama geldiğini -- 1,8'lik bir odds oranının %80 daha yüksek odds anlamına geldiğini, %80 daha yüksek olasılık değil -- anlamak, tıbbi ve sosyal bilim araştırmalarını doğru yorumlamak için esastır.

Temel Çıkarım

Lojistik regresyon, ikili sonuçları tahmin etmek için standart yöntemdir. Tahminleri 0 ile 1 arasında tutmak için sigmoid fonksiyonunu kullanır ve katsayıları odds oranları olarak yorumlanır. Sonucunuz evet/hayır, geçti/kaldı veya herhangi bir iki kategorili değişken olduğunda kullanın. Matematik log-odds içerse de, pratik yorum açıktır: her yordayıcı, sonucun odds'unu ölçülebilir bir miktarda artırır veya azaltır.