What is logistic regression used for?

Logistic regression predicts the probability of a binary outcome (yes/no, pass/fail) based on one or more input variables.

What is the difference between linear and logistic regression?

Linear regression predicts a continuous number, while logistic regression predicts the probability of a category (typically two classes).

What is an odds ratio in logistic regression?

An odds ratio shows how much the odds of the outcome change for a one-unit increase in a predictor. A value above 1 means higher odds.

What is the sigmoid function in logistic regression?

The sigmoid function converts any real number into a value between 0 and 1, which logistic regression uses to output probabilities.

Regresi Logistik

Ketika hasilnya ya atau tidak

Regresi linear bekerja dengan baik ketika memprediksi angka kontinu, seperti harga rumah, suhu, atau skor ujian. Tapi apa yang terjadi ketika hal yang ingin Anda prediksi hanya memiliki dua kemungkinan hasil? Apakah pelanggan akan membeli atau tidak? Apakah pasien akan sembuh atau tidak? Apakah email itu spam atau bukan? Untuk hasil biner ini, regresi linear tidak cocok, dan regresi logistik mengambil alih.

Masalah inti menggunakan regresi linear untuk hasil biner adalah ia bisa menghasilkan prediksi di bawah 0 atau di atas 1, yang tidak masuk akal sebagai probabilitas. Jika Anda mencoba menarik garis lurus melalui data di mana hasilnya 0 atau 1, garis itu pasti akan memasuki wilayah yang mustahil. Regresi logistik menyelesaikan ini dengan menggunakan bentuk yang sama sekali berbeda.

Kurva sigmoid

Alih-alih memasang garis lurus, regresi logistik memasang kurva berbentuk S yang disebut fungsi sigmoid (atau logistik). Kurva ini dimulai mendekati 0 di kiri, naik melewati 0.5 di tengah, dan mendekati 1 di kanan, tapi tidak pernah benar-benar mencapai 0 atau 1. Ini berarti nilai prediksi selalu merupakan probabilitas yang valid, antara 0 dan 1.

Pada diagram sebar di atas, bayangkan sumbu x mewakili tahun pengalaman dan sumbu y mewakili apakah seseorang lulus ujian sertifikasi (1 = lulus, 0 = gagal). Data mentah menunjukkan pola jelas: lebih banyak pengalaman membuat kelulusan lebih mungkin. Model regresi logistik akan memasang kurva sigmoid melalui titik-titik ini, memberi estimasi probabilitas kelulusan di tingkat pengalaman apa pun.

Secara matematis, model mengambil kombinasi linear variabel input (sama seperti regresi biasa) tapi kemudian membungkusnya dalam fungsi sigmoid. Ini berarti Anda mendapat semua konsep familiar koefisien dan prediktor tapi dengan output yang berperilaku sebagai probabilitas.

Memahami peluang dan rasio peluang

Regresi logistik tidak langsung memprediksi probabilitas dalam perhitungan internalnya. Sebaliknya, ia bekerja dengan peluang (odds). Jika probabilitas suatu kejadian 0.8, peluangnya 0.8 / 0.2 = 4, berarti kejadian itu empat kali lebih mungkin terjadi daripada tidak. Model sebenarnya memprediksi logaritma peluang (disebut log-peluang atau logit), itulah mengapa kadang disebut regresi logit.

Koefisien dalam regresi logistik diekspresikan sebagai log-peluang, yang tidak intuitif. Untuk membuatnya dapat diinterpretasikan, peneliti mengkonversinya ke rasio peluang dengan menghitung e pangkat koefisien. Rasio peluang 2.5 untuk suatu variabel berarti kenaikan satu unit pada variabel itu mengalikan peluang hasil dengan 2.5. Rasio peluang 1 berarti tidak ada efek, lebih dari 1 berarti peluang lebih tinggi, dan kurang dari 1 berarti peluang lebih rendah.

Contoh

Rumah sakit membangun model regresi logistik untuk memprediksi apakah pasien akan masuk kembali dalam 30 hari. Model menemukan bahwa setiap kondisi kronis tambahan yang dimiliki pasien meningkatkan peluang rawat inap ulang sebesar faktor 1.4 (rasio peluang = 1.4). Pasien dengan 3 kondisi kronis memiliki kira-kira 1.4 kali 1.4 kali 1.4 = 2.74 kali peluang rawat inap ulang dibandingkan pasien tanpa kondisi kronis. Ini memberi dokter faktor risiko yang jelas dan terukur.

Kapan memilih logistik dibanding regresi linear

Keputusannya sederhana: jika variabel hasil Anda biner (dua kategori), gunakan regresi logistik. Jika hasilnya kontinu, gunakan regresi linear. Mencoba memaksakan hasil biner ke model linear akan memberi hasil menyesatkan, prediksi tidak masuk akal, dan asumsi yang dilanggar.

Ada ekstensi regresi logistik untuk hasil dengan lebih dari dua kategori. Regresi logistik multinomial menangani kasus di mana hasilnya salah satu dari tiga atau lebih kategori tidak berurut (seperti memilih antara bus, mobil, atau sepeda). Regresi logistik ordinal menangani kategori berurut (seperti menilai sesuatu sebagai rendah, sedang, atau tinggi). Tapi versi biner standar sejauh ini yang paling umum.

Diagram sebar kedua di atas mungkin mewakili usia (sumbu x) versus apakah seseorang memiliki kondisi kesehatan tertentu (sumbu y). Perhatikan bagaimana garis lurus akan menjadi fit yang buruk, tapi kurva berbentuk S akan menangkap transisi dari probabilitas rendah di usia muda ke probabilitas tinggi di usia lebih tua.

Menginterpretasi dan mengevaluasi model

Berbeda dengan regresi linear, regresi logistik tidak menggunakan R-kuadrat untuk mengukur kesesuaian. Sebaliknya, Anda mengevaluasinya berdasarkan seberapa baik mengklasifikasikan kasus. Metrik umum termasuk akurasi (persentase prediksi yang benar), sensitivitas (berapa banyak positif sebenarnya yang tertangkap), spesifisitas (berapa banyak negatif sebenarnya yang teridentifikasi dengan benar), dan area di bawah kurva ROC (AUC), yang merangkum kemampuan klasifikasi keseluruhan pada skala dari 0.5 (tebakan acak) hingga 1.0 (sempurna).

Anda juga perlu memilih ambang klasifikasi. Model menghasilkan probabilitas, tapi untuk membuat keputusan ya/tidak, Anda perlu memilih titik potong. Biasanya digunakan 0.5: jika probabilitas prediksi di atas 0.5, prediksi "ya." Tapi dalam beberapa konteks, Anda mungkin menurunkan ambang. Tes skrining medis mungkin menggunakan 0.3 untuk menangkap lebih banyak kasus benar, menerima lebih banyak alarm palsu sebagai trade-off.

Regresi logistik mengasumsikan hubungan linear antara variabel input dan log-peluang hasil. Juga mengasumsikan bahwa pengamatan independen satu sama lain. Ini relatif sederhana dibandingkan metode machine learning lanjutan, yang sebenarnya kekuatan: hasilnya dapat diinterpretasikan, rasio peluang bermakna, dan model mudah dijelaskan ke audiens non-teknis.

Regresi logistik di dunia nyata

Regresi logistik ada di mana-mana. Bank menggunakannya untuk memutuskan persetujuan pinjaman (gagal bayar vs tidak). Penyedia email menggunakannya untuk mengklasifikasikan spam. Pemasar menggunakannya untuk memprediksi pelanggan mana yang akan pergi. Peneliti medis menggunakannya untuk mengidentifikasi faktor risiko penyakit. Popularitasnya berasal dari kombinasi kesederhanaan, interpretabilitas, dan kinerja yang kuat pada banyak masalah dunia nyata.

Ketika membaca studi yang melaporkan rasio peluang, Anda melihat output regresi logistik. Memahami apa arti angka-angka itu -- rasio peluang 1.8 berarti peluang 80% lebih tinggi, bukan probabilitas 80% lebih tinggi -- penting untuk menginterpretasikan penelitian medis dan ilmu sosial dengan benar.

Poin penting

Regresi logistik adalah metode standar untuk memprediksi hasil biner. Ia menggunakan fungsi sigmoid untuk menjaga prediksi antara 0 dan 1, dan koefisiennya diinterpretasikan sebagai rasio peluang. Gunakan kapan pun hasil Anda ya/tidak, lulus/gagal, atau variabel dua kategori apa pun. Meskipun matematikanya melibatkan log-peluang, interpretasi praktisnya jelas: setiap prediktor meningkatkan atau menurunkan peluang hasil dalam jumlah yang terukur.