Khi kết quả là có hoặc không
Hồi quy tuyến tính hoạt động tốt khi dự đoán con số liên tục, như giá nhà, nhiệt độ hay điểm thi. Nhưng khi thứ bạn muốn dự đoán chỉ có hai kết quả? Khách hàng sẽ mua hay không? Bệnh nhân hồi phục hay không? Email là spam hay không? Cho kết quả nhị phân, hồi quy tuyến tính không phù hợp, và hồi quy logistic xuất hiện.
Vấn đề cốt lõi khi dùng hồi quy tuyến tính cho kết quả nhị phân là nó có thể cho dự đoán dưới 0 hoặc trên 1, vô nghĩa như xác suất. Nếu vẽ đường thẳng qua dữ liệu kết quả 0 hoặc 1, đường chắc chắn kéo dài vào vùng bất khả thi. Hồi quy logistic giải quyết bằng hình dạng hoàn toàn khác.
Đường cong Sigmoid
Thay vì đường thẳng, hồi quy logistic khớp đường cong hình chữ S gọi là hàm sigmoid (hoặc logistic). Đường cong bắt đầu gần 0 bên trái, đi qua 0,5 ở giữa và tiến gần 1 bên phải, nhưng không bao giờ thực sự đạt 0 hay 1. Nghĩa là giá trị dự đoán luôn là xác suất hợp lệ, từ 0 đến 1.
Trong biểu đồ phân tán trên, hãy tưởng tượng trục X là số năm kinh nghiệm và trục Y là đậu kỳ thi chứng chỉ hay không (1 = đậu, 0 = rớt). Dữ liệu thô cho thấy mô hình rõ: nhiều kinh nghiệm hơn tăng khả năng đậu. Mô hình hồi quy logistic sẽ khớp đường sigmoid qua các điểm, cho xác suất ước tính đậu ở bất kỳ mức kinh nghiệm nào.
Về mặt toán, mô hình lấy tổ hợp tuyến tính các biến đầu vào (giống hồi quy thường) rồi bọc trong hàm sigmoid. Nghĩa là bạn có các khái niệm quen thuộc về hệ số và biến dự đoán nhưng đầu ra hành xử như xác suất.
Hiểu odds và tỷ số odds
Hồi quy logistic không trực tiếp dự đoán xác suất trong toán nội bộ. Nó làm việc với odds. Nếu xác suất sự kiện là 0,8, odds là 0,8 / 0,2 = 4, nghĩa là sự kiện gấp bốn lần khả năng xảy ra hơn không xảy ra. Mô hình thực sự dự đoán logarit odds (gọi là log-odds hoặc logit), nên đôi khi gọi là hồi quy logit.
Hệ số trong hồi quy logistic được biểu diễn dạng log-odds, không trực quan. Để diễn giải được, nhà nghiên cứu chuyển thành tỷ số odds bằng cách lấy e mũ hệ số. Tỷ số odds 2,5 cho biến nghĩa là tăng một đơn vị biến đó nhân odds kết quả lên 2,5. Tỷ số odds 1 nghĩa là không có hiệu ứng, lớn hơn 1 nghĩa odds cao hơn, nhỏ hơn 1 nghĩa odds thấp hơn.
Bệnh viện xây mô hình hồi quy logistic dự đoán tái nhập viện trong 30 ngày. Mô hình phát hiện mỗi bệnh mãn tính thêm tăng odds tái nhập viện gấp 1,4 lần (tỷ số odds = 1,4). Bệnh nhân có 3 bệnh mãn tính có odds tái nhập viện khoảng 1,4 nhân 1,4 nhân 1,4 = 2,74 lần so với bệnh nhân không có. Điều này cho bác sĩ yếu tố nguy cơ rõ ràng, lượng hóa được.
Khi nào chọn logistic thay cho tuyến tính
Quyết định đơn giản: nếu biến kết quả nhị phân (hai loại), dùng hồi quy logistic. Nếu kết quả liên tục, dùng hồi quy tuyến tính. Ép kết quả nhị phân vào mô hình tuyến tính cho kết quả sai, dự đoán vô nghĩa và vi phạm giả định.
Có mở rộng cho kết quả nhiều hơn hai loại. Hồi quy logistic đa thức xử lý kết quả ba loại trở lên không có thứ tự (chọn xe buýt, ô tô hay xe đạp). Hồi quy logistic thứ tự xử lý loại có thứ tự (đánh giá thấp, trung bình, cao). Nhưng phiên bản nhị phân chuẩn phổ biến nhất.
Biểu đồ phân tán thứ hai có thể đại diện tuổi (trục X) và có bệnh lý nhất định hay không (trục Y). Đường thẳng sẽ không khớp tốt, nhưng đường cong chữ S sẽ nắm bắt chuyển tiếp từ xác suất thấp ở tuổi trẻ sang xác suất cao ở tuổi lớn.
Diễn giải và đánh giá mô hình
Khác hồi quy tuyến tính, hồi quy logistic không dùng R bình phương để đo độ khớp. Thay vào đó, đánh giá qua khả năng phân loại. Các chỉ số phổ biến gồm độ chính xác (bao nhiêu phần trăm dự đoán đúng), độ nhạy (bao nhiêu dương thật được bắt), độ đặc hiệu (bao nhiêu âm thật được xác định đúng), và diện tích dưới đường cong ROC (AUC), tóm tắt khả năng phân loại tổng thể từ 0,5 (đoán ngẫu nhiên) đến 1,0 (hoàn hảo).
Bạn cũng cần chọn ngưỡng phân loại. Mô hình xuất xác suất, nhưng để quyết định có/không cần ngưỡng. Thường dùng 0,5: xác suất trên 0,5 thì dự đoán "có". Nhưng trong một số ngữ cảnh, có thể hạ ngưỡng. Xét nghiệm sàng lọc y tế có thể dùng 0,3 để bắt nhiều ca thật hơn, chấp nhận nhiều báo động giả hơn.
Hồi quy logistic giả định quan hệ tuyến tính giữa biến đầu vào và log-odds kết quả. Nó cũng giả định quan sát độc lập nhau. Nó tương đối đơn giản so với phương pháp học máy nâng cao, thực ra là điểm mạnh: kết quả diễn giải được, tỷ số odds có ý nghĩa, và mô hình dễ giải thích cho người không chuyên.
Hồi quy logistic trong thực tế
Hồi quy logistic có mặt khắp nơi. Ngân hàng dùng để quyết định duyệt vay (vỡ nợ hay không). Nhà cung cấp email dùng để phân loại spam. Marketer dùng dự đoán khách rời bỏ. Nhà nghiên cứu y khoa dùng xác định yếu tố nguy cơ bệnh. Sự phổ biến đến từ sự kết hợp đơn giản, diễn giải được và hiệu suất tốt trên nhiều bài toán thực.
Khi đọc nghiên cứu báo cáo tỷ số odds, bạn đang nhìn đầu ra hồi quy logistic. Hiểu ý nghĩa những con số - tỷ số odds 1,8 nghĩa là odds cao hơn 80%, không phải xác suất cao hơn 80% - thiết yếu để diễn giải đúng nghiên cứu y khoa và khoa học xã hội.
Hồi quy logistic là phương pháp chuẩn dự đoán kết quả nhị phân. Nó dùng hàm sigmoid giữ dự đoán từ 0 đến 1, và hệ số được diễn giải dạng tỷ số odds. Dùng khi kết quả là có/không, đậu/rớt, hoặc bất kỳ biến hai loại nào. Dù toán liên quan log-odds, diễn giải thực tế rõ ràng: mỗi biến dự đoán hoặc tăng hoặc giảm odds kết quả một lượng có thể lượng hóa.