Từ tương quan đến dự đoán
Tương quan cho biết hai biến có liên hệ hay không. Nhưng nếu bạn muốn dự đoán giá trị của một biến dựa trên biến khác, bạn cần hồi quy. Hồi quy tuyến tính tìm đường thẳng "phù hợp nhất" qua dữ liệu, cho phép bạn dự đoán Y khi biết X.
Phương trình đường thẳng
Hồi quy tuyến tính đơn giản có phương trình: Y = a + bX
- Y: Biến phụ thuộc (giá trị bạn muốn dự đoán)
- X: Biến độc lập (giá trị bạn dùng để dự đoán)
- a: Hệ số chặn (intercept) - giá trị Y khi X = 0
- b: Hệ số góc (slope) - khi X tăng 1 đơn vị, Y thay đổi b đơn vị
Nghiên cứu mối liên hệ giữa diện tích (m²) và giá bán căn hộ tại TP.HCM:
Phương trình hồi quy: Giá (tỷ đồng) = 0,5 + 0,05 × Diện tích (m²)
- a = 0,5: Chi phí cơ bản (vị trí, tiện ích) bất kể diện tích
- b = 0,05: Mỗi m² thêm làm giá tăng 50 triệu đồng
Dự đoán: Căn hộ 70m² → Giá ≈ 0,5 + 0,05 × 70 = 4,0 tỷ đồng
Căn hộ 100m² → Giá ≈ 0,5 + 0,05 × 100 = 5,5 tỷ đồng
Đường thẳng "phù hợp nhất"
Hồi quy tìm đường thẳng sao cho tổng bình phương khoảng cách từ mỗi điểm dữ liệu đến đường thẳng là nhỏ nhất. Phương pháp này gọi là bình phương nhỏ nhất (Ordinary Least Squares - OLS).
Không điểm dữ liệu nào nằm chính xác trên đường thẳng. Khoảng cách giữa giá trị thực và giá trị dự đoán gọi là phần dư (residual). Hồi quy cố gắng làm tổng bình phương phần dư nhỏ nhất.
Hệ số xác định R²
R² cho biết biến X giải thích được bao nhiêu phần trăm sự biến thiên của Y. R² nằm từ 0 đến 1.
- R² = 0,80: X giải thích 80% biến thiên của Y - mô hình tốt
- R² = 0,20: X chỉ giải thích 20% - nhiều yếu tố khác ảnh hưởng
Hồi quy giá căn hộ theo diện tích: R² = 0,65
Nghĩa là diện tích giải thích 65% sự khác biệt về giá. 35% còn lại do các yếu tố khác: tầng, hướng, quận, tình trạng nội thất, gần metro hay không...
Diễn giải hệ số góc
Hệ số góc b là phần quan trọng nhất. Nó cho biết: "Khi X tăng 1 đơn vị, Y thay đổi trung bình b đơn vị, giữ các yếu tố khác không đổi."
Nghiên cứu: Số năm kinh nghiệm và lương lập trình viên tại Việt Nam
Lương (triệu/tháng) = 10 + 2,5 × Số năm kinh nghiệm
b = 2,5: Mỗi năm kinh nghiệm thêm, lương tăng trung bình 2,5 triệu đồng/tháng
Dự đoán: 3 năm kinh nghiệm → 10 + 2,5×3 = 17,5 triệu; 8 năm → 10 + 2,5×8 = 30 triệu
Giới hạn của hồi quy tuyến tính đơn
- Chỉ mô hình tuyến tính: Nếu mối liên hệ là đường cong (ví dụ: kinh nghiệm và lương bão hòa sau 15 năm), hồi quy tuyến tính sẽ cho dự đoán sai
- Ngoại suy nguy hiểm: Dùng mô hình dự đoán ngoài phạm vi dữ liệu rất rủi ro. Nếu dữ liệu chỉ có căn hộ 40-120m², đừng dự đoán giá căn 300m²
- Tương quan ≠ nhân quả: Hồi quy cho thấy liên hệ, không chứng minh nguyên nhân
- Chỉ một biến dự đoán: Thực tế, giá nhà phụ thuộc nhiều yếu tố - cần hồi quy đa biến
Hồi quy đa biến (đề cập ngắn)
Trong thực tế, bạn thường dùng nhiều biến X cùng lúc: Giá nhà = a + b₁×Diện tích + b₂×Tầng + b₃×Khoảng cách metro. Mỗi hệ số b cho biết ảnh hưởng của biến đó khi giữ các biến khác cố định.
Ứng dụng
- Bất động sản: Dự đoán giá nhà từ các đặc điểm
- Nông nghiệp: Dự đoán năng suất lúa từ lượng mưa và phân bón
- Kinh doanh: Dự đoán doanh thu từ ngân sách marketing trên Facebook
- Kinh tế: Dự đoán GDP từ các chỉ số kinh tế vĩ mô
Hồi quy tuyến tính tìm đường thẳng phù hợp nhất để dự đoán Y từ X: Y = a + bX. Hệ số góc b cho biết Y thay đổi bao nhiêu khi X tăng 1 đơn vị. R² cho biết mô hình giải thích bao nhiêu phần trăm biến thiên. Cẩn thận với ngoại suy, mối liên hệ phi tuyến, và nhớ rằng hồi quy cho thấy liên hệ nhưng không chứng minh nhân quả.