Dari Hubungan ke Prediksi
Dalam pelajaran korelasi, kita belajar bagaimana mengukur apakah dua hal bergerak bersama. Tapi korelasi hanya memberitahu bahwa ada hubungan - tidak memungkinkan Anda membuat prediksi spesifik. Di situlah regresi berperan.
Regresi mengambil hubungan antara dua variabel dan menarik garis melaluinya. Garis itu menjadi alat prediksi: berikan saya satu angka, dan saya akan mengestimasi angka yang lain.
Garis Terbaik (Best Fit)
Bayangkan Anda memiliki data tentang 50 rumah - luas setiap rumah (dalam meter persegi) dan harga jualnya. Jika Anda menggambarkan ini pada grafik, Anda akan melihat sebaran titik-titik yang cenderung naik: rumah yang lebih besar umumnya lebih mahal.
Regresi menemukan satu garis lurus yang paling dekat dengan semua titik tersebut. Ini disebut garis terbaik (atau garis regresi). Garis ini tidak melewati setiap titik - data nyata terlalu berantakan untuk itu. Sebaliknya, garis ini meminimalkan total jarak antara garis dan semua titik.
Anda mengumpulkan data tentang luas dan harga rumah di perumahan Anda di Bekasi:
- Rumah 36 m² terjual Rp 350.000.000
- Rumah 54 m² terjual Rp 500.000.000
- Rumah 72 m² terjual Rp 650.000.000
- Rumah 100 m² terjual Rp 850.000.000
- Rumah 120 m² terjual Rp 1.000.000.000
Regresi menarik garis terbaik melalui titik-titik ini. Garisnya mungkin seperti: Harga = Rp 100.000.000 + (Rp 7.500.000 x Luas m²).
Sekarang Anda bisa memprediksi: rumah 80 m² akan bernilai kira-kira Rp 100.000.000 + (Rp 7.500.000 x 80) = Rp 700.000.000. Itulah kekuatan regresi - mengubah pola menjadi prediksi spesifik.
Persamaan Garisnya
Setiap garis regresi bisa ditulis sebagai persamaan sederhana:
Y = a + bX
Di mana:
- Y adalah apa yang ingin Anda prediksi (variabel "terikat" atau "dependen") - seperti harga rumah.
- X adalah apa yang Anda gunakan untuk membuat prediksi (variabel "bebas" atau "independen") - seperti luas rumah.
- b adalah kemiringan (slope) - seberapa banyak Y berubah untuk setiap kenaikan satu satuan X. Dalam contoh kita, setiap tambahan meter persegi menambah Rp 7.500.000 ke harga yang diprediksi.
- a adalah intersep - nilai Y yang diprediksi ketika X adalah nol. Ini kadang masuk akal secara praktis (harga tanah tanpa bangunan) dan kadang tidak.
Apa yang Membuat Garis Itu "Terbaik"?
Ada tak terhingga banyaknya garis yang bisa Anda tarik melalui sebaran titik. Regresi memilih yang meminimalkan jumlah kuadrat kesalahan. Apa artinya dalam bahasa sederhana?
Untuk setiap titik data, "kesalahan" adalah jarak vertikal antara titik dan garis. Beberapa titik jatuh di atas garis (garis mengestimasi terlalu rendah) dan beberapa di bawah (mengestimasi terlalu tinggi). Regresi mengkuadratkan setiap kesalahan (yang membuat semua kesalahan positif), menjumlahkannya, dan menemukan garis yang membuat total ini sekecil mungkin.
Metode ini disebut regresi kuadrat terkecil, dan telah digunakan selama lebih dari 200 tahun.
Membaca Output Regresi
Ketika perangkat lunak menjalankan regresi, ia memberikan beberapa angka kunci. Berikut yang perlu diperhatikan:
R-kuadrat (R²)
Ini memberitahu seberapa banyak variasi dalam hasil Anda yang dijelaskan oleh prediktor Anda. Nilainya berkisar dari 0 sampai 1 (atau 0% sampai 100%).
- R² = 0,85 berarti luas rumah menjelaskan 85% variasi harga. Itu kuat - luas adalah prediktor yang baik.
- R² = 0,15 berarti prediktor hanya menjelaskan 15% variasi. Faktor lain jauh lebih penting.
Kemiringan (dan Nilai-p-nya)
Kemiringan memberitahu arah dan besarnya hubungan. Nilai-p yang melekat pada kemiringan memberitahu apakah hubungannya signifikan secara statistik - apakah kemungkinan nyata atau bisa jadi kebetulan dari sampel kecil.
Standar Error
Ini memberitahu kira-kira seberapa jauh prediksi Anda biasanya meleset. Standar error Rp 50.000.000 pada prediksi harga rumah berarti sebagian besar estimasi Anda akan berada dalam kisaran Rp 50.000.000 dari harga sebenarnya - tapi ada yang akan lebih jauh.
Seorang manajer toko online ingin memprediksi penjualan bulanan berdasarkan pengeluaran iklan. Setelah mengumpulkan data 24 bulan, regresi memberikan:
- Persamaan: Penjualan = Rp 50.000.000 + (Rp 4 x Biaya Iklan)
- R² = 0,72 - Pengeluaran iklan menjelaskan 72% variasi penjualan.
- Nilai-p kemiringan = 0,001 - Hubungannya sangat tidak mungkin kebetulan.
- Standar error = Rp 15.000.000 - Prediksi biasanya meleset sekitar Rp 15.000.000.
Jika perusahaan menghabiskan Rp 30.000.000 untuk iklan bulan depan, prediksinya adalah Rp 50.000.000 + (Rp 4 x Rp 30.000.000) = Rp 170.000.000 dalam penjualan. Tapi mereka harus memperkirakan hasil sebenarnya berada di antara Rp 155.000.000 dan Rp 185.000.000.
Keterbatasan dan Peringatan
Regresi sangat berguna, tetapi memiliki keterbatasan penting:
- Jangan ekstrapolasi terlalu jauh. Jika data Anda mencakup rumah dari 36 sampai 120 m², jangan gunakan garis untuk memprediksi harga rumah 500 m². Hubungannya mungkin tidak berlanjut dalam garis lurus melampaui rentang data Anda.
- Korelasi, bukan sebab-akibat. Hanya karena Anda bisa memprediksi Y dari X tidak berarti X menyebabkan Y. Penjualan es krim memprediksi kasus demam berdarah, tapi membeli es krim tidak menyebabkan demam berdarah.
- Satu prediktor sering tidak cukup. Harga rumah tergantung pada luas, tetapi juga lokasi, usia, kondisi, dan banyak hal lainnya. Regresi sederhana menggunakan satu prediktor; regresi berganda (topik untuk pelajaran selanjutnya) menggunakan beberapa.
- Pencilan bisa mendistorsi garis. Satu titik data yang tidak biasa - seperti rumah kecil yang terjual miliaran karena lokasinya - bisa menarik seluruh garis keluar jalur.
Regresi dalam Kehidupan Nyata
Regresi adalah salah satu alat statistik yang paling banyak digunakan di dunia:
- Properti: Mengestimasi nilai rumah dari luas, lokasi, dan fitur di situs seperti Rumah123.
- Kesehatan: Memprediksi hasil pasien dari usia, berat badan, dan faktor gaya hidup.
- Bisnis: Memproyeksikan penjualan dari anggaran iklan, musim, dan indikator ekonomi.
- Pendidikan: Memprediksi kinerja siswa dari jam belajar, kehadiran, dan nilai sebelumnya.
Setiap kali situs web menampilkan "estimasi waktu pengiriman" atau "perkiraan harga," kemungkinan ada model regresi yang berjalan di belakang layar.
Regresi menemukan garis lurus terbaik melalui data Anda, mengubah hubungan antara dua variabel menjadi alat prediksi. Persamaan Y = a + bX memberikan Anda perkiraan spesifik untuk setiap nilai X. R-kuadrat memberitahu seberapa banyak hasil yang dijelaskan oleh prediktor, dan standar error memberitahu seberapa akurat prediksi Anda cenderung. Ini adalah salah satu alat paling praktis dalam statistik, tapi ingat: prediksi bekerja paling baik dalam rentang data asli Anda, dan memprediksi sesuatu tidak sama dengan menyebabkannya.