İlişkilerden Tahminlere
Korelasyon dersinde iki şeyin birlikte hareket edip etmediğini ölçmeyi öğrendik. Ama korelasyon sadece bir ilişki olduğunu söyler - belirli tahminler yapmanıza izin vermez. İşte regresyon burada devreye girer.
Regresyon, iki değişken arasındaki ilişkiyi alır ve içinden bir çizgi çeker. Bu çizgi bir tahmin aracına dönüşür: bana bir sayı ver, diğerini tahmin edeyim.
En Uygun Çizgi
50 ev hakkında veriniz olduğunu düşünün - her evin metrekaresi ve satış fiyatı. Bunları bir grafiğe yerleştirseniz, yukarı doğru yönelen bir nokta saçılımı göreceksiniz: büyük evler genellikle daha pahalıya satılıyor.
Regresyon, tüm bu noktalara en yakın gelen tek bir düz çizgiyi bulur. Buna en uygun çizgi (veya regresyon doğrusu) denir. Her noktadan geçmez - gerçek veriler bunun için fazla karışıktır. Bunun yerine, çizgi ile tüm noktalar arasındaki toplam uzaklığı en aza indirir.
Mahallenizden ev büyüklüğü ve fiyat verisi topluyorsunuz:
- 80 m² ev 1.800.000 TL'ye satıldı
- 110 m² ev 2.500.000 TL'ye satıldı
- 140 m² ev 3.200.000 TL'ye satıldı
- 170 m² ev 3.800.000 TL'ye satıldı
- 200 m² ev 4.300.000 TL'ye satıldı
Regresyon bu noktalardan geçen en iyi çizgiyi çizer. Çizgi şu şekilde olabilir: Fiyat = 400.000 TL + (20.000 TL x Metrekare).
Şimdi tahmin yapabilirsiniz: 150 m²'lik bir ev yaklaşık 400.000 + (20.000 x 150) = 3.400.000 TL olacaktır. Regresyonun gücü budur - bir deseni belirli bir tahminine dönüştürür.
Çizginin Denklemi
Her regresyon doğrusu basit bir denklem olarak yazılabilir:
Y = a + bX
Burada:
- Y, tahmin etmeye çalıştığınız şey ("sonuç" veya "bağımlı değişken") - örneğin ev fiyatı.
- X, tahmin yapmak için kullandığınız şey ("öncül" veya "bağımsız değişken") - örneğin ev büyüklüğü.
- b, eğimdir - X'teki her bir birimlik artış için Y'nin ne kadar değiştiğini gösterir. Örneğimizde her ek metrekare, tahmini fiyata 20.000 TL ekler.
- a, kesişim noktasıdır - X sıfır olduğundaki tahmini Y değeri. Bu bazen pratik olarak anlam taşır (teorik olarak sıfır metrekarelik bir evin arsasının 400.000 TL değeri) bazen taşımaz.
Çizgiyi "En İyi" Yapan Nedir?
Bir nokta saçılımının içinden çizebileceğiniz sonsuz sayıda çizgi var. Regresyon, hata karelerinin toplamını en aza indireni seçer. Sade bir dille bu ne anlama geliyor?
Her veri noktası için "hata", nokta ile çizgi arasındaki dikey mesafedir. Bazı noktalar çizginin üstünde kalır (çizgi düşük tahmin etmiştir) ve bazıları altında kalır (yüksek tahmin etmiştir). Regresyon her hatanın karesini alır (tüm hataları pozitif yapar), hepsini toplar ve bu toplamı mümkün olan en küçük yapan çizgiyi bulur.
Bu yönteme en küçük kareler regresyonu denir ve 200 yıldan fazla süredir kullanılmaktadır.
Regresyon Çıktısını Okumak
Yazılım bir regresyon çalıştırdığında birkaç temel sayı verir. İşte dikkat etmeniz gerekenler:
R-kare (R²)
Bu, sonucunuzdaki değişkenliğin ne kadarının öncülünüz tarafından açıklandığını söyler. 0 ile 1 (veya %0 ile %100) arasında değişir.
- R² = 0,85, ev büyüklüğünün fiyattaki değişkenliğin %85'ini açıkladığı anlamına gelir. Güçlü - büyüklük iyi bir öncülüdür.
- R² = 0,15, öncülün değişkenliğin sadece %15'ini açıkladığı anlamına gelir. Diğer faktörler çok daha önemli.
Eğim (ve P-Değeri)
Eğim, ilişkinin yönünü ve büyüklüğünü söyler. Eğime eklenen p-değeri, ilişkinin istatistiksel olarak anlamlı olup olmadığını - gerçek mi yoksa küçük bir örneklemden kaynaklanan bir yanılsama mı olduğunu - söyler.
Standart Hata
Tahminlerinizin tipik olarak ne kadar sapacağını söyler. Ev fiyatı tahminlerinde 200.000 TL'lik standart hata, tahminlerinizin çoğunun gerçek fiyattan yaklaşık 200.000 TL uzakta olacağı - ama bazılarının daha uzak olabileceği - anlamına gelir.
Bir müdür, reklam harcamasına göre aylık satışları tahmin etmek istiyor. 24 aylık veri topladıktan sonra regresyon şunları verir:
- Denklem: Satış = 100.000 TL + (5 TL x Reklam Harcaması)
- R² = 0,72 - Reklam harcaması satışlardaki değişkenliğin %72'sini açıklıyor.
- Eğim p-değeri = 0,001 - İlişkinin bir tesadüf olma ihtimali çok düşük.
- Standart hata = 35.000 TL - Tahminler tipik olarak yaklaşık 35.000 TL sapacak.
Şirket gelecek ay reklama 80.000 TL harcarsa, tahmin 100.000 + (5 x 80.000) = 500.000 TL satış. Ama gerçek sonucun yaklaşık 465.000 ile 535.000 TL arasında bir yerde olmasını beklemelidirler.
Sınırlamalar ve Uyarılar
Regresyon inanılmaz derecede kullanışlıdır ama önemli sınırlılıkları vardır:
- Çok uzağa tahmin yapmayın. Verileriniz 60 ile 200 m² arası evleri kapsıyorsa, 500 m²'lik bir malikanenin fiyatını tahmin etmek için çizgiyi kullanmayın. İlişki veri aralığınızın ötesinde düz çizgi olarak devam etmeyebilir.
- Korelasyon, nedensellik değil. Y'yi X'ten tahmin edebilmeniz, X'in Y'ye neden olduğu anlamına gelmez. Dondurma satışları boğulma oranlarını tahmin eder, ama dondurma almak boğulmaya neden olmaz.
- Tek öncül genellikle yeterli değil. Ev fiyatı büyüklüğe bağlıdır, ama aynı zamanda konuma, yaşına, durumuna ve başka birçok şeye de. Basit regresyon tek öncül kullanır; çoklu regresyon (ileri bir ders konusu) birden fazla kullanır.
- Aşırı uçlar çizgiyi bozabilir. Tek bir olağan dışı veri noktası - konumu nedeniyle milyonlara satılan küçük bir ev gibi - tüm çizgiyi saptırabilir.
Gerçek Hayatta Regresyon
Regresyon, dünyada en yaygın kullanılan istatistiksel araçlardan biridir:
- Gayrimenkul: Büyüklük, konum ve özelliklerden ev değerlerini tahmin etmek.
- Sağlık: Yaş, kilo ve yaşam tarzından hasta sonuçlarını tahmin etmek.
- İş dünyası: Reklam bütçesi, mevsim ve ekonomik göstergelerden satış tahmini.
- Eğitim: Çalışma saatleri, devamlılık ve önceki notlardan öğrenci başarısını tahmin etmek.
Bir web sitesinin "tahmini teslimat süresi" veya "tahmini fiyat" dediğinde, büyük olasılıkla arka planda bir regresyon modeli çalışıyor.
Regresyon, verileriniz arasındaki en iyi düz çizgiyi bularak iki değişken arasındaki ilişkiyi bir tahmin aracına dönüştürür. Y = a + bX denklemi, herhangi bir X değeri için belirli bir tahmin verir. R-kare, öncülün sonucu ne kadar açıkladığını; standart hata, tahminlerinizin ne kadar isabetli olma eğiliminde olduğunu söyler. İstatistiğin en pratik araçlarından biridir, ama hatırlayın: tahminler orijinal veri aralığınız içinde en iyi çalışır ve bir şeyi tahmin edebilmek ona neden olmakla aynı şey değildir.