Od korelacji do przewidywania
Korelacja mówi nam, że dwie zmienne są powiązane. Regresja idzie dalej - pozwala przewidywać wartość jednej zmiennej na podstawie drugiej. Jeśli wiemy, że godziny nauki korelują z wynikiem matury, regresja mówi nam: "Jeśli uczeń uczy się X godzin, przewidujemy wynik Y."
Regresja liniowa prosta
Najprostsza forma regresji dopasowuje prostą linię do danych. Ta linia opisuje związek między zmienną niezależną (X) a zależną (Y).
Równanie prostej: Y = a + bX, gdzie "a" to punkt przecięcia z osią Y (wartość Y, gdy X = 0), a "b" to nachylenie (o ile zmienia się Y, gdy X wzrasta o 1).
Badasz związek między metrażem mieszkania (m²) a ceną (tys. zł) w Krakowie. Regresja daje równanie: Cena = 50 + 8,5 × metraż. Interpretacja: mieszkanie 0 m² "kosztowałoby" 50 tys. zł (część stała - koszty lokalizacji, gruntu), a każdy dodatkowy metr kwadratowy dodaje około 8 500 zł. Przewidywana cena mieszkania 60 m²: 50 + 8,5 × 60 = 560 tys. zł.
Metoda najmniejszych kwadratów
Jak znaleźć "najlepszą" prostą? Metoda najmniejszych kwadratów szuka takiej linii, która minimalizuje sumę kwadratów odległości między punktami danych a prostą. Innymi słowy: linia, która jest "najbliżej" wszystkich punktów jednocześnie.
Współczynnik determinacji R²
R² mówi, jaka część zmienności zmiennej zależnej jest wyjaśniana przez model. Przyjmuje wartości od 0 do 1 (lub 0% do 100%).
- R² = 0: model nie wyjaśnia niczego
- R² = 0,75: model wyjaśnia 75% zmienności
- R² = 1: model wyjaśnia wszystko (doskonałe dopasowanie)
Regresja metrażu na cenę mieszkań daje R² = 0,82. To znaczy, że 82% różnic w cenach mieszkań można wyjaśnić metrażem. Pozostałe 18% to wpływ innych czynników: piętra, stanu, lokalizacji, roku budowy itp.
Regresja w praktyce
Sieć Lidl chce przewidzieć dzienną sprzedaż na podstawie temperatury. Zbiera dane z 90 dni: temperatura (X) i sprzedaż lodów (Y). Regresja daje: Sprzedaż = 200 + 15 × temperatura. Interpretacja: przy 0°C sprzedaż to około 200 porcji, a każdy stopień więcej dodaje 15 porcji. Przy 30°C: 200 + 15 × 30 = 650 porcji. To pomaga planować zamówienia.
Ekstrapolacja - niebezpieczne przewidywania
Regresja działa dobrze wewnątrz zakresu danych. Ale przewidywanie poza tym zakresem (ekstrapolacja) jest ryzykowne.
Nasz model lodów mówi: przy 50°C sprzedaż = 200 + 15 × 50 = 950 porcji. Ale nigdy nie mieliśmy danych przy 50°C, więc nie wiemy, czy model wciąż działa. Może przy tak ekstremalnej temperaturze ludzie w ogóle nie wychodzą z domu - i sprzedaż spada. Ekstrapolacja to zgadywanie udające naukę.
Założenia regresji liniowej
- Liniowość: związek między X a Y jest w przybliżeniu liniowy
- Niezależność obserwacji: każda obserwacja jest niezależna od innych
- Normalność reszt: błędy (różnice między obserwacjami a przewidywaniami) mają rozkład zbliżony do normalnego
- Jednorodność wariancji: rozrzut reszt jest mniej więcej stały na całym zakresie danych
Regresja wielokrotna - wiele zmiennych
W praktyce rzadko jedna zmienna wyjaśnia wszystko. Regresja wielokrotna pozwala uwzględnić kilka zmiennych jednocześnie: Cena = a + b₁ × metraż + b₂ × piętro + b₃ × rok_budowy. To potężniejsze, ale też bardziej skomplikowane narzędzie.
Regresja liniowa pozwala przewidywać wartość jednej zmiennej na podstawie drugiej. Równanie Y = a + bX opisuje linię najlepszego dopasowania. R² mówi, jaka część zmienności jest wyjaśniana przez model. Uważaj na ekstrapolację - przewidywania poza zakresem danych są niepewne. Regresja to jedno z najczęściej używanych narzędzi w biznesie, nauce i ekonomii.