Podstawy regresji

Poziom trudności: Średniozaawansowany Czas czytania: 15 minut

Od korelacji do przewidywania

Korelacja mówi nam, że dwie zmienne są powiązane. Regresja idzie dalej - pozwala przewidywać wartość jednej zmiennej na podstawie drugiej. Jeśli wiemy, że godziny nauki korelują z wynikiem matury, regresja mówi nam: "Jeśli uczeń uczy się X godzin, przewidujemy wynik Y."

2 4 6 8 10 5 10

Regresja liniowa prosta

Najprostsza forma regresji dopasowuje prostą linię do danych. Ta linia opisuje związek między zmienną niezależną (X) a zależną (Y).

Równanie prostej: Y = a + bX, gdzie "a" to punkt przecięcia z osią Y (wartość Y, gdy X = 0), a "b" to nachylenie (o ile zmienia się Y, gdy X wzrasta o 1).

Przykład

Badasz związek między metrażem mieszkania (m²) a ceną (tys. zł) w Krakowie. Regresja daje równanie: Cena = 50 + 8,5 × metraż. Interpretacja: mieszkanie 0 m² "kosztowałoby" 50 tys. zł (część stała - koszty lokalizacji, gruntu), a każdy dodatkowy metr kwadratowy dodaje około 8 500 zł. Przewidywana cena mieszkania 60 m²: 50 + 8,5 × 60 = 560 tys. zł.

Metoda najmniejszych kwadratów

Jak znaleźć "najlepszą" prostą? Metoda najmniejszych kwadratów szuka takiej linii, która minimalizuje sumę kwadratów odległości między punktami danych a prostą. Innymi słowy: linia, która jest "najbliżej" wszystkich punktów jednocześnie.

-3 -2 -1 0 1 2 3

Współczynnik determinacji R²

R² mówi, jaka część zmienności zmiennej zależnej jest wyjaśniana przez model. Przyjmuje wartości od 0 do 1 (lub 0% do 100%).

  • R² = 0: model nie wyjaśnia niczego
  • R² = 0,75: model wyjaśnia 75% zmienności
  • R² = 1: model wyjaśnia wszystko (doskonałe dopasowanie)
Przykład

Regresja metrażu na cenę mieszkań daje R² = 0,82. To znaczy, że 82% różnic w cenach mieszkań można wyjaśnić metrażem. Pozostałe 18% to wpływ innych czynników: piętra, stanu, lokalizacji, roku budowy itp.

Regresja w praktyce

Przykład

Sieć Lidl chce przewidzieć dzienną sprzedaż na podstawie temperatury. Zbiera dane z 90 dni: temperatura (X) i sprzedaż lodów (Y). Regresja daje: Sprzedaż = 200 + 15 × temperatura. Interpretacja: przy 0°C sprzedaż to około 200 porcji, a każdy stopień więcej dodaje 15 porcji. Przy 30°C: 200 + 15 × 30 = 650 porcji. To pomaga planować zamówienia.

2 4 6 8 10 2 4 6 8 10

Ekstrapolacja - niebezpieczne przewidywania

Regresja działa dobrze wewnątrz zakresu danych. Ale przewidywanie poza tym zakresem (ekstrapolacja) jest ryzykowne.

Przykład

Nasz model lodów mówi: przy 50°C sprzedaż = 200 + 15 × 50 = 950 porcji. Ale nigdy nie mieliśmy danych przy 50°C, więc nie wiemy, czy model wciąż działa. Może przy tak ekstremalnej temperaturze ludzie w ogóle nie wychodzą z domu - i sprzedaż spada. Ekstrapolacja to zgadywanie udające naukę.

Założenia regresji liniowej

  • Liniowość: związek między X a Y jest w przybliżeniu liniowy
  • Niezależność obserwacji: każda obserwacja jest niezależna od innych
  • Normalność reszt: błędy (różnice między obserwacjami a przewidywaniami) mają rozkład zbliżony do normalnego
  • Jednorodność wariancji: rozrzut reszt jest mniej więcej stały na całym zakresie danych

Regresja wielokrotna - wiele zmiennych

W praktyce rzadko jedna zmienna wyjaśnia wszystko. Regresja wielokrotna pozwala uwzględnić kilka zmiennych jednocześnie: Cena = a + b₁ × metraż + b₂ × piętro + b₃ × rok_budowy. To potężniejsze, ale też bardziej skomplikowane narzędzie.

Kluczowy wniosek

Regresja liniowa pozwala przewidywać wartość jednej zmiennej na podstawie drugiej. Równanie Y = a + bX opisuje linię najlepszego dopasowania. R² mówi, jaka część zmienności jest wyjaśniana przez model. Uważaj na ekstrapolację - przewidywania poza zakresem danych są niepewne. Regresja to jedno z najczęściej używanych narzędzi w biznesie, nauce i ekonomii.