What is regression analysis in simple terms?

Regression analysis models the relationship between variables, letting you predict an outcome based on one or more input factors.

What is the difference between correlation and regression?

Correlation measures the strength of a relationship, while regression provides an equation to predict one variable from another.

What is R-squared in regression?

R-squared is the proportion of variance in the dependent variable explained by the model. An R-squared of 0.8 means 80% of variation is explained.

What is a residual in regression?

A residual is the difference between an observed value and the value predicted by the regression model. Smaller residuals mean better fit.

Podstawy regresji

Od korelacji do przewidywania

Korelacja mówi nam, że dwie zmienne są powiązane. Regresja idzie dalej - pozwala przewidywać wartość jednej zmiennej na podstawie drugiej. Jeśli wiemy, że godziny nauki korelują z wynikiem matury, regresja mówi nam: "Jeśli uczeń uczy się X godzin, przewidujemy wynik Y."

Regresja liniowa prosta

Najprostsza forma regresji dopasowuje prostą linię do danych. Ta linia opisuje związek między zmienną niezależną (X) a zależną (Y).

Równanie prostej: Y = a + bX, gdzie "a" to punkt przecięcia z osią Y (wartość Y, gdy X = 0), a "b" to nachylenie (o ile zmienia się Y, gdy X wzrasta o 1).

Przykład

Badasz związek między metrażem mieszkania (m²) a ceną (tys. zł) w Krakowie. Regresja daje równanie: Cena = 50 + 8,5 × metraż. Interpretacja: mieszkanie 0 m² "kosztowałoby" 50 tys. zł (część stała - koszty lokalizacji, gruntu), a każdy dodatkowy metr kwadratowy dodaje około 8 500 zł. Przewidywana cena mieszkania 60 m²: 50 + 8,5 × 60 = 560 tys. zł.

Metoda najmniejszych kwadratów

Jak znaleźć "najlepszą" prostą? Metoda najmniejszych kwadratów szuka takiej linii, która minimalizuje sumę kwadratów odległości między punktami danych a prostą. Innymi słowy: linia, która jest "najbliżej" wszystkich punktów jednocześnie.

Współczynnik determinacji R²

R² mówi, jaka część zmienności zmiennej zależnej jest wyjaśniana przez model. Przyjmuje wartości od 0 do 1 (lub 0% do 100%).

R² = 0: model nie wyjaśnia niczego
R² = 0,75: model wyjaśnia 75% zmienności
R² = 1: model wyjaśnia wszystko (doskonałe dopasowanie)

Przykład

Regresja metrażu na cenę mieszkań daje R² = 0,82. To znaczy, że 82% różnic w cenach mieszkań można wyjaśnić metrażem. Pozostałe 18% to wpływ innych czynników: piętra, stanu, lokalizacji, roku budowy itp.

Regresja w praktyce

Przykład

Sieć Lidl chce przewidzieć dzienną sprzedaż na podstawie temperatury. Zbiera dane z 90 dni: temperatura (X) i sprzedaż lodów (Y). Regresja daje: Sprzedaż = 200 + 15 × temperatura. Interpretacja: przy 0°C sprzedaż to około 200 porcji, a każdy stopień więcej dodaje 15 porcji. Przy 30°C: 200 + 15 × 30 = 650 porcji. To pomaga planować zamówienia.

Ekstrapolacja - niebezpieczne przewidywania

Regresja działa dobrze wewnątrz zakresu danych. Ale przewidywanie poza tym zakresem (ekstrapolacja) jest ryzykowne.

Przykład

Nasz model lodów mówi: przy 50°C sprzedaż = 200 + 15 × 50 = 950 porcji. Ale nigdy nie mieliśmy danych przy 50°C, więc nie wiemy, czy model wciąż działa. Może przy tak ekstremalnej temperaturze ludzie w ogóle nie wychodzą z domu - i sprzedaż spada. Ekstrapolacja to zgadywanie udające naukę.

Założenia regresji liniowej

Liniowość: związek między X a Y jest w przybliżeniu liniowy
Niezależność obserwacji: każda obserwacja jest niezależna od innych
Normalność reszt: błędy (różnice między obserwacjami a przewidywaniami) mają rozkład zbliżony do normalnego
Jednorodność wariancji: rozrzut reszt jest mniej więcej stały na całym zakresie danych

Regresja wielokrotna - wiele zmiennych

W praktyce rzadko jedna zmienna wyjaśnia wszystko. Regresja wielokrotna pozwala uwzględnić kilka zmiennych jednocześnie: Cena = a + b₁ × metraż + b₂ × piętro + b₃ × rok_budowy. To potężniejsze, ale też bardziej skomplikowane narzędzie.

Kluczowy wniosek

Regresja liniowa pozwala przewidywać wartość jednej zmiennej na podstawie drugiej. Równanie Y = a + bX opisuje linię najlepszego dopasowania. R² mówi, jaka część zmienności jest wyjaśniana przez model. Uważaj na ekstrapolację - przewidywania poza zakresem danych są niepewne. Regresja to jedno z najczęściej używanych narzędzi w biznesie, nauce i ekonomii.

Podstawy regresji

Od korelacji do przewidywania

Regresja liniowa prosta

Metoda najmniejszych kwadratów

Współczynnik determinacji R²

Regresja w praktyce

Ekstrapolacja - niebezpieczne przewidywania

Założenia regresji liniowej

Regresja wielokrotna - wiele zmiennych

Powiązane lekcje