What is regression analysis in simple terms?

Regression analysis models the relationship between variables, letting you predict an outcome based on one or more input factors.

What is the difference between correlation and regression?

Correlation measures the strength of a relationship, while regression provides an equation to predict one variable from another.

What is R-squared in regression?

R-squared is the proportion of variance in the dependent variable explained by the model. An R-squared of 0.8 means 80% of variation is explained.

What is a residual in regression?

A residual is the difference between an observed value and the value predicted by the regression model. Smaller residuals mean better fit.

Основи регресії

Від кореляції до прогнозування

Кореляція каже: "площа квартири та ціна пов'язані". Але вона не відповідає на практичне запитання: "Скільки коштуватиме квартира площею 65 м²?" Для цього потрібна регресія -- метод, який будує формулу для прогнозування одної змінної на основі іншої.

Лінійна регресія: лінія найкращого наближення

Проста лінійна регресія знаходить пряму лінію, яка найкраще описує зв'язок між двома змінними. Формула:

Y = a + b × X

Де Y -- залежна змінна (що прогнозуємо), X -- незалежна (на основі чого), a -- перетин (де лінія перетинає вісь Y), b -- нахил (на скільки змінюється Y при зміні X на одиницю).

Приклад

Аналіз 80 квартир у Києві дав формулу: Ціна (тис. грн) = 200 + 18 × Площа (м²).

Перетин a = 200: базова ціна (навіть квартира "нульової" площі мала б вартість 200 тис. -- це вартість місця розташування, комунікацій тощо).

Нахил b = 18: кожен додатковий м² додає 18 000 грн до ціни.

Прогноз для квартири 65 м²: 200 + 18 × 65 = 1 370 тис. грн.

Метод найменших квадратів

Як знайти "найкращу" лінію? Метод найменших квадратів мінімізує суму квадратів різниць між реальними значеннями Y та прогнозованими. Тобто лінія проходить так, щоб загальна "помилка" була мінімальною.

Уявіть кожну точку на графіку та вертикальну лінію від неї до прямої. Метод найменших квадратів мінімізує суму квадратів цих вертикальних відстаней.

R-квадрат: наскільки добре модель пояснює дані

R² показує, яку частку варіації залежної змінної пояснює модель. R² = 0,75 означає: 75% варіації ціни пояснюється площею. Решта 25% -- інші чинники (район, поверх, ремонт, рік побудови тощо).

Приклад

Фермер у Херсонській області досліджує зв'язок між кількістю опадів (мм) та врожайністю пшениці (ц/га). R² = 0,62. Опади пояснюють 62% варіації врожайності. Решта 38% -- це ґрунт, добрива, температура та інші чинники.

Залишки: що модель не пояснила

Залишок -- різниця між реальним значенням і прогнозованим. Якщо квартира коштує 1 500 тис., а модель прогнозувала 1 370, залишок = +130. Аналіз залишків допомагає перевірити, чи модель адекватна:

Залишки повинні бути випадковими (без патернів).
Залишки повинні бути приблизно нормально розподілені.
Розкид залишків повинен бути приблизно однаковий для всіх значень X.

Множинна регресія

У реальному світі рідко одна змінна пояснює все. Множинна регресія використовує кілька незалежних змінних:

Y = a + b₁X₁ + b₂X₂ + b₃X₃ + ...

Приклад

Ціна квартири = 50 + 15 × Площа + 80 × Район(центр=1) - 3 × Поверх + 0,5 × Рік_побудови. Тепер модель враховує площу, район, поверх та рік побудови. R² = 0,88 -- набагато краще за просту модель тільки з площею (R² = 0,75).

Поширені помилки

Екстраполяція: Модель побудована на квартирах 30-100 м². Прогнозувати ціну квартири 300 м² ненадійно -- зв'язок може бути іншим за межами діапазону даних.
Кореляція = причинність: Регресія показує зв'язок, але не доводить причинність. Ціна морозива може "прогнозувати" кількість утоплень, але це не означає причинно-наслідковий зв'язок.
Ігнорування мультиколінеарності: Якщо незалежні змінні сильно корелюють між собою (наприклад, площа і кількість кімнат), результати множинної регресії стають нестабільними.

Читання результатів регресії

Типовий висновок включає:

Коефіцієнти (a, b): числове значення зв'язку.
p-значення для кожного коефіцієнта: чи є зв'язок значущим.
R²: яку частку варіації пояснює модель.
Стандартна похибка оцінки: типова "помилка" прогнозу.

Ключовий висновок

Лінійна регресія знаходить формулу Y = a + bX для прогнозування однієї змінної за іншою. Метод найменших квадратів мінімізує помилку прогнозу. R² показує, яку частку варіації пояснює модель. Множинна регресія додає кілька предикторів. Пам'ятайте: не екстраполюйте за межі даних і не плутайте зв'язок з причинністю.

Основи регресії

Від кореляції до прогнозування

Лінійна регресія: лінія найкращого наближення

Метод найменших квадратів

R-квадрат: наскільки добре модель пояснює дані

Залишки: що модель не пояснила

Множинна регресія

Поширені помилки

Читання результатів регресії

Схожі уроки