Основи регресії

Складність: Середній Час читання: 15 хвилин

Від кореляції до прогнозування

Кореляція каже: "площа квартири та ціна пов'язані". Але вона не відповідає на практичне запитання: "Скільки коштуватиме квартира площею 65 м²?" Для цього потрібна регресія -- метод, який будує формулу для прогнозування одної змінної на основі іншої.

2 4 6 8 10 5 10

Лінійна регресія: лінія найкращого наближення

Проста лінійна регресія знаходить пряму лінію, яка найкраще описує зв'язок між двома змінними. Формула:

Y = a + b × X

Де Y -- залежна змінна (що прогнозуємо), X -- незалежна (на основі чого), a -- перетин (де лінія перетинає вісь Y), b -- нахил (на скільки змінюється Y при зміні X на одиницю).

Приклад

Аналіз 80 квартир у Києві дав формулу: Ціна (тис. грн) = 200 + 18 × Площа (м²).

Перетин a = 200: базова ціна (навіть квартира "нульової" площі мала б вартість 200 тис. -- це вартість місця розташування, комунікацій тощо).

Нахил b = 18: кожен додатковий м² додає 18 000 грн до ціни.

Прогноз для квартири 65 м²: 200 + 18 × 65 = 1 370 тис. грн.

Метод найменших квадратів

Як знайти "найкращу" лінію? Метод найменших квадратів мінімізує суму квадратів різниць між реальними значеннями Y та прогнозованими. Тобто лінія проходить так, щоб загальна "помилка" була мінімальною.

-3 -2 -1 0 1 2 3

Уявіть кожну точку на графіку та вертикальну лінію від неї до прямої. Метод найменших квадратів мінімізує суму квадратів цих вертикальних відстаней.

R-квадрат: наскільки добре модель пояснює дані

R² показує, яку частку варіації залежної змінної пояснює модель. R² = 0,75 означає: 75% варіації ціни пояснюється площею. Решта 25% -- інші чинники (район, поверх, ремонт, рік побудови тощо).

Приклад

Фермер у Херсонській області досліджує зв'язок між кількістю опадів (мм) та врожайністю пшениці (ц/га). R² = 0,62. Опади пояснюють 62% варіації врожайності. Решта 38% -- це ґрунт, добрива, температура та інші чинники.

Залишки: що модель не пояснила

Залишок -- різниця між реальним значенням і прогнозованим. Якщо квартира коштує 1 500 тис., а модель прогнозувала 1 370, залишок = +130. Аналіз залишків допомагає перевірити, чи модель адекватна:

2 4 6 8 10 2 4 6 8 10
  • Залишки повинні бути випадковими (без патернів).
  • Залишки повинні бути приблизно нормально розподілені.
  • Розкид залишків повинен бути приблизно однаковий для всіх значень X.

Множинна регресія

У реальному світі рідко одна змінна пояснює все. Множинна регресія використовує кілька незалежних змінних:

Y = a + b₁X₁ + b₂X₂ + b₃X₃ + ...

Приклад

Ціна квартири = 50 + 15 × Площа + 80 × Район(центр=1) - 3 × Поверх + 0,5 × Рік_побудови. Тепер модель враховує площу, район, поверх та рік побудови. R² = 0,88 -- набагато краще за просту модель тільки з площею (R² = 0,75).

Поширені помилки

  • Екстраполяція: Модель побудована на квартирах 30-100 м². Прогнозувати ціну квартири 300 м² ненадійно -- зв'язок може бути іншим за межами діапазону даних.
  • Кореляція = причинність: Регресія показує зв'язок, але не доводить причинність. Ціна морозива може "прогнозувати" кількість утоплень, але це не означає причинно-наслідковий зв'язок.
  • Ігнорування мультиколінеарності: Якщо незалежні змінні сильно корелюють між собою (наприклад, площа і кількість кімнат), результати множинної регресії стають нестабільними.

Читання результатів регресії

Типовий висновок включає:

  • Коефіцієнти (a, b): числове значення зв'язку.
  • p-значення для кожного коефіцієнта: чи є зв'язок значущим.
  • R²: яку частку варіації пояснює модель.
  • Стандартна похибка оцінки: типова "помилка" прогнозу.
Ключовий висновок

Лінійна регресія знаходить формулу Y = a + bX для прогнозування однієї змінної за іншою. Метод найменших квадратів мінімізує помилку прогнозу. R² показує, яку частку варіації пояснює модель. Множинна регресія додає кілька предикторів. Пам'ятайте: не екстраполюйте за межі даних і не плутайте зв'язок з причинністю.