Від кореляції до прогнозування
Кореляція каже: "площа квартири та ціна пов'язані". Але вона не відповідає на практичне запитання: "Скільки коштуватиме квартира площею 65 м²?" Для цього потрібна регресія -- метод, який будує формулу для прогнозування одної змінної на основі іншої.
Лінійна регресія: лінія найкращого наближення
Проста лінійна регресія знаходить пряму лінію, яка найкраще описує зв'язок між двома змінними. Формула:
Y = a + b × X
Де Y -- залежна змінна (що прогнозуємо), X -- незалежна (на основі чого), a -- перетин (де лінія перетинає вісь Y), b -- нахил (на скільки змінюється Y при зміні X на одиницю).
Аналіз 80 квартир у Києві дав формулу: Ціна (тис. грн) = 200 + 18 × Площа (м²).
Перетин a = 200: базова ціна (навіть квартира "нульової" площі мала б вартість 200 тис. -- це вартість місця розташування, комунікацій тощо).
Нахил b = 18: кожен додатковий м² додає 18 000 грн до ціни.
Прогноз для квартири 65 м²: 200 + 18 × 65 = 1 370 тис. грн.
Метод найменших квадратів
Як знайти "найкращу" лінію? Метод найменших квадратів мінімізує суму квадратів різниць між реальними значеннями Y та прогнозованими. Тобто лінія проходить так, щоб загальна "помилка" була мінімальною.
Уявіть кожну точку на графіку та вертикальну лінію від неї до прямої. Метод найменших квадратів мінімізує суму квадратів цих вертикальних відстаней.
R-квадрат: наскільки добре модель пояснює дані
R² показує, яку частку варіації залежної змінної пояснює модель. R² = 0,75 означає: 75% варіації ціни пояснюється площею. Решта 25% -- інші чинники (район, поверх, ремонт, рік побудови тощо).
Фермер у Херсонській області досліджує зв'язок між кількістю опадів (мм) та врожайністю пшениці (ц/га). R² = 0,62. Опади пояснюють 62% варіації врожайності. Решта 38% -- це ґрунт, добрива, температура та інші чинники.
Залишки: що модель не пояснила
Залишок -- різниця між реальним значенням і прогнозованим. Якщо квартира коштує 1 500 тис., а модель прогнозувала 1 370, залишок = +130. Аналіз залишків допомагає перевірити, чи модель адекватна:
- Залишки повинні бути випадковими (без патернів).
- Залишки повинні бути приблизно нормально розподілені.
- Розкид залишків повинен бути приблизно однаковий для всіх значень X.
Множинна регресія
У реальному світі рідко одна змінна пояснює все. Множинна регресія використовує кілька незалежних змінних:
Y = a + b₁X₁ + b₂X₂ + b₃X₃ + ...
Ціна квартири = 50 + 15 × Площа + 80 × Район(центр=1) - 3 × Поверх + 0,5 × Рік_побудови. Тепер модель враховує площу, район, поверх та рік побудови. R² = 0,88 -- набагато краще за просту модель тільки з площею (R² = 0,75).
Поширені помилки
- Екстраполяція: Модель побудована на квартирах 30-100 м². Прогнозувати ціну квартири 300 м² ненадійно -- зв'язок може бути іншим за межами діапазону даних.
- Кореляція = причинність: Регресія показує зв'язок, але не доводить причинність. Ціна морозива може "прогнозувати" кількість утоплень, але це не означає причинно-наслідковий зв'язок.
- Ігнорування мультиколінеарності: Якщо незалежні змінні сильно корелюють між собою (наприклад, площа і кількість кімнат), результати множинної регресії стають нестабільними.
Читання результатів регресії
Типовий висновок включає:
- Коефіцієнти (a, b): числове значення зв'язку.
- p-значення для кожного коефіцієнта: чи є зв'язок значущим.
- R²: яку частку варіації пояснює модель.
- Стандартна похибка оцінки: типова "помилка" прогнозу.
Лінійна регресія знаходить формулу Y = a + bX для прогнозування однієї змінної за іншою. Метод найменших квадратів мінімізує помилку прогнозу. R² показує, яку частку варіації пояснює модель. Множинна регресія додає кілька предикторів. Пам'ятайте: не екстраполюйте за межі даних і не плутайте зв'язок з причинністю.