От связи к прогнозу
В уроке о корреляции мы научились измерять, движутся ли две переменные вместе. Но корреляция лишь говорит, что связь есть, — она не позволяет делать конкретные прогнозы. Именно для этого существует регрессия.
Регрессия берёт связь между двумя переменными и проводит через неё линию. Эта линия становится инструментом прогнозирования: дайте мне одно число, и я оценю другое.
Линия наилучшего приближения
Представьте, что у вас есть данные о 50 квартирах — площадь каждой (в квадратных метрах) и цена продажи. Если нанести их на график, вы увидите облако точек с восходящей тенденцией: квартиры большей площади обычно стоят дороже.
Регрессия находит единственную прямую линию, которая проходит ближе всего ко всем точкам. Это и есть линия наилучшего приближения (или линия регрессии). Она не проходит через каждую точку — реальные данные слишком «зашумлены» для этого. Вместо этого она минимизирует суммарное расстояние между линией и всеми точками.
Вы собрали данные о площади и цене квартир в вашем районе Москвы:
- 30 кв. м — продана за 6 000 000 руб.
- 45 кв. м — продана за 8 500 000 руб.
- 60 кв. м — продана за 11 000 000 руб.
- 75 кв. м — продана за 13 000 000 руб.
- 90 кв. м — продана за 15 500 000 руб.
Регрессия проведёт наилучшую линию через эти точки. Уравнение может выглядеть примерно так: Цена = 1 200 000 + 160 000 × Площадь.
Теперь можно прогнозировать: квартира площадью 55 кв. м будет стоить приблизительно 1 200 000 + (160 000 × 55) = 10 000 000 руб. В этом сила регрессии — она превращает закономерность в конкретный прогноз.
Уравнение прямой
Любая линия регрессии записывается в виде простого уравнения:
Y = a + bX
Где:
- Y — то, что вы прогнозируете («результат» или «зависимая переменная»), например цена квартиры.
- X — то, на основе чего делается прогноз («предиктор» или «независимая переменная»), например площадь.
- b — наклон (угловой коэффициент): насколько изменяется Y при увеличении X на единицу. В нашем примере каждый дополнительный квадратный метр добавляет 160 000 рублей к прогнозируемой цене.
- a — свободный член (отсечка): прогнозируемое значение Y, когда X = 0. Иногда это имеет практический смысл (теоретическая «квартира нулевой площади» стоит 1 200 000 рублей за сам участок), иногда нет.
Почему именно эта линия «наилучшая»?
Через облако точек можно провести бесконечно много линий. Регрессия выбирает ту, которая минимизирует сумму квадратов ошибок. Что это значит простыми словами?
Для каждой точки данных «ошибка» — это вертикальное расстояние от точки до линии. Некоторые точки лежат выше линии (линия занизила оценку), некоторые — ниже (линия завысила). Регрессия возводит каждую ошибку в квадрат (что делает все значения положительными), складывает их и находит линию, которая минимизирует эту сумму.
Этот метод называется методом наименьших квадратов, и он используется уже более 200 лет.
Как читать результаты регрессии
Когда программа выполняет регрессию, она выдаёт несколько ключевых показателей. Вот на что стоит обращать внимание:
R-квадрат (R²)
Показывает, какую долю вариации результата объясняет предиктор. Значение от 0 до 1 (или от 0% до 100%).
- R² = 0,85 означает, что площадь объясняет 85% вариации цены. Это сильный показатель — площадь хорошо предсказывает цену.
- R² = 0,15 означает, что предиктор объясняет лишь 15% вариации. Другие факторы гораздо важнее.
Наклон (и его p-значение)
Наклон показывает направление и величину связи. P-значение при наклоне говорит, является ли связь статистически значимой — скорее реальной или может быть случайностью из-за малой выборки.
Стандартная ошибка
Показывает, насколько в среднем будут отклоняться ваши прогнозы от реальных значений. Стандартная ошибка в 500 000 рублей для прогноза цены квартиры означает, что большинство ваших оценок будут в пределах примерно 500 000 рублей от реальной цены, но некоторые отклонятся сильнее.
Руководитель хочет спрогнозировать месячные продажи на основе расходов на рекламу. Собрав данные за 24 месяца, регрессия даёт:
- Уравнение: Продажи = 500 000 руб. + 4 × Расходы на рекламу
- R² = 0,72 — расходы на рекламу объясняют 72% вариации продаж.
- P-значение наклона = 0,001 — связь вряд ли случайна.
- Стандартная ошибка = 150 000 руб. — прогнозы обычно отклоняются примерно на 150 000 рублей.
Если компания потратит на рекламу 400 000 рублей в следующем месяце, прогноз — 500 000 + (4 × 400 000) = 2 100 000 руб. Но фактический результат, скорее всего, окажется где-то между 1 950 000 и 2 250 000 рублей.
Ограничения и предостережения
Регрессия — чрезвычайно полезный инструмент, но у него есть важные ограничения:
- Не экстраполируйте слишком далеко. Если ваши данные охватывают квартиры от 25 до 100 кв. м, не используйте линию для прогноза цены пентхауса в 300 кв. м. За пределами диапазона данных связь может быть нелинейной.
- Корреляция — не причинность. Возможность предсказать Y по X не означает, что X вызывает Y. Продажи мороженого предсказывают число утоплений, но покупка мороженого не вызывает утопления.
- Одного предиктора часто недостаточно. Цена квартиры зависит от площади, но также от района, этажа, состояния ремонта и многого другого. Простая регрессия использует один предиктор; множественная регрессия — несколько.
- Выбросы могут исказить линию. Одна необычная точка — например, крошечная квартира, проданная за огромную сумму из-за расположения — может сдвинуть всю линию.
Регрессия в реальной жизни
Регрессия — один из самых широко используемых статистических инструментов в мире:
- Недвижимость: Оценка стоимости жилья по площади, местоположению и характеристикам.
- Медицина: Прогнозирование исходов лечения на основе возраста, веса и образа жизни пациента.
- Бизнес: Прогнозирование продаж по рекламным бюджетам, сезону и экономическим показателям.
- Образование: Прогнозирование успеваемости по часам учёбы, посещаемости и предыдущим оценкам.
Каждый раз, когда сайт показывает «ориентировочное время доставки» или «предполагаемую цену», за кулисами, скорее всего, работает модель регрессии.
Регрессия находит наилучшую прямую линию через ваши данные, превращая связь между двумя переменными в инструмент прогнозирования. Уравнение Y = a + bX даёт конкретный прогноз для любого значения X. R-квадрат показывает, какую долю результата объясняет предиктор, а стандартная ошибка — насколько точны ваши прогнозы. Это один из самых практичных инструментов в статистике, но помните: прогнозы лучше всего работают в пределах диапазона исходных данных, а предсказать что-то — не то же самое, что установить причинность.