Движутся ли две вещи вместе?
В повседневной жизни мы постоянно замечаем закономерности. Более высокие люди обычно весят больше. Студенты, которые больше учатся, как правило, получают более высокие оценки. В городах с большим количеством полицейских больше преступлений. (Подождите — значит ли это, что полиция порождает преступность?)
Корреляция — это способ, которым статистики измеряют и описывают такие связи. Она показывает, имеют ли две вещи тенденцию изменяться вместе, и насколько сильно. Но, как намекает третий пример, она не объясняет почему.
Что такое корреляция?
Корреляция измеряет силу и направление линейной связи между двумя переменными. Когда одна переменная растёт, растёт ли другая тоже? Или падает? Или никакой закономерности нет?
Самая распространённая мера — коэффициент корреляции, обычно обозначаемый r. Это одно число от -1 до +1.
Как читать коэффициент корреляции
- r = +1: Идеальная положительная корреляция. С ростом одной переменной другая растёт абсолютно предсказуемо. Все точки ложатся ровно на восходящую прямую.
- r = -1: Идеальная отрицательная корреляция. С ростом одной другая падает абсолютно предсказуемо.
- r = 0: Линейной связи нет вообще. Знание одной переменной ничего не говорит о другой.
На практике вы почти никогда не увидите точных значений +1, -1 или 0. Реальные данные «зашумлены». Вот примерный ориентир:
- 0,7–1,0 (или -0,7–-1,0): Сильная связь
- 0,4–0,7 (или -0,4–-0,7): Умеренная связь
- 0,1–0,4 (или -0,1–-0,4): Слабая связь
- 0,0–0,1 (или 0,0–-0,1): Связи практически нет
Рост и вес. У взрослых людей рост и вес имеют положительную корреляцию примерно r = 0,5–0,7. Более высокие люди, как правило, весят больше, но есть немало исключений. Человек ростом 170 см может весить больше, чем человек ростом 185 см.
Корреляция положительная (обе переменные растут вместе) и от умеренной до сильной (закономерность заметна, но не идеальна).
Положительная и отрицательная корреляция
Положительная корреляция означает, что обе переменные движутся в одном направлении. Когда одна растёт, другая тоже имеет тенденцию расти.
- Часы учёбы и оценки за экзамен (больше учёбы — выше оценки)
- Температура воздуха и продажи мороженого (жарче — больше мороженого)
- Опыт работы и зарплата (больше стаж — как правило, выше зарплата)
Отрицательная корреляция означает, что переменные движутся в противоположных направлениях. Когда одна растёт, другая имеет тенденцию падать.
- Физическая активность и пульс в покое (больше тренировок — ниже пульс)
- Цена товара и спрос (выше цена — меньше покупателей)
- Пропуски занятий и успеваемость (больше пропусков — ниже оценки)
Корреляция не означает причинно-следственную связь
Это, пожалуй, самое важное правило в статистике, и оно постоянно всплывает при обсуждении корреляции. Тот факт, что две вещи коррелируют, не означает, что одна вызывает другую.
Продажи мороженого и утопления положительно коррелируют. Когда продажи мороженого растут, количество утоплений тоже увеличивается. Значит ли это, что мороженое вызывает утопления?
Конечно, нет. Обе переменные обусловлены третьим фактором: жаркой погодой. Когда жарко, люди покупают больше мороженого И больше людей идут купаться (что приводит к увеличению числа утоплений). Мороженое и утопления связаны, но ни одно не является причиной другого.
Это называется вмешивающаяся переменная (конфаундер) — скрытый фактор, влияющий на обе измеряемые величины.
Есть несколько причин, по которым две вещи могут коррелировать без причинно-следственной связи:
- Третья переменная влияет на обе. (Жаркая погода вызывает и рост продаж мороженого, и рост числа купающихся.)
- Обратная причинность. Может, не А вызывает Б, а Б вызывает А. Города с высокой преступностью нанимают больше полицейских, а не наоборот.
- Чистое совпадение. При достаточном количестве данных вы найдёте случайные корреляции. Количество фильмов с Николасом Кейджем коррелирует с числом утоплений в бассейнах — очевидно, это бессмыслица.
Чего корреляция не улавливает
Коэффициент корреляции измеряет только линейные (прямолинейные) связи. Если связь между двумя переменными криволинейна, коэффициент корреляции может ввести в заблуждение.
Например, стресс и продуктивность имеют криволинейную связь: небольшой стресс повышает продуктивность, но чрезмерный стресс её снижает. Коэффициент корреляции может показать r = 0, как будто связи нет, хотя она явно существует — просто не в виде прямой линии.
Именно поэтому всегда полезно визуализировать данные, прежде чем полагаться на одно число.
Корреляция в повседневной жизни
Вы сталкиваетесь с корреляциями постоянно, зачастую не осознавая этого:
- Врач может отметить, что уровень холестерина коррелирует с риском сердечных заболеваний.
- Компания может обнаружить, что удовлетворённость клиентов коррелирует с повторными покупками.
- Школа может установить, что посещаемость коррелирует с процентом выпускников.
В каждом случае корреляция — полезная информация, но прежде чем делать выводы о причинности, нужно копнуть глубже.
Корреляция показывает, имеют ли две вещи тенденцию изменяться в одном направлении (положительная корреляция) или в противоположных направлениях (отрицательная корреляция), по шкале от -1 до +1. Это мощный инструмент для обнаружения закономерностей, но у него есть критическое ограничение: корреляция не доказывает причинно-следственную связь. Две вещи могут коррелировать из-за скрытого третьего фактора, обратной причинности или чистого совпадения. Всегда спрашивайте «почему», прежде чем делать выводы о том, что чем вызвано.