Корреляция

Сложность: Средний Время чтения: 12 минут

Движутся ли две вещи вместе?

В повседневной жизни мы постоянно замечаем закономерности. Более высокие люди обычно весят больше. Студенты, которые больше учатся, как правило, получают более высокие оценки. В городах с большим количеством полицейских больше преступлений. (Подождите — значит ли это, что полиция порождает преступность?)

2 4 6 8 10 2 4 6 8 10 12

Корреляция — это способ, которым статистики измеряют и описывают такие связи. Она показывает, имеют ли две вещи тенденцию изменяться вместе, и насколько сильно. Но, как намекает третий пример, она не объясняет почему.

Что такое корреляция?

Корреляция измеряет силу и направление линейной связи между двумя переменными. Когда одна переменная растёт, растёт ли другая тоже? Или падает? Или никакой закономерности нет?

Самая распространённая мера — коэффициент корреляции, обычно обозначаемый r. Это одно число от -1 до +1.

Как читать коэффициент корреляции

  • r = +1: Идеальная положительная корреляция. С ростом одной переменной другая растёт абсолютно предсказуемо. Все точки ложатся ровно на восходящую прямую.
  • r = -1: Идеальная отрицательная корреляция. С ростом одной другая падает абсолютно предсказуемо.
  • r = 0: Линейной связи нет вообще. Знание одной переменной ничего не говорит о другой.

На практике вы почти никогда не увидите точных значений +1, -1 или 0. Реальные данные «зашумлены». Вот примерный ориентир:

2 4 6 8 10 5 10
  • 0,7–1,0 (или -0,7–-1,0): Сильная связь
  • 0,4–0,7 (или -0,4–-0,7): Умеренная связь
  • 0,1–0,4 (или -0,1–-0,4): Слабая связь
  • 0,0–0,1 (или 0,0–-0,1): Связи практически нет
Пример

Рост и вес. У взрослых людей рост и вес имеют положительную корреляцию примерно r = 0,5–0,7. Более высокие люди, как правило, весят больше, но есть немало исключений. Человек ростом 170 см может весить больше, чем человек ростом 185 см.

Корреляция положительная (обе переменные растут вместе) и от умеренной до сильной (закономерность заметна, но не идеальна).

Положительная и отрицательная корреляция

Положительная корреляция означает, что обе переменные движутся в одном направлении. Когда одна растёт, другая тоже имеет тенденцию расти.

  • Часы учёбы и оценки за экзамен (больше учёбы — выше оценки)
  • Температура воздуха и продажи мороженого (жарче — больше мороженого)
  • Опыт работы и зарплата (больше стаж — как правило, выше зарплата)

Отрицательная корреляция означает, что переменные движутся в противоположных направлениях. Когда одна растёт, другая имеет тенденцию падать.

  • Физическая активность и пульс в покое (больше тренировок — ниже пульс)
  • Цена товара и спрос (выше цена — меньше покупателей)
  • Пропуски занятий и успеваемость (больше пропусков — ниже оценки)

Корреляция не означает причинно-следственную связь

Это, пожалуй, самое важное правило в статистике, и оно постоянно всплывает при обсуждении корреляции. Тот факт, что две вещи коррелируют, не означает, что одна вызывает другую.

2 4 6 8 10 2 4 6 8 10
Пример

Продажи мороженого и утопления положительно коррелируют. Когда продажи мороженого растут, количество утоплений тоже увеличивается. Значит ли это, что мороженое вызывает утопления?

Конечно, нет. Обе переменные обусловлены третьим фактором: жаркой погодой. Когда жарко, люди покупают больше мороженого И больше людей идут купаться (что приводит к увеличению числа утоплений). Мороженое и утопления связаны, но ни одно не является причиной другого.

Это называется вмешивающаяся переменная (конфаундер) — скрытый фактор, влияющий на обе измеряемые величины.

Есть несколько причин, по которым две вещи могут коррелировать без причинно-следственной связи:

  • Третья переменная влияет на обе. (Жаркая погода вызывает и рост продаж мороженого, и рост числа купающихся.)
  • Обратная причинность. Может, не А вызывает Б, а Б вызывает А. Города с высокой преступностью нанимают больше полицейских, а не наоборот.
  • Чистое совпадение. При достаточном количестве данных вы найдёте случайные корреляции. Количество фильмов с Николасом Кейджем коррелирует с числом утоплений в бассейнах — очевидно, это бессмыслица.

Чего корреляция не улавливает

Коэффициент корреляции измеряет только линейные (прямолинейные) связи. Если связь между двумя переменными криволинейна, коэффициент корреляции может ввести в заблуждение.

Например, стресс и продуктивность имеют криволинейную связь: небольшой стресс повышает продуктивность, но чрезмерный стресс её снижает. Коэффициент корреляции может показать r = 0, как будто связи нет, хотя она явно существует — просто не в виде прямой линии.

Именно поэтому всегда полезно визуализировать данные, прежде чем полагаться на одно число.

Корреляция в повседневной жизни

Вы сталкиваетесь с корреляциями постоянно, зачастую не осознавая этого:

  • Врач может отметить, что уровень холестерина коррелирует с риском сердечных заболеваний.
  • Компания может обнаружить, что удовлетворённость клиентов коррелирует с повторными покупками.
  • Школа может установить, что посещаемость коррелирует с процентом выпускников.

В каждом случае корреляция — полезная информация, но прежде чем делать выводы о причинности, нужно копнуть глубже.

Ключевой вывод

Корреляция показывает, имеют ли две вещи тенденцию изменяться в одном направлении (положительная корреляция) или в противоположных направлениях (отрицательная корреляция), по шкале от -1 до +1. Это мощный инструмент для обнаружения закономерностей, но у него есть критическое ограничение: корреляция не доказывает причинно-следственную связь. Две вещи могут коррелировать из-за скрытого третьего фактора, обратной причинности или чистого совпадения. Всегда спрашивайте «почему», прежде чем делать выводы о том, что чем вызвано.