Кореляція

Складність: Середній Час читання: 12 хвилин

Чи пов'язані ці два явища?

Ви помічаєте: коли на вулиці тепліше, люди купують більше морозива. Коли студенти більше готуються, їхні бали вищі. Коли курс долара зростає, ціни в магазинах теж. Усі ці спостереження -- про зв'язок між двома змінними. Кореляція -- це числова міра такого зв'язку.

2 4 6 8 10 2 4 6 8 10 12

Коефіцієнт кореляції Пірсона (r)

Коефіцієнт кореляції (r) -- число від -1 до +1, яке показує силу та напрямок лінійного зв'язку між двома змінними.

  • r = +1: ідеальний позитивний зв'язок. Одна змінна зростає -- інша теж.
  • r = -1: ідеальний негативний зв'язок. Одна зростає -- інша зменшується.
  • r = 0: лінійного зв'язку немає.
  • r = +0,8: сильний позитивний зв'язок.
  • r = -0,3: слабкий негативний зв'язок.
Приклад

Дослідження 100 квартир у Києві: площа (м²) та ціна (тис. грн). r = +0,85. Це сильна позитивна кореляція: більша площа пов'язана з вищою ціною. Але це не означає, що площа -- єдиний чинник. Поверх, район, ремонт -- все це теж впливає.

Як інтерпретувати силу зв'язку

Загальне правило (з певним спрощенням):

2 4 6 8 10 5 10
  • |r| < 0,3: слабкий зв'язок.
  • 0,3 ≤ |r| < 0,7: помірний зв'язок.
  • |r| ≥ 0,7: сильний зв'язок.
Приклад

Кореляція між кількістю годин підготовки та балом НМТ: r = +0,65. Помірний позитивний зв'язок -- більше підготовки зазвичай означає вищий бал, але не завжди. Хтось може готуватися 200 годин неефективно, а хтось -- 50 годин з репетитором і набрати більше.

Кореляція НЕ означає причинність

Це, мабуть, найважливіший принцип у всій статистиці. Якщо дві змінні корелюють, це не означає, що одна спричиняє іншу.

Приклад

Статистика показує: продажі морозива та кількість утоплень мають сильну позитивну кореляцію. Чи означає це, що морозиво спричиняє утоплення? Звісно, ні! Обидва явища пов'язані з третім чинником -- спекотною погодою. Коли спекотно, люди і купують морозиво, і частіше ходять на пляж. Спека -- конфаундер (змішувальна змінна).

Три причини кореляції:

  1. A спричиняє B: Куріння спричиняє рак легень.
  2. B спричиняє A: Зворотний зв'язок.
  3. C спричиняє і A, і B: Конфаундер. Найчастіша причина хибних висновків.

Нелінійні зв'язки

Коефіцієнт Пірсона вимірює лише лінійний зв'язок. Якщо зв'язок кривий (параболічний, U-подібний), r може бути близьким до 0, хоча зв'язок сильний.

2 4 6 8 10 2 4 6 8 10
Приклад

Зв'язок між стресом та продуктивністю: помірний стрес підвищує продуктивність, але занадто великий -- знижує. Графік U-подібний. Кореляція Пірсона може показати r ≈ 0, хоча зв'язок очевидний. Завжди дивіться на діаграму розсіювання, а не тільки на число.

Кореляція рангів Спірмена

Коли дані порядкові або зв'язок не лінійний, використовується кореляція Спірмена. Вона працює з рангами (позиціями), а не з самими значеннями.

Приклад

Рейтинг 10 футболістів УПЛ за голами і за оцінками журналістів. Дані порядкові (ранги). Кореляція Спірмена показує, наскільки ці два рейтинги узгоджені. Якщо ρ = 0,9, журналісти високо оцінюють тих, хто забиває найбільше.

R-квадрат (R²)

R² = r² показує частку варіації однієї змінної, пояснену іншою. Якщо r = 0,8, то R² = 0,64, тобто 64% варіації ціни квартири пояснюється площею. Решта 36% -- інші чинники.

Ключовий висновок

Кореляція вимірює силу та напрямок лінійного зв'язку між двома змінними на шкалі від -1 до +1. Сильна кореляція не доводить причинність -- може бути конфаундер. Завжди перевіряйте діаграму розсіювання: нелінійні зв'язки можуть мати r ≈ 0. R² показує, яку частку варіації пояснює зв'язок.