Чи пов'язані ці два явища?
Ви помічаєте: коли на вулиці тепліше, люди купують більше морозива. Коли студенти більше готуються, їхні бали вищі. Коли курс долара зростає, ціни в магазинах теж. Усі ці спостереження -- про зв'язок між двома змінними. Кореляція -- це числова міра такого зв'язку.
Коефіцієнт кореляції Пірсона (r)
Коефіцієнт кореляції (r) -- число від -1 до +1, яке показує силу та напрямок лінійного зв'язку між двома змінними.
- r = +1: ідеальний позитивний зв'язок. Одна змінна зростає -- інша теж.
- r = -1: ідеальний негативний зв'язок. Одна зростає -- інша зменшується.
- r = 0: лінійного зв'язку немає.
- r = +0,8: сильний позитивний зв'язок.
- r = -0,3: слабкий негативний зв'язок.
Дослідження 100 квартир у Києві: площа (м²) та ціна (тис. грн). r = +0,85. Це сильна позитивна кореляція: більша площа пов'язана з вищою ціною. Але це не означає, що площа -- єдиний чинник. Поверх, район, ремонт -- все це теж впливає.
Як інтерпретувати силу зв'язку
Загальне правило (з певним спрощенням):
- |r| < 0,3: слабкий зв'язок.
- 0,3 ≤ |r| < 0,7: помірний зв'язок.
- |r| ≥ 0,7: сильний зв'язок.
Кореляція між кількістю годин підготовки та балом НМТ: r = +0,65. Помірний позитивний зв'язок -- більше підготовки зазвичай означає вищий бал, але не завжди. Хтось може готуватися 200 годин неефективно, а хтось -- 50 годин з репетитором і набрати більше.
Кореляція НЕ означає причинність
Це, мабуть, найважливіший принцип у всій статистиці. Якщо дві змінні корелюють, це не означає, що одна спричиняє іншу.
Статистика показує: продажі морозива та кількість утоплень мають сильну позитивну кореляцію. Чи означає це, що морозиво спричиняє утоплення? Звісно, ні! Обидва явища пов'язані з третім чинником -- спекотною погодою. Коли спекотно, люди і купують морозиво, і частіше ходять на пляж. Спека -- конфаундер (змішувальна змінна).
Три причини кореляції:
- A спричиняє B: Куріння спричиняє рак легень.
- B спричиняє A: Зворотний зв'язок.
- C спричиняє і A, і B: Конфаундер. Найчастіша причина хибних висновків.
Нелінійні зв'язки
Коефіцієнт Пірсона вимірює лише лінійний зв'язок. Якщо зв'язок кривий (параболічний, U-подібний), r може бути близьким до 0, хоча зв'язок сильний.
Зв'язок між стресом та продуктивністю: помірний стрес підвищує продуктивність, але занадто великий -- знижує. Графік U-подібний. Кореляція Пірсона може показати r ≈ 0, хоча зв'язок очевидний. Завжди дивіться на діаграму розсіювання, а не тільки на число.
Кореляція рангів Спірмена
Коли дані порядкові або зв'язок не лінійний, використовується кореляція Спірмена. Вона працює з рангами (позиціями), а не з самими значеннями.
Рейтинг 10 футболістів УПЛ за голами і за оцінками журналістів. Дані порядкові (ранги). Кореляція Спірмена показує, наскільки ці два рейтинги узгоджені. Якщо ρ = 0,9, журналісти високо оцінюють тих, хто забиває найбільше.
R-квадрат (R²)
R² = r² показує частку варіації однієї змінної, пояснену іншою. Якщо r = 0,8, то R² = 0,64, тобто 64% варіації ціни квартири пояснюється площею. Решта 36% -- інші чинники.
Кореляція вимірює силу та напрямок лінійного зв'язку між двома змінними на шкалі від -1 до +1. Сильна кореляція не доводить причинність -- може бути конфаундер. Завжди перевіряйте діаграму розсіювання: нелінійні зв'язки можуть мати r ≈ 0. R² показує, яку частку варіації пояснює зв'язок.