Korelacja

Poziom trudności: Średniozaawansowany Czas czytania: 12 minut

Czy te dwie rzeczy są ze sobą powiązane?

Korelacja mierzy siłę i kierunek związku między dwiema zmiennymi. Odpowiada na pytanie: "Kiedy jedna zmienna rośnie, czy druga też rośnie, maleje, czy nie reaguje?"

2 4 6 8 10 2 4 6 8 10 12

Współczynnik korelacji Pearsona

Najczęściej używana miara korelacji to współczynnik r Pearsona. Przyjmuje wartości od -1 do +1:

  • r = +1: doskonała korelacja pozytywna - obie zmienne rosną razem
  • r = 0: brak korelacji - zmienne nie są liniowo powiązane
  • r = -1: doskonała korelacja negatywna - gdy jedna rośnie, druga maleje
Przykład

Badasz związek między godzinami nauki a wynikiem matury u 50 uczniów. Otrzymujesz r = 0,72. To silna korelacja pozytywna - uczniowie, którzy więcej się uczą, generalnie uzyskują lepsze wyniki. Ale nie doskonała - są wyjątki.

Interpretacja siły korelacji

  • |r| < 0,3: słaba korelacja
  • 0,3 ≤ |r| < 0,7: umiarkowana korelacja
  • |r| ≥ 0,7: silna korelacja
Przykład

Korelacja między wzrostem a wagą polskich dorosłych: r ≈ 0,65 (umiarkowana do silnej - wyżsi ludzie ważą więcej, ale nie zawsze). Korelacja między temperaturą a sprzedażą lodów w Żabce: r ≈ 0,85 (silna - w upały lody sprzedają się znacznie lepiej).

2 4 6 8 10 5 10

Korelacja NIE oznacza przyczynowości

To jedna z najważniejszych zasad w całej statystyce. Fakt, że dwie rzeczy są ze sobą skorelowane, NIE oznacza, że jedna powoduje drugą.

Przykład

W Polsce można znaleźć silną korelację między sprzedażą lodów a liczbą utonięć. Czy lody powodują topienie się? Oczywiście nie! Obie zmienne są powiązane z trzecią - temperaturą. W upały ludzie jedzą więcej lodów I częściej chodzą pływać. Temperatura jest zmienną zakłócającą.

Dlaczego ludzie mylą korelację z przyczynowością?

Nasz mózg jest zaprogramowany do szukania przyczyn i skutków. Kiedy widzimy, że dwie rzeczy idą w parze, naturalnie zakładamy, że jedna powoduje drugą. Ale są trzy możliwości:

  1. A powoduje B
  2. B powoduje A
  3. C powoduje zarówno A, jak i B (zmienna zakłócająca)
Przykład

Kraje z więcej storczykami na 100 mieszkańców mają wyższe PKB. Czy hodowanie storczyków pobudza gospodarkę? Nie - zamożne kraje mają więcej ludzi, których stać na drogie rośliny ozdobne. Zamożność to zmienna zakłócająca.

Korelacja pozorna (spurious correlation)

Czasem dwie zupełnie niezwiązane rzeczy są ze sobą skorelowane czysto przypadkiem, szczególnie jeśli obie zmieniają się w czasie w podobnym tempie.

2 4 6 8 10 2 4 6 8 10
Przykład

Liczba filmów z Nicolasem Cage'em koreluje z liczbą utonięć w basenach w USA (r ≈ 0,67). To oczywiście przypadek - nie ma żadnego logicznego związku. Takie zabawne korelacje przypominają nam, że sama liczba (współczynnik r) nie wystarczy - potrzebna jest logika i teoria.

Ograniczenia korelacji Pearsona

  • Mierzy tylko związki liniowe - jeśli związek jest krzywoliniowy, r może być bliski 0
  • Wrażliwy na wartości odstające - jeden punkt może drastycznie zmienić współczynnik
  • Wymaga danych ilościowych (liczbowych)
Kluczowy wniosek

Korelacja mierzy siłę i kierunek liniowego związku między dwiema zmiennymi (r od -1 do +1). Silna korelacja NIE oznacza przyczynowości - może istnieć zmienna zakłócająca lub związek może być przypadkowy. Zawsze szukaj logicznego wyjaśnienia i pamiętaj: "korelacja to nie przyczynowość" to jedno z najważniejszych zdań w statystyce.