What is effect size in statistics?

Effect size quantifies the magnitude of a difference or relationship, independent of sample size, telling you how meaningful a result is.

Cohen's d measures the difference between two group means in standard deviation units. Values of 0.2, 0.5, and 0.8 are small, medium, and large.

Why is effect size important?

P-values only tell you if a result is unlikely by chance. Effect size tells you whether the difference is large enough to matter in practice.

How do you interpret effect size?

Small effects may be negligible, medium effects are noticeable, and large effects have clear practical importance. Always consider the context.

Wielkość efektu

Problem z samymi wartościami p

Przeprowadzasz badanie, uzyskujesz wartość p = 0,03 i ogłaszasz wynik "istotnym statystycznie." Ale co to właściwie ci mówi? Wartość p mówi, jak zaskakujące byłyby twoje wyniki, gdyby naprawdę nie było żadnego efektu. Nie mówi ci, jak duży lub ważny jest ten efekt.

Problem polega na tym, że przy wystarczająco dużej próbie prawie każda różnica -- bez względu na to, jak trywialnie mała -- stanie się istotna statystycznie. Jeśli porównasz średni wzrost 100 000 osób pijących kawę ze 100 000 osób niepijących kawy, możesz znaleźć istotną statystycznie różnicę 0,2 centymetra. Wartość p może być malutka (p = 0,001), ale różnica jest bez znaczenia w praktyce. Nikogo nie obchodzi piąta część centymetra.

I tu wkracza wielkość efektu. Wielkość efektu mierzy skalę różnicy lub związku, niezależnie od wielkości próby. Odpowiada na pytanie, które naprawdę ma znaczenie: jak duży jest ten efekt i czy ma znaczenie w świecie rzeczywistym?

d Cohena: mierzenie różnicy

Najczęściej stosowaną miarą wielkości efektu do porównywania dwóch grup jest d Cohena. Wyraża różnicę między średnimi dwóch grup w jednostkach odchyleń standardowych. Wzór jest prosty: weź różnicę między dwiema średnimi i podziel przez łączone odchylenie standardowe.

Na przykład, jeśli Grupa A ma średnią 75, a Grupa B ma średnią 80, a łączone odchylenie standardowe wynosi 10, to d Cohena = (80 - 75) / 10 = 0,5. Oznacza to, że dwie grupy są oddzielone o pół odchylenia standardowego.

Wizualizacja powyżej pokazuje standardową krzywą normalną. Zacieniowany obszar w centrum reprezentuje strefę nakładania się między dwiema grupami oddzielonymi małym do średniego efektem. Im bardziej krzywe się nakładają, tym mniejsza jest praktyczna różnica między grupami.

Małe, średnie i duże efekty

Jacob Cohen, psycholog, który spopularyzował tę miarę, zaproponował przybliżone punkty odniesienia do interpretacji wielkości efektów:

Mały efekt (d = 0,2): Różnica jest realna, ale trudna do zauważenia gołym okiem. Dwie grupy prawie całkowicie się nakładają. Przykład: różnica wzrostu między 15-letnimi a 16-letnimi dziewczętami.
Średni efekt (d = 0,5): Różnica jest zauważalna dla uważnych obserwatorów. Istnieje znacząca separacja między grupami, choć nadal jest spore nakładanie się. Przykład: różnica wzrostu między 14-letnimi a 18-letnimi dziewczętami.
Duży efekt (d = 0,8): Różnica jest oczywista i praktycznie istotna. Grupy są wyraźnie różne, choć pewne nakładanie się istnieje. Przykład: różnica wzrostu między 13-letnimi a 18-letnimi dziewczętami.

Te punkty odniesienia to wskazówki, nie sztywne reguły. W niektórych dziedzinach "mała" wielkość efektu jest niezwykle ważna. Lek, który zmniejsza ryzyko zawału serca o niewielką wartość (d = 0,2), może uratować tysiące istnień, gdy zostanie zastosowany u milionów ludzi. Kontekst decyduje, czy efekt jest praktycznie istotny.

Dlaczego wielkość efektu ma znaczenie przy podejmowaniu decyzji

Rozważ dwa scenariusze. Badanie A testuje nowy program szkoleniowy na 20 osobach i stwierdza 10-punktową poprawę wyników (p = 0,08, d = 0,9). Badanie B testuje ten sam program na 5000 osób i stwierdza 1-punktową poprawę (p = 0,001, d = 0,05). Które badanie dostarcza silniejszych dowodów, że program warto wdrożyć?

Jeśli patrzysz tylko na wartości p, Badanie B "wygrywa" -- jego wynik jest wysoce istotny. Ale wielkość efektu opowiada inną historię. Badanie A znalazło dużą, znaczącą poprawę. Badanie B znalazło trywialnie małą poprawę, która osiągnęła istotność dzięki ogromnej wielkości próby. Rozsądny decydent potraktowałby wynik Badania A poważniej, jednocześnie uznając, że wymaga replikacji na większej próbie.

Dlatego wiele czasopism naukowych wymaga teraz raportowania wielkości efektów obok wartości p. Amerykańskie Towarzystwo Psychologiczne zaleca raportowanie wielkości efektów od 1994 roku. Pełny obraz odkrycia wymaga obu: wartość p mówi, czy efekt jest prawdopodobnie realny, a wielkość efektu mówi, czy warto się nim przejmować.

Inne miary wielkości efektu

d Cohena nie jest jedyną metryką wielkości efektu. Różne sytuacje wymagają różnych miar. r Pearsona (współczynnik korelacji) sam w sobie jest wielkością efektu dla siły związku między dwiema zmiennymi, z punktami odniesienia 0,1 (mały), 0,3 (średni) i 0,5 (duży). Eta-kwadrat i cząstkowe eta-kwadrat są stosowane z ANOVA do wyrażenia, jaka część całkowitej wariancji jest wyjaśniona przez przynależność grupową. Ilorazy szans są powszechne w badaniach medycznych do porównywania prawdopodobieństwa wyników między grupami.

Wybór miary zależy od typu analizy. Do porównywania dwóch średnich użyj d Cohena. Do korelacji użyj r. Do ANOVA użyj eta-kwadrat. Do wyników binarnych użyj ilorazów szans. Ważne jest, abyś zawsze raportował jakąś miarę wielkości efektu, nie tylko wartość p.

Praktyczne zastosowania

Wielkości efektów są niezbędne do analizy mocy -- określania, ilu uczestników potrzebujesz przed przeprowadzeniem badania. Jeśli spodziewasz się małego efektu, potrzebujesz znacznie większej próby, aby go wiarygodnie wykryć, niż gdy spodziewasz się dużego efektu. Planowanie wielkości próby bez uwzględnienia wielkości efektu jest jak pakowanie na podróż bez znajomości celu.

Wielkości efektów umożliwiają również metaanalizę. Gdy badacze łączą wyniki wielu badań na ten sam temat, przeliczają wyniki każdego badania na wspólną metrykę wielkości efektu. Pozwala to na syntezę dowodów z badań, które używały różnych wielkości prób, różnych skal i różnych populacji. Pojedyncze badanie może być nierozstrzygające, ale łączna wielkość efektu z 50 badań może być bardzo pouczająca.

Wykres powyżej porównuje hipotetyczne wielkości efektów dla trzech leków leczących tę samą chorobę. Wszystkie trzy mogą mieć istotne statystycznie wartości p, ale praktyczne różnice są dramatyczne. Lek B ma dwukrotnie większy efekt niż Lek A i sześciokrotnie większy niż Lek C. Lekarz wybierający spośród nich powinien skupić się na wielkości efektu, nie tylko na istotności.

Kluczowy wniosek

Istotność statystyczna mówi, czy efekt jest prawdopodobnie realny, ale wielkość efektu mówi, czy ma znaczenie. d Cohena jest standardową metryką do porównywania dwóch grup, z punktami odniesienia 0,2 (mały), 0,5 (średni) i 0,8 (duży). Zawsze raportuj wielkości efektów obok wartości p. Przy dużych próbach nawet trywialne różnice stają się "istotne", więc wielkość efektu jest niezbędna do podejmowania trafnych decyzji, analizy mocy i porównywania wyników badań.