Co naprawdę oznacza "istotny"?
Gdy badacz mówi, że wynik jest "istotny statystycznie," ma na myśli, że zaobserwowany efekt prawdopodobnie nie powstał wyłącznie przez przypadek. Konkretnie, prawdopodobieństwo uzyskania takiego wyniku, gdyby naprawdę nie było żadnego efektu, jest bardzo małe, zwykle mniejsze niż 5%. To właśnie mierzy wartość p.
Ale tu jest haczyk: istotność statystyczna nie oznacza ważności, znaczenia ani przydatności. Wynik może być istotny statystycznie, a jednocześnie tak mały, że w praktyce nikogo nie obchodzi. Zrozumienie tej różnicy jest jedną z najcenniejszych umiejętności, jakie możesz rozwinąć jako odbiorca badań naukowych.
Gdy drobne efekty wyglądają imponująco
Wyobraź sobie, że firma testuje nowy układ strony internetowej i stwierdza, że wydłuża on średni czas spędzany przez użytkowników na stronie o 0,8 sekundy. Przy próbie 500 000 odwiedzających ta różnica daje wartość p = 0,001, która jest wysoce istotna statystycznie. Ale czy dodatkowe 0,8 sekundy przeglądania naprawdę ma znaczenie dla biznesu? Prawdopodobnie nie. Efekt jest realny w sensie statystycznym, ale nie ma wartości praktycznej.
Dzieje się tak, ponieważ istotność statystyczna w dużej mierze zależy od wielkości próby. Przy wystarczająco dużej próbie nawet najmniejsza różnica między dwiema grupami da małą wartość p. Test staje się tak czuły, że wychwytuje efekty na poziomie szumu, które w świecie rzeczywistym byłyby niewidoczne i nieistotne.
Firma farmaceutyczna testuje nowy lek na ciśnienie krwi na 50 000 pacjentach. Lek obniża ciśnienie skurczowe o 1,2 mmHg w porównaniu z placebo, a wynik jest istotny statystycznie (p = 0,003). Jednak lekarze uważają obniżenie o co najmniej 5-10 mmHg za klinicznie znaczące. Spadek o 1,2 mmHg nie zmieniłby żadnej decyzji terapeutycznej. Lek "działa" statystycznie, ale jest praktycznie bezużyteczny.
Istotność praktyczna: czy to naprawdę ma znaczenie?
Istotność praktyczna zadaje inne pytanie: czy efekt jest wystarczająco duży, by mieć znaczenie w świecie rzeczywistym? To zależy od kontekstu, nie tylko od matematyki. 2% poprawa efektywności paliwowej może być praktycznie istotna dla linii lotniczej, która spala miliony litrów rocznie, ale bez znaczenia dla kogoś, kto raz w tygodniu jedzie do sklepu.
Badacze używają pojęcia "wielkość efektu" do mierzenia, jak duża jest różnica, niezależnie od wielkości próby. Powszechne miary wielkości efektu obejmują d Cohena (do porównywania średnich dwóch grup) i współczynniki korelacji. Mała wielkość efektu połączona z małą wartością p powinna cię skłonić do ostrożności. Wynik jest realny, ale może nie być wart działania.
Zauważ na przedziałach ufności powyżej, jak efekt leku i cały zakres jego wiarygodnych wartości znajduje się znacznie poniżej tego, co lekarze uznaliby za znaczącą zmianę. Nawet jeśli mamy pewność, że efekt nie jest zerowy, jest on wciąż zbyt mały, by mieć znaczenie.
Jak wielkość próby tworzy zamieszanie
Małe próby mają odwrotny problem. Przy zbyt małej liczbie uczestników badanie może nie wykryć rzeczywistego i ważnego efektu, po prostu dlatego, że próba nie była wystarczająco duża, by uzyskać istotną wartość p. Nazywa się to niską mocą statystyczną. Badanie na 20 osobach może znaleźć dużą, praktycznie istotną różnicę, ale zaraportować ją jako "nieistotną statystycznie," ponieważ próba była zbyt mała.
Oznacza to, że możesz zostać wprowadzony w błąd w obu kierunkach. Duże próby mogą sprawić, że trywialne efekty wyglądają na istotne, a małe próby mogą sprawić, że ważne efekty wyglądają na nieistotne. Ani wartość p, ani wielkość próby same w sobie nie mówią, czy wynik ma znaczenie. Musisz spojrzeć na rzeczywistą wielkość efektu i ocenić ją w kontekście.
Kiedy statystyka wprowadza w błąd: pułapki w świecie rzeczywistym
Nagłówki uwielbiają raportować istotne statystycznie odkrycia bez wspominania o wielkości efektu. "Badanie wykazuje, że jedzenie czekolady jest powiązane z niższym stresem!" może opierać się na badaniu, w którym osoby jedzące czekoladę uzyskały 0,3 punktu mniej na 100-punktowej skali stresu. Technicznie prawdziwe, praktycznie bez znaczenia.
Zespoły marketingowe również to wykorzystują. "Klinicznie udowodnione nawilżanie skóry" może oznaczać, że krem zwiększył nawilżenie o 2% w porównaniu z brakiem stosowania czegokolwiek, testowane na tysiącach osób. Twierdzenie jest technicznie poparte istotną wartością p, ale efekt jest niewidoczny dla osoby stosującej produkt.
Aby się chronić, zawsze pytaj: jak duży jest efekt? Czy jest wyrażony w jednostkach, które rozumiesz? Czy ta różnica zmieniłaby twoje zachowanie lub decyzje? Jeśli badanie podaje tylko wartość p bez informacji o wielkości efektu, to sygnał ostrzegawczy.
Istotność statystyczna mówi, czy efekt jest prawdopodobnie realny. Istotność praktyczna mówi, czy naprawdę ma znaczenie. Wynik może być istotny statystycznie, ale zbyt mały, by się nim przejmować, szczególnie przy dużych próbach. Zawsze patrz na wielkość efektu, nie tylko na wartość p, i zadaj sobie pytanie, czy ta różnica zmieniłaby jakąkolwiek decyzję w świecie rzeczywistym.