Ainuüksi p-väärtuste probleem
Teete uuringu, saate p-väärtuse 0,03 ja kuulutate tulemuse "statistiliselt oluliseks." Aga mida see tegelikult ütleb? P-väärtus ütleb, kui üllatavad oleksid teie tulemused, kui tegelikult mingit efekti poleks. See ei ütle, kui suur või oluline efekt on.
Probleem on selles: piisavalt suure valimiga muutub peaaegu iga erinevus -- olenemata sellest, kui triviaalset väike -- statistiliselt oluliseks. Kui võrdlete 100 000 kohvijooja keskmist pikkust 100 000 mittejoojaoga, võite leida statistiliselt olulise erinevuse 0,2 sentimeetrit. P-väärtus võib olla pisike (p = 0,001), kuid erinevus on praktilises mõttes tähendusetu. Kedagi ei huvita viiendik sentimeetrit.
Siin tulebki mängu efekti suurus. Efekti suurus mõõdab erinevuse või seose ulatust, sõltumatult valimi suurusest. See vastab küsimusele, mis tõesti loeb: kui suur see efekt on ja kas see on reaalmaailmas oluline?
Coheni d: erinevuse mõõtmine
Kahe grupi võrdlemiseks enimkasutatud efekti suuruse mõõt on Coheni d. See väljendab kahe grupi keskmiste erinevust standardhälvete ühikutes. Valem on lihtne: võtke kahe keskmise vahe ja jagage ühendatud standardhälbega.
Näiteks kui Grupi A keskmine on 75 ja Grupi B keskmine on 80, ning ühendatud standardhälve on 10, siis Coheni d = (80 - 75) / 10 = 0,5. See tähendab, et kahte gruppi lahutab pool standardhälvet.
Ülaltoodud visualiseering näitab standardset normaaljaotuse kõverat. Varjutatud ala keskel esindab kattumistsooni kahe grupi vahel, mida lahutab väikesest keskmise efektini. Mida rohkem kõverad kattuvad, seda väiksem on gruppide vaheline praktiline erinevus.
Väikesed, keskmised ja suured efektid
Jacob Cohen, psühholoog, kes selle mõõdu populariseeris, pakkus välja ligikaudsed võrdluspunktid efekti suuruste tõlgendamiseks:
- Väike efekt (d = 0,2): Erinevus on tegelik, kuid raske palja silmaga märgata. Kaks gruppi kattuvad peaaegu täielikult. Näide: 15-aastaste ja 16-aastaste tüdrukute pikkuse erinevus.
- Keskmine efekt (d = 0,5): Erinevus on tähelepaneliku vaatleja jaoks märgatav. Gruppide vahel on oluline eraldatus, kuigi märkimisväärne kattumine jääb. Näide: 14-aastaste ja 18-aastaste tüdrukute pikkuse erinevus.
- Suur efekt (d = 0,8): Erinevus on ilmne ja praktiliselt oluline. Grupid on selgelt erinevad, kuigi mõningane kattumine esineb. Näide: 13-aastaste ja 18-aastaste tüdrukute pikkuse erinevus.
Need võrdluspunktid on suunised, mitte jäigad reeglid. Mõnes valdkonnas on "väike" efekti suurus äärmiselt oluline. Ravim, mis vähendab südameataki riski vähesel määral (d = 0,2), võib miljonite inimeste puhul päästa tuhandeid elusid. Kontekst määrab, kas efekt on praktiliselt tähenduslik.
Miks efekti suurus on otsuste tegemisel oluline
Kaaluge kahte stsenaariumi. Uuring A testib uut töötajate koolitusprogrammi 20 inimesel ja leiab 10-punktilise paranemise (p = 0,08, d = 0,9). Uuring B testib sama programmi 5000 inimesel ja leiab 1-punktilise paranemise (p = 0,001, d = 0,05). Kumb uuring annab tugevamaid tõendeid, et programm on kasutuselevõtmist väärt?
Kui vaatate ainult p-väärtusi, "võidab" Uuring B -- selle tulemus on kõrgelt oluline. Kuid efekti suurus räägib teise loo. Uuring A leidis suure, tähendusrikka paranemise. Uuring B leidis triviaalset väikese paranemise, mis saavutas olulisuse vaid tohutu valimi tõttu. Mõtlik otsustaja võtaks Uuringu A tulemust tõsisemalt, tunnistades samas, et see vajab kordamist suurema valimiga.
Seetõttu nõuavad paljud teadusajakirjad nüüd efekti suuruste raporteerimist p-väärtuste kõrval. Ameerika Psühholoogia Assotsiatsioon on soovitanud efekti suuruste raporteerimist alates 1994. aastast. Avastuse täielik pilt nõuab mõlemat: p-väärtus ütleb, kas efekt on tõenäoliselt tegelik, ja efekti suurus ütleb, kas sellest tasub hoolida.
Muud efekti suuruse mõõdud
Coheni d ei ole ainus efekti suuruse mõõdik. Erinevad olukorrad nõuavad erinevaid mõõte. Pearsoni r (korrelatsioonikordaja) on iseenesest efekti suurus kahe muutuja vahelise seose tugevusele, võrdluspunktidega 0,1 (väike), 0,3 (keskmine) ja 0,5 (suur). Eta-ruut ja osaline eta-ruut kasutatakse ANOVA-ga, et väljendada, kui palju kogu dispersioonist on seletatav grupi kuuluvusega. Šansisuhted on levinud meditsiiniuuringutes gruppide vahel tulemuste tõenäosuse võrdlemiseks.
Mõõdu valik sõltub teie analüüsi tüübist. Kahe keskmise võrdlemiseks kasutage Coheni d-d. Korrelatsioonide jaoks kasutage r-i. ANOVA jaoks kasutage eta-ruutu. Binaarsete tulemuste jaoks kasutage šansisunteid. Oluline on, et raporteeriksite alati mingi efekti suuruse mõõdu, mitte ainult p-väärtust.
Praktilised rakendused
Efekti suurused on hädavajalikud võimsuse analüüsiks -- enne uuringu läbiviimist vajaliku osalejate arvu kindlaksmääramiseks. Kui ootate väikest efekti, vajate selle usaldusväärseks tuvastamiseks palju suuremat valimit kui suure efekti puhul. Valimi suuruse planeerimine ilma efekti suurust arvestamata on nagu kohvri pakkimine sihtkohta teadmata.
Efekti suurused teevad võimalikuks ka meta-analüüsi. Kui teadlased ühendavad paljude sama teemaliste uuringute tulemusi, teisendavad nad iga uuringu tulemused ühisesse efekti suuruse mõõdikusse. See võimaldab neil sünteesida tõendeid uuringutest, mis kasutasid erinevaid valimi suurusi, erinevaid skaalasid ja erinevaid populatsioone. Üks uuring võib olla ebamäärane, kuid 50 uuringu koondatud efekti suurus võib olla väga informatiivne.
Ülaltoodud graafik võrdleb hüpoteetilisi efekti suurusi kolme ravimi jaoks, mis ravivad sama seisundit. Kõigil kolmel võivad olla statistiliselt olulised p-väärtused, kuid praktilised erinevused on dramaatilised. Ravim B-l on kahekordne efekt võrreldes Ravim A-ga ja kuuekordne efekt võrreldes Ravim C-ga. Arst, kes nende vahel valib, peaks keskenduma efekti suurusele, mitte ainult olulisusele.
Statistiline olulisus ütleb, kas efekt on tõenäoliselt tegelik, kuid efekti suurus ütleb, kas see on oluline. Coheni d on standardmõõdik kahe grupi võrdlemiseks, võrdluspunktidega 0,2 (väike), 0,5 (keskmine) ja 0,8 (suur). Raporteerige alati efekti suurused p-väärtuste kõrval. Suurte valimitega muutuvad isegi triviaalsed erinevused "oluliseks", seega on efekti suurus hädavajalik mõistlikuks otsustamiseks, võimsuse analüüsiks ja uuringutevaheliseks tulemuste võrdluseks.