What is the difference between statistical and practical significance?

Statistical significance means a result is unlikely due to chance. Practical significance means the effect is large enough to matter in the real world.

Can a result be statistically significant but not practically important?

Yes. With large samples, tiny differences can be statistically significant while being too small to have any real-world impact.

How do you determine practical significance?

Look at effect size, cost-benefit analysis, and domain expertise. A statistically significant 0.1% improvement may not justify the effort.

Why do large samples produce more significant results?

Larger samples reduce standard error, making it easier to detect even tiny differences. This is why effect size matters alongside p-values.

Statistiline ja praktiline olulisus

Mida "oluline" tegelikult tähendab?

Kui teadlane ütleb, et tulemus on "statistiliselt oluline," tähendab see, et vaadeldud efekt ei ole tõenäoliselt tekkinud puhta juhuse läbi. Täpsemalt, sellise tulemuse nägemise tõenäosus, kui tegelikult mingit efekti poleks, on väga väike, tavaliselt alla 5%. Seda mõõdab p-väärtus.

Aga siin on konks: statistiliselt oluline ei tähenda tähtsat, tähenduslikku ega kasulikku. Tulemus võib olla statistiliselt oluline, olles samal ajal nii väike, et praktikas ei huvita see kedagi. Selle eristuse mõistmine on üks väärtuslikumaid oskusi, mida saate teadusuuringute tarbijana arendada.

Kui pisikesed efektid näevad muljetavaldavad välja

Kujutage ette, et ettevõte testib uut veebilehe paigutust ja leiab, et see pikendab kasutajate keskmist saidil viibimise aega 0,8 sekundi võrra. 500 000 külastaja valimiga annab see erinevus p-väärtuse 0,001, mis on kõrgelt statistiliselt oluline. Aga kas 0,8 lisasekundit sirvimist on äri jaoks tegelikult oluline? Tõenäoliselt mitte. Efekt on statistilises mõttes tegelik, kuid sellel puudub praktiline väärtus.

See juhtub seetõttu, et statistiline olulisus sõltub suuresti valimi suurusest. Piisavalt suure valimiga annab isegi kahe grupi vaheline väikseim erinevus väikese p-väärtuse. Test muutub nii tundlikuks, et tabab müra taseme efekte, mis oleksid reaalmaailmas nähtamatud ja ebaolulised.

Näide

Ravimifirma testib uut vererõhuravimit 50 000 patsiendil. Ravim langetab süstoolset vererõhku 1,2 mmHg võrreldes platseeboga ja tulemus on statistiliselt oluline (p = 0,003). Kuid arstid peavad kliiniliselt oluliseks vähemalt 5-10 mmHg langust. 1,2 mmHg langus ei muudaks ühtegi raviotsust. Ravim "töötab" statistiliselt, kuid on praktiliselt kasutu.

Praktiline olulisus: kas see tegelikult loeb?

Praktiline olulisus esitab teistsuguse küsimuse: kas efekt on piisavalt suur, et reaalmaailmas loeks? See sõltub kontekstist, mitte ainult matemaatikast. 2% paranemine kütusesäästlikkuses võib olla praktiliselt oluline lennufirmale, mis põletab miljoneid liitreid aastas, kuid tähtsusetu kellelegi, kes sõidab kord nädalas poodi.

Teadlased kasutavad mõistet "efekti suurus", et mõõta, kui suur erinevus tegelikult on, sõltumatult valimi suurusest. Levinud efekti suuruse mõõdud hõlmavad Coheni d-d (kahe grupi keskmiste võrdlemiseks) ja korrelatsioonikordajaid. Väike efekti suurus koos väikese p-väärtusega peaks teid ettevaatlikuks tegema. Tulemus on tegelik, kuid ei pruugi olla tegutsemist väärt.

Pange tähele ülaltoodud usaldusintervallidel, kuidas ravimi efekt ja kogu selle usutavate väärtuste vahemik jääb kaugele alla selle, mida arstid peaksid oluliseks muutuseks. Isegi kui oleme kindlad, et efekt ei ole null, on see siiski liiga väike, et loeks.

Kuidas valimi suurus segadust tekitab

Väikestel valimitel on vastupidine probleem. Liiga väheste osalejatega võib uuring jätta tuvastamata tegeliku ja olulise efekti lihtsalt sellepärast, et valim polnud piisavalt suur olulise p-väärtuse saamiseks. Seda nimetatakse madalaks statistiliseks võimsuseks. 20 inimese uuring võib leida suure, praktiliselt olulise erinevuse, kuid raporteerida selle "statistiliselt mitte olulisena," sest valim oli liiga väike, et olla kindel.

See tähendab, et teid saab eksitada mõlemas suunas. Suured valimid võivad triviaalsed efektid olulisena näidata ja väikesed valimid olulised efektid ebaolulisena näidata. Ei p-väärtus ega valimi suurus üksi ei ütle, kas tulemus loeb. Peate vaatama efekti tegelikku suurust ja hindama seda kontekstis.

Kui statistika eksitab: reaalmaailma lõksud

Pealkirjad armastavad raporteerida statistiliselt olulisi leide ilma efekti suurust mainimata. "Uuring leidis, et šokolaadi söömine on seotud madalama stressiga!" võib põhineda uuringul, kus šokolaadisööjad said 100-punktisel stressiskaalal 0,3 punkti vähem. Tehniliselt tõsi, praktiliselt tähendusetu.

Ka turundustiimid kasutavad seda ära. "Kliiniliselt tõestatud naha niiskuse paranemine" võib tähendada, et niisutuskreem suurendas niiskust 2% võrreldes mitte millegi kasutamisega, testituna tuhandetel inimestel. Väide on tehniliselt toetatud olulise p-väärtusega, kuid efekt on nähtamatu igaühele, kes toodet kasutab.

Enda kaitsmiseks küsige alati: kui suur on efekt? Kas see on väljendatud ühikutes, mida mõistate? Kas see erinevus muudaks teie käitumist või otsuseid? Kui uuring raporteerib ainult p-väärtuse, ütlemata efekti suurust, on see hoiatusmärk.

Põhijäreldus

Statistiline olulisus ütleb, kas efekt on tõenäoliselt tegelik. Praktiline olulisus ütleb, kas see tegelikult loeb. Tulemus võib olla statistiliselt oluline, kuid liiga väike, et sellest hoolida, eriti suurte valimite puhul. Vaadake alati efekti suurust, mitte ainult p-väärtust, ja küsige endalt, kas see erinevus muudaks mõnd reaalset otsust.