Rohkem kui kaks gruppi
T-test on võimas tööriist kahe grupi võrdlemiseks. Aga mis juhtub, kui teil on kolm, neli või kümme gruppi? Oletame, et ettevõte testib kolme erinevat veebilehe kujundust ja mõõdab igaühe konversioonimäärasid. Või põllumees proovib nelja tüüpi väetist ja mõõdab saagikust. Te ei saa lihtsalt teha t-teste iga võimaliku grupipaarile -- selline lähenemine tekitab tõsiseid probleeme.
Kui teete palju t-teste, on igaühel väike valepositiivse tulemuse tõenäosus (tavaliselt 5%). Tehke neid piisavalt ja tõenäosus, et vähemalt üks test annab eksitava tulemuse, kasvab kiiresti. Kolme grupiga vajate kolme paariviisilist võrdlust. Viie grupiga kümmet. Kümne grupiga neljakümne viit. Mida rohkem teste teete, seda tõenäolisem on, et "leiate" erinevuse, mis ei ole tegelik. Seda probleemi nimetatakse mitmese võrdluse inflatsiooniks.
ANOVA -- lühend sõnadest dispersioonanalüüs (Analysis of Variance) -- lahendab selle, testides kõiki gruppe korraga ühe testiga. Selle asemel, et küsida "kas grupp A erineb grupist B?", esitab see laiema küsimuse: "kas nende kõigi gruppide vahel on mõni oluline erinevus?" Kui vastus on jah, saate seejärel süveneda, et teada saada, millised konkreetsed grupid erinevad.
Põhiidee: kahte tüüpi dispersioon
Vaatamata nimele võrdleb ANOVA põhimõtteliselt keskmisi, mitte dispersioone. Kuid kasutab dispersiooni oma tööriistana. Loogika on järgmine: kui jagate andmed gruppidesse, tuleb andmete kogu varieeruvus kahest allikast.
Gruppidevaheline dispersioon mõõdab, kui palju grupi keskmised üksteisest erinevad. Kui kolmel veebilehe kujundusel on väga erinevad konversioonimäärad, on gruppidevaheline dispersioon suur. Grupisisene dispersioon mõõdab, kui palju üksikud väärtused igas grupis varieeruvad. Isegi ühe kujunduse raames konverteerivad erinevad kasutajad erineva kiirusega -- see loomulik hajuvus on grupisisene dispersioon.
Kui gruppidevaheline dispersioon on grupisisese dispersiooniga võrreldes suur, viitab see sellele, et grupid on tõesti erinevad. Kui gruppidevaheline dispersioon on gruppide sisese müra kõrval väike, võivad keskmiste erinevused kergesti olla juhuslikud.
F-statistik
ANOVA annab arvu nimega F-statistik (nimetatud statistiku Ronald Fisheri järgi). See on lihtsalt gruppidevahelise dispersiooni ja grupisisese dispersiooni suhe.
F-statistik 1 lähedal tähendab, et grupid näevad sarnased välja -- varieeruvus nende vahel on umbes sama mis varieeruvus nende sees. F-statistik, mis on palju suurem kui 1, viitab sellele, et vähemalt üks grupp on tõeliselt erinev. Mida kaugemal on F-statistik 1-st, seda tugevam on tõendus.
Ülaltoodud graafikul on gruppidevaheline dispersioon üle kahe korra suurem kui grupisisene dispersioon, andes F-statistiku, mis on selgelt üle 1. See tooks tõenäoliselt kaasa väikese p-väärtuse, viidates gruppide vahelisele tegelikule erinevusele.
Koolipiirkond testib kolme lugemisprogrammi 90 õpilasel (30 programmi kohta). Keskmised tulemused on 72, 78 ja 81. ANOVA arvutab, et gruppidevaheline dispersioon (mida juhivad erinevused 72, 78 ja 81 vahel) on 4,6 korda suurem kui grupisisene dispersioon (mida juhivad individuaalsed õpilaste erinevused igas programmis). See F-statistik 4,6 annab p-väärtuse 0,013 -- alla 0,05 künnise -- seega järeldab piirkond, et vähemalt üks programm annab oluliselt erinevaid tulemusi.
ANOVA eeldused
Nagu t-test, tuleb ka ANOVA puhul enne tulemuste usaldamist kontrollida eeldusi:
- Sõltumatus: Vaatlused gruppide sees ja vahel peavad olema sõltumatud. Ühe inimese tulemus ei tohi mõjutada teise oma.
- Normaalsus: Andmed igas grupis peaksid olema ligikaudselt normaaljaotusega. 30 või enama vaatlusega grupi kohta muutub see vähem kriitiliseks.
- Võrdsed dispersioonid (homogeensus): Andmete hajuvus igas grupis peaks olema ligikaudu sarnane. Kui ühe grupi standardhälve on 5 ja teisel 20, võib tavaline ANOVA olla eksitav. Levene'i test saab seda eeldust kontrollida ja Welchi ANOVA on tugev alternatiiv, kui dispersioonid on ebavõrdsed.
Nende eelduste rikkumine ei muuda teie tulemusi automaatselt kehtetuks, eriti suuremate valimite puhul, kuid nende kontrollimine on hea tava.
Pärast ANOVAt: post-hoc testid
ANOVA ütleb teile, et vähemalt üks grupp erineb, kuid ei ütle, millised grupid erinevad millistest. Selle väljaselgitamiseks teete post-hoc teste -- järelvõrdlusi, mis kontrollivad mitmese võrdluse probleemi.
Kõige levinum post-hoc test on Tukey HSD (Honestly Significant Difference). See võrdleb iga gruppaari, kohandades samal ajal olulisuse künnist nii, et üldine valepositiivsete määr jääb 5% juurde. Teised võimalused on Bonferroni korrektsioon (lihtsam, kuid konservatiivsem) ja Scheffé test (paindlikum, kuid vähem võimas).
Mõelge ANOVAst kui sõeltestist ja post-hoc testidest kui üksikasjalikust järelkontrollist. Järelkontrolli teete ainult siis, kui sõeltest on oluline. See kaheastmeline lähenemine hoiab valepositiivsete määra kontrolli all, lubades samas konkreetseid erinevusi tuvastada.
ANOVA variandid
Eelkirjeldatud versioon on ühefaktoriline ANOVA, mis uurib ühe teguri (nagu õpetamismeetod või väetise tüüp) mõju. Keerukamate katsekavandite jaoks on olemas täiustatud versioonid. Kahefaktoriline ANOVA uurib kahte tegurit samaaegselt -- näiteks nii väetise tüüpi kui ka kastmissagedust -- ja suudab tuvastada, kas need kaks tegurit mõjutavad üksteist. Korduvmõõtmiste ANOVA kasutatakse siis, kui samu isikuid mõõdetakse mitu korda, näiteks patsientide testimine enne ravi, ravi ajal ja pärast ravi.
Olenemata variandist jääb põhiloogika samaks: võrrelge grupi kuuluvusega seletatavat dispersiooni gruppide sisese seletamata dispersiooniga ja otsustage, kas gruppidevahelised erinevused on liiga suured, et omistada need juhusele.
ANOVA võimaldab võrrelda kolme või enama grupi keskmisi ühe testiga, vältides mitme t-testi tegemisest tulenevat paisutatud valepositiivsete riski. See töötab, võrreldes gruppidevahelise dispersiooni grupisisese dispersiooniga F-statistiku kaudu. Suur F-statistik viitab sellele, et vähemalt üks grupp erineb. Kasutage seejärel post-hoc teste nagu Tukey HSD, et tuvastada, millised konkreetsed grupid erinevad. Kontrollige alati sõltumatuse, normaalsuse ja võrdsete dispersioonide eeldusi enne tulemuste tõlgendamist.