Poza dwoma grupami
Test t jest potężnym narzędziem do porównywania dwóch grup. Ale co się dzieje, gdy masz trzy, cztery lub dziesięć grup? Załóżmy, że firma testuje trzy różne projekty stron internetowych i mierzy współczynniki konwersji dla każdego. Albo rolnik wypróbowuje cztery rodzaje nawozu i mierzy plony. Nie możesz po prostu przeprowadzić testów t dla każdej możliwej pary grup -- takie podejście stwarza poważne problemy.
Gdy przeprowadzasz wiele testów t, każdy z nich ma małą szansę na wynik fałszywie dodatni (zazwyczaj 5%). Przeprowadź ich wystarczająco dużo, a prawdopodobieństwo, że przynajmniej jeden test da mylący wynik, szybko rośnie. Przy trzech grupach potrzebujesz trzech porównań parami. Przy pięciu grupach -- dziesięciu. Przy dziesięciu grupach -- czterdziestu pięciu. Im więcej testów przeprowadzasz, tym większe prawdopodobieństwo "znalezienia" różnicy, która nie jest prawdziwa. Problem ten nazywa się inflacją porównań wielokrotnych.
ANOVA -- skrót od Analizy Wariancji -- rozwiązuje ten problem, testując wszystkie grupy naraz w jednym teście. Zamiast pytać "czy grupa A różni się od grupy B?", zadaje szersze pytanie: "czy istnieje jakakolwiek istotna różnica między tymi wszystkimi grupami?" Jeśli odpowiedź brzmi tak, możesz następnie zagłębić się, aby dowiedzieć się, które konkretne grupy się różnią.
Główna idea: dwa rodzaje wariancji
Mimo swojej nazwy, ANOVA zasadniczo porównuje średnie, nie wariancje. Ale używa wariancji jako narzędzia. Logika jest następująca: jeśli podzielisz dane na grupy, całkowita zmienność danych pochodzi z dwóch źródeł.
Wariancja międzygrupowa mierzy, jak bardzo średnie grupowe różnią się od siebie. Jeśli trzy projekty stron mają bardzo różne współczynniki konwersji, wariancja międzygrupowa będzie duża. Wariancja wewnątrzgrupowa mierzy, jak bardzo poszczególne wartości różnią się wewnątrz każdej grupy. Nawet w ramach jednego projektu różni użytkownicy będą konwertować z różnym współczynnikiem -- ten naturalny rozrzut to wariancja wewnątrzgrupowa.
Jeśli wariancja międzygrupowa jest duża w stosunku do wariancji wewnątrzgrupowej, sugeruje to, że grupy naprawdę się różnią. Jeśli wariancja międzygrupowa jest mała w porównaniu z szumem wewnątrz grup, różnice w średnich mogą łatwo wynikać z przypadku.
Statystyka F
ANOVA produkuje liczbę zwaną statystyką F (nazwaną na cześć statystyka Ronalda Fishera). Jest to po prostu stosunek wariancji międzygrupowej do wariancji wewnątrzgrupowej.
Statystyka F bliska 1 oznacza, że grupy wyglądają podobnie -- zmienność między nimi jest mniej więcej taka sama jak zmienność wewnątrz nich. Statystyka F znacznie większa niż 1 sugeruje, że przynajmniej jedna grupa jest rzeczywiście inna. Im dalej statystyka F od 1, tym silniejsze dowody.
Na wykresie powyżej wariancja międzygrupowa jest ponad dwukrotnie większa od wariancji wewnątrzgrupowej, co daje statystykę F znacznie powyżej 1. To prawdopodobnie skutkowałoby małą wartością p, sugerując prawdziwą różnicę między grupami.
Okręg szkolny testuje trzy programy czytania na 90 uczniach (30 na program). Średnie wyniki to 72, 78 i 81. ANOVA oblicza, że wariancja międzygrupowa (napędzana różnicami między 72, 78 i 81) jest 4,6 razy większa od wariancji wewnątrzgrupowej (napędzanej indywidualnymi różnicami uczniów w ramach każdego programu). Ta statystyka F wynosząca 4,6 daje wartość p = 0,013 -- poniżej progu 0,05 -- więc okręg stwierdza, że przynajmniej jeden program daje znacząco różne wyniki.
Założenia ANOVA
Podobnie jak test t, ANOVA wiąże się z założeniami, które należy sprawdzić przed zaufaniem wynikom:
- Niezależność: Obserwacje wewnątrz grup i między grupami muszą być niezależne. Wynik jednej osoby nie powinien wpływać na wynik innej.
- Normalność: Dane w każdej grupie powinny mieć w przybliżeniu rozkład normalny. Przy 30 lub więcej obserwacjach na grupę staje się to mniej krytyczne.
- Równe wariancje (jednorodność): Rozrzut danych w każdej grupie powinien być w przybliżeniu podobny. Jeśli jedna grupa ma odchylenie standardowe 5, a inna 20, standardowa ANOVA może być myląca. Test Levene'a może sprawdzić to założenie, a ANOVA Welcha jest solidną alternatywą, gdy wariancje są nierówne.
Naruszenie tych założeń nie unieważnia automatycznie wyników, szczególnie przy większych próbach, ale dobrą praktyką jest ich weryfikacja.
Po ANOVA: testy post-hoc
ANOVA mówi ci, że przynajmniej jedna grupa się różni, ale nie mówi, które grupy różnią się od których. Aby się tego dowiedzieć, przeprowadzasz testy post-hoc -- porównania uzupełniające, które kontrolują problem porównań wielokrotnych.
Najczęstszym testem post-hoc jest HSD Tukeya (Uczciwie Istotna Różnica). Porównuje on każdą parę grup, jednocześnie dostosowując próg istotności, tak aby ogólny wskaźnik fałszywie dodatnich pozostał na poziomie 5%. Inne opcje to korekta Bonferroniego (prostsza, ale bardziej konserwatywna) i test Scheffégo (bardziej elastyczny, ale mniej czuły).
Myśl o ANOVA jak o teście przesiewowym, a o testach post-hoc jak o szczegółowym badaniu uzupełniającym. Badanie uzupełniające przeprowadzasz tylko wtedy, gdy test przesiewowy jest istotny. To dwuetapowe podejście utrzymuje wskaźnik fałszywie dodatnich pod kontrolą, jednocześnie pozwalając na wskazanie konkretnych różnic.
Warianty ANOVA
Wersja opisana powyżej to jednoczynnikowa ANOVA, która bada wpływ jednego czynnika (takiego jak metoda nauczania lub rodzaj nawozu). Istnieją bardziej zaawansowane wersje dla bardziej złożonych projektów. Dwuczynnikowa ANOVA bada jednocześnie dwa czynniki -- na przykład zarówno rodzaj nawozu, jak i częstotliwość podlewania -- i może wykryć, czy te dwa czynniki wchodzą w interakcję. ANOVA z powtórzonymi pomiarami jest stosowana, gdy ci sami badani są mierzeni wielokrotnie, jak testowanie pacjentów przed leczeniem, w trakcie leczenia i po leczeniu.
Niezależnie od wariantu, podstawowa logika pozostaje taka sama: porównaj wariancję wyjaśnioną przez przynależność grupową z niewyjaśnioną wariancją wewnątrz grup i zdecyduj, czy różnice między grupami są zbyt duże, by przypisać je przypadkowi.
ANOVA pozwala porównać średnie trzech lub więcej grup w jednym teście, unikając zawyżonego ryzyka fałszywie dodatnich wyników wynikającego z przeprowadzania wielu testów t. Działa przez porównanie wariancji międzygrupowej z wariancją wewnątrzgrupową za pomocą statystyki F. Duża statystyka F sugeruje, że przynajmniej jedna grupa się różni. Następnie użyj testów post-hoc, takich jak HSD Tukeya, aby zidentyfikować, które konkretnie grupy się różnią. Zawsze sprawdzaj założenia niezależności, normalności i równych wariancji przed interpretacją wyników.