Najprostszy eksperyment
Test A/B jest jedną z najprostszych i najpotężniejszych form eksperymentu. Bierzesz dwie wersje czegoś, pokazujesz wersję A jednej grupie ludzi, a wersję B innej, i mierzysz, która wypada lepiej. Firmy technologiczne używają testów A/B do optymalizacji wszystkiego: od kolorów przycisków, przez strony cenowe, po całe funkcje produktu. Ale ta sama logika ma zastosowanie w medycynie (lek vs placebo), edukacji (metoda nauczania A vs B) i marketingu (temat e-maila A vs B).
Siła testów A/B pochodzi z randomizacji. Losowo przydzielając ludzi do grupy A lub B, eliminujesz wpływ zmiennych zakłócających. Każdą różnicę w wynikach między grupami można przypisać wprowadzonej zmianie, a nie wcześniej istniejącym różnicom między ludźmi. To ta sama zasada, która stoi za randomizowanymi badaniami kontrolowanymi w medycynie, uważanymi za złoty standard dowodów.
Projektowanie eksperymentu
Dobry test A/B zaczyna się od jasnej hipotezy i jednej mierzalnej metryki. "Wierzymy, że zmiana przycisku rejestracji z zielonego na niebieski zwiększy współczynnik klikalności." Metryką jest współczynnik klikalności. Kontrola (A) to zielony przycisk. Wariant (B) to niebieski przycisk. Wszystko inne pozostaje dokładnie takie samo.
Ta zasada "zmień jedną rzecz" jest kluczowa. Jeśli zmienisz kolor przycisku, tekst i układ strony jednocześnie, a konwersje wzrosną, nie wiesz, która zmiana spowodowała poprawę. Testy wielowariantowe istnieją do testowania wielu zmian jednocześnie, ale wymagają znacznie większych prób i bardziej złożonej analizy.
Musisz też z góry zdecydować, jak długo test będzie trwał. Zależy to od obliczenia wielkości próby, które uwzględnia aktualny bazowy współczynnik konwersji, minimalny wykrywalny efekt (najmniejszą poprawę, na której ci zależy) i pożądany poziom ufności. Prowadzenie testu bez z góry ustalonej wielkości próby jest jednym z najczęstszych błędów w testach A/B.
Wielkość próby: dlaczego ma tak duże znaczenie
Wielkość próby determinuje moc statystyczną testu, czyli jego zdolność do wykrycia rzeczywistego efektu, gdy taki istnieje. Przy zbyt małej liczbie odwiedzających możesz przeoczyć prawdziwą poprawę, ponieważ wyniki są zbyt zaszumione, by były rozstrzygające. Przy zbyt dużej marnujesz czas i zasoby, prowadząc test dłużej niż to konieczne.
Załóżmy, że aktualny współczynnik konwersji wynosi 3,2% i chcesz wykryć co najmniej 0,5 punktu procentowego poprawy. W zależności od poziomu ufności i wymagań dotyczących mocy, możesz potrzebować od 15 000 do 30 000 odwiedzających na grupę. Jeśli masz tylko 1000 odwiedzających na grupę, test będzie miał zbyt niską moc i prawdopodobnie uzyskasz nierozstrzygający wynik, nawet jeśli nowa wersja naprawdę jest lepsza.
Powyższe przedziały ufności pokazują szacowane współczynniki konwersji dla każdej grupy. Zauważ, że nieznacznie się nakładają. Czy ta różnica jest istotna statystycznie, zależy od dokładnej wielkości próby i stopnia nakładania się. Gdy przedziały ufności ledwo się nakładają lub nie nakładają się wcale, masz silniejsze dowody, że różnica jest rzeczywista.
Istotność statystyczna w testach A/B
Po zebraniu wystarczającej ilości danych przeprowadzasz test statystyczny (zwykle test z dla dwóch proporcji lub test chi-kwadrat), aby ustalić, czy różnica między grupami jest istotna statystycznie. Wynikiem jest wartość p. Jeśli wartość p jest poniżej progu (zwykle 0,05), wnioskujesz, że różnica prawdopodobnie nie jest wynikiem samego przypadku.
Ale istotność nie mówi ci całej historii. Statystycznie istotna poprawa o 0,02 punktu procentowego jest rzeczywista w sensie statystycznym, ale prawdopodobnie nie jest warta wysiłku inżynieryjnego potrzebnego do wdrożenia. Zawsze łącz test istotności z oceną rzeczywistej wielkości efektu. Czy wzrost konwersji o 0,5 punktu procentowego przekłada się na znaczące przychody? To zależy od kontekstu biznesowego.
Niektóre zespoły stosują podejście bayesowskie zamiast częstościowych wartości p. Bayesowski test A/B daje bezpośrednie stwierdzenie prawdopodobieństwa: "istnieje 94% prawdopodobieństwo, że wariant B jest lepszy od wariantu A." Wielu praktyków uważa to za bardziej intuicyjne niż standardowa wartość p, która odpowiada na subtelnie inne pytanie.
Najczęstsze pułapki
Podglądanie wyników zbyt wcześnie. To najczęstszy i najbardziej szkodliwy błąd. Jeśli sprawdzasz wyniki codziennie i zatrzymujesz test za pierwszym razem, gdy zobaczysz istotność, dramatycznie zwiększasz odsetek fałszywie pozytywnych wyników. Testy statystyczne są zaprojektowane do jednorazowej oceny przy z góry ustalonej wielkości próby. Jeśli musisz monitorować wyniki na bieżąco, używaj metod testowania sekwencyjnego, które uwzględniają wielokrotne sprawdzanie.
Testowanie zbyt wielu wariantów. Testowanie pięciu wersji naraz (A/B/C/D/E) wydaje się efektywne, ale zwielokrotnia szanse na fałszywie pozytywny wynik. Przy pięciu wariantach i 5% progu istotności masz roughly 19% szans na co najmniej jeden fałszywie pozytywny wynik. Musisz zastosować korekty dla porównań wielokrotnych lub prowadzić większe próby.
Firma SaaS przeprowadza test A/B na swojej stronie cenowej. Po trzech dniach menedżer produktu sprawdza i widzi, że wariant B ma o 15% wyższy współczynnik konwersji z wartością p wynoszącą 0,03. Podekscytowany zatrzymuje test i wdraża wariant B. Dwa tygodnie później odkrywają, że konwersje faktycznie się nie poprawiły. Co się stało? Wczesne podglądanie wyłapało losową fluktuację. Gdyby poczekali na pełną zaplanowaną wielkość próby 10 000 odwiedzających na grupę, efekt skurczyłby się do 2% i nie byłby istotny.
Ignorowanie segmentów. Test A/B może nie wykazywać ogólnej różnicy, ale wariant B może działać znacznie lepiej dla użytkowników mobilnych, a gorzej dla użytkowników desktopowych. Te efekty znoszą się w ujęciu zagregowanym. Analiza segmentów może ujawnić cenne spostrzeżenia, ale bądź ostrożny: testowanie wielu segmentów również zwiększa ryzyko fałszywie pozytywnych wyników.
Testowanie bez wystarczającego ruchu. Małe strony internetowe lub produkty z niskim ruchem często nie mogą osiągnąć wymaganych wielkości prób w rozsądnym czasie. Prowadzenie testu przez trzy miesiące wprowadza efekty sezonowe i inne czynniki zakłócające. Jeśli twój ruch jest zbyt niski dla efektu, który chcesz wykryć, rozważ testowanie większej zmiany (która wymaga mniejszej próby do wykrycia) lub zastosowanie metod jakościowych.
Test A/B to randomizowany eksperyment porównujący dwie wersje w celu znalezienia lepszej. Dobre testy wymagają jasnej hipotezy, jednej kluczowej metryki, wcześniej obliczonej wielkości próby i dyscypliny, by czekać na pełne wyniki przed wyciąganiem wniosków. Największe pułapki to podglądanie wyników zbyt wcześnie, testowanie zbyt wielu wariantów bez korekty i mylenie istotności statystycznej z praktycznym znaczeniem. Przeprowadzony prawidłowo test A/B daje dowody przyczynowe zamiast zgadywania.