A/B testing compares two versions of something (like a webpage) by randomly splitting users into groups to see which version performs better.

How long should an A/B test run?

Run it until you reach statistical significance, typically 1-4 weeks. Stopping too early can lead to false conclusions.

What sample size do I need for an A/B test?

It depends on your baseline rate and the minimum effect you want to detect. Online calculators can help - typically thousands per variant.

What is statistical significance in A/B testing?

It means the observed difference between variants is unlikely due to random chance alone, usually set at a 95% confidence threshold.

What are common A/B testing mistakes?

Stopping tests too early, testing too many variants at once, ignoring sample size requirements, and not accounting for seasonal changes.

A/B testimine | Stats24

Kõige lihtsam eksperiment

A/B test on üks lihtsamaid ja võimsamaid eksperimendi vorme. Võtate millestki kaks versiooni, näitate versiooni A ühele inimrühmale ja versiooni B teisele ning mõõdate, kumb toimib paremini. Tehnoloogiaettevõtted kasutavad A/B teste kõige optimeerimiseks alates nuppude värvidest kuni hinnastavate lehekülgedeni ja tervete tootefunktsioonideni. Kuid sama loogika kehtib meditsiinis (ravim vs platseebo), hariduses (õpetamismeetod A vs B) ja turunduses (e-kirja teemarida A vs B).

A/B testimise jõud tuleb juhuslikkusest. Inimeste juhuslik määramine A- või B-gruppi kõrvaldab segavate muutujate mõju. Igasugune tulemuste erinevus gruppide vahel on omistatav teie tehtud muudatusele, mitte inimestevahelistele olemasolevatele erinevustele. See on sama põhimõte, mis randomiseeritud kontrollitud uuringutes meditsiinis, mida peetakse tõenduse kuldstandardiks.

Eksperimendi kavandamine

Hea A/B test algab selge hüpoteesi ja ühe mõõdetava mõõdikuga. "Usume, et registreerimisnupu muutmine rohelisest siniseks suurendab klikkimismäära." Mõõdik on klikkimismäär. Kontroll (A) on roheline nupp. Variant (B) on sinine nupp. Kõik muu jääb täpselt samaks.

See "muuda ühte asja" põhimõte on kriitiline. Kui muudate korraga nupu värvi, teksti ja lehe paigutust ning konversioonid tõusevad, pole teil aimugi, milline muudatus paranemist põhjustas. Mitmemõõtmeline testimine on olemas mitme muudatuse samaaegseks testimiseks, kuid nõuab palju suuremaid valimeid ja keerulisemat analüüsi.

Samuti peate ette otsustama, kui kaua test kestab. See sõltub teie valimi suuruse arvutusest, mis arvestab teie praegust konversioonimäära, minimaalset tuvastatavat efekti (väikseim paranemine, mis teid huvitab) ja soovitud usaldusnivood. Testi korraldamine ilma eelnevalt kindlaks määratud valimi suuruseta on üks levinumaid vigu A/B testimises.

Valimi suurus: miks see nii oluline on

Valimi suurus määrab teie testi statistilise võimsuse -- võime tuvastada tegelikku efekti, kui see eksisteerib. Liiga väheste külastajatega võite tõelise paranemise maha magada, sest tulemused on liiga mürarikkad, et olla veenvad. Liiga paljudega raiskate aega ja ressursse, korraldades testi kauem kui vajalik.

Oletame, et teie praegune konversioonimäär on 3,2% ja soovite tuvastada vähemalt 0,5 protsendipunktilist paranemist. Sõltuvalt usaldusnivost ja võimsusnõuetest võite vajada 15 000 kuni 30 000 külastajat grupi kohta. Kui teil on ainult 1000 külastajat grupi kohta, on test alavõimne ja tõenäoliselt saate ebamäärase tulemuse, isegi kui uus versioon on tõesti parem.

Ülaltoodud usaldusintervallid näitavad iga grupi hinnangulisi konversioonimäärasid. Pange tähele, et need kattuvad veidi. Kas see erinevus on statistiliselt oluline, sõltub täpsest valimi suurusest ja kattumise määrast. Kui usaldusintervallid vaevalt kattuvad või ei kattu üldse, on teil tugevam tõendus, et erinevus on tegelik.

Statistiline olulisus A/B testides

Pärast piisavalt andmete kogumist teete statistilise testi (tavaliselt kahe proportsiooni z-testi või hii-ruut testi), et teha kindlaks, kas erinevus gruppide vahel on statistiliselt oluline. Tulemus on p-väärtus. Kui p-väärtus on alla teie künnise (tavaliselt 0,05), järeldate, et erinevus on ebatõenäoliselt ainult juhuse tulemus.

Kuid olulisus ei räägi teile kogu lugu. 0,02 protsendipunktine statistiliselt oluline paranemine on statistilises mõttes tegelik, kuid tõenäoliselt ei ole väärt rakendamiseks vajalikku inseneritegevust. Siduge oma olulisuse test alati tegeliku efekti suuruse vaatamisega. Kas 0,5 protsendipunktiline konversiooni kasv tähendab olulist tulu? See sõltub teie ärikontekstist.

Mõned meeskonnad kasutavad frekventistlike p-väärtuste asemel Bayesi lähenemisi. Bayesi A/B testimine annab teile otsese tõenäosusväite: "on 94% tõenäosus, et variant B on parem kui variant A." Paljud praktikud leiavad, et see on intuitiivsem kui standardne p-väärtus, mis vastab peenelt erinevale küsimusele.

Levinud lõksud

Tulemuste liiga varane vaatamine. See on levinuim ja kahjustavaim viga. Kui kontrollite tulemusi iga päev ja peatate testi esimesel korral, kui näete olulisust, suurendate oma valepositiivsete määra dramaatiliselt. Statistilised testid on mõeldud hindamiseks üks kord, eelnevalt kindlaks määratud valimi suuruse juures. Kui peate tulemusi jälgima nende saabumisel, kasutage järjestikuse testimise meetodeid, mis arvestavad korduvaid vaatamisi.

Liiga paljude variantide testimine. Viie versiooni korraga testimine (A/B/C/D/E) kõlab tõhusalt, kuid korrutab valepositiivse tulemuse tõenäosust. Viie variandi ja 5% olulisuskünnisega on teil ligikaudu 19% tõenäosus saada vähemalt üks valepositiivne tulemus. Peate rakendama mitmese võrdluse parandusi või kasutama suuremaid valimeid.

Näide

SaaS-ettevõte korraldab oma hinnastavale lehele A/B testi. Kolme päeva pärast kontrollib tootejuht ja näeb, et variandil B on 15% kõrgem konversioonimäär p-väärtusega 0,03. Elevil peatab ta testi ja rakendab variandi B. Kaks nädalat hiljem avastavad nad, et konversioonid pole tegelikult paranenud. Mis juhtus? Varane vaatamine tabas juhusliku kõikumise. Kui nad oleksid oodanud täieliku planeeritud valimi suuruse, 10 000 külastajat grupi kohta, oleks efekt kahanenud 2%-ni ega oleks olnud oluline.

Segmentide ignoreerimine. A/B test ei pruugi näidata üldist erinevust, kuid variant B võib mobiilsete kasutajate jaoks palju paremini toimida, samal ajal kui lauaarvuti kasutajate jaoks halvemini. Need efektid tühistavad üksteist koondtulemustes. Segmendianalüüs võib paljastada väärtuslikke teadmisi, kuid olge ettevaatlik: paljude segmentide testimine suurendab samuti valepositiivsete riski.

Ebapiisava liiklusega testimine. Väikesed veebisaidid või vähese liiklusega tooted ei suuda sageli mõistliku aja jooksul vajalikke valimi suurusi saavutada. Testi korraldamine kolme kuu jooksul toob kaasa hooajalised efektid ja muud segavad tegurid. Kui teie liiklus on tuvastada soovitava efekti jaoks liiga väike, kaaluge suurema muudatuse testimist (mis nõuab tuvastamiseks väiksemat valimit) või kvalitatiivsete meetodite kasutamist.

Põhijäreldus

A/B test on randomiseeritud eksperiment, mis võrdleb kahte versiooni, et leida, kumb toimib paremini. Head testid nõuavad selget hüpoteesi, ühte võtmemõõdikut, eelnevalt arvutatud valimi suurust ja distsipliini oodata täielikke tulemusi enne järelduste tegemist. Suurimad lõksud on tulemuste liiga varane vaatamine, liiga paljude variantide testimine ilma paranduseta ja statistilise olulisuse segamine praktilise tähtsusega. Õigesti tehes annab A/B testimine teile oletuste asemel põhjusliku tõenduse.

A/B testimine

Kõige lihtsam eksperiment

Eksperimendi kavandamine

Valimi suurus: miks see nii oluline on

Statistiline olulisus A/B testides

Levinud lõksud

Seotud tunnid