A/B testing compares two versions of something (like a webpage) by randomly splitting users into groups to see which version performs better.

How long should an A/B test run?

Run it until you reach statistical significance, typically 1-4 weeks. Stopping too early can lead to false conclusions.

What sample size do I need for an A/B test?

It depends on your baseline rate and the minimum effect you want to detect. Online calculators can help - typically thousands per variant.

What is statistical significance in A/B testing?

It means the observed difference between variants is unlikely due to random chance alone, usually set at a 95% confidence threshold.

What are common A/B testing mistakes?

Stopping tests too early, testing too many variants at once, ignoring sample size requirements, and not accounting for seasonal changes.

A/B Testi | Stats24

En Basit Deney

A/B testi, en basit ve en güçlü deney biçimlerinden biridir. Bir şeyin iki versiyonunu alırsınız, A versiyonunu bir gruba, B versiyonunu başka bir gruba gösterirsiniz ve hangisinin daha iyi performans gösterdiğini ölçersiniz. Teknoloji şirketleri, buton renklerinden fiyatlandırma sayfalarına ve tüm ürün özelliklerine kadar her şeyi optimize etmek için A/B testleri kullanır. Ancak aynı mantık tıpta (ilaç ve plasebo karşılaştırması), eğitimde (öğretim yöntemi A ve B karşılaştırması) ve pazarlamada (e-posta konu satırı A ve B karşılaştırması) da geçerlidir.

A/B testinin gücü rastgeleleştirmeden gelir. İnsanları rastgele A veya B grubuna atayarak karıştırıcı değişkenlerin etkisini ortadan kaldırırsınız. Gruplar arasındaki herhangi bir sonuç farkı, insanlar arasındaki önceden var olan farklara değil, yaptığınız değişikliğe atfedilebilir. Bu, tıpta kanıtın altın standardı olarak kabul edilen randomize kontrollü çalışmaların arkasındaki aynı ilkedir.

Deneyin Tasarlanması

İyi bir A/B testi, net bir hipotez ve tek bir ölçülebilir metrikle başlar. "Kayıt butonunu yeşilden maviye değiştirmenin tıklama oranını artıracağına inanıyoruz." Metrik tıklama oranıdır. Kontrol (A) yeşil butondur. Uygulama (B) mavi butondur. Diğer her şey tamamen aynı kalır.

Bu "tek bir şeyi değiştir" ilkesi kritiktir. Buton rengini, metni ve sayfa düzenini aynı anda değiştirirseniz ve dönüşümler artarsa, hangi değişikliğin iyileşmeye neden olduğunu bilemezsiniz. Çok değişkenli test, birden fazla değişikliği eşzamanlı olarak test etmek için mevcuttur, ancak çok daha büyük örneklemler ve daha karmaşık analiz gerektirir.

Ayrıca testin ne kadar süreceğine önceden karar vermeniz gerekir. Bu, mevcut temel dönüşüm oranınızı, minimum algılanabilir etkiyi (önemsediğiniz en küçük iyileşme) ve istediğiniz güven düzeyini hesaba katan örneklem büyüklüğü hesaplamanıza bağlıdır. Önceden belirlenmiş bir örneklem büyüklüğü olmadan test çalıştırmak, A/B testindeki en yaygın hatalardan biridir.

Örneklem Büyüklüğü: Neden Bu Kadar Önemli

Örneklem büyüklüğü, testinizin istatistiksel gücünü belirler; bu, gerçek bir etki olduğunda onu tespit etme yeteneğidir. Çok az ziyaretçiyle, sonuçlar kesin olmayacak kadar gürültülü olduğundan gerçek bir iyileşmeyi kaçırabilirsiniz. Çok fazla ziyaretçiyle ise testi gerekenden uzun süre çalıştırarak zaman ve kaynak israf edersiniz.

Mevcut dönüşüm oranınızın %3,2 olduğunu ve en az 0,5 yüzde puanlık bir iyileşmeyi tespit etmek istediğinizi varsayalım. Güven düzeyinize ve güç gereksinimlerinize bağlı olarak, grup başına 15.000 ile 30.000 ziyaretçiye ihtiyacınız olabilir. Grup başına yalnızca 1.000 ziyaretçiniz varsa, test yetersiz güçte olacak ve yeni versiyon gerçekten daha iyi olsa bile büyük olasılıkla sonuçsuz bir sonuç alacaksınız.

Yukarıdaki güven aralıkları, her grup için tahmini dönüşüm oranlarını gösterir. Hafifçe örtüştüklerine dikkat edin. Bu farkın istatistiksel olarak anlamlı olup olmadığı, tam örneklem büyüklüğüne ve örtüşme derecesine bağlıdır. Güven aralıkları zar zor örtüştüğünde veya hiç örtüşmediğinde, farkın gerçek olduğuna dair daha güçlü kanıtınız olur.

A/B Testlerinde İstatistiksel Anlamlılık

Yeterli veri topladıktan sonra, gruplar arasındaki farkın istatistiksel olarak anlamlı olup olmadığını belirlemek için bir istatistiksel test (genellikle iki oran z-testi veya ki-kare testi) uygularsınız. Sonuç bir p-değeridir. P-değeri eşiğinizin altındaysa (genellikle 0,05), farkın yalnızca şansa bağlı olma olasılığının düşük olduğu sonucuna varırsınız.

Ancak anlamlılık size hikayenin tamamını anlatmaz. İstatistiksel olarak anlamlı 0,02 yüzde puanlık bir iyileşme, istatistiksel anlamda gerçektir ancak muhtemelen uygulamak için harcanan mühendislik çabasına değmez. Anlamlılık testinizi her zaman gerçek etki büyüklüğüne bakarak tamamlayın. Dönüşümde 0,5 yüzde puanlık bir artış anlamlı bir gelire dönüşüyor mu? Bu, iş bağlamınıza bağlıdır.

Bazı ekipler frekansçı p-değerleri yerine Bayesçi yaklaşımlar kullanır. Bayesçi A/B testi size doğrudan bir olasılık ifadesi verir: "B varyantının A varyantından daha iyi olma olasılığı %94'tür." Birçok uygulayıcı bunu, biraz farklı bir soruya cevap veren standart p-değerinden daha sezgisel bulur.

Yaygın Tuzaklar

Sonuçlara çok erken bakmak. Bu en yaygın ve en zararlı hatadır. Sonuçlarınızı her gün kontrol eder ve anlamlılık gördüğünüz ilk anda testi durdurursanız, yanlış pozitif oranınızı dramatik olarak artırırsınız. İstatistiksel testler, önceden belirlenmiş bir örneklem büyüklüğünde bir kez değerlendirilmek üzere tasarlanmıştır. Sonuçları geldikçe izlemeniz gerekiyorsa, tekrarlanan bakışları hesaba katan ardışık test yöntemleri kullanın.

Çok fazla varyant çalıştırmak. Aynı anda beş versiyon test etmek (A/B/C/D/E) verimli görünür, ancak yanlış pozitif şansını katlar. Beş varyant ve %5 anlamlılık eşiğiyle, en az bir yanlış pozitif olma olasılığınız yaklaşık %19'dur. Çoklu karşılaştırmalar için düzeltmeler uygulamanız veya daha büyük örneklemler çalıştırmanız gerekir.

Örnek

Bir SaaS şirketi fiyatlandırma sayfasında A/B testi çalıştırır. Üç gün sonra ürün yöneticisi kontrol eder ve B varyantının 0,03 p-değeriyle %15 daha yüksek dönüşüm oranına sahip olduğunu görür. Heyecanlanarak testi durdurur ve B varyantını yayınlar. İki hafta sonra dönüşümlerin aslında iyileşmediğini fark ederler. Ne oldu? Erken bakış rastgele bir dalgalanmayı yakaladı. Grup başına 10.000 ziyaretçilik tam planlanan örneklem büyüklüğünü bekleselerdi, etki %2'ye düşecek ve anlamlı olmayacaktı.

Segmentleri görmezden gelmek. Bir A/B testi genel olarak hiçbir fark göstermeyebilir, ancak B varyantı mobil kullanıcılar için çok daha iyi performans gösterirken masaüstü kullanıcıları için daha kötü performans gösteriyor olabilir. Bu etkiler toplamda birbirini iptal eder. Segment analizi değerli içgörüler ortaya çıkarabilir, ancak dikkatli olun: birçok segmenti test etmek de yanlış pozitif riskini artırır.

Yeterli trafik olmadan test etmek. Küçük web siteleri veya düşük trafikli ürünler genellikle makul bir süre içinde gerekli örneklem büyüklüklerine ulaşamaz. Bir testi üç ay boyunca çalıştırmak, mevsimsel etkiler ve diğer karıştırıcılar ortaya çıkarır. Trafiğiniz tespit etmek istediğiniz etki için çok düşükse, daha büyük bir değişiklik test etmeyi (tespit etmek için daha az örneklem gerektirir) veya bunun yerine nitel yöntemler kullanmayı düşünün.

Temel Çıkarım

A/B testi, hangisinin daha iyi performans gösterdiğini bulmak için iki versiyonu karşılaştıran randomize bir deneydir. İyi testler net bir hipotez, tek bir anahtar metrik, önceden hesaplanmış bir örneklem büyüklüğü ve sonuç çıkarmadan önce tam sonuçları bekleme disiplini gerektirir. En büyük tuzaklar sonuçlara çok erken bakmak, düzeltme yapmadan çok fazla varyant test etmek ve istatistiksel anlamlılığı pratik önemle karıştırmaktır. Doğru yapıldığında, A/B testi size tahmin yerine nedensel kanıt verir.

A/B Testi

En Basit Deney

Deneyin Tasarlanması

Örneklem Büyüklüğü: Neden Bu Kadar Önemli

A/B Testlerinde İstatistiksel Anlamlılık

Yaygın Tuzaklar

İlgili Dersler