Eksperimen paling sederhana
Pengujian A/B adalah salah satu bentuk eksperimen paling sederhana dan paling kuat. Anda mengambil dua versi sesuatu, menunjukkan versi A ke satu kelompok orang dan versi B ke kelompok lain, dan mengukur mana yang berkinerja lebih baik. Perusahaan teknologi menggunakan pengujian A/B untuk mengoptimalkan segalanya mulai dari warna tombol hingga halaman harga hingga fitur produk lengkap. Tapi logika yang sama berlaku dalam kedokteran (obat vs plasebo), pendidikan (metode pengajaran A vs B), dan pemasaran (subjek email A vs B).
Kekuatan pengujian A/B berasal dari randomisasi. Dengan secara acak menugaskan orang ke kelompok A atau B, Anda menghilangkan pengaruh variabel perancu. Perbedaan hasil antar kelompok bisa dikaitkan dengan perubahan yang Anda buat, bukan perbedaan yang sudah ada sebelumnya. Ini prinsip yang sama di balik uji acak terkontrol dalam kedokteran, yang dianggap standar emas bukti.
Mendesain eksperimen
Pengujian A/B yang baik dimulai dengan hipotesis jelas dan satu metrik terukur. "Kami percaya mengubah tombol pendaftaran dari hijau ke biru akan meningkatkan tingkat klik." Metriknya adalah tingkat klik. Kontrol (A) adalah tombol hijau. Varian (B) adalah tombol biru. Semua yang lain tetap persis sama.
Prinsip "ubah satu hal" ini kritis. Jika Anda mengubah warna tombol, teks, dan tata letak halaman sekaligus, dan konversi naik, Anda tidak tahu perubahan mana yang menyebabkan peningkatan. Pengujian multivariat ada untuk menguji beberapa perubahan secara bersamaan, tapi memerlukan sampel jauh lebih besar dan analisis lebih kompleks.
Anda juga perlu memutuskan sebelumnya berapa lama pengujian akan berjalan. Ini tergantung pada perhitungan ukuran sampel, yang memperhitungkan tingkat konversi dasar saat ini, efek minimum yang dapat dideteksi (peningkatan terkecil yang Anda pedulikan), dan tingkat kepercayaan yang diinginkan. Menjalankan pengujian tanpa ukuran sampel yang ditentukan sebelumnya adalah salah satu kesalahan paling umum dalam pengujian A/B.
Ukuran sampel: mengapa sangat penting
Ukuran sampel menentukan daya statistik pengujian, yaitu kemampuannya mendeteksi efek nyata jika ada. Dengan terlalu sedikit pengunjung, Anda mungkin melewatkan peningkatan nyata karena hasilnya terlalu berisik. Dengan terlalu banyak, Anda membuang waktu dan sumber daya menjalankan pengujian lebih lama dari perlu.
Misalkan tingkat konversi saat ini 3.2% dan Anda ingin mendeteksi minimal peningkatan 0.5 poin persentase. Tergantung pada tingkat kepercayaan dan persyaratan daya, Anda mungkin memerlukan 15.000 hingga 30.000 pengunjung per kelompok. Jika hanya memiliki 1.000 pengunjung per kelompok, pengujian akan kurang bertenaga dan kemungkinan mendapat hasil yang tidak konklusif, bahkan jika versi baru benar-benar lebih baik.
Interval kepercayaan di atas menunjukkan tingkat konversi estimasi untuk setiap kelompok. Perhatikan sedikit tumpang tindih. Apakah perbedaan ini signifikan secara statistik tergantung pada ukuran sampel yang tepat dan derajat tumpang tindih. Ketika interval kepercayaan nyaris tidak tumpang tindih atau tidak sama sekali, Anda memiliki bukti lebih kuat bahwa perbedaan itu nyata.
Signifikansi statistik dalam pengujian A/B
Setelah mengumpulkan data cukup, Anda menjalankan uji statistik (biasanya uji z dua proporsi atau uji chi-kuadrat) untuk menentukan apakah perbedaan antar kelompok signifikan secara statistik. Hasilnya adalah nilai p. Jika nilai p di bawah ambang (biasanya 0.05), Anda menyimpulkan bahwa perbedaan tidak mungkin hanya karena kebetulan.
Tapi signifikansi tidak menceritakan keseluruhan cerita. Peningkatan signifikan secara statistik sebesar 0.02 poin persentase nyata secara statistik tapi mungkin tidak sepadan dengan upaya teknis untuk mengimplementasikannya. Selalu pasangkan uji signifikansi dengan melihat ukuran efek aktual. Apakah kenaikan 0.5 poin persentase konversi menghasilkan pendapatan yang bermakna? Itu tergantung konteks bisnis.
Beberapa tim menggunakan pendekatan Bayesian alih-alih nilai p frequentist. Pengujian A/B Bayesian memberi pernyataan probabilitas langsung: "ada probabilitas 94% bahwa varian B lebih baik dari varian A." Banyak praktisi merasa ini lebih intuitif daripada nilai p standar, yang menjawab pertanyaan yang sedikit berbeda.
Jebakan umum
Mengintip hasil terlalu dini. Ini kesalahan paling umum dan paling merusak. Jika Anda memeriksa hasil setiap hari dan menghentikan pengujian saat pertama kali melihat signifikansi, Anda akan meningkatkan tingkat positif palsu secara dramatis. Uji statistik dirancang untuk dievaluasi sekali, pada ukuran sampel yang ditentukan sebelumnya. Jika harus memantau hasil saat masuk, gunakan metode pengujian sekuensial yang memperhitungkan pengamatan berulang.
Menjalankan terlalu banyak varian. Menguji lima versi sekaligus (A/B/C/D/E) terdengar efisien, tapi menggandakan peluang positif palsu. Dengan lima varian dan ambang signifikansi 5%, ada sekitar 19% peluang setidaknya satu positif palsu. Anda perlu menerapkan koreksi perbandingan berganda atau menjalankan sampel lebih besar.
Perusahaan SaaS menjalankan pengujian A/B pada halaman harga mereka. Setelah tiga hari, manajer produk memeriksa dan melihat varian B memiliki tingkat konversi 15% lebih tinggi dengan nilai p 0.03. Bersemangat, mereka menghentikan pengujian dan meluncurkan varian B. Dua minggu kemudian, mereka menyadari konversi sebenarnya tidak meningkat. Apa yang terjadi? Pengintipan dini menangkap fluktuasi acak. Jika menunggu ukuran sampel lengkap yang direncanakan 10.000 pengunjung per kelompok, efek akan menyusut menjadi 2% dan tidak signifikan.
Mengabaikan segmen. Pengujian A/B mungkin tidak menunjukkan perbedaan keseluruhan, tapi varian B bisa berkinerja jauh lebih baik untuk pengguna mobile sambil berkinerja lebih buruk untuk pengguna desktop. Efek ini saling membatalkan dalam agregat. Analisis segmen bisa mengungkap wawasan berharga, tapi hati-hati: menguji banyak segmen juga meningkatkan risiko positif palsu.
Menguji tanpa lalu lintas cukup. Situs web kecil atau produk dengan lalu lintas rendah sering tidak bisa mencapai ukuran sampel yang diperlukan dalam jangka waktu yang wajar. Menjalankan pengujian selama tiga bulan memperkenalkan efek musiman dan perancu lain. Jika lalu lintas terlalu rendah untuk efek yang ingin dideteksi, pertimbangkan menguji perubahan lebih besar (yang memerlukan lebih sedikit sampel) atau menggunakan metode kualitatif.
Pengujian A/B adalah eksperimen acak yang membandingkan dua versi untuk menemukan mana yang berkinerja lebih baik. Pengujian yang baik memerlukan hipotesis jelas, satu metrik kunci, ukuran sampel yang dihitung sebelumnya, dan disiplin menunggu hasil lengkap sebelum menarik kesimpulan. Jebakan terbesar adalah mengintip hasil terlalu dini, menguji terlalu banyak varian tanpa koreksi, dan mengacaukan signifikansi statistik dengan kepentingan praktis. Dilakukan dengan benar, pengujian A/B memberi bukti kausal, bukan tebakan.