A/B-тестування

Складність: Середній Час читання: 12 хвилин

Найпростіший експеримент

A/B-тест - це одна з найпростіших та найпотужніших форм експерименту. Ви берете дві версії чогось, показуєте версію A одній групі людей, а версію B - іншій, та вимірюєте, яка працює краще. Технологічні компанії використовують A/B-тести для оптимізації всього - від кольорів кнопок до сторінок цін і цілих функцій продукту. Але та сама логіка застосовується в медицині (ліки проти плацебо), освіті (метод навчання A проти B) та маркетингу (тема листа A проти B).

Сила A/B-тестування - в рандомізації. Випадково розподіляючи людей у групу A або B, ви усуваєте вплив змішувальних змінних. Будь-яка різниця в результатах між групами може бути приписана зміні, яку ви внесли, а не вже існуючим відмінностям між людьми. Це той самий принцип, що лежить в основі рандомізованих контрольованих досліджень у медицині, які вважаються золотим стандартом доказів.

Планування експерименту

Хороший A/B-тест починається з чіткої гіпотези та єдиної вимірюваної метрики. «Ми вважаємо, що зміна кнопки реєстрації з зеленої на синю збільшить показник кліків.» Метрика - показник кліків. Контроль (A) - зелена кнопка. Варіант (B) - синя кнопка. Все інше залишається незмінним.

Цей принцип «змінюйте одне» є критичним. Якщо ви одночасно змінюєте колір кнопки, текст та макет сторінки, і конверсії зростають, ви не знаєте, яка зміна спричинила покращення. Мультиваріантне тестування існує для одночасного тестування кількох змін, але потребує значно більших вибірок та складнішого аналізу.

Також потрібно заздалегідь вирішити, як довго триватиме тест. Це залежить від розрахунку розміру вибірки, який враховує поточний базовий показник конверсії, мінімально виявлюваний ефект (найменше покращення, яке вас цікавить) та бажаний рівень довіри. Проведення тесту без заздалегідь визначеного розміру вибірки - одна з найпоширеніших помилок A/B-тестування.

Розмір вибірки: Чому він такий важливий

Розмір вибірки визначає статистичну потужність тесту - здатність виявити реальний ефект, коли він існує. При занадто малій кількості відвідувачів ви можете пропустити справжнє покращення, бо результати занадто зашумлені. При занадто великій - витрачаєте час та ресурси, проводячи тест довше необхідного.

3.2 Контроль (A) 3.8 Варіант (B)

Припустимо, ваш поточний показник конверсії - 3,2%, і ви хочете виявити покращення щонайменше на 0,5 відсоткового пункту. Залежно від рівня довіри та вимог до потужності, вам може знадобитися від 15 000 до 30 000 відвідувачів на групу. Якщо у вас лише 1000 відвідувачів на групу, тест буде недостатньо потужним, і ви, ймовірно, отримаєте непереконливий результат, навіть якщо нова версія справді краща.

Контроль (A) 2.8 3.6
Варіант (B) 3.3 4.3

Довірчі інтервали вище показують оцінені показники конверсії для кожної групи. Зверніть увагу, що вони трохи перекриваються. Чи є ця різниця статистично значущою, залежить від точного розміру вибірки та ступеня перекриття. Коли довірчі інтервали ледь перекриваються або не перекриваються взагалі, докази різниці сильніші.

Статистична значущість в A/B-тестах

Після збору достатньої кількості даних ви проводите статистичний тест (зазвичай z-тест двох пропорцій або тест хі-квадрат), щоб визначити, чи є різниця між групами статистично значущою. Результат - p-значення. Якщо p-значення нижче порогу (зазвичай 0,05), ви робите висновок, що різниця навряд чи зумовлена лише випадковістю.

Але значущість не розповідає всю історію. Статистично значуще покращення на 0,02 відсоткового пункту реальне в статистичному сенсі, але, ймовірно, не варте інженерних зусиль для впровадження. Завжди доповнюйте тест на значущість оцінкою фактичного розміру ефекту. Чи перетворюється покращення на 0,5 відсоткового пункту на значущий дохід? Це залежить від бізнес-контексту.

Деякі команди використовують байєсівські підходи замість частотних p-значень. Байєсівське A/B-тестування дає пряме ймовірнісне твердження: «є 94% ймовірність, що варіант B кращий за варіант A.» Багато практиків вважають це більш інтуїтивним, ніж стандартне p-значення, яке відповідає на дещо інше питання.

Типові помилки

Підглядання результатів занадто рано. Це найпоширеніша та найшкідливіша помилка. Якщо ви щодня перевіряєте результати та зупиняєте тест при першій появі значущості, ви різко підвищите частоту хибнопозитивних результатів. Статистичні тести призначені для одноразової оцінки при заздалегідь визначеному розмірі вибірки. Якщо потрібно моніторити результати в процесі, використовуйте методи послідовного тестування, що враховують повторні перевірки.

Тестування занадто багатьох варіантів. Тестування п'яти версій одночасно (A/B/C/D/E) здається ефективним, але множить шанси хибнопозитивного результату. З п'ятьма варіантами та 5% порогом значущості ймовірність щонайменше одного хибнопозитивного результату становить приблизно 19%. Потрібно або застосовувати корекцію на множинні порівняння, або збільшувати вибірки.

Приклад

SaaS-компанія проводить A/B-тест на сторінці цін. Через три дні продакт-менеджер перевіряє та бачить, що варіант B має на 15% вищу конверсію з p-значенням 0,03. Радіючи, він зупиняє тест та впроваджує варіант B. Через два тижні вони розуміють, що конверсії насправді не покращились. Що сталося? Раннє підглядання вловило випадкове коливання. Якби вони зачекали до повного запланованого розміру вибірки в 10 000 відвідувачів на групу, ефект скоротився б до 2% і не був би значущим.

Ігнорування сегментів. A/B-тест може показати відсутність загальної різниці, але варіант B може значно краще працювати для мобільних користувачів, одночасно гірше для десктопних. Ці ефекти компенсують один одного в агрегаті. Аналіз сегментів може виявити цінні інсайти, але будьте обережні: тестування багатьох сегментів також збільшує ризик хибнопозитивних результатів.

Тестування без достатнього трафіку. Невеликі сайти або продукти з низьким трафіком часто не можуть досягти необхідних розмірів вибірки за розумний час. Проведення тесту протягом трьох місяців вносить сезонні ефекти та інші конфаундери. Якщо трафіку замало для ефекту, який ви хочете виявити, подумайте про тестування більшої зміни (яка потребує менше зразків для виявлення) або використання якісних методів.

Ключовий висновок

A/B-тестування - це рандомізований експеримент, що порівнює дві версії для визначення кращої. Хороші тести вимагають чіткої гіпотези, єдиної ключової метрики, заздалегідь розрахованого розміру вибірки та дисципліни дочекатися повних результатів перед висновками. Найбільші пастки - підглядання результатів занадто рано, тестування занадто багатьох варіантів без корекції та плутання статистичної значущості з практичною важливістю. При правильному проведенні A/B-тестування дає причинно-наслідкові докази замість здогадок.