A/B testing compares two versions of something (like a webpage) by randomly splitting users into groups to see which version performs better.

How long should an A/B test run?

Run it until you reach statistical significance, typically 1-4 weeks. Stopping too early can lead to false conclusions.

What sample size do I need for an A/B test?

It depends on your baseline rate and the minimum effect you want to detect. Online calculators can help - typically thousands per variant.

What is statistical significance in A/B testing?

It means the observed difference between variants is unlikely due to random chance alone, usually set at a 95% confidence threshold.

What are common A/B testing mistakes?

Stopping tests too early, testing too many variants at once, ignoring sample size requirements, and not accounting for seasonal changes.

A/B-тестирование

Простейший эксперимент

A/B-тест -- одна из простейших и мощнейших форм эксперимента. Вы берёте две версии чего-либо, показываете версию A одной группе людей и версию B другой, и измеряете, какая работает лучше. Технологические компании используют A/B-тесты для оптимизации всего -- от цвета кнопок до страниц ценообразования и целых функций продукта. Но та же логика применяется в медицине (препарат vs плацебо), образовании (метод обучения A vs B) и маркетинге (тема письма A vs B).

Сила A/B-тестирования -- в рандомизации. Случайно распределяя людей в группу A или B, вы устраняете влияние смешивающих переменных. Любая разница в результатах между группами может быть приписана сделанному изменению, а не предсуществующим различиям между людьми. Это тот же принцип, что лежит в основе рандомизированных контролируемых испытаний в медицине -- золотого стандарта доказательств.

Дизайн эксперимента

Хороший A/B-тест начинается с чёткой гипотезы и единственной измеримой метрики. «Мы полагаем, что смена цвета кнопки регистрации с зелёного на синий увеличит кликабельность.» Метрика -- кликабельность. Контроль (A) -- зелёная кнопка. Вариант (B) -- синяя. Всё остальное остаётся абсолютно одинаковым.

Этот принцип «менять одну вещь» критически важен. Если вы меняете цвет кнопки, текст и макет страницы одновременно, и конверсии растут, вы не знаете, какое изменение вызвало улучшение. Мультивариантное тестирование существует для проверки нескольких изменений одновременно, но требует гораздо больших выборок и более сложного анализа.

Также нужно заранее решить, как долго будет идти тест. Это зависит от расчёта размера выборки, учитывающего текущую базовую конверсию, минимально обнаруживаемый эффект (наименьшее улучшение, которое вас интересует) и желаемый уровень доверия. Запуск теста без предварительно определённого размера выборки -- одна из самых распространённых ошибок в A/B-тестировании.

Размер выборки: почему это так важно

Размер выборки определяет статистическую мощность теста -- его способность обнаружить реальный эффект. При слишком малом числе посетителей вы можете пропустить реальное улучшение, потому что результаты слишком зашумлены. При слишком большом -- тратите время и ресурсы на проведение теста дольше необходимого.

Допустим, текущая конверсия 3.2% и вы хотите обнаружить улучшение минимум на 0.5 процентного пункта. В зависимости от уровня доверия и требований к мощности, вам может понадобиться от 15 000 до 30 000 посетителей на группу. При 1000 посетителей на группу тест будет маломощным и, скорее всего, даст неубедительный результат, даже если новая версия действительно лучше.

Доверительные интервалы выше показывают оценённые конверсии для каждой группы. Обратите внимание на небольшое перекрытие. Является ли эта разница статистически значимой, зависит от точного размера выборки и степени перекрытия. Когда доверительные интервалы едва перекрываются или не перекрываются вовсе, доказательства реальности различия сильнее.

Статистическая значимость в A/B-тестах

После сбора достаточных данных проводится статистический тест (обычно z-тест двух пропорций или хи-квадрат) для определения статистической значимости разницы. Результат -- p-значение. Если p-значение ниже порога (обычно 0.05), делается вывод, что разница маловероятно случайна.

Но значимость не раскрывает всей картины. Статистически значимое улучшение на 0.02 процентного пункта реально в статистическом смысле, но, вероятно, не стоит инженерных усилий. Всегда сопровождайте тест значимости оценкой реального размера эффекта. Приводит ли рост конверсии на 0.5 п.п. к значимой выручке? Это зависит от бизнес-контекста.

Некоторые команды используют байесовские подходы вместо частотных p-значений. Байесовское A/B-тестирование даёт прямое вероятностное утверждение: «с вероятностью 94% вариант B лучше варианта A.» Многие практики находят это более интуитивным, чем стандартное p-значение, которое отвечает на тонко отличающийся вопрос.

Типичные ошибки

Подглядывание в результаты слишком рано. Это самая распространённая и разрушительная ошибка. Если проверять результаты каждый день и остановить тест при первом обнаружении значимости, вероятность ложноположительных результатов резко возрастает. Статистические тесты рассчитаны на однократную оценку при предопределённом размере выборки. Если необходимо мониторить результаты по ходу, используйте методы последовательного тестирования, учитывающие множественные проверки.

Слишком много вариантов. Тестирование пяти версий сразу (A/B/C/D/E) кажется эффективным, но умножает шансы ложноположительного результата. При пяти вариантах и пороге значимости 5% вероятность хотя бы одного ложноположительного -- около 19%. Нужны поправки на множественные сравнения или большие выборки.

Пример

SaaS-компания проводит A/B-тест на странице ценообразования. Через три дня продакт-менеджер проверяет и видит, что у варианта B конверсия на 15% выше при p-значении 0.03. Воодушевлённый, он останавливает тест и внедряет вариант B. Через две недели выясняется, что конверсия не выросла. Что произошло? Раннее подглядывание поймало случайную флуктуацию. Если бы дождались полного запланированного размера выборки в 10 000 посетителей на группу, эффект сжался бы до 2% и не был бы значимым.

Игнорирование сегментов. A/B-тест может не показать общей разницы, но вариант B может работать значительно лучше для мобильных пользователей и хуже для десктопных. Эти эффекты компенсируются в агрегате. Сегментный анализ может выявить ценные инсайты, но осторожно: тестирование множества сегментов также увеличивает риск ложноположительных результатов.

Тестирование при недостаточном трафике. Малые сайты или продукты с низким трафиком часто не могут достичь необходимых размеров выборки за разумное время. Трёхмесячный тест вносит сезонные эффекты и другие смешивающие факторы. Если трафика недостаточно для обнаружения желаемого эффекта, рассмотрите тестирование более крупного изменения (для обнаружения которого нужна меньшая выборка) или качественные методы.

Ключевой вывод

A/B-тестирование -- рандомизированный эксперимент, сравнивающий две версии для определения лучшей. Хорошие тесты требуют чёткой гипотезы, единой ключевой метрики, заранее рассчитанного размера выборки и дисциплины дождаться полных результатов перед выводами. Главные ошибки -- подглядывание в результаты слишком рано, тестирование слишком многих вариантов без поправок и путаница статистической значимости с практической важностью. При правильном проведении A/B-тестирование даёт причинно-следственные доказательства, а не догадки.