El experimento más simple
Una prueba A/B es una de las formas más simples y poderosas de experimento. Tomas dos versiones de algo, muestras la versión A a un grupo de personas y la versión B a otro, y mides cuál funciona mejor. Las empresas tecnológicas usan pruebas A/B para optimizar todo, desde colores de botones hasta páginas de precios y funciones completas de productos. Pero la misma lógica se aplica en medicina (fármaco vs placebo), educación (método de enseñanza A vs B) y marketing (asunto de correo A vs B).
El poder de las pruebas A/B proviene de la aleatorización. Al asignar aleatoriamente personas al grupo A o al grupo B, eliminas la influencia de variables de confusión. Cualquier diferencia en los resultados entre los grupos puede atribuirse al cambio que hiciste, no a diferencias preexistentes entre las personas. Este es el mismo principio detrás de los ensayos controlados aleatorizados en medicina, que se consideran el estándar de oro de la evidencia.
Diseño del experimento
Una buena prueba A/B comienza con una hipótesis clara y una única métrica medible. "Creemos que cambiar el botón de registro de verde a azul aumentará la tasa de clics." La métrica es la tasa de clics. El control (A) es el botón verde. El tratamiento (B) es el botón azul. Todo lo demás permanece exactamente igual.
Este principio de "cambiar una sola cosa" es crítico. Si cambias el color del botón, el texto y el diseño de la página todo a la vez, y las conversiones suben, no tienes idea de qué cambio causó la mejora. Las pruebas multivariantes existen para probar múltiples cambios simultáneamente, pero requieren muestras mucho más grandes y un análisis más complejo.
También necesitas decidir de antemano cuánto tiempo durará la prueba. Esto depende de tu cálculo de tamaño de muestra, que tiene en cuenta tu tasa de conversión base actual, el efecto mínimo detectable (la mejora más pequeña que te importa) y tu nivel de confianza deseado. Ejecutar una prueba sin un tamaño de muestra predeterminado es uno de los errores más comunes en las pruebas A/B.
Tamaño de muestra: por qué importa tanto
El tamaño de muestra determina el poder estadístico de tu prueba, que es su capacidad para detectar un efecto real cuando existe. Con muy pocos visitantes, podrías perderte una mejora genuina porque los resultados son demasiado ruidosos para ser concluyentes. Con demasiados, desperdicias tiempo y recursos ejecutando la prueba más tiempo del necesario.
Supón que tu tasa de conversión actual es 3.2% y quieres detectar al menos una mejora de 0.5 puntos porcentuales. Dependiendo de tu nivel de confianza y requisitos de poder, podrías necesitar de 15,000 a 30,000 visitantes por grupo. Si solo tienes 1,000 visitantes por grupo, la prueba tendrá bajo poder y probablemente obtendrás un resultado inconcluso, incluso si la nueva versión realmente es mejor.
Los intervalos de confianza anteriores muestran las tasas de conversión estimadas para cada grupo. Nota que se superponen ligeramente. Si esta diferencia es estadísticamente significativa depende del tamaño exacto de muestra y del grado de superposición. Cuando los intervalos de confianza apenas se superponen o no se superponen en absoluto, tienes evidencia más fuerte de que la diferencia es real.
Significancia estadística en pruebas A/B
Después de recopilar suficientes datos, ejecutas una prueba estadística (generalmente una prueba z de dos proporciones o una prueba de chi-cuadrado) para determinar si la diferencia entre grupos es estadísticamente significativa. El resultado es un valor p. Si el valor p está por debajo de tu umbral (típicamente 0.05), concluyes que la diferencia es improbable que se deba solo al azar.
Pero la significancia no cuenta toda la historia. Una mejora estadísticamente significativa de 0.02 puntos porcentuales es real en el sentido estadístico pero probablemente no vale el esfuerzo de ingeniería para implementarla. Siempre acompaña tu prueba de significancia con una mirada al tamaño del efecto real. ¿Un aumento de 0.5 puntos porcentuales en la conversión se traduce en ingresos significativos? Eso depende de tu contexto de negocio.
Algunos equipos usan enfoques bayesianos en lugar de valores p frecuentistas. Las pruebas A/B bayesianas te dan una declaración de probabilidad directa: "hay un 94% de probabilidad de que la variante B sea mejor que la variante A." Muchos profesionales encuentran esto más intuitivo que el valor p estándar, que responde a una pregunta sutilmente diferente.
Errores comunes
Mirar los resultados demasiado pronto. Este es el error más común y más dañino. Si revisas tus resultados cada día y detienes la prueba la primera vez que ves significancia, aumentarás dramáticamente tu tasa de falsos positivos. Las pruebas estadísticas están diseñadas para evaluarse una vez, en un tamaño de muestra predeterminado. Si debes monitorear los resultados a medida que llegan, usa métodos de prueba secuencial que tengan en cuenta las miradas repetidas.
Ejecutar demasiadas variantes. Probar cinco versiones a la vez (A/B/C/D/E) suena eficiente, pero multiplica las probabilidades de un falso positivo. Con cinco variantes y un umbral de significancia del 5%, tienes aproximadamente un 19% de probabilidad de al menos un falso positivo. Necesitas aplicar correcciones por comparaciones múltiples o ejecutar muestras más grandes.
Una empresa SaaS ejecuta una prueba A/B en su página de precios. Después de tres días, el gerente de producto revisa y ve que la variante B tiene una tasa de conversión 15% más alta con un valor p de 0.03. Emocionado, detiene la prueba e implementa la variante B. Dos semanas después, se da cuenta de que las conversiones no han mejorado realmente. ¿Qué pasó? La mirada prematura captó una fluctuación aleatoria. Si hubieran esperado al tamaño de muestra completo planificado de 10,000 visitantes por grupo, el efecto se habría reducido al 2% y no habría sido significativo.
Ignorar segmentos. Una prueba A/B podría no mostrar diferencia general, pero la variante B podría estar funcionando mucho mejor para usuarios móviles mientras funciona peor para usuarios de escritorio. Estos efectos se cancelan en el agregado. El análisis de segmentos puede revelar información valiosa, pero ten cuidado: probar muchos segmentos también aumenta el riesgo de falsos positivos.
Probar sin suficiente tráfico. Los sitios web pequeños o productos con poco tráfico a menudo no pueden alcanzar los tamaños de muestra requeridos dentro de un plazo razonable. Ejecutar una prueba durante tres meses introduce efectos estacionales y otros factores de confusión. Si tu tráfico es demasiado bajo para el efecto que quieres detectar, considera probar un cambio más grande (que necesita menos muestras para detectar) o usar métodos cualitativos en su lugar.
Las pruebas A/B son un experimento aleatorizado que compara dos versiones para encontrar cuál funciona mejor. Las buenas pruebas requieren una hipótesis clara, una única métrica clave, un tamaño de muestra precalculado y la disciplina de esperar los resultados completos antes de sacar conclusiones. Los mayores errores son mirar los resultados demasiado pronto, probar demasiadas variantes sin corrección y confundir significancia estadística con importancia práctica. Hechas correctamente, las pruebas A/B te dan evidencia causal en lugar de conjeturas.