Errores estadísticos y otros obstáculos del A/B testing

Actualmente, probar la funcionalidad de los diversos elementos de una web por medio de un test A/B es una práctica común para la mayoría de desarrolladores y operadores web. Si la página web cuenta con el tráfico suficiente, este método de ensayo revela rápidamente si un escenario A, por ejemplo, garantiza una mejor conversión que un escenario B. Sin embargo, es muy frecuente encontrarse con algunos obstáculos tanto en la planificación y durante la fase de prueba como en la fase final. A continuación te mostramos errores estadísticos y de medición particularmente extendidos y te damos algunos consejos para evitarlos.

Errores durante la planificación de un test A/B

Incluso antes de empezar la prueba, las falsas suposiciones y los prejuicios resultantes pueden marcar el rumbo al fracaso.

Error 1: Renunciar a una hipótesis y, en su lugar, dejarlo todo al azar

Probablemente el error más grave que se puede cometer en la fase previa a la implementación de la prueba es prescindir de una hipótesis propia con la esperanza de encontrar la correcta en un número elevado de variantes. Si bien es cierto que a mayor número de variantes al azar, mayor es la probabilidad de encontrar un ganador, la estadística también aplica al hecho de que este ganador podría no aportar ninguna mejora significativa para el proyecto web. En solo un 5% de los casos una única versión del test tiene un efecto significativo en la optimización de la web, algo realmente improbable. Cuantas más variables se utilicen, mayor es la probabilidad de que se produzca un error fundamental de este tipo, por ejemplo: para 3 variantes diferentes las probabilidades son del 14 por ciento y del 34 por ciento para 8 variables.

Al final de un test A/B es muy difícil saber la razón por la cual uno u otro factor tienen un impacto positivo en la optimización web cuando no has sido tú quien formuló la hipótesis de prueba. En cambio, cuando formulas tú mismo la hipótesis de que agrandar un botón aumentará la tasa de conversión, puedes interpretar más fácilmente los resultados. En resumen, un test A/B no se puede dejar al azar y debe realizarse siempre impulsado por una hipótesis y estar limitado a un número razonable de variantes. Adicionalmente, puedes trabajar con herramientas como Optimizely que disminuyen la probabilidad de error y facilitan la realización de pruebas con mejores resultados.

Error 2: Fijar los indicadores falsos para determinar una prueba exitosa

Los Key Performance Indicators (KPI) cruciales para tu proyecto desempeñan un papel clave en las pruebas A/B y, por lo tanto, no deben subestimarse. Si bien el aumento de visitas y clics en un blog o portal de noticias representan conversiones muy valiosas, para una tienda online estos factores no son más que una tendencia positiva. Los pedidos, la tasa de devoluciones, las ventas y los beneficios son indicadores mucho más importantes para una tienda electrónica. Debido a la dificultad para medirlos, los test A/B que tienen a la ganancia absoluta como principal KIP están asociados a un esfuerzo mayor. Sin embargo, estas pruebas arrojan estimaciones más fiables de las que proporcionaría una prueba que se concentra solo en la colocación de un artículo en el carrito de la compra, puesto que el cliente aún podría cambiar de opinión y decidir no realizar la compra.

Por lo tanto, es importante encontrar criterios de medición apropiados, aunque no se deben elegir demasiados. Recuerda concentrarte en los factores esenciales y mantener siempre en mente la hipótesis formulada anteriormente. Esto reduce el riesgo de considerar falsamente un elemento como factor de optimización cuando solo se trata de una variable que no arrojará ningún éxito sostenido.

Error 3: Excluir categóricamente pruebas multivariante

En algunos casos, durante la preparación de las pruebas A/B puede presentarse el problema de querer probar más de un elemento en una misma variante, algo que no es posible con un simple test A/B. Los test multivariante son la alternativa que permite la realización de tales pruebas. Sin embargo, esta idea es, a menudo, descartada prematuramente, pues las pruebas multivariante suelen ser consideradas demasiado complejas y sus resultados demasiado imprecisos. Ahora bien, si son utilizados correctamente, estos son claramente la solución óptima al problema descrito. Con las herramientas adecuadas, las diferentes páginas de prueba no solo se realizan con rapidez, sino que sus resultados también son muy fáciles de analizar. Con un poco de práctica también es posible determinar la influencia de los elementos individuales modificados. La única condición es que tu proyecto web tenga suficiente tráfico.

En los test multivariante, la posibilidad de declarar un ganador falso aumenta con el número de versiones de prueba utilizadas, casi de la misma forma que en los test A/B – es por esto que se recomienda limitar el número de variables cuando se implemente este método. Para estar seguro de que una versión es potencialmente mejor que la original, una vez finalizado el test multivariante puedes validar los resultados con una prueba A/B. Sin embargo, recuerda que la probabilidad habitual de error siempre es del 5 por ciento.

Errores estadísticos y de muestra durante la prueba

Es común considerar que un test A/B ha finalizado una vez está online y se han registrado todos los datos relevantes. Esto suele ser consecuencia de la impaciencia y de percepciones incorrectas que, a menudo, prueban lo contrario. Por lo tanto, es importante evitar los siguientes errores:

Error 4: Detener el proceso de prueba de forma anticipada

La posibilidad de leer las estadísticas detalladas es muy útil, pero, a menudo, lleva a asumir conclusiones precipitadas y, en casos extremos, a terminar el test A/B antes de tiempo. La regla de oro es que toda prueba necesita un tiempo mínimo, pues si se detiene durante los primeros momentos, por lo general, los resultados variarán drásticamente. Además, cuanto más larga sea la prueba, mayor será su relevancia, pues así habrá tiempo suficiente para excluir los efectos aleatorios. Si finalizas el test de forma anticipada, corres el riesgo de obtener una imagen totalmente falsa sobre el rendimiento de la variante y la clasificarás de manera incorrecta, ya sea como muy buena o como muy mala.

Debido a que no es fácil determinar una duración óptima para cada prueba, existen herramientas como la calculadora de VWO que te ayudan a determinar los periodos de tiempo durante los cuales debes implementar el test. Es muy probable, no obstante, que te encuentres con muy buenas razones para cancelar una prueba antes de tiempo, por ejemplo, si una variante con un rendimiento significativamente bajo empieza a poner en peligro los intereses económicos de tu proyecto. 

Error 5: Usar procedimientos modernos para acortar el tiempo de prueba

Ya hemos expresado que varias herramientas de A/B testing usan procedimientos que mantienen la tasa de error al mínimo. El teorema de Bayes, por ejemplo, que es utilizado por herramientas como Optimizely y Visual Website Optimizer, promete resultados significativos, incluso cuando no se alcanza el tamaño mínimo de la muestra. Es por esto que, aunque uses herramientas modernas, el riesgo de caer en errores estadísticos no disminuye si basas tu evaluación únicamente en los resultados de una primera prueba. Por un lado, este método se basa en tus estimaciones de éxito de una variante y, por otro, el teorema de Bayes no puede identificar efectos aleatorios iniciales como tales.

Falacias comunes en la evaluación de los resultados del A/B testing

Sin lugar a dudas, conseguir los KPI adecuados, formular las hipótesis correspondientes y organizar e implementar el test A/B es un reto. Sin embargo, el verdadero desafío consiste en analizar los valores recogidos y aplicarlos para lograr los objetivos del proyecto. No cabe duda de que incluso los expertos pueden cometer errores, pero estos son los errores de principiante que deberías evitar a toda costa:

Error 6: Confiar únicamente en los resultados de las herramientas de prueba

El instrumento de prueba utilizado no solo inicia el test y te representa los datos recogidos visualmente, sino que también proporciona información completa acerca de si la respectiva variante representa una mejora y la medida en que representaría beneficios para la tasa de conversión. Además, siempre se declara una variante como ganador absoluto. Sin embargo, al no medir KPI como las ventas absolutas o las devoluciones, para este propósito se hace necesaria la implementación de bases de datos externas. Ahora bien, si los resultados no cumplen con las expectativas, vale la pena evaluar los resultados de tu herramienta de análisis por separado, que, en general, ofrecen una visión detallada del comportamiento de los usuarios.

La inspección selectiva de los datos individuales es la única manera de determinar los valores atípicos y, posiblemente, de filtrar el resultado final. El siguiente ejemplo demuestra por qué dicha inspección puede ser un criterio muy importante a la hora de evitar falsas suposiciones: la herramienta considera a la variante A como óptima y un vistazo a las ventas muestra también que la variante A arrojó mejores resultados. Sin embargo, en un examen más detenido se hace evidente que este resultado en particular se debe a la compra de un único usuario (un cliente B2B). Cuando se resta esta compra a la estadística, el análisis concluye que la variante B arrojó mejores resultados de ventas.

El mismo ejemplo también se aplica al carrito de la compra, la tasa de pedidos y otros indicadores de rendimiento. En cada uno de estos casos se encuentra que los valores extremos afectan en gran medida al promedio ponderado y, por lo tanto, pueden sugerir conclusiones incorrectas.

Error 7: Segmentación muy estricta de los resultados

El examen detallado de los datos del test A/B en combinación con fuentes de datos externas aumentará la perspectiva hacia nuevas opciones. La asignación de los resultados a grupos de usuarios definidos individualmente es muy popular. De esta forma es posible determinar, por ejemplo, cómo han reaccionado los usuarios de un determinado grupo de edad en una región en particular con un navegador específico ante una variable. Sin embargo, cuantos más segmentos se comparen, mayor será la probabilidad de error.

Como consecuencia, es recomendable que los grupos seleccionados sean altamente relevantes para el concepto de tus pruebas y que constituyan una parte representativa de la totalidad de los usuarios. Si, por ejemplo, solo examinas a usuarios hombres menores de 30 años que utilizan su tablet y visitan tu web únicamente los fines de semana, estarás cubriendo una muestra que no es, en absoluto, representativa dentro de la totalidad de tu grupo objetivo. Recuerda que para incluir la segmentación de los resultados durante un test A/B será necesario contar con un periodo de prueba más largo.

Error 8: Poner el éxito en tela de juicio por un muestreo insignificante

Para ilustrar cómo puede afectar en el futuro a la tasa de conversión la transición a una nueva variante, los resultados de las pruebas A/B son utilizados frecuentemente como base para fijar proyecciones concretas. Como medio de representación, estos pronósticos resultan ciertamente eficaces. Sin embargo, en la práctica, y debido a muchos factores, no siempre lo son. Si bien los resultados de las pruebas A/B solo proporcionan información sobre los cambios del comportamiento de los usuarios a corto plazo, los efectos a largo plazo, tales como el impacto en la satisfacción del cliente, no pueden ser medidos con un test corto, por lo que es prematuro asumir la constancia de los patrones de crecimiento. Además, es imposible considerar influencias como las variaciones estacionales, retrasos, cambios en la gama de productos, modificaciones en la base de clientes o problemas técnicos durante la implementación de un test A/B.

La clave para evitar errores estadísticos y falacias en la implementación y evaluación de los resultados de un test de usabilidad para una página web es pensar siempre con cabeza fría. Con seguridad, sacar conclusiones precipitadas implicará también llevarse decepciones, a pesar de que, probablemente, la versión optimizada funcione bien. Finalmente, recuerda que para evaluar y medir correctamente los resultados de un test A/B es necesario pronosticar resultados futuros de forma clara y hacer una evaluación limpia y a conciencia del proceso de trabajo.