Ac­tua­l­me­n­te, probar la fu­n­cio­na­li­dad de los diversos elementos de una web por medio de un test A/B es una práctica común para la mayoría de de­sa­rro­lla­do­res y ope­ra­do­res web. Si la página web cuenta con el tráfico su­fi­cie­n­te, este método de ensayo revela rá­pi­da­me­n­te si un escenario A, por ejemplo, garantiza una mejor co­n­ve­r­sión que un escenario B. Sin embargo, es muy frecuente en­co­n­trar­se con algunos ob­s­tácu­los tanto en la pla­ni­fi­ca­ción y durante la fase de prueba como en la fase final. A co­n­ti­nua­ción te mostramos errores es­ta­dí­s­ti­cos y de medición pa­r­ti­cu­la­r­me­n­te ex­te­n­di­dos y te damos algunos consejos para evitarlos.

Errores durante la pla­ni­fi­ca­ción de un test A/B

Incluso antes de empezar la prueba, las falsas su­po­si­cio­nes y los pre­jui­cios re­su­l­ta­n­tes pueden marcar el rumbo al fracaso. Error 1: Renunciar a una hipótesis y, en su lugar, dejarlo todo al azar

Pro­ba­ble­me­n­te el error más grave que se puede cometer en la fase previa a la im­ple­me­n­ta­ción de la prueba es pre­s­ci­n­dir de una hipótesis propia con la esperanza de encontrar la correcta en un número elevado de variantes. Si bien es cierto que a mayor número de variantes al azar, mayor es la pro­ba­bi­li­dad de encontrar un ganador, la es­ta­dí­s­ti­ca también aplica al hecho de que este ganador podría no aportar ninguna mejora si­g­ni­fi­ca­ti­va para el proyecto web. En solo un 5% de los casos una única versión del test tiene un efecto si­g­ni­fi­ca­ti­vo en la op­ti­mi­za­ción de la web, algo realmente im­pro­ba­ble. Cuantas más variables se utilicen, mayor es la pro­ba­bi­li­dad de que se produzca un error fu­n­da­me­n­tal de este tipo, por ejemplo: para 3 variantes di­fe­re­n­tes las pro­ba­bi­li­da­des son del 14 por ciento y del 34 por ciento para 8 variables. Al final de un test A/B es muy difícil saber la razón por la cual uno u otro factor tienen un impacto positivo en la op­ti­mi­za­ción web cuando no has sido tú quien formuló la hipótesis de prueba. En cambio, cuando formulas tú mismo la hipótesis de que agrandar un botón aumentará la tasa de co­n­ve­r­sión, puedes in­te­r­pre­tar más fá­ci­l­me­n­te los re­su­l­ta­dos. En resumen, un test A/B no se puede dejar al azar y debe rea­li­zar­se siempre impulsado por una hipótesis y estar limitado a un número razonable de variantes. Adi­cio­na­l­me­n­te, puedes trabajar con he­rra­mie­n­tas como Op­ti­mi­ze­ly que di­s­mi­nu­yen la pro­ba­bi­li­dad de error y facilitan la rea­li­za­ción de pruebas con mejores re­su­l­ta­dos.

Error 2: Fijar los in­di­ca­do­res falsos para de­te­r­mi­nar una prueba exitosa

Los Key Pe­r­fo­r­ma­n­ce In­di­ca­to­rs (KPI) cruciales para tu proyecto de­sem­pe­ñan un papel clave en las pruebas A/B y, por lo tanto, no deben su­b­e­s­ti­mar­se. Si bien el aumento de visitas y clics en un blog o portal de noticias re­pre­se­n­tan co­n­ve­r­sio­nes muy valiosas, para una tienda online estos factores no son más que una tendencia positiva. Los pedidos, la tasa de de­vo­lu­cio­nes, las ventas y los be­ne­fi­cios son in­di­ca­do­res mucho más im­po­r­ta­n­tes para una tienda ele­c­tró­ni­ca. Debido a la di­fi­cu­l­tad para medirlos, los test A/B que tienen a la ganancia absoluta como principal KIP están asociados a un esfuerzo mayor. Sin embargo, estas pruebas arrojan es­ti­ma­cio­nes más fiables de las que pro­po­r­cio­na­ría una prueba que se concentra solo en la co­lo­ca­ción de un artículo en el carrito de la compra, puesto que el cliente aún podría cambiar de opinión y decidir no realizar la compra.

Por lo tanto, es im­po­r­ta­n­te encontrar criterios de medición apro­pia­dos, aunque no se deben elegir de­ma­sia­dos. Recuerda co­n­ce­n­trar­te en los factores ese­n­cia­les y mantener siempre en mente la hipótesis formulada an­te­rio­r­me­n­te. Esto reduce el riesgo de co­n­si­de­rar fa­l­sa­me­n­te un elemento como factor de op­ti­mi­za­ción cuando solo se trata de una variable que no arrojará ningún éxito sostenido.

Error 3: Excluir ca­te­gó­ri­ca­me­n­te pruebas mu­l­ti­va­ria­n­te

En algunos casos, durante la pre­pa­ra­ción de las pruebas A/B puede pre­se­n­tar­se el problema de querer probar más de un elemento en una misma variante, algo que no es posible con un simple test A/B. Los test mu­l­ti­va­ria­n­te son la al­te­r­na­ti­va que permite la rea­li­za­ción de tales pruebas. Sin embargo, esta idea es, a menudo, de­s­ca­r­ta­da pre­ma­tu­ra­me­n­te, pues las pruebas mu­l­ti­va­ria­n­te suelen ser co­n­si­de­ra­das demasiado complejas y sus re­su­l­ta­dos demasiado im­pre­ci­sos. Ahora bien, si son uti­li­za­dos co­rre­c­ta­me­n­te, estos son cla­ra­me­n­te la solución óptima al problema descrito. Con las he­rra­mie­n­tas adecuadas, las di­fe­re­n­tes páginas de prueba no solo se realizan con rapidez, sino que sus re­su­l­ta­dos también son muy fáciles de analizar. Con un poco de práctica también es posible de­te­r­mi­nar la in­flue­n­cia de los elementos in­di­vi­dua­les mo­di­fi­ca­dos. La única condición es que tu proyecto web tenga su­fi­cie­n­te tráfico. En los test mu­l­ti­va­ria­n­te, la po­si­bi­li­dad de declarar un ganador falso aumenta con el número de versiones de prueba uti­li­za­das, casi de la misma forma que en los test A/B – es por esto que se re­co­mie­n­da limitar el número de variables cuando se im­ple­me­n­te este método. Para estar seguro de que una versión es po­te­n­cia­l­me­n­te mejor que la original, una vez fi­na­li­za­do el test mu­l­ti­va­ria­n­te puedes validar los re­su­l­ta­dos con una prueba A/B. Sin embargo, recuerda que la pro­ba­bi­li­dad habitual de error siempre es del 5 por ciento.

Errores es­ta­dí­s­ti­cos y de muestra durante la prueba

Es común co­n­si­de­rar que un test A/B ha fi­na­li­za­do una vez está online y se han re­gi­s­tra­do todos los datos re­le­va­n­tes. Esto suele ser co­n­se­cue­n­cia de la im­pa­cie­n­cia y de pe­r­ce­p­cio­nes in­co­rre­c­tas que, a menudo, prueban lo contrario. Por lo tanto, es im­po­r­ta­n­te evitar los si­guie­n­tes errores: Error 4: Detener el proceso de prueba de forma an­ti­ci­pa­da

La po­si­bi­li­dad de leer las es­ta­dí­s­ti­cas de­ta­lla­das es muy útil, pero, a menudo, lleva a asumir co­n­clu­sio­nes pre­ci­pi­ta­das y, en casos extremos, a terminar el test A/B antes de tiempo. La regla de oro es que toda prueba necesita un tiempo mínimo, pues si se detiene durante los primeros momentos, por lo general, los re­su­l­ta­dos variarán drá­s­ti­ca­me­n­te. Además, cuanto más larga sea la prueba, mayor será su re­le­va­n­cia, pues así habrá tiempo su­fi­cie­n­te para excluir los efectos alea­to­rios. Si finalizas el test de forma an­ti­ci­pa­da, corres el riesgo de obtener una imagen to­ta­l­me­n­te falsa sobre el re­n­di­mie­n­to de la variante y la cla­si­fi­ca­rás de manera in­co­rre­c­ta, ya sea como muy buena o como muy mala. Debido a que no es fácil de­te­r­mi­nar una duración óptima para cada prueba, existen he­rra­mie­n­tas como la ca­l­cu­la­do­ra de VWO que te ayudan a de­te­r­mi­nar los periodos de tiempo durante los cuales debes im­ple­me­n­tar el test. Es muy probable, no obstante, que te en­cue­n­tres con muy buenas razones para cancelar una prueba antes de tiempo, por ejemplo, si una variante con un re­n­di­mie­n­to si­g­ni­fi­ca­ti­va­me­n­te bajo empieza a poner en peligro los intereses eco­nó­mi­cos de tu proyecto. 

Error 5: Usar pro­ce­di­mie­n­tos modernos para acortar el tiempo de prueba

Ya hemos expresado que varias he­rra­mie­n­tas de A/B testing usan pro­ce­di­mie­n­tos que mantienen la tasa de error al mínimo. El teorema de Bayes, por ejemplo, que es utilizado por he­rra­mie­n­tas como Op­ti­mi­ze­ly y Visual Website Optimizer, promete re­su­l­ta­dos si­g­ni­fi­ca­ti­vos, incluso cuando no se alcanza el tamaño mínimo de la muestra. Es por esto que, aunque uses he­rra­mie­n­tas modernas, el riesgo de caer en errores es­ta­dí­s­ti­cos no disminuye si basas tu eva­lua­ción úni­ca­me­n­te en los re­su­l­ta­dos de una primera prueba. Por un lado, este método se basa en tus es­ti­ma­cio­nes de éxito de una variante y, por otro, el teorema de Bayes no puede ide­n­ti­fi­car efectos alea­to­rios iniciales como tales.

Falacias comunes en la eva­lua­ción de los re­su­l­ta­dos del A/B testing

Sin lugar a dudas, conseguir los KPI adecuados, formular las hipótesis co­rre­s­po­n­die­n­tes y organizar e im­ple­me­n­tar el test A/B es un reto. Sin embargo, el verdadero desafío consiste en analizar los valores recogidos y apli­car­los para lograr los objetivos del proyecto. No cabe duda de que incluso los expertos pueden cometer errores, pero estos son los errores de pri­n­ci­pia­n­te que deberías evitar a toda costa:

Error 6: Confiar úni­ca­me­n­te en los re­su­l­ta­dos de las he­rra­mie­n­tas de prueba

El in­s­tru­me­n­to de prueba utilizado no solo inicia el test y te re­pre­se­n­ta los datos recogidos vi­sua­l­me­n­te, sino que también pro­po­r­cio­na in­fo­r­ma­ción completa acerca de si la re­s­pe­c­ti­va variante re­pre­se­n­ta una mejora y la medida en que re­pre­se­n­ta­ría be­ne­fi­cios para la tasa de co­n­ve­r­sión. Además, siempre se declara una variante como ganador absoluto. Sin embargo, al no medir KPI como las ventas absolutas o las de­vo­lu­cio­nes, para este propósito se hace necesaria la im­ple­me­n­ta­ción de bases de datos externas. Ahora bien, si los re­su­l­ta­dos no cumplen con las ex­pe­c­ta­ti­vas, vale la pena evaluar los re­su­l­ta­dos de tu he­rra­mie­n­ta de análisis por separado, que, en general, ofrecen una visión detallada del co­m­po­r­ta­mie­n­to de los usuarios.

La in­s­pe­c­ción selectiva de los datos in­di­vi­dua­les es la única manera de de­te­r­mi­nar los valores atípicos y, po­si­ble­me­n­te, de filtrar el resultado final. El siguiente ejemplo demuestra por qué dicha in­s­pe­c­ción puede ser un criterio muy im­po­r­ta­n­te a la hora de evitar falsas su­po­si­cio­nes: la he­rra­mie­n­ta considera a la variante A como óptima y un vistazo a las ventas muestra también que la variante A arrojó mejores re­su­l­ta­dos. Sin embargo, en un examen más detenido se hace evidente que este resultado en pa­r­ti­cu­lar se debe a la compra de un único usuario (un cliente B2B). Cuando se resta esta compra a la es­ta­dí­s­ti­ca, el análisis concluye que la variante B arrojó mejores re­su­l­ta­dos de ventas.

El mismo ejemplo también se aplica al carrito de la compra, la tasa de pedidos y otros in­di­ca­do­res de re­n­di­mie­n­to. En cada uno de estos casos se encuentra que los valores extremos afectan en gran medida al promedio ponderado y, por lo tanto, pueden sugerir co­n­clu­sio­nes in­co­rre­c­tas.

Error 7: Se­g­me­n­ta­ción muy estricta de los re­su­l­ta­dos

El examen detallado de los datos del test A/B en co­m­bi­na­ción con fuentes de datos externas aumentará la pe­r­s­pe­c­ti­va hacia nuevas opciones. La asi­g­na­ción de los re­su­l­ta­dos a grupos de usuarios definidos in­di­vi­dua­l­me­n­te es muy popular. De esta forma es posible de­te­r­mi­nar, por ejemplo, cómo han reac­cio­na­do los usuarios de un de­te­r­mi­na­do grupo de edad en una región en pa­r­ti­cu­lar con un navegador es­pe­cí­fi­co ante una variable. Sin embargo, cuantos más segmentos se comparen, mayor será la pro­ba­bi­li­dad de error.

Como co­n­se­cue­n­cia, es re­co­me­n­da­ble que los grupos se­le­c­cio­na­dos sean altamente re­le­va­n­tes para el concepto de tus pruebas y que co­n­s­ti­tu­yan una parte re­pre­se­n­ta­ti­va de la totalidad de los usuarios. Si, por ejemplo, solo examinas a usuarios hombres menores de 30 años que utilizan su tablet y visitan tu web úni­ca­me­n­te los fines de semana, estarás cubriendo una muestra que no es, en absoluto, re­pre­se­n­ta­ti­va dentro de la totalidad de tu grupo objetivo. Recuerda que para incluir la se­g­me­n­ta­ción de los re­su­l­ta­dos durante un test A/B será necesario contar con un periodo de prueba más largo.

Error 8: Poner el éxito en tela de juicio por un muestreo in­si­g­ni­fi­ca­n­te

Para ilustrar cómo puede afectar en el futuro a la tasa de co­n­ve­r­sión la tra­n­si­ción a una nueva variante, los re­su­l­ta­dos de las pruebas A/B son uti­li­za­dos fre­cue­n­te­me­n­te como base para fijar pro­ye­c­cio­nes concretas. Como medio de re­pre­se­n­ta­ción, estos pro­nó­s­ti­cos resultan cie­r­ta­me­n­te eficaces. Sin embargo, en la práctica, y debido a muchos factores, no siempre lo son. Si bien los re­su­l­ta­dos de las pruebas A/B solo pro­po­r­cio­nan in­fo­r­ma­ción sobre los cambios del co­m­po­r­ta­mie­n­to de los usuarios a corto plazo, los efectos a largo plazo, tales como el impacto en la sa­ti­s­fa­c­ción del cliente, no pueden ser medidos con un test corto, por lo que es prematuro asumir la co­n­s­ta­n­cia de los patrones de cre­ci­mie­n­to. Además, es imposible co­n­si­de­rar in­flue­n­cias como las va­ria­cio­nes es­ta­cio­na­les, retrasos, cambios en la gama de productos, mo­di­fi­ca­cio­nes en la base de clientes o problemas técnicos durante la im­ple­me­n­ta­ción de un test A/B.

La clave para evitar errores es­ta­dí­s­ti­cos y falacias en la im­ple­me­n­ta­ción y eva­lua­ción de los re­su­l­ta­dos de un test de usa­bi­li­dad para una página web es pensar siempre con cabeza fría. Con seguridad, sacar co­n­clu­sio­nes pre­ci­pi­ta­das implicará también llevarse de­ce­p­cio­nes, a pesar de que, pro­ba­ble­me­n­te, la versión op­ti­mi­za­da funcione bien. Fi­na­l­me­n­te, recuerda que para evaluar y medir co­rre­c­ta­me­n­te los re­su­l­ta­dos de un test A/B es necesario pro­no­s­ti­car re­su­l­ta­dos futuros de forma clara y hacer una eva­lua­ción limpia y a co­n­cie­n­cia del proceso de trabajo.

Ir al menú principal