«Spam will be a thing of the past in two years’ time!»: con esta profecía so­r­pre­n­día Bill Gates a la opinión pública durante el Fórum Mundial de Economía de Davos en 2004, un tiro errado que aún hoy saca alguna sonrisa a la comunidad online y cie­r­ta­me­n­te garantiza al co­fu­n­da­dor del imperio Microsoft un lugar pree­mi­ne­n­te en la lista de las meteduras de pata más ominosas del sector in­fo­r­má­ti­co para siempre.

Por aquel entonces ni siquiera Gates podía imaginar el curso que el de­sa­rro­llo del spam iba a tomar en los si­guie­n­tes doce años. Aún hoy no pasa un solo día en que los in­te­r­nau­tas no tengan que vérselas con este tipo de contenido pu­bli­ci­ta­rio au­to­má­ti­ca­me­n­te generado, ya sea en la bandeja de entrada del buzón de correo ele­c­tró­ni­co, en su blog favorito, en el apartado de co­me­n­ta­rios de una tienda online o en el libro de visitas de su propia web.

Y es que, en realidad, los artífices del spam siguen ganando en in­te­li­ge­n­cia. Estos programas in­fo­r­má­ti­cos cada vez más autónomos exploran Internet en busca de campos de fo­r­mu­la­rios y otros elementos in­ter­ac­ti­vos presentes en las webs en los que insertar los mensajes de sus pro­gra­ma­do­res, superando incluso las defensas antispam más in­ge­nio­sas con una facilidad pasmosa.

Los captcha han sido el bastión de la web contra los co­me­n­ta­rios spam durante mucho tiempo, pero hoy estos irri­ta­n­tes cue­s­tio­na­rios re­pre­se­n­tan más un obstáculo para los humanos que para estos avanzados programas. De hecho, los estudios más actuales en torno a la te­c­no­lo­gía de los captcha revelan que los robots a menudo muestran una cuota de error más baja incluso que las personas en los métodos que se conocen y utilizan a día de hoy. ¿Significa esto el fin de la era de los códigos captcha, los ro­m­pe­ca­be­zas visuales y las adi­vi­na­n­zas lógicas? En este artículo, nos apro­xi­ma­mos a los campos de apli­ca­ción de esta te­c­no­lo­gía, co­m­pa­ra­mos di­fe­re­n­tes tipos de captcha entre sí y señalamos algunas al­te­r­na­ti­vas di­s­po­ni­bles para prevenir el spam.

¿Qué es un captcha?

Cuando se habla de captcha se hace re­fe­re­n­cia a un in­s­tru­me­n­to de pro­te­c­ción contra el spam que tiene como objetivo defender de abusos a las páginas web in­ter­ac­ti­vas filtrando entradas generadas au­to­má­ti­ca­me­n­te. Su nombre es en realidad un acrónimo de “Co­m­ple­te­ly automated public Turing Test to tell computers and humans apart”, que podría tra­du­ci­r­se al ca­s­te­llano como «Test de Turing público y co­m­ple­ta­me­n­te au­to­ma­ti­za­do para di­fe­re­n­ciar a los humanos de los or­de­na­do­res».

Ya en 1950, el in­fo­r­má­ti­co Alan Turing propuso un pro­ce­di­mie­n­to para poner a prueba el ra­cio­ci­nio de la in­te­li­ge­n­cia ar­ti­fi­cial. Según el pionero de la in­fo­r­má­ti­ca, una máquina estaría ca­pa­ci­ta­da para imitar al intelecto humano si lograra conversar di­gi­ta­l­me­n­te con personas sin que estas pudieran detectar que su in­te­r­lo­cu­tor es en realidad un ordenador.

El Test de Turing encontró su lugar en la historia de la in­ve­s­ti­ga­ción de la in­te­li­ge­n­cia ar­ti­fi­cial desde entonces y solo fue superado en 2014, cuando el su­pe­ro­r­de­na­dor Eugene Goostman consiguió “engañar” a más del 30 por ciento de un jurado in­de­pe­n­die­n­te durante al menos cinco minutos, ha­cié­n­do­le creer que chateaban con un ado­le­s­ce­n­te ucraniano con afición a los conejos de indias y a los textos po­lí­ti­ca­me­n­te in­co­rre­c­tos del rapero Eminem.

Esto, que podría sonar a ciencia ficción, co­n­s­ti­tu­ye hoy uno de los problemas centrales de Internet.  Para las páginas web in­ter­ac­ti­vas es crucial poder di­fe­re­n­ciar a los usuarios que visitan la web de los programas in­fo­r­má­ti­cos en un proceso de ve­ri­fi­ca­ción (human ve­ri­fi­ca­tion) en el cual unos captchas cada vez más refinados han de co­n­tri­buir a detener las entradas au­to­má­ti­cas y las pe­ti­cio­nes de los robots de spam y de clics, co­mú­n­me­n­te de­no­mi­na­dos bots.

¿Cuál es la finalidad de los captchas?

El ámbito más común de actuación de los captchas es el de las apli­ca­cio­nes web que solicitan datos a los usuarios. Ima­gi­ne­mos el caso de una tienda ele­c­tró­ni­ca que permite a sus clientes evaluar sus compras con co­me­n­ta­rios. La prioridad de la tienda pro­ba­ble­me­n­te es ga­ra­n­ti­zar que las entradas han sido escritas realmente por sus clientes o, al menos, por usuarios humanos. Sin embargo, a menudo lo que se encuentra es lo contrario, co­me­n­ta­rios generados au­to­má­ti­ca­me­n­te que en el peor de los casos incluyen un enlace a alguna tienda de la co­m­pe­te­n­cia.

Esto podría evitarse pro­te­gie­n­do los fo­r­mu­la­rios online con un captcha que obligue a los usuarios a verificar su na­tu­ra­le­za humana antes de poder enviar su co­me­n­ta­rio. Estos captchas se en­cue­n­tran hoy en casi todos los ámbitos en los cuales es necesario di­fe­re­n­ciar a las personas de los bots, entre ellos fo­r­mu­la­rios de registro para servicios de correo ele­c­tró­ni­co, boletines, foros y redes sociales, pero también encuestas online o servicios de bu­s­ca­do­res web.

A lo largo de todo este tiempo se han ido de­sa­rro­lla­n­do métodos diversos con los cuales llevar a cabo esta human ve­ri­fi­ca­tion. No obstante, se considera aceptado que ningún pro­ce­di­mie­n­to garantiza una seguridad absoluta ante el spam y que, en cualquier caso, es la usa­bi­li­dad la que sale peor parada.

Di­fe­re­n­tes tipos de captcha para di­fe­re­n­ciar humanos y bots

El concepto que sustenta al captcha se basa en la su­po­si­ción de que a pesar del avance que ca­ra­c­te­ri­za a la in­te­li­ge­n­cia ar­ti­fi­cial, aún sigue habiendo di­fe­re­n­cias en cuanto a la capacidad racional del hombre frente a la de los programas in­fo­r­má­ti­cos. Por ello, cada captcha incluye al menos una tarea que mientras debería poder ser resuelta por una persona sin gran di­fi­cu­l­tad, sitúa a una máquina ante una barrera in­sa­l­va­ble, al menos en teoría.

Los in­s­tru­me­n­tos de ve­ri­fi­ca­ción basados en captchas pueden di­fe­re­n­ciar­se a grandes rasgos de los basados en texto, gráficos, auditivos, ma­te­má­ti­cos, lógicos y lúdicos.

Captchas basados en texto

La forma más antigua de ve­ri­fi­ca­ción online es el captcha de texto y es aquel en el cual se muestran palabras conocidas y co­m­bi­na­cio­nes al­fa­nu­mé­ri­cas di­s­to­r­sio­na­das de tal manera que resultan apenas re­co­no­ci­bles. Para superar esta prueba, el usuario ha de descifrar de qué palabra o secuencia se trata y es­cri­bi­r­la con el teclado en el campo de respuesta. Los pro­ce­di­mie­n­tos más clásicos uti­li­za­dos en la creación de captchas de texto son Gimpy, ez-Gimpy, Gimpy-r y Simard’s HIP.

Esta ma­ni­pu­la­ción se lleva a cabo en varios pasos, en los cuales los ca­ra­c­te­res que forman parte de la secuencia se deforman, se escalan, se giran o se encogen y se combinan con elementos gráficos como líneas, arcos, puntos, de­gra­da­dos de color o ruido de fondo. La siguiente imagen muestra una selección de di­s­to­r­sio­nes posibles de texto que pueden en­co­n­trar­se en Internet.

Los captchas solo pueden re­pre­se­n­tar una pro­te­c­ción fiable contra spam cuando el enigma co­n­s­ti­tu­ye un obstáculo in­sa­l­va­ble para los programas de re­co­no­ci­mie­n­to au­to­má­ti­co de textos, aunque en la práctica esto significa recurrir a una di­s­to­r­sión que también afecta a la co­m­pre­n­sión lectora de las personas.

Podemos entender esto con el ejemplo que sigue a co­n­ti­nua­ción. A la hora de registrar una cuenta en Microsoft es común en­co­n­trar­se con captchas de texto de este tipo:

Para algunos usuarios, reconocer la secuencia SGPKDL podría resultar difícil si tenemos en cuenta que la D está di­s­to­r­sio­na­da de tal forma que fá­ci­l­me­n­te puede co­n­fu­n­di­r­se con una O. Mientras que hay casos en que cabría pre­gu­n­tar­se si la imagen supone realmente un obstáculo para un software de re­co­no­ci­mie­n­to de texto, la tra­n­s­fo­r­ma­ción en esta imagen va tan lejos que incluso un usuario humano podría verse desafiado, es­pe­cia­l­me­n­te si padece de algún tipo de di­s­ca­pa­ci­dad visual. Pre­ci­sa­me­n­te por este motivo un captcha bien im­ple­me­n­ta­do ofrece la po­si­bi­li­dad de omitir la imagen actual y saltar a una siguiente que quizá es menos ambigua. Es fácil ima­gi­nar­se el “en­tu­sia­s­mo” que embarga a los in­te­r­nau­tas cuando se topan con estos captchas mientras navegan por la red de redes.

Esto ha pro­pi­cia­do el de­sa­rro­llo y la co­n­so­li­da­ción de numerosas al­te­r­na­ti­vas a la te­c­no­lo­gía de captchas de texto. Entre ellas destaca es­pe­cia­l­me­n­te la propuesta de Google reCAPTCHA: en lugar de generar se­cue­n­cias alea­to­rias de ca­ra­c­te­res, reCAPTCHA se sirve de la base de datos de proyectos de di­gi­ta­li­za­ción como Google Books o Google Street View. Así, los usuarios reciben en su monitor fra­g­me­n­tos de nombres de calles, de números de viviendas y de señales de tráfico, así como de textos di­gi­ta­li­za­dos, que han de reconocer y escribir con el teclado. El software ofrece siempre dos elementos, uno conocido y ya co­n­fi­r­ma­do, y otro aún sin confirmar. En principio, los usuarios solo han de reconocer el primero para superar el captcha con éxito, pero aquellos usuarios que también descifran el segundo entran a formar parte entonces del programa de di­gi­ta­li­za­ción de Google. Las re­s­pue­s­tas se verifican sobre una base es­ta­dí­s­ti­ca: los elementos a descifrar se presentan siempre a varios usuarios y la respuesta más frecuente se considera la correcta.

El siguiente ejemplo ilustra una forma de reCAPTCHA que aparece, por ejemplo, en el registro en un foro:

Captchas gráficos

Los captchas basados en imágenes co­n­s­ti­tu­yen una al­te­r­na­ti­va a los captchas de texto: en lugar de presentar al usuario una secuencia al­fa­nu­mé­ri­ca alterada, los captchas visuales se apoyan en elementos gráficos co­m­pre­n­si­bles a primera vista. Suele re­cu­rri­r­se para ello a imágenes con motivos co­ti­dia­nos colocadas en mosaico, donde el usuario tiene la misión de pinchar en un motivo es­pe­cí­fi­co, ide­n­ti­fi­car motivos similares o descubrir una relación semántica entre ellos —como aquellos en que se trata de se­le­c­cio­nar todas las imágenes donde aparezca una taza de café.

Google también utiliza captchas co­m­pue­s­tos por una imagen cua­dri­cu­la­da donde el usuario ha de hacer clic sobre áreas de­te­r­mi­na­das, por ejemplo, en los campos donde se visualiza una señal to­po­grá­fi­ca. A di­fe­re­n­cia de como ocurre con los captchas de texto, aquí basta con hacer clic sobre los fra­g­me­n­tos correctos para superar la prueba.

La mayoría de usuarios son capaces de resolver este tipo de enigmas gráficos de un solo vistazo, pero la capacidad de los programas in­fo­r­má­ti­cos para reconocer un motivo, cla­si­fi­car­lo se­má­n­ti­ca­me­n­te y re­la­cio­nar­lo con motivos similares aún está hoy muy limitada. Esto hace que los captchas basados en imagen sean co­n­si­de­ra­dos mucho más eficaces que los métodos basados en texto.

Captchas auditivos

Los captchas de texto e imagen entran en la categoría de métodos gráficos de ve­ri­fi­ca­ción. Para un usuario superar esta prueba depende de su habilidad para reconocer la in­fo­r­ma­ción que se le presenta y aquellas personas con visión limitada o incluso con alguna mi­nu­s­va­lía pueden verse en­fre­n­ta­das a un completo desafío, razón por la cual aquellos captchas que úni­ca­me­n­te apelan a uno de los cinco sentidos de­mue­s­tran una escasa usa­bi­li­dad y son co­n­si­de­ra­dos no ac­ce­si­bles. En co­n­se­cue­n­cia, al im­ple­me­n­tar captchas en una web es co­n­ve­nie­n­te tener en cuenta la po­si­bi­li­dad de que el método escogido de ve­ri­fi­ca­ción facilite encontrar la solución por diversas vías.

Con la intención de permitir el acceso a contenido protegido por captcha también a aquellos con peor vista, los métodos gráficos suelen ir aco­m­pa­ña­dos de los de­no­mi­na­dos captchas de audio o captchas auditivos. Para ello, a menudo se im­ple­me­n­ta un botón con el cual el usuario puede alternar a la versión sonora de una secuencia de cifras que a co­n­ti­nua­ción puede escribir en el campo para la respuesta. En la imagen siguiente vemos cómo im­ple­me­n­ta Yahoo el captcha de audio:

Para ga­ra­n­ti­zar un alto grado de usa­bi­li­dad, la grabación debe ser co­m­pre­n­si­ble y adaptada al idioma del usuario, algo que, aunque lógico a simple vista, no siempre sucede.

Problemas ma­te­má­ti­cos y captchas de lógica

Otra al­te­r­na­ti­va que también tiene en cuenta las di­fi­cu­l­ta­des de aquellos menos avezados vi­sua­l­me­n­te utiliza problemas de álgebra o adi­vi­na­n­zas in­te­le­c­tua­les que deberían impedir la entrada de bots en el sistema. Una operación sencilla como la que se muestra a co­n­ti­nua­ción se puede leer con un lector de pantallas de forma que no excluye a los in­te­r­nau­tas con di­s­po­si­ti­vos de salida no visuales.

Estas sencillas ope­ra­cio­nes ma­te­má­ti­cas pre­su­po­nen una educación básica, pero no re­pre­se­n­tan un obstáculo real para los bots, sabiendo que pre­ci­sa­me­n­te en ma­te­má­ti­cas los or­de­na­do­res superan a las personas. Esto ha llevado a acompañar a este tipo de captchas de di­fe­re­n­tes formas de di­s­to­r­sión gráfica, de forma que la ac­ce­si­bi­li­dad de los lectores de pantalla se ha visto pe­r­ju­di­ca­da. Para ponérselo aún más difícil a los programas, han aparecido captchas que exigen el resultado de la operación de cálculo en su forma numeral o en los cuales se ha de in­tro­du­cir una sola cifra en el campo de respuesta (“Mu­l­ti­pli­ca 7 x 7 y escribe la primera cifra del resultado en el campo de respuesta”: el resultado de la operación es 49, pero la solución al captcha 4).

Otra variante la co­n­s­ti­tu­yen los captchas que utilizan tareas de lógica o preguntas de cultura general, a menudo con una cierta relación temática con la apli­ca­ción web en cuestión. En un foro de software libre como el de Simple Machines, no debe extrañar encontrar un captcha como este:

Las preguntas lógicas o que pre­su­po­nen ciertos co­no­ci­mie­n­tos pueden parecer triviales, pero ante ellas los bots clásicos a menudo se ven superados porque aún no tienen la capacidad de es­ta­ble­cer co­ne­xio­nes de este tipo. Así, algunas preguntas podrían ser:

  • ¿De qué color es el caballo blanco de Santiago?
  • ¿En qué ciudad se encuentra este monumento (Coliseo, Torre Eiffel, Big Ben, etc.)?

En ocasiones, los captchas de este tipo se programan de tal forma que se aceptan varias va­ria­cio­nes, por ejemplo, en ma­yú­s­cu­las o mi­nú­s­cu­las.

Captchas lúdicos

Los we­b­ma­s­te­rs preo­cu­pa­dos por no espantar a sus visitas con captchas crípticos o co­m­pli­ca­das ope­ra­cio­nes ma­te­má­ti­cas pueden apuntarse a la tendencia actual a la ga­mi­fi­ca­ción: pro­vee­do­res como Swee­t­Ca­p­t­cha o Fu­n­Ca­p­t­cha ofrecen juegos en­tre­te­ni­dos que pueden in­te­grar­se en captchas.

Swee­t­Ca­p­t­cha confía en la capacidad aso­cia­ti­va de las personas y plantea tareas de cla­si­fi­ca­ción de gran sencillez a las visitas de una web, como en el siguiente ejemplo, en el cual basta con trasladar las baquetas al tambor para demostrar la calidad humana del usuario.

Swee­t­Ca­p­t­cha utiliza así una variación del clásico captcha con ro­m­pe­ca­be­zas, que los usuarios han de resolver tra­s­la­da­n­do elementos de una imagen a su posición correcta.

En el caso de Fu­n­Ca­p­t­cha, sin embargo, todo da vueltas en torno al círculo: solo cuando el perro de la imagen se encuentra en la posición correcta el software se considera sa­ti­s­fe­cho y deja pasar al usuario.

Si bien no es esto lo que lla­ma­ría­mos “pasárselo en grande”, cie­r­ta­me­n­te se trata de una forma mucho más en­tre­te­ni­da de resolver un enigma que descifrar un fragmento di­s­to­r­sio­na­do de texto.

Pros y contras de los captchas

Si un captcha es efectivo a la hora de impedir el acceso a los spambots pe­r­mi­tie­n­do el paso a las personas sin ob­s­tácu­los, se reduce co­n­si­de­ra­ble­me­n­te el trabajo de ma­n­te­ni­mie­n­to necesario en una web. Mientras que los ope­ra­do­res que ofrecen contenido generado por el usuario se be­ne­fi­cian de no tener que verificar ma­nua­l­me­n­te los co­me­n­ta­rios, un servidor puede verse re­co­m­pe­n­sa­do con una carga menor si las entradas y las pe­ti­cio­nes au­to­má­ti­cas se ven blo­quea­das antes de que activen una respuesta del sistema que exija un gasto elevado de recursos. Dicho esto ¿qué ca­ra­c­te­ri­za a un buen captcha? La in­ve­s­ti­ga­ción en el sector de la in­te­li­ge­n­cia ar­ti­fi­cial avanza a paso seguro y la habilidad de los programas es­pe­cia­li­za­dos para in­te­r­pre­tar textos di­s­to­r­sio­na­dos o resolver tareas in­te­le­c­tua­les mejora a una velocidad de vértigo. Ya en 2014 un equipo de in­ve­s­ti­ga­ción en Google publicó una fórmula con la cual los reCAPTCHA clásicos se resuelven au­to­má­ti­ca­me­n­te en un 99,8 por ciento de los casos. Como base de datos se uti­li­za­ron diez millones de números de viviendas que el equipo había generado con Google Street View. Numerosos pro­vee­do­res de captchas intentan compensar los avances en el apre­n­di­za­je au­to­má­ti­co con métodos cada vez más complejos de ve­ri­fi­ca­ción, llegando a rozar a menudo la frontera de lo factible. Ya en 2010 los in­ve­s­ti­ga­do­res de la Uni­ve­r­si­dad de Stanford) señalaron que en muchos casos los captchas co­n­s­ti­tu­yen un gran desafío incluso para los in­te­r­nau­tas. Estas fueron las co­n­clu­sio­nes a partir de un estudio que pidió a 1.100 personas resolver alrededor de 318.000 captchas de los que eran ha­bi­tua­les por aquel entonces. Los sujetos del estudio re­so­l­vie­ron captchas gráficos en 9,8 segundos de media, mientras que para los auditivos ne­ce­si­ta­ron más del triple de tiempo (28,4 segundos). Cuando se mostraba el mismo captcha gráfico a tres personas, solo un 71 % de los casos coin­ci­dían con la solución, ca­sua­li­dad aún menor en el caso de los sonoros, donde solo un 31 % llegaba a una misma co­n­clu­sión. A todo esto, los in­ve­s­ti­ga­do­res también pudieron poner de relieve que la mitad de los sujetos aba­n­do­na­ban el test auditivo sin siquiera re­so­l­ve­r­lo, lo que demuestra hasta qué punto los métodos de ve­ri­fi­ca­ción (y su rea­li­za­ción) tienen un peso en la mo­ti­va­ción del usuario a la hora de in­ter­ac­tuar con un sitio web. En este contexto, en 2009 la empresa de software como servicio MOZ publicó un artículo en su blog sobre el efecto de los captchas en las tasas de co­n­ve­r­sión de los fo­r­mu­la­rios web. En un estudio de caso, el autor Casey Henry examinó a más de 50 webs co­r­po­ra­ti­vas di­fe­re­n­tes durante seis meses para llegar a la co­n­clu­sión de que las tasas de co­n­ve­r­sión de los fo­r­mu­la­rios (por ejemplo, para recibir un boletín) de­s­ce­n­dían una media de un 3,2 por ciento si los captchas estaban activados, aunque, como co­n­tra­pa­r­ti­da, la entrada de spam también se reducía hasta en un 88 por ciento. Las compañías cuyos ingresos dependen de la in­ter­ac­ción de los usuarios en su web deberían ser las primeras en re­fle­xio­nar si una tasa de rechazo de estas di­me­n­sio­nes es aceptable para ellas. Se trataría, en este caso, de cotejar el gasto por métodos antispam al­te­r­na­ti­vos con las pérdidas de ingresos generadas por los captchas.

Los captchas y la ac­ce­si­bi­li­dad web

Más difícil resulta la elección de la te­c­no­lo­gía adecuada para aquellos ad­mi­ni­s­tra­do­res preo­cu­pa­dos por la ac­ce­si­bi­li­dad de su oferta en la web. Aunque se trata solo de es­ti­ma­cio­nes y estas no son estables, los estudios afirman que las personas con di­s­ca­pa­ci­dad suponen una quinta parte de la población global (20 %) española. Si bien no todas las di­s­ca­pa­ci­da­des di­fi­cu­l­tan el acceso a la red, hay una parte re­ma­r­ca­ble de personas a las que no se debe excluir del acceso a la in­fo­r­ma­ción digital (en el caso de las in­s­ti­tu­cio­nes edu­ca­ti­vas, esto supondría incluso infringir la ley). Para estas personas con alguna di­s­ca­pa­ci­dad, las promesas de Internet suponen un especial alivio de su vida cotidiana y, sin embargo, aún sigue habiendo una gran parte de sitios que no tienen en cuenta los pri­n­ci­pios del acceso universal que predicaba el creador de la red de redes Tim Berners Lee y director del W3C Co­n­so­r­tium (“The power of the web is in its uni­ve­r­sa­li­ty.”). En este sentido, los captchas también suponen en alguna medida una barrera en no pocas ocasiones in­su­pe­ra­ble, por ejemplo, cuando la ve­ri­fi­ca­ción no puede llevarse a cabo debido a li­mi­ta­cio­nes en la vista. Las pautas de ac­ce­si­bi­li­dad al contenido web o Web Content Ac­ce­s­si­bi­li­ty Gui­de­li­nes (WCAG) de la Web Ac­ce­s­si­bi­li­ty Ini­tia­ti­ve (WAI) del consorcio W3C se ocupan de esta pro­ble­má­ti­ca en su relación con los captchas y proponen los si­guie­n­tes puntos como re­qui­si­tos mínimos para un captcha accesible:

  • Cuando se utiliza un contenido gráfico y no de texto para di­fe­re­n­ciar a personas de máquinas se ha de facilitar una al­te­r­na­ti­va de texto que explique la finalidad del contenido gráfico.
  • Siempre que se utilice un método de captcha se ha de diseñar de tal modo que se disponga de al­te­r­na­ti­vas que tengan en cuenta los distintos tipos de di­s­ca­pa­ci­dad.

Estos re­qui­si­tos mínimos son los que se han tomado en co­n­si­de­ra­ción en la redacción de la Norma UNE 139803:2012: Re­qui­si­tos de Ac­ce­si­bi­li­dad para co­n­te­ni­dos en la web, de apli­ca­ción en España, que equivale di­re­c­ta­me­n­te a las Pautas de Ac­ce­si­bi­li­dad para el contenido web WCAG2.0 me­n­cio­na­das arriba. Además de estas exi­ge­n­cias de mínimo cu­m­pli­mie­n­to, es re­co­me­n­da­ble integrar siempre los captchas en un texto ex­pli­ca­ti­vo para ga­ra­n­ti­zar que los usuarios entiendan cómo han de verificar su na­tu­ra­le­za humana. Aquí se incluyen una ex­pli­ca­ción in­te­li­gi­ble del test en un formato de texto apto para lectores de pantalla, así como unos campos de respuesta su­fi­cie­n­te­me­n­te ex­plí­ci­tos. En cualquier caso, los usuarios deberían poder omitir una prueba ilegible y probar con otro captcha diferente si la respuesta no fue co­n­si­de­ra­da válida. Aparte de todo esto, un captcha no debería re­pre­se­n­tar la única opción a la hora de utilizar una oferta en la web. Conviene facilitar al usuario alguna vía de contacto con el ad­mi­ni­s­tra­dor o un servicio de atención al cliente para obtener acceso a la página. Asimismo, el empleo de captchas debería reducirse a un mínimo in­di­s­pe­n­sa­ble: una vez superado uno, no debería tener ningún otro tipo de ve­ri­fi­ca­ción en la misma web.

¿Hay al­te­r­na­ti­vas al viejo conocido?

Aun siendo hoy tan ha­bi­tua­les, estos métodos de ve­ri­fi­ca­ción basados en el test de Turing no son la única solución con la que proteger a una página web in­ter­ac­ti­va contra el spam. Con la Working Group Note 23, la WAI de­sa­rro­lló en 2005 un catálogo de pro­pue­s­tas de pre­ve­n­ción ante el spam sin captcha de­no­mi­na­do “Inac­ce­s­si­bi­li­ty of CAPTCHA. Al­te­r­na­ti­ves to visual Turing Tests on the Web”. Con el paso del tiempo se ha ido co­n­so­li­da­n­do un gran número de métodos para la ide­n­ti­fi­ca­ción de so­li­ci­tu­des y re­s­pue­s­tas au­to­má­ti­cas. Los ex­pli­ca­mos a co­n­ti­nua­ción:

  • Listas negras: si puede ra­s­trear­se un de­te­r­mi­na­do origen para los co­me­n­ta­rios spam o para las pe­ti­cio­nes au­to­má­ti­cas en masa, los ad­mi­ni­s­tra­do­res web cuentan con la po­si­bi­li­dad de bloquear todas las in­ter­ac­cio­nes con esta pro­ce­de­n­cia in­clu­yé­n­do­las en una lista negra. Se trata de una lista que enumera todos aquellos se­r­vi­do­res o di­re­c­cio­nes IP que han de blo­quear­se en caso de pe­ti­cio­nes futuras y que puede crearse ma­nua­l­me­n­te con .htaccess. También es posible recurrir a redes antispam o a pro­vee­do­res pro­fe­sio­na­les que ofrecen en Internet listas negras ce­n­tra­li­za­das y ac­tua­li­za­das co­n­s­ta­n­te­me­n­te.
  • Honeypots: muchos gestores de páginas web des­en­ma­s­ca­ran ca­n­di­da­tos para la lista negra colocando “trampas” en los fo­r­mu­la­rios. Los de­no­mi­na­dos “honeypots” o tarros de miel consisten en añadir en un fo­r­mu­la­rio campos in­vi­si­bles para un usuario humano, pero visibles para un spambot uti­li­za­n­do técnicas de CSS o de Ja­va­S­cri­pt. Los robots, que solo pueden leer el código HTML, rellenan sin pensar todos los campos, incluidos los es­co­n­di­dos a la vista humana. Esto se convierte en un claro indicio de que la in­ter­ac­ción con la web no tiene lugar desde un navegador ni hay una persona detrás de la petición.
  • Filtro de contenido: conocidos como content filters, estos también trabajan con listas negras y re­pre­se­n­tan otra solución para bloquear el spam de co­me­n­ta­rios en blogs, tiendas online o foros. En estas listas los ad­mi­ni­s­tra­do­res definen las llamadas “palabras críticas” (de “hot words”), palabras clave que suelen aparecer en el contexto de los co­me­n­ta­rios spam para ide­n­ti­fi­car au­to­má­ti­ca­me­n­te entradas so­s­pe­cho­sas como contenido generado por máquinas. No obstante, su uti­li­za­ción conlleva el riesgo de bloquear también los co­me­n­ta­rios de personas en los cuales aparezcan palabras de la lista negra.
  • Filtrado en el lado del servidor: la mayoría de se­r­vi­do­res web cuentan con un programa de filtrado que permite detectar in­ter­ac­cio­nes lla­ma­ti­vas con ciertos apartados de una web y con ello limitar los daños que podrían ocasionar las hazañas de los spambots. Estos filtros de spam se apoyan en análisis estáticos, empíricos y co­n­du­c­tua­les para ide­n­ti­fi­car ac­tua­cio­nes so­s­pe­cho­sas a partir de ciertos aspectos y patrones conocidos. Los análisis de los filtros de spam toman como re­fe­re­n­cia las ca­ra­c­te­rí­s­ti­cas técnicas de los agentes de usuario (user agents) y en ellos se evalúa, por ejemplo, el volumen de los datos so­li­ci­ta­dos, la dirección IP, el método utilizado para in­tro­du­cir los datos, los datos de la firma y las páginas visitadas con an­te­rio­ri­dad. Por medio de la fecha y la hora también se puede conocer el tiempo que ha pasado entre la entrega del fo­r­mu­la­rio online y la entrada de la respuesta, porque, al contrario que las personas, los robots son capaces de rellenar fo­r­mu­la­rios a una velocidad co­n­si­de­ra­ble.

Una al­te­r­na­ti­va muy extendida al clásico captcha, basada en el análisis de la conducta, también procede de la casa Google. Con el nombre de “No CAPTCHA reCaptcha“, la compañía ca­li­fo­r­nia­na ofrece desde 2013 un servicio de ve­ri­fi­ca­ción que protege de forma fiable a las páginas in­ter­ac­ti­vas de un uso indebido y que en la mayor parte de los casos no necesita un captcha. En lugar de obligar a los usuarios a resolver una tarea ma­te­má­ti­ca o lógica, el más reciente reCAPTCHA de Google está compuesto úni­ca­me­n­te por una caja de ve­ri­fi­ca­ción.

Cuando un usuario marca la casilla “No soy un robot”, el programa comprueba en un segundo plano qué pro­ba­bi­li­dad hay de que se trate de una entrada au­to­má­ti­ca. Para ello Google utiliza un análisis avanzado de riesgos, aunque la empresa no revela cuáles son los pasos que sigue este algoritmo para realizar esta co­m­pro­ba­ción. En la red, sin embargo, se discuten los si­guie­n­tes aspectos:

  • Cookies
  • Dirección IP
  • Mo­vi­mie­n­tos del ratón en la zona de la caja
  • Duración de la estancia

Si el software concluye que efe­c­ti­va­me­n­te quien ha pinchado en la casilla es una persona, le deja pasar sin dilación. Solo cuando el resultado del análisis apunta a un elevado riesgo de spam entra en juego un captcha. El noCAPTCHA sería, de este modo, una especie de prueba pre­ce­de­n­te que evaluaría si la ve­ri­fi­ca­ción de Turing es necesaria o puede omitirse. Esto, que satisface en cuanto a ac­ce­si­bi­li­dad web, presenta problemas de pri­va­ci­dad, porque al utilizar el nuevo reCAPTCHA, los we­b­ma­s­te­rs están enviando au­to­má­ti­ca­me­n­te a Google los datos de mo­vi­mie­n­to de sus usuarios. En co­n­se­cue­n­cia, estos deberían ser avisados ex­plí­ci­ta­me­n­te en la de­cla­ra­ción de pro­te­c­ción de datos del empleo de software de terceros como pre­ve­n­ción antispam. En este contexto resulta llamativo que para este nuevo reCAPTCHA Google haga re­fe­re­n­cia a las co­n­di­cio­nes generales de uso y a una pro­te­c­ción de datos global que también se aplican para el resto de servicios del buscador. Cabe pensar, por esto, que la empresa también utiliza todos los datos que recolecta de esta forma para mejorar sus pre­s­ta­cio­nes (en pu­bli­ci­dad, por ejemplo) más allá de la pre­ve­n­ción del spam. Si te interesa esta temática, en un artículo del magazín digital Business Insider se aborda esta pro­ble­má­ti­ca en pro­fu­n­di­dad. En la guía para de­sa­rro­lla­do­res, Google facilita un manual detallado para integrar un reCaptcha invisible en una página web, la evolución más reciente del No CAPTCHA reCAPTCHA que no necesita una caja de ve­ri­fi­ca­ción para ser efectivo contra el spam.

En la teoría, el reCAPTCHA invisible funciona en un segundo plano cuando un usuario cu­m­pli­me­n­ta un fo­r­mu­la­rio online con una di­ve­r­si­dad de procesos ana­lí­ti­cos que Google mantiene hasta el momento en secreto.

Ir al menú principal