Captchas cada vez más complicados de resolver

No sé si te ha pasado recientemente, aunque entiendo que sí.

El recaptcha de Google, cuya imagen acompaña estas palabras, es un sistema del cual ya hablé en su día, y que aglutina en la misma herramienta dos funcionalidades que a priori nada tienen que ver… de una manera magistral:

Por un lado, por supuesto, su cometido es que la persona demuestre que es una persona… Que quien intenta realizar la acción que activa el captcha (normalmente enviar datos en un formulario y/o descargar algún documento) es una persona de carne y hueso, y no un bot automático.
Pero por otro lado, ayuda a los sistemas de machine learning de la compañía a entender, de forma colaborativa, el mundo real.

Este último punto es crítico, porque gracias a la compra que en su día hizo Google de esta idea, tienen entre manos una herramienta que la mayoría de administradores de sistemas implementamos en nuestras webs para protegerlas… y que les sirve para que entre todos nosotros estemos enseñando a sus IAs a reconocer señales de tráfico, identificar elementos en fotografías, traducir libros escaneados, etc, etc, etc.

Es decir, que con la tontería, cada vez que resolvemos un captcha estamos trabajando «gratis» para que los algoritmos de Google sean más listos. Teniendo entonces un universo de datos estructurado (imagen/definición) más exacto.

Como decía, una idea magistral.

Hechas las presentaciones, voy al tema en cuestión.

Captchas cada vez más complejos de resolver

El tema es que desde esos inicios del recaptcha en el que simplemente teníamos que escribir la palabra que se nos mostraba de una fotografía escaneada, o seleccionar en una foto un objeto en particular (por ejemplo, señale los semáforos que aparecen en esta fotografía), estamos cada vez más pasando a preguntas que en más de una ocasión, al menos a un servidor, me han hecho dudar.

Hablaba precisamente de ello hace unos cuantos días Bruce en su blog (EN), poniendo de ejemplo ese captcha que he usado de imagen principal para este artículo.

La pregunta que le hacían en esa imagen era que seleccionase de toda la imagen, los cuadrados donde hubiera una bicicleta. Y si no había ninguna, simplemente le diera a Skip.

El tema, y aquí viene lo bueno, es que la pregunta tiene una respuesta muy compleja, atendiendo a la filosofía que haya detrás de la imagen y la pregunta.

Poniéndonos estrictos, en esa fotografía no aparece ninguna bicicleta. Lo que aparece es una una imagen dibujada en el suelo con el icono que históricamente hemos asociado con la idea de una bicicleta.

Pero es que aunque, en efecto, consideremos que para Google el icono de una bicicleta es en esencia una bicicleta, está el problema de qué cuadrados debemos entonces señalar.

Porque… de nuevo, en ningún cuadrado hay una bicicleta. A lo sumo, lo que hay es una parte de una imagen dibujada en el suelo con el icono que históricamente hemos asociado con la idea de una bicicleta.

¿Debemos entonces señalar los cuadrados de la fila 2 y 3?

¿Los cuatro centrales en la imagen?

¿Ninguno?

Lo más gracioso de todo esto es que la respuesta correcta el propio recaptcha tampoco lo sabe, al generarse la respuesta en base a las respuesta que otros usuarios, previamente, hayan decidido poner.

Por ello, puede darse (como de seguro se está dando en la actualidad) situaciones en las que estemos dando pares de datos a la IA erróneos, debido a que un alto porcentaje de usuarios no han entendido la pregunta, o esta está mal formulada. Y, de paso, resolviendo captchas sin que realmente los hayamos resuelto.

Como decía, este tipo de cuestiones filosóficas están siendo cada vez más habituales en los captcha, y complejizan aún más la labor del usuario.

Sin ir más lejos, hace un ratito al intentar entrar en mi cuenta de Payoneer desde el móvil (no pude sacarle foto ya que está bloqueada la captura de imágenes desde la app), me salió como captcha uno que ya he visto en más de una ocasión, y que te pide que identifiques los animales de juguete que aparecen en las imágenes, con una galería de imágenes en la que verás tanto animales reales como animales de peluche.

La pregunta es sencilla de entender, pero resolverla no siempre es sencillo también, habida cuenta de que, en este caso, el animal elegido era un pingüino. Y créeme si te digo que en imágenes de 100x100px de tamaño, diferenciar en algunos casos un pingüino real de un pingüino de peluche no es para nada inmediato.

Es más, estuve unos segundos planteándome si debía pulsar o no en dos de las imágenes, cosa que al final decidí no hacer, y pude pasar el captcha.

¿Acerté entonces todas las imágenes donde aparecía un pingüino de peluche? ¿O me habré equivocado, pero como Google tampoco tiene claro si en esas dos imágenes hay o no un pingüino de peluche, me las ha dado como correctas, añadiendo aún mayor ruido a sus sistemas de machine learning?

U otro ejemplo, este de hace unos días:

Identificar en las imágenes un mar tormentoso. Y en la galería de imágenes, fotos y pinturas de mares.

Por supuesto, entre uno de una playa paradisíaca y otro de una tormenta con grandes olas, la respuesta es inmediata. Pero… ¿entre un mar en calma con buen día, y un mar en calma con tormenta? ¿Y si el cielo está claramente muy «amenazante», pero en la imagen no llego a ver, por lo cercana que está, si hay o no oleaje?

De pronto, un sistema que debería ser inmediato de resolver para el humano, deja de serlo, y me hace tener que estrujarme el cerebro más de la cuenta.

El tema, como te decía, es de lo más interesante :).

En CyberBrainers ayudamos a empresas y usuarios a prevenir, monitorizar y minimizar los daños de un ataque informático o una crisis reputacional. Si estás en esta situación, o si quieres evitar estarlo el día de mañana, escríbenos y te preparamos una serie de acciones para remediarlo.

Monitorización y escucha activa

Ponemos nuestras máquinas a escuchar para identificar potenciales fugas de información, campañas de fraude/extorsión y usurpación de identidad que estén en activo, y/o datos expuestos de ti o de tu organización.

Planes de autoridad y Presencia Digital

Ayudamos a organizaciones y particulares a definir la estrategia e implementar acciones digitales que mitiguen los posibles daños reputacionales que pueda sufrir en el futuro.

Gestión de crisis reputacionales

Cuando el mal ya está hecho, establecemos un calendario de acciones para reducir su duración e impacto, y que la organización y/o persona pueda volver a la normalidad lo antes posible.

Cuéntanos tu caso

Pablo F. Iglesias

Pablo F. Iglesias es el fundador de CyberBrainers, consultora especializada en blindaje reputacional, construcción de autoridad digital y asesoramiento a víctimas de fraude online, de EliminamosContenido, el servicio de desindexación y eliminación de contenido dañino en Internet, y del sello editorial Ediciones PY.

Speaker internacional, Experto en ayudar a referentes digitales, influencers y marcas personales a diversificar su presencia y construir reputaciones inquebrantables. Especialista en transformar la presencia online de referentes a través de estrategias de diversificación digital, posicionamiento SEO, apariciones en medios y blindaje preventivo ante crisis reputacionales.

Reconocido divulgador en Seguridad TIC, ganador de varios premios ESET, Bitácoras y Red Seguridad a la divulgación en Ciberseguridad, colaborador habitual en varios programas de televisión, radio y periódicos, y representante del emprendimiento español en Silicon Valley.

Autor de seis libros y host del videopodcast enCLAVE DIGITAL.

Actualmente asesora a grandes patrimonios y a víctimas de fraudes online, demostrando con hechos su filosofía de diversificación y gestión de riesgo.