bots tercer entorno


El otro día mantenía una conversación por Twitter con algunos compañeros de medios digitales al hilo de los números que manejan sus perfiles sociales.

Mi intervención venía a poner un poco en contexto la situación, habida cuenta de que esos números de followers (y como veremos, de visitas del perfil) no representan absolutamente nada (ES), y que de hecho, estan más bien influenciados por criterios puramente exógenos, alejados del valor que la gente de marketing les da como elemento cuantificable del sentiment.

Parte de esta diatriba acabó por plasmarse en el artículo que Javier Lacort publicaba en Hipertextual (ES) sobre el impacto que tiene el propio servicio de recomendación de perfiles a los que seguir de Twitter. Hipertextual, como otros tantos del sector, aparece como recomendación a todos aquellos usuarios hispanohablantes que se crean una nueva cuenta en la red de microblogging y marcan que están interesados en Tecnología. Y puesto que el servicio te obliga a seguir a unos cuantos perfiles antes de empezar a usarlo, sus números acaban figurando desproporcionadamente a la audiencia que en realidad tienen (entre los que me incluyo), con un porcentaje altísimo de perfiles “huevo” (gente que se crea una cuenta, y debido a sus barreras de entrada, la abandona a los pocos días sin tan siquiera haber cambiado su foto de perfil, que por defecto es un huevo).

La otra parte me sirve para adelantar el tema del día, y es que además de este factor, estos KPIs se ven influenciados por el cada vez mayor número de bots que pululan por la red, sean exclusivos de Twitter o simples crawlers con diversos objetivos.

Internet es pasto de algoritmos automatizados

Ya por 2013 compartí en un informe de Incapsula en el que, en base al estudio del tráfico al que esta plataforma de CDN tiene acceso (el ser uno de los intermediarios que permiten que el contenido llegue a nuestros dispositivos es una ventaja), aseguraban que el 61% del tráfico mundial está consumido por bots, dejando un 39% para los humanos.

Esto es fácilmente contrastable si tenemos la capacidad de comparar los datos de analítica de un servicio (sea un perfil de red social, una web, un foro…) con dos o más plataformas.

Google Analytics, que es la que seguramente la mayoría utilizamos, bloquea prácticamente todo el tráfico automatizado que un site recibe, y en base a los sistemas de tracking que tiene (basados no en el ping, sino en el profiling y cookies que utiliza), da unos datos relativamente cercanos a la realidad del impacto “humano” de esa web, que correspondería a ese 39% de tráfico de usuarios que por 2013 se había cuantificado.


Pero como expliqué en su día, basta utilizar un servicio de analítica que opere a nivel de capa de infraestructura como el CDN de cloudflare o a nivel de servidor, para darnos cuenta que el volumen de tráfico que tiene que soportar un servicio es tranquilamente hasta tres veces más del que presuntamente proviene de usuarios.

Ahí entran crawlers como los de Google y el resto de buscadores, pero también bots que buscan páginas desprotegidas para vulnerarlas y utilizarlas en diversas campañas de phishing y malvertising, algoritmos que recorren la web con fines puramente estadísticos, bots de herramientas de analítica que ayudan a profesionales como el que escribe estas palabras a realizar sus investigaciones, servicios de automatización de acciones pre-parametrizados por usuarios, y un largo etcétera.

Al final, lo que tenemos es un tercer entorno cada vez más controlado por máquinas. Lo cual, por cierto, no está mal, siempre y cuando estos algoritmos nos mejoren la experiencia y nos ahorren trabajo.

Algo que no siempre se cumple, como veremos a continuación.

La interacción entre bots sigue siendo aún muy caótica

Bajo esta misma premisa, Taha Yasseri, investigador de la Universidad de Oxford, y su equipo, se plantearon estudiar cómo se relacionan entre sí los bots que pululan por la red (EN/PDF). Y ya de paso, en qué se diferencian sus acciones de las que realizamos los humanos:

Un creciente número de decisiones, opciones, elecciones y servicios dependen ahora del correcto, eficaz y exitoso funcionamiento de los bots. Sabemos muy poco acerca de la vida y la evolución de nuestros “minions” digitales.

Para ello recurrieron a un laboratorio de pruebas (la Wikipedia en inglés), un lapso de tiempo finito (10 años) y un universo acotado (solo los bots que utiliza la Wikipedia para mejorar su contenido), y los resultados son cuanto menos curiosos:


Encontramos que, aunque los bots de Wikipedia están diseñados para dar soporte a la enciclopedia, a menudo escriben sobre las ediciones realizadas por otros bots y estas estériles “batallas” a veces pueden prolongarse durante años.

Es decir, que los bots tienden a llevarse la contraria entre sí. Más que los humanos, quiero decir.

Basta analizar el impacto que tienen las reversiones (ediciones que modifican un artículo para restaurar una versión anterior) entre humanos y bots para darse cuenta de este hecho.

Durante le periodo de tiempo estudiado, los humanos se revertieron entre sí alrededor de tres veces de media, frente a las ciento cinco veces de los bots.

Hay además diferencias notables entre el impacto de los bots según el idioma. Los bots de la Wikipedia en portugués han llegado a revertirse hasta 185 veces. Los alemanes, alrededor de 24.

Algo seguramente debido al propio ecosistema de bots en otros idiomas (está claro que la Wikipedia en inglés cuenta con el parqué de bots más amplio). Más competencia, más agresividad.

Además, se producen diferencias sustanciales en el modus operandi de humanos y bots. Los primeros tienden a realizar modificaciones entre los dos minutos posteriores al cambio (bien porque tienen puesta alguna alerta, o bien porque están en ese mismo momento “a la caza” de ediciones falsas), en las últimas 24 horas (te llega la alerta pero la guardas para cuando tengas un rato) o un año después (revisión que se realiza a X meses vista). Por contra, los robots no siguen patrón alguno. Repasan los artículos sistemáticamente (a diferencia del humano, que lo hace bajo una serie de criterios).


Pero el estudio me pareció verdaderamente interesante por ser de los primeros que me encuentro que analizan, con un universo acotado, la relación que tienen las máquinas entre sí.

Inclusive dentro de un entorno controlado como es la Wikipedia (para que te acepten un bot, éste debe cumplir unas estrictas normas declaradas en su política de bots (ES)), no existe coordinación alguna, y eso acaba por dibujar escenarios caóticos donde sistemáticamente un bot pisa el trabajo del anterior, y el siguiente hará nuevamente lo mismo.

Lo que demuestra que en última instancia, el fallo se debe no tanto al propio algoritmo, sino a la falta de coordinación entre sus desarrolladores. Y si me apura, a la propia política de bots.

El que cohabiten diferentes culturas, diferentes idiomas y localizaciones, complica hasta el extremo que lo que aparentemente debería funcionar se vuelva caótico.

Y todo eso en un universo que recalco, está bastante controlado.

Ahora figúrese lo que está ocurriendo fuera de los jardines vallados de una plataforma en particular. Esas guerras abiertas e inacabables que están ahora mismo ocurriendo justo en esta página, en la que interfieren múltiples frentes, cada uno programado “a su manera”, llevándose la contraria sobre X temas, mientras usted lee este artículo aparentemente en calma.

Da qué pensar, ¿verdad?