La era de los trolls educados como defensa frente a IAs aún en pañales

Troll internet

Hace unas semanas Alphabet presentaba Perspective, un sistema de moderación de comentarios que pretendía luchar contra la ya histórica asincronicidad de la gestión de comunidades.

Es, de facto, un tema que he tratado en profundidad en más de una ocasión, inclusive dedicándole un Especial. Conforme un medio (blog, foro, periódico, canal…) crece, la comunidad lo hace con él, y paulatinamente la calidad del contenido allí compartido va perdiendo fuerza frente a un número cada vez mayor de contenido banal o directamente molesto.

Por poner varios ejemplos, en este blog de media me entran unos 10 comentarios diarios, y quitando muy pocas ocasiones, la aportación suma al discurso de la pieza (o bien la critica para dar otro punto de vista, o bien se utiliza para preguntar algo que no ha quedado del todo claro, o bien se plantea como un añadido al tema o temas tratados).

Cuando un servidor era administrador de uno de los foros más grandes de un popular juego online con miles de usuarios diarios, la calidad del contenido era pésima, y la mayor parte del tiempo tenía que dedicarlo a moderar los hilos. Conforme más número de personas colaboran mayor desequilibrio se produce entre aquellos debates interesantes y aquellos otros que no sirven más que para echar leña al fuego.

Para colmo, hay que buscar un equilibrio sano entre lo que podemos considerar libertad de expresión y aquello otro que directamente tiene como objetivo intoxicar el debate. Un troll puede acabar acaparando buena parte del discurso y poniendo contra la comunidad al moderador excusándose en su derecho a expresar lo que él opina.

Y algunos me dirán que seguramente la tipología y temáticas tratadas en cada uno de estos dos ejemplos incitan a ello. Cosa que hasta cierto punto es verdad, pero que recalco, lo vemos a diario en medios de comunicación y blogs “venidos a más” cuyo sector es, como en este caso, técnico.

Algo que lleva a cada vez más grandes canales a bloquear los comentarios por defecto, perdiendo así la opción a que la comunidad participe. Ya no solo porque en efecto acaban siendo un nido de trolleos y contenido insulso, sino porque, de nuevo, al ir creciendo la audiencia, llega el momento en el que tienes que decidir si destinar recursos específicos a moderar los comentarios (intentando así que esta sección siga aportando el valor que antiguamente seguramente aportaba) o bien centrarte en la creación de contenido, que debería ser lo importante y que además es lo que hace que esos potenciales comentaristas vengan a tu medio (ergo, $$$).

Y se ha intentado de todo: Desde dejarlos completamente a su libre albedrío (como hace Marca, por ejemplo, y que ha demostrado ser profundamente pernicioso), hasta dedicar personal a su gestión (lo cual, a poco que echemos cálculos, no sale a cuenta), pasando porque sean los propios autores quienes se encarguen de sus propios hilos (casi igual que el anterior), con sistemas de pre-moderación como podrían ser los filtros de contenido, con la externalización de su gestión, con un doble checkin que haga enfrentarse al comentarista a su propia pieza, o incluso con un muro de contenido que criba aquellos usuarios habituales de paracaidistas (ES) que acaban de llegar por primera vez al medio, o estableciendo algún tipo de pseudo-moderación, ya sea en base a sistemas de karma (nuestro contenido se posiciona mejor o peor dependiendo de la valoración que el resto de la Comunidad tiene de nosotros) o de pura valoración (cada contenido se posiciona mejor o peor dependiendo de cómo sea valorado por el resto que siguen el hilo).

Se ha probado de todo, y el problema persiste.

La última, afianzada en el hype actual por la inteligencia artificial, ha sido externalizar en la medida de lo posible esta gestión en una máquina que, como en el caso de los controles anti spam, nos va a permitir pre-moderar el contenido.

Perspective no deja de ser por tanto una evolución lógica de los filtros anti spam de toda la vida. Ya no solo va a intentar ocultar todo contenido publicado de manera automática (por otros robots) y/o por operarios con el único fin de spamear algún tipo de enlace o contenido, sino de paso intenta analizar el contenido publicado por los usuarios legítimos y valorarlo en una escala del 0 al 100, donde el 100 es un contenido claramente tóxico, y el 0 bien podría haber sido escrito por la abuela entrañable de un cuento de Disney.

Ha estado en pruebas estos últimos días en el NewYorkTimes (EN), y como era de esperar, la cosa no ha funcionado como se esperaba.

La sutileza del lenguaje humano es incomprensible para una máquina

Leído en TechnologyReview (ES):

“Trump es una mierda” logró un enorme 96%, pero el término neonazi “14/88” sólo obtuvo un 5%. “Hay pocos musulmanes que de verdad representen una amenaza terrorista” recibió un 79%, mientras que “guerra racial ya” sólo sacó un 24%. “Hitler fue antisemita” logró un 70%, pero “Hitler no era antisemita” sólo sacó un 53%, y “El holocausto nunca sucedió” se quedó en un tímido 21%. Y mientras “gasear a los judíos” consiguió un 29%, reformular la frase como “Por favor, gaseen a los judíos. Gracias.” redujo la calificación a un mero 7%. (“Los judíos son humanos”, sin embargo recibió un 72%. Y, ¿”Los judíos no son humanos”? Un 64%).

¿Donde está el problema entonces?

Que parece que el sistema de Jigsaw está analizando cualitativamente el contenido en base al valor de las palabras, no del contexto. Y esto para todos aquellos que trabajamos en analítica y vigilancia digital es el día a día.

Los sistemas de valoración del sentiment actuales son incapaces de valorar adecuadamente el contexto de una frase, quedándose en el valor medio de las palabras que contiene. Así, utilizando uno de los ejemplos mencionados, el solo hecho de incluir en una frase la palabra “violación” hace que aumente las probabilidades de que el sistema la considere tóxica, cuando quizás se está utilizando para decir justo lo contrario (“La violación es un crimen terrible” tiene un 81% de toxicidad según Google).

Por contra, incluir la negación dentro de una frase disminuye su toxicidad: “Pocos musulmanes son una amenaza terrorista” tiene un 79% de toxicidad. “Pocos musulmanes no son una amenaza terrorista” tiene un 60%. Y según el contexto donde la utilicemos, podría ser hasta incluso más insultante.

Esto hace que los sistemas de valoración de sentiment fallen con un porcentaje de error que depende de múltiples factores (su propio aprendizaje, la sofisticación del discurso estudiado, el tema a tratar…), volviéndolos sistemas que ni de lejos son excluyentes del papel del analista humano. Y que en muchos casos, llegan a ser contraproducentes (comentarios marcados como claramente negativos que de hecho pertenecerían a los positivos, como puede ser un “Me encanta esta mierda”). Ya ni hablemos del uso de la ironía, la sátira, o incluso el abuso del meta-debate que hay en el hilo.

El comentario “Deberían hacer una lámpara de ti”, una alusión a las afirmaciones de que la piel procedente de los campos de concentración fue utilizada para confeccionar pantallas de lámpara, ha sido lanzada a varios periodistas y otras figuras públicas en meses recientes. Perspective lo puntúa tan sólo en un 4%.

Y sin embargo, Perspective se vende como una herramienta para acelerar el trabajo de los moderadores, lo que me lleva a pensar en qué porcentaje de éxito tiene a la hora de identificar comentarios extremistas (tanto positivos como negativos), y cuánto porcentaje se queda en todo ese universo ambiguo donde generalmente el ser humano se mueve.

Si al menos tiene una tasa considerable de acierto en el primer punto, todavía entiendo que una herramienta así puede ser de utilidad. Pero si esa tasa incluye un porcentaje significativo de falsos positivos ya no tengo claro que tan siquiera como herramienta de soporte sirva de mucho.

En todo caso, estamos lejos de una máquina capaz de comprender el contexto de una conversación. Lo cual no deja de ser algo positivo, por cierto :).