Semántica y análisis de Big Data como arma contra el Crowdturfing

Hablamos del crowdturfing, la manipulación de la reputación online, hace ya unos meses, y recupero el tema para ahondar un poco más en la manera que tendremos en el futuro de luchar contra el mismo.

survey

Este término engloba todas esas estrategias y metodologías que persiguen manipular un sistema de confianza reputacional tan extendido en el mundo digital como es el de las opiniones y recomendaciones sociales.

Para cualquiera que haya estado al frente de un servicio (sea físico o virtual), sabrá que el boca a boca es quizás una de las herramientas más valiosas con las que un negocio cuenta, de manera que ese boca a boca acaba por afectar positiva o negativamente de forma directa en los resultados financieros.

La mayoría de establecimientos (de nuevo, tanto físicos como digitales) cuentan con un sistema de recomendación. A veces se basa en un sencillo formulario en el que el usuario o cliente puede dejar su experiencia, como el caso de los foros. Otras, un sistema de votación mediante estrellas, como puede ser un comercio electrónico, o mediante acciones, como los Me Gusta, +1s, RTs y compañía. A veces, un simple sistema de comentarios permite mantener el debate abierto y ofrecer diferentes puntos de vista, como ocurriría en blogs como el que está actualmente visitando.

La gracia de todo esto es aprovechar las ventajas de Internet, de su capacidad para gestionar canales bidireccionales, y con ellos aportar valor tanto al usuario/cliente (que puede expresarse libremente y descubrir la opinión de usuarios/clientes anteriores) como para el administrador, que recibe un valioso feedback de su público/clientela.

Ahora bien, hecha la ley, hecha la trampa. Y conforme la evolución de estos sistemas ha ido madurando, con el paulatino aumento de trascendencia para unos y otros (creo que todos estaremos de acuerdo en que las opiniones de clientes afectan muy mucho a la hora de decidirnos por un u otro producto), también han surgido negocios tangenciales que se benefician de su importancia, y cuyo objetivo es el inflado, bien sea positivo o negativo, de este recurso.

Desde la compra de followers, pasando por la descarga y/o votación de servicios digitales (extensiones, aplicaciones,…) para favorecer artificialmente su presencia en markets, hasta, como no, recomendaciones forzadas en establecimientos locales, son todos ejemplos de tácticas deshonestas, englobadas dentro de la figura del crowdturfing, y que no hacen más que mermar la eficiencia que el usuario/cliente/administrador/dueño obtiene de este tipo de servicios.

Tanto para bien como para mal. Quizás el objetivo sea parecer que nuestro negocio es el mejor llenándolo de comentarios o votaciones positivas, o por el contrario, desacreditar la palabra de la competencia con comentarios o votaciones negativas, se calcula que entre el 2 y el 6% de los comentarios en la red son falsos. Número que va en aumento (hace cinco años no llegaba al 1%).

Por ello, me pareció interesante el proyecto que están desarrollando un grupo de investigadores (EN) de la Universidad de Kansas, liderados por Hyunjin Seo, profesor asistente de periodismo, y Fengjun Li, profesor asistente de ingeniería eléctrica y ciencias de la computación, y que engloban el análisis de grandes volúmenes de datos con el estudio de su semántica para predecir cuáles de ellos son reales y cuales no.

Para ello, están intentando crear una herramienta que discierne si un comentario ha sido generado mediante un algoritmo o bien es forzado (hay técnicas de growth hacking diseñadas para forzar votaciones entre usuarios), con el estudio de miles de comentarios en servicios como Amazon, Yelp, Zappos, TripAdvisor o Expedia. De ahí, a la búsqueda de patrones que permitan señalar comentarios posiblemente falsos, unido al seguimiento de la actividad de sus supuestos usuarios.

La idea, como no, es buena, pero a priori la veo muy complicada de llevar a cabo. Eso sí, creo que podría ser una gran herramienta unida a otras ya más tradicionales como la de sistemas de verificación humana y moderación de trolls o casos de cyberbulling. Y todo esto frente a frente la feroz evolución que está sufriendo la tecnología semántica precisamente para parecerse más humana y saltarse todos los test habidos y por haber, en un entorno que intenta equilibrar anonimato y moderación por igual.

Una lucha de poder que definirá en mayor medida el futuro de la gestión informativa de nuestra sociedad. Un panorama de lo más interesante el que nos toca vivir, por lo tanto :).