El año pasado (madre mía, cómo pasa el tiempo) publicaba un Especial (el número 8) sobre Web Tracking, en el que profundizaba en todas y cada una de las metodologías que se estaban siguiendo hasta el momento para tracear e identificar al usuario en entornos digitales: Divididas en tres categorías (de cliente, de inherencia y mediante factores exógenos), recorríamos cada una de ellas explicando la técnica, su persistencia y las subcategorías que había, para terminar con una recomendación de herramientas que ayudaban a minimizar su impacto.
El white paper, consultable desde esta página y disponible también en versión PDF, sigue estando hoy en día tan vigente como entonces, pero la forma de llevar a cabo algunas de las metodologías de web tracking se han sofisticado un poco más.
El mejor ejemplo lo vemos en el paper que Jessica Su, Ansh Shukla, Sharad Goel y Arvind Narayanan, de las Universidades de Stanford y Princeton, publicaban recientemente bajo el título «De-anonymizing Web Browsing Data with Social Networks« (EN/PDF), en el que explican cómo aplicando inteligencia artificial y siguiendo las migas de pan que deja nuestro historial de navegación son capaces de identificar al usuario con un 72% de tasa de acierto. Y en un 81% de los casos, el perfil del usuario estaba entre los 15 primeros que sugiere su herramienta.
¿En qué se basa la identificación mediante patrones de navegación?
Como ya vimos en el white paper el año pasado, este tipo de técnicas entrarían dentro de la categoría de tracking basado en el cliente, con la principal ventaja que es aplicable a cualquier escenario (no es necesario que el usuario navegue por una web específica) y la principal desventaja de depender del acceso al historial del propio navegador. Algo que generalmente precisa que el usuario proactivamente lo acepte (o que el dispositivo/navegador esté comprometido).
El estudio no deja de ser una investigación académica, y por tanto, los datos obtenidos, la hipótesis y el escenario inicial no son aplicables (al menos, sin realizar acciones consideradas ilegales) a un entorno real, pero me parece un buen ejercicio para entender la importancia del rastro digital que dejamos a nuestro paso.
Básicamente lo que hicieron fue pedir el consentimiento a 400 sujetos para acceder a su historial de navegación. Y con él, realizaron un estudio de patrones de navegación bajo la premisa de que un porcentaje significativo de los enlaces que consumimos vienen dados por redes sociales.
Por facilidad, centraron su estudio en Twitter (todos los que trabajamos con analítica social sabemos que el acceso a información en Twitter es muchísimo más amplio que en otras redes como FB, Youtube, Instagram y compañía), comparando los enlaces de cada sujeto con el universo de compartidos que tuvo cada uno de esos enlaces en t.co (el acortador de Twitter, y una variable que se puede consultar públicamente).
Si por ejemplo usted ha entrado en este artículo, y este artículo se ha compartido hasta 100 veces, teniendo un alcance de 10.000 potenciales usuarios, usted estará probablemente entre esos 10.000. Repitiendo esto con cada enlace que tiene en su historial en busca de coincidencias, ese número irá bajando hasta que conformará una lista de unos pocos usuarios de Twitter ordenados por aproximación (desde el que tiene más coincidencias en común hasta el que tiene menos), entre los que probablemente está usted.
Claro está, es probable que no todo lo que consuma venga dado por redes sociales, y que todo caso, habrá un porcentaje significativo que vendrá de Facebook, al ser esta la red más utilizada por el grueso de la sociedad, pero el caso es que para alguien que usa asiduamente Twitter este sistema permite identificarlo con una precisión del 72%. Es decir, que únicamente conociendo su historial de navegación, podemos ponerle un nombre y apellidos a cualquier persona que utilice Twitter como una de sus fuentes de referencia con 72% de tasa de acierto. ¿Increíble, verdad?
Rediseñando un sistema más avanzado
La propuesta de los investigadores queda aquí, pero se me ocurre algunas estrategias para mejorar el sistema y hacerlo más exacto. O, al menos, más universal.
- La primera pasaría por catalogar los enlaces del historial según su posición/fecha en el mismo, excluyendo (o considerando dicha situación) a aquellos que vengan precedidos de una búsqueda en Google, Bing y compañía. Simplemente porque podemos estar casi al 100% seguros de que se trata del resultado de una búsqueda en Internet, y bajo el supuesto de que normalmente o realizamos búsquedas orgánicas, o «perdemos el tiempo» en redes sociales. Con esto minimizamos el universo de enlaces a estudiar, o al menos, obtendremos dos universos (los que pertenecen a búsquedas y los que podrían pertenecer a referidos de redes sociales), pudiendo aplicar diferentes estrategias en cada caso.
- La segunda pasaría por estudiar si tenemos manera de utilizar el conocimiento público de servicios de publicidad online como Adwords, Twitter Ads o Facebook Ads para obtener potenciales usuarios que han mostrado interés en esta tipología de contenido. Por supuesto, estos servicios únicamente nos darán criterios demográficos de los potenciales usuarios (les va literalmente el negocio en ello), pero quizás esto nos sirva a la hora de cribar entre esa lista de usuarios de Twitter a los que potencialmente pertenece el historial estudiado.
El sistema debería volverse probabilísticamente más exacto. O al menos, más rápido (menos universo de enlaces a contemplar).
Un ejercicio profundamente interesante para comprender hasta qué punto lo que hagamos en la red puede ser utilizado para identificarnos. Fíjese que en ningún momento estamos utilizando datos identificativos de la persona, ni siquiera identificadores no relacionados con la identidad física del sujeto (cosa a la que sí se recurre habitualmente con el uso de cookies, sesiones y el tracking de ficheros de navegación). Simplemente un patrón de navegación que, salvando páginas habituales, tiene bastante de aleatorio.
Sencilla y llanamente porque todo en la red deja un rastro. Absolutamente todo. Pese a que implantemos medidas que restrinjan la información que compartimos con terceros. Pese a que naveguemos de forma anónima por la red. De ahí que estrategias de desinformación personal y un control exahustivo de lo que compartimos en la red sea el acercamiento más idóneo para enfrentarnos a una realidad informativa para nada halagüeña.
¿Llegará a aplicarse esto en el mundo real? Entiendo que podría tener un uso práctico a la hora de conocer el dueño de un dispositivo (quizás una potencial prueba de un delito) por parte de los cuerpos de seguridad, pero le veo poca salida a nivel empresarial, más que nada porque los sistemas actuales de tracking son más eficientes y cómodos de utilizar aún a sabiendas que no siempre identifican a la persona como tal. Lo verdaderamente importante en el negocio de los datos suele ser más bien conocer qué intereses y a qué grupo demográfico pertenece ese usuario que saber su nombre o su documento de identidad.
He diseñado este curso online en 8 módulos en el que cubriremos todos los fundamentos de la presencia digital sana, ayudándote paso por paso a parametrizar la seguridad y privacidad de tus cuentas digitales y de tus dispositivos.
Lo que no quita que pueda ser utilizado también a nivel de espionaje, o por la industria del cibercrimen como una herramienta más a la hora de aplicar técnicas de extorsión o ciberbuylling.
Avisado queda :).
Hola Pablo, me ha parecido muy interesante el artículo y me gustaría compartirte si hacer mucho spam uno de los usos que hacemos nosotros. La búsqueda de personas desaparecidas. Te comparto un enlace en el cual expongo como busqué a unos menores en un secuestro parental (ES). un saludo
Muy buen aporte Jorge. Faltaría más, muchas gracias por compartir tu trabajo.