Los límites de la anonimización de datos en un entorno rico en análisis

huella digital

El resumen de este artículo bien podría ser el siguiente:

Con un universo de información suficientemente completo a analizar, no hay bases de datos que estén realmente anonimizadas.

Lo único, con la suficiente información, no existe.

Así que si hoy tiene prisa, puede dejar de leer aquí y dedicarse a lo que tenga que dedicarse.

¿Qué sigue por aquí?

Pues venga anda, que le cuento el resto de la historia.

Sobre anonimización de datos

Hace un par de años expliqué por el blog de SocialBrains qué estrategias se podían seguir en el mundo digital para anonimizar los datos (ES). Es decir, para poder trabajar con universos de datos reales (obtenidos de nuestras acciones) sin que ello suponga poner en jaque el derecho a la privacidad de los usuarios.

Y aprovecho entonces para autocitarme:

Si en realidad lo que queremos es realizar estudios analíticos (cuantitativos o cualitativos) en los que no se exponga ningún tipo de dato que podría, directa o indirectamente, ser asociado con una identidad, hay varias estrategias que podríamos usar:

  • La asignación al azar: Se trata de alterar la integridad de los datos de manera que no haya ningún tipo de vínculo real entre el dato y el sujeto del que se ha obtenido el dato. Claro está, nos sirve únicamente en situaciones en las que el análisis se basa en la vinculación de datos de la misma categoría por separado, y no en el pareado de varios, aunque existen acercamientos (como el de la permutación) que permiten mantener la distribución exacta de la base de datos inicial incidiendo únicamente en los valores. La privacidad diferencial (añadir un margen de ruido que se contabiliza como error) y la adición (agregar ruido en algunos datos manteniendo la misma distribución)son otros modelos de asignación al azar.
  • La generalización: Que nos permite crear grupos de valores disociando la identidad del sujeto con el identificador de los datos anonimizados. Aquí entran en juego varios algoritmos de distribución como los de aggregation y k-anonymity.

El problema de este tipo de anonimización de datos es que puede llegar a pervertir ligeramente los resultados obtenidos. Y que lleva trabajo montarla. De ahí que en la mayoría de casos se opte simplemente por quitar la columna del identificador, la del email o nombre, y usar tal cual el resto de datos.

El mejor ejemplo, de hecho, lo veíamos hace apenas unos días, con esa decisión por parte de iRobot, empresa desarrolladora del robot aspiradora Roomba, de monetizar su producto mediante la reventa de mapas de hogares, que al final, debido a la crispación que tuvo el asunto, parece que han decidido aplazar. Esos mapeos no iban a ir asociados a un usuario específico (esto es, Fulanito de tal vive en una casa situada en X dirección que tiene esta forma), sino que irían anonimizados (una casa tiene esta forma). Pero puesto que muchos de nosotros tenemos la sana costumbre de vivir bastante tiempo en el mismo domicilio, a nadie le debería sorprender que de la explotación de esos datos pudiera obtenerse información que directamente se asociara a personas físicas (esta distribución espacial corresponde a una tipología X de hogares, ergo a un estatus económico específico, ergo a una serie de barrios específicos). Basta con que se extrapole una base de datos semejante con otras como la que podría tener cualquier banco o agencia de seguros, para obtener de un universo de datos anonimizados un sistema asociativo profundamente exacto (Fulanito de tal, que tiene una hipoteca o un seguro con nosotros asociado a esta casa, tiene además esta serie de hábitos dentro de su hogar).

Y a esta misma conclusión llegaban recientemente Svea Eckert y Andreas Dewes, dos investigadores que presentaron en la DefCon de este año (EN) un análisis identificativo de los datos de navegación supuestamente anónimos de millones de usuarios alemanes.

Identificación basada en patrones de actividad

Lo que hicieron fue crear una compañía de análisis de datos falsa y pedir permiso a plataformas de monitorización digitales para acceder a sus bases de datos con el objetivo de crear un algoritmo de machine learning capaz de automatizar todo el proceso, que por supuesto acabarían por ceder bajo un acuerdo ventajoso a dichas plataformas.

De esa fase de negociación llegaron a obtener una BD de 3.000 millones de URLS proveniente 9 millones de URLs y visitadas por cerca de 3 millones de usuarios. Sin soltar un dólar. ¡Ingeniería social al poder!

Y aquí empieza lo bueno.

Revisando estos historiales de navegación en teoría anonimizados se encontraron con algunos patrones que permitían identificar sin margen de error al usuario que lo había realizado.

En algunos casos gracias a la aparición de URLs únicas creadas por servicios como Twitter o Facebook (la página de analítica de nuestra cuenta de Twitter es única para cada persona, y además es privada, por lo que solo nosotros vamos a poder acceder a ella). Y pasaría lo mismo con las URLs de algunos correos (GMail por ejemplo crea direcciones únicas para cada email) o servidores web.

Además, aseguran que con tan solo 10 URLs es posible identificar a una persona. Ahí es donde entra el análisis de patrones de actividad, semejantes en todo caso a los utilizados de forma automatizada por algunas plataformas, y que en su día expliqué en profundidad en un Especial sobre monitorización en el tercer entorno.

Cada vez que hacemos algo en un soporte digital dejamos una huella. Basta con que alguien destine el tiempo suficiente para analizar esas migas de pan para al final dar con la identidad real de la persona.

¿Cuántas usuarios además de usted cree que, por ejemplo, visitan esta página, y además la página de su banco, la intranet de su empresa y buscan habitualmente información sobre X tema en Google? ¿Cuántas personas cree que hay con un rango de IPs parecida a la suya que además es usuario de Twitter, cliente de su mismo proveedor de telefonía y habitual de los blogs de temática técnica? Ya le digo que muy pero que muy pocos, y previsiblemente solo usted.

Las plataformas de tráfico de datos obtienen toda esta información de acuerdos con otras plataformas sociales y también con extensiones de navegador y aplicaciones móviles. Ya comentábamos recientemente que cuando un servicio no se monetiza mediante publicidad o mediante suscripción, puede empezar a temer lo peor, ya que el negocio, tarde o temprano, acabarán siendo sus datos.

Y el problema de todo esto es el impacto que podría tener si en vez de ser utilizado por unos investigadores para exponer la situación, acaba en malas manos. La historia ya nos ha dejado ejemplos más que de sobra para ser conscientes del riesgo que estamos asumiendo.

banner curso presencia digital fundamentos

Téngalo en cuenta la próxima vez. Empiece a pensar en ello hoy mismo, y pregúntese si no es buen momento de cuidar su presencia digital y establecer metodologías de desinformación.