Apuntes sobre la controvertida demoscopia tecnológica del INE

encuestas

Desde hace unas horas buena parte de los medios de comunicación con El País (ES) a la vanguardia, y cómo no, trasladando el debate a Twitter, se llenaban la boca hablando de la decisión del Instituto Nacional de Estadística de llevar a cabo un estudio de patrones conductuales de la sociedad española utilizando para ello una demoscopia tecnológica basada en los datos de geoposición a los que tienen acceso las tres grandes operadoras del país.

Por supuesto trae mayor audiencia poner un titular del tipo «El INE tendrá acceso a la ubicación de todos los móviles españoles» o «El INE seguirá la pista de los móviles de toda España durante ocho días» que uno como el que he puesto yo…

En particular, analizarán hábitos diarios de la ciudadanía en unos días y bajo una serie de intereses específicos:

  • Del 18 al 21 de noviembre: flujo de desplazamientos por estudios o trabajo.
  • 24 de noviembre: flujo de desplazamientos en un domingo.
  • 25 de diciembre: desplazamientos por Navidad.
  • 20 de julio y 15 de agosto: desplazamientos por vacaciones de verano.

¿Cuál ha sido el motivo de tanto alarmismo?

Pues que en vez de realizar el estudio vía encuesta, como se ha hecho históricamente, el INE ha llegado a un acuerdo (económico, eso sí, por un valor de alrededor de 500.000 euros) con los tres principales departamentos de analítica de datos de las operadoras de telecomunicaciones de nuestro país (Luca Transit de Telefónica, Flux Vision de Orange y Vodafone Analytics de Vodafone), que cederán esos días dicha información al INE para realizar el estudio.

Y claro, aquí ya estamos nuevamente ante el debate de siempre: ¿es que el gobierno va a poder saber dónde estoy y qué hago estos días? ¿Es esto legal? ¿No nos ampara el derecho de privacidad?

Vamos a poner un poco de orden sobre el tema.

Y lo hago empezando por el principio.

El papel del «INE» de cada país

Hay que dejar claro que la labor del INE es justamente esta: generar conocimiento estadístico sobre datos referentes a nuestra sociedad. Y es más, precisamente gracias al «INE» de cada país tenemos variables tan críticas para entender el crecimiento económico mundial como es el PIB.

Unos datos que, recordemos, están basados la amplia mayoría de veces en encuestas que se hacen a los ciudadanos y/o a las empresas, y que de hecho por estos lares son de obligatorio cumplimiento.

¿Por qué es esto así? Porque como decía recientemente hablando de los negocios digitales, sin datos no hay estrategia que valga. Para medir el desempeño de las políticas de nuestros dirigentes, para saber qué porcentaje de parados tenemos, para poder tomar decisiones en cualquier faceta que afecte a un grupo de elementos (ciudadanos de un país, pares de datos que dar a comer a una inteligencia artificial, partículas a renderizar en un videojuego…) necesitamos utilizar un baremo común y absoluto. El que nos da, de hecho, las estadísticas.

¿Cuál es el problema entonces?

Pues principalmente dos:

  • La confianza de los datos: Esto ocurre en macroestadística como la que hace el INE, y en definitiva en cualquier estadística que hagamos. Necesitamos que los datos que utilizamos sean lo más fiables posibles. Esta es la razón de por qué pese a que China parece haber entrado en recesión, casualmente su PIB sigue creciendo a ritmos de casi el 7% (ES/el PIB está basado en los datos que el gobierno de cada país libera, y cuando el gobierno no es democrático suele haber más «mano negra» para inflar los resultados), o que tengamos sistemas gestionados por inteligencia artificial en teoría neutrales que siguen reproduciendo los mismos patrones de sesgo que consciente o inconscientemente tenemos los humanos.
  • La privacidad de los datos: Estamos tratando con datos que a priori pueden ser identificativos de una persona (domicilio, ingresos anuales, o como en este caso, hábitos diarios), y por tanto habrá que tratarlos adecuadamente ya no solo para que cumplan con la legislación, sino también porque estadísticamente hablando al INE le da exactamente igual que haces tal día tú o yo (datos identificativos), sino más bien lo que les interesa es saber qué porcentaje de la sociedad hace tal cosa (datos estadísticos).

Teniendo en cuenta estos dos puntos, vamos a analizar lo que sabemos de estos próximos estudios del INE.

Los datos, su anonimización y la desanonimización asociada

El quid de la cuestión en todo esto no es que, per sé, el INE (es decir, el gobierno a fin de cuentas) tenga acceso a dicha información, sino a qué tipo de dato va a tener acceso.

Y aquí, al menos por lo que podemos ver en la nota de prensa, ya debería quedarnos claro:

El Instituto Nacional de Estadística (INE) está realizando un estudio a partir de datos de teléfonos móviles para incorporarlos a la información sobre movilidad que ofrece tradicionalmente en los Censos de Población y Viviendas.

La metodología del estudio divide el territorio nacional en unas 3.200 celdas, cada una de ellas con al menos 5.000 residentes. Para cada celda, el INE recibirá información de los tres principales operadores de telefonía móvil de España sobre cuántos terminales se encuentran en dicha celda en varios momentos del día.

Esta información se limitará a un recuento de terminales que será proporcionada al INE en forma de tablas agregadas de resultados.

Los operadores no facilitarán datos individuales sobre números de teléfono, ni sobre los titulares de las líneas, por lo que en ningún caso el INE podrá rastrear la posición de ningún terminal.

El INE quiere recalcar que se trata de una estadística sometida, como todas las que elabora, a la Ley de la Función Estadística Pública, que garantiza el secreto estadístico y que cumple con todos los requerimientos de la Ley de Protección de Datos.

Nota de prensa del INE (ES)

Las negritas no las he puesto yo. Vienen en la nota de prensa. Y ocupa una tercera parte de la página, ojo, que no hablamos de un texto de decenas o centenares de páginas.

Hablándolo hace unas horas con un compañero que trabaja precisamente en uno de los equipos de big data de estas compañías, me explicaba de forma sintética cómo están extrapolando los datos personales a los que por supuesto tiene acceso la telco (son innatos al servicio que nos dan) a datos anónimos y agregados:

– Coges 1.000.000 registros con datos unitarios.

– Les quitas la información personal.

– Lo divides en conjuntos y generas los registros agregados. Es decir, de 1.000.000 lo dejas en 234 registros agregados.

– Por cada uno de los agregados los extrapolas a cuántos serían si tuvieras el 100 % de los datos.

– Modificas resultados en conjuntos adyacentes para generar entropía.

– Si el resultado es muy pequeño, lo quitas.

– Entregas algo en cada uno de los 234 registros, del tipo: 1455 van de a a b a las 11:00.

Con esta información, que es la que al final tiene acceso el INE, se me hace realmente difícil pensar en cómo van a poder (sea ellos o sea en el futuro algún interesado con intereses maliciosos) desanonimizarla.

Y hablo de a nivel puramente técnico. No me meto en temas legales ya que para eso están los abogados.

En principio al ser un dato estadístico la LOPD no tiene vigencia, aunque según Maeztu podría entrar en conflicto con la Ley 25/2007:

La AEPD en el momento de escribir esta pieza aún no se ha pronunciado (ES). Y es normal, ya que realmente esta estadística está aún en fase de negociación, y por tanto podría acabar sufriendo modificaciones.

Es decir, solo con el acceso a estos datos es técnicamente imposible identificar ciudadanos. Otra cosa, por supuesto, es que a estos datos, como ya expliqué en su día, se les agregue otros que en su suma sí permitan la identificación.

Y estamos entonces poniéndonos en un escenario realmente sofisticado. Si hay algún agente (el gobierno, por ejemplo) con los recursos suficientes para realizar esto a este nivel sinceramente creo que ya tendrá a su alcance y sin necesitar tantísimo despliegue de medios maneras más óptimas para conseguir esa información privada por otros medios.

El INE, el gobierno o quien sea, con estos datos anonimizados y agregados únicamente va a poder realizar el estudio. Que es, de hecho, el objetivo de este acuerdo.

Las ventajas de que el INE actualice su metodología

Y a cambio también me gustaría señalar la importancia de que las agencias de estadísticas oficiales estén paulatinamente migrando hacia estudios demoscópicos asistidos por tecnología.

Los datos de una encuesta tardan como mínimo un mes en recopilarse y tienen por el mismo formato de recopilación de datos un porcentaje de error incontrolable y significativo. Es algo que, de hecho, vemos cada vez que hay campaña política: La gente dice que va a votar a Fulanito y luego casualmente gana Menganito con amplia mayoría.

Lo que lleva a pensar que hay «mano negra». A que se está tergiversando el sistema de voto… cuando el problema lo tenemos, nuevamente, en la calidad de los datos recogidos.

Sin embargo, basarnos en datos reales (no en lo que la gente dice que hace, sino en lo que hace), por razones obvias, es más fiable.

Aunque haya que meter entropía. Aunque tengamos que agregarle extrapolamiento para no comprometer la identidad del dato.

La cuestión es que el error que asumimos es un error controlado (nosotros sabemos cuánta entropía hemos agregado a la ecuación).

El resultado final, por tanto, debería darnos unas estadísticas más fiables. Algo que como ciudadano deberíamos exigir, ya que como decía al principio del texto, esto es crítico para entender qué han hecho bien nuestros políticos y también pedir cuentas con lo que no han cumplido.

Como decía por Twitter a la pregunta de un compañero:

El diablo está en los detalles.

No veo por el momento y con la información que tenemos algo que deba preocuparnos en la decisión del INE. Tanto a Movistar como a Vodafone y a Orange créeme que les interesa, como a cualquier otra gran tecnológica, proteger los datos de sus clientes. Les va literalmente el negocio en ello.

Y mientras se haga realmente como dicen que se está haciendo, bienvenido sea. Mejor, en todo caso, que el escenario de encuestas anterior.

¿Que hacer si te preocupa que estén traficando con tus datos?

Lo primero que tendría que decirte en este caso es que entonces lo mejor que puedes hacer es dejar de utilizar un smartphone, un ordenador y en definitiva todo dispositivo conectado a la red.

Las operadoras y las OTTs como Facebook, Google, Microsoft y compañía (Apple incluida, sí) ya trafican desde hace tiempo con tus datos, aunque sea a nivel interno.

El tercer entorno se basa precisamente en esta explotación de datos. Una explotación que bien ejecutada (anónima y agregada) es realmente con lo que estamos pagando, y lo más importante: no tiene a priori un impacto en nuestra privacidad.

Aún así, tanto Movistar como Vodafone y Orange ofrecen, bien sea mediante su app, bien sea mediante nuestra página de cliente, gestionar de una u otra manera el tratamiento de datos con fines económicos y/o estadísticos.

En mi caso, que estoy ahora con Vodafone, basta con abrir la app Mi Vodafone > Mi cuenta > Permisos y preferencias > Permisos, y active el ajuste “No acepto que Vodafone ceda datos anonimizados …» .

Juegan con la terminología (en esta misma página los tres primeros elementos son del tipo «Acepto que», y los tres últimos del tipo «No acepto que…»), pero vaya, que la opción la dan y aunque por defecto está tal cual a ellos les interesa, puedes cambiarla en cualquier momento.

Un ejemplo más de cómo en la época en la que vivimos la capacidad de la anonimización y el conocimiento del usuario juega un papel crítico y es una competencia más que está generando esa nueva clase media digital.

Que es precisamente ese conocimiento y concienciación el rasgo fundamental que habría que priorizar educacionalmente hablando.

¿Te preocupa tu presencia digital?

He diseñado este curso online en 8 módulos en el que cubriremos todos los fundamentos de la presencia digital sana, ayudándote paso por paso a parametrizar la seguridad y privacidad de tus cuentas digitales y de tus dispositivos.


Edit una semana más tarde: Los chicos de HackerCar (ES) me pidieron una reflexión sobre el tema que han trasladado junto con la de otros expertos a un artículo en su página.