El orgullo arrogante de la explotación de grandes volúmenes de información

google flu trends

La semana pasada estuve junto a mis colegas del CIGTR cubriendo la parte comunicativa de llamado “Curso De Verano”, unas jornadas sobre ciberseguridad celebradas en el Teatro Real Carlos III de Aranjuez que anualmente imparte el Centro de Innovación de la Gestión Tecnológica del Riesgo, y que este año versaba sobre machine learning e inteligencia artificial.

Fueron tres días intensos de charlas de primerísimo nivel, tanto académicas (por allí pasaron catedráticos de universidades tales como el MIT, la URJC o la de Glasgow) como corporativas (IBM Security, BBVA, los propios investigadores del CIGTR…), con un formato que sinceramente creo que podría mejorarse (charlas de una hora y media de duración y descansos para comer de dos malditas horas y media), pero con un contenido difícilmente superable (en serio, pedazo de nivel había en cada charla…).

Por el CIGTR mi compañero Alfonso Piñeiro ha estado plasmando la crónica de cada día en base a los apuntes que ambos fuimos tomando in situ. Por aquí tiene la primera (ES), por aquí la de la segunda jornada (ES) y por aquí la de la tercera (ES).

Otro año más he coincidido con compañeros a los admiro (Alfonso Muñoz, Román (el de la Rooted)…), así como volver a poner cara a muchos otros que os conozco más por medios digitales (como la mayoría de investigadores del centro). Un cambio en la rutina semanal de un servidor que aunque se vive intensamente, acaba por ser muy agradecido.

El caso es que de todas las charlas me gustó especialmente la que dio Jesús Cerquides (ES), investigador del Departamento de Sistemas de Aprendizaje del IIIA-CSIC (el Institut d’Investagació en Intel-ligència Artificial del CSIC), titulada “Ciencia de datos o augurio: el método científico en la era del big data”, centrada en desmitificar la autoridad que habitualmente tendemos a depositar en los resultados de un análisis basado en datos.

Es, de facto, un tema que como bien sabe me preocupa, tanto a nivel profesional (a fin de cuentas mi trabajo es sacar valor de la información que circula alrededor de las organizaciones con las que trabajo) como a nivel personal (la mayoría de sistemas informáticos que utilizamos en nuestro día a día están cada vez más gestionados por sistemas basados en el aprendizaje automático).

La cuestión es que tendemos a dotar de verdad absoluta a cualquier resultado obtenido mediante análisis de datos, cuando en la práctica, y como he ido profundizando todos estos años en cientos de artículos ya publicados, entran en juego factores tan decisivos como puede ser la subjetividad y el sesgo que exista en el propio universo analizado, o en las herramientas/algoritmos que hayamos creado para ello, como la forma que tenemos de afrontar la problemática (subjetivada consciente o inconscientemente por la parte humana y la parte tecnológica del sistema), como en la lectura que hagamos de los resultados (una lectura que de nuevo está subjetivada a los intereses, conscientes o inconscientes, de la investigación, y a los sistemas que utilicemos para representar los resultados).

El corolario final después de todo este tiempo es que cualquier resultado obtenido mediante un sistema informacional está sujeto a un margen de error que depende de múltiples factores. Y por ello, el pretender delegar toda esa responsabilidad en la máquina (inteligencia artificial, machine learning) no solo no minimiza el problema, sino que para colmo lo agrava.

Lo que vivimos recientemente con la explosión de las noticias falsas en redes sociales, y su impacto en las elecciones americanas y en el referendum del Brexit, ejemplifican a la perfección esta perversión de la analítica de datos.

El machine learning y la inteligencia artificial son grandes disciplinas con muchísimo potencial de crecimiento. Pero esa supuesta objetividad que muchos ven en el análisis de datos automatizado se pervierte en el momento en el que te das cuenta que los datos provienen de la caótica interacción de factores puramente subjetivos (humanos), haciendo necesario el papel del analista como mejor acercamiento para cribar la propia subjetividad de nuestra especie.

El caso de Google Flu Trends

Para ejemplificar este hecho Cerquides centró su discurso en uno de los proyectos que hace unos años fueron ejemplo de estudio de la evolución desbordada del machine learning.

Hablamos de Google Flu Trends (EN), un sistema desarrollado por los chicos de Mountain View que correlacionaba las búsquedas que los usuarios hacían referentes a una serie de keywords identificadas con los resfriados o la gripe, con los datos de la CDC’s US Influenza Sentinel Provider Surveillance Network, el centro de prevención epidemiológico de Estados Unidos.

Y los resultados que obtuvieron hicieron que muchos encontraran en el proyecto el Santo Grial de la seguridad nacional en materia sanitaria. Gracias a este sistema, todo apuntaba a que se podía llegar a tener consciencia de un nuevo brote de gripe hasta 15 días antes de que las alertas sanitarias saltasen. Correlacionando búsquedas con el histórico de cepas de gripe que experimentaba el país anualmente quedó patente que un sistema de este tipo podía llegar a minimizar el impacto de un nuevo brote al poder actuar hasta dos semanas antes de lo que los medios tradicionales (aumento de peticiones de fármacos relacionados con estas afecciones) llegase al nivel de alerta necesario.

¿Cuál fue el problema entonces?

En el 2009 muchos os acordaréis de la situación. De pronto surgió una cepa anómala (la gripe A (ES)), que por supuesto Google Flu Trends no pudo predecir. Y lo que es peor, ni siquiera llega a alertar antes de que la maquinaria sanitaria (y la mediática) levantan las alarmas. Google reconoce su error y reentrena el sistema para prepararse para años venideros.

Y en 2013 se vuelven a romper los moldes. Google Flu Trends alerta con la llegada de una gripe temprana más virulenta de lo habitual. Una nueva cepa que nunca se llega a dar (hay un nuevo brote de gripe, pero de hecho es hasta más leve que de costumbre). Si se le hubiera hecho caso al algoritmo, se hubieran tomado decisiones verdaderamente drásticas que además de salir caras económicamente hablando, presumiblemente hubieran puesto en mayor riesgo al porcentaje de la sociedad más sensible a estos brotes (niños, enfermos y ancianos).

Limitaciones incuestionables del análisis de Big Data

En vista de los resultados, Google acabó por discontinuar el proyecto en el 2014.

Algunos medios se hicieron eco entonces (EN) de la noticia, intentando analizar las razones de por qué el algoritmo no había sido capaz de predecir un brote nuevo, y por qué en el segundo había hecho saltar todas las alarmas por un brote inexistente.

Hay varios motivos, y por aquí quería dejar como corolario algunos de ellos:

  • El acercamiento “Libre de Teoría” de los sistemas inteligentes: Una de las ventajas del machine learning es que podemos acercarnos a una respuesta para un problema que no entendemos. Dicho de otra manera, lo que hacemos en este tipo de investigaciones es buscar un resultado en base a muchísimos datos (potenciales efectos) del problema, pero sin comprender cuál es el problema y cuáles de esos datos son realmente correlativos al resultado. Lo que por un lado nos viene genial (nuestra capacidad de entendimiento del mundo que nos rodea sigue siendo muy limitada), y por otro, no deja de ser un acercamiento inexacto (si desconocemos realmente el impacto de la pregunta, desconoceremos seguramente la verosimilitud de la respuesta obtenida).
  • La causalidad hace acto de presencia: Pese a lo que seguramente piense la mayoría de la sociedad, la ciencia de datos lleva ya tiempo siendo consciente de que “correlación no implica causalidad”, y los sistemas de inteligencia artificial son creados teniendo en cuenta esto (o al menos, intentando minimizar su impacto en los resultados obtenidos). Google Flu Trends no era ajeno a esta problemática. Sin embargo, sí pecó, como pecan prácticamente todos los sistemas de inteligencia artificial, de presuponer que los 50 millones de datos analizados conformaban el grueso de datos provenientes de toda la sociedad americana. Y de todos ellos, seguramente llevando a cabo un sistema lo más equitativo posible, decidió partir de alrededor de un millar de datos identificativos, que eran los que el algoritmo tenía en cuenta para predecir los brotes. Ahí está el quid de la cuestión. Cuando ni siquiera nosotros conocemos el problema, reducir 50 millones de variables a un millar es pecar de ingenuos, teniendo en cuenta que muchas de ellas podrían venir dadas por criterios puramente causales.
  • El campo de estudio no era constante: Aquí viene la guinda del pastel. Google Flu Trends utilizaba, como ya he explicado, los flujos de búsqueda de keywords en el buscador para intentar predecir futuros brotes de gripe. Y esto podría haber funcionado si no fuera porque el campo de estudio (búsquedas en Google) fue cambiando conforme Google actualizaba los algoritmos de términos relacionados, con la inclusión de nuevos términos adicionales que llevó a cabo en 2011 o con los diagnósticos potenciales que el buscador empezó a ofrecer en febrero del 2012. El resultado es que el universo de datos con el que el sistema había aprendido no era constante, sino variable, añadiendo más entropía al análisis, y por ende, a los resultados obtenidos.
  • GFT no era un sistema transparente ni replicable: Para terminar, otro de los grandes errores de Google Flu Trends venía dado por su política de funcionamiento. Como lamentablemente está pasando con muchos de estos grandes algoritmos de recomendación globales, GFT no era un sistema que un tercero pudiera replicar y auditar. Lo que significa que para cada resultado únicamente teníamos la respuesta de GFT, y por tanto, un margen de error inasumible.

El ejemplo creo que sirve a la perfección para entender la problemática que hay alrededor de los sistemas de inteligencia artificial. Resulta verdaderamente difícil asegurar su exactitud. Y aunque destinemos los suficientes recursos y tengamos a la mentes más brillantes trabajando en ello, todavía queda por demostrarse que en efecto la ciencia de datos… es ciencia. 

Que los análisis que hacemos, sean para nuestros clientes, sean para intentar salvar millones de vidas, no parten de un orgullo arrogante y profundamente ignorante.

Porque no hay nada más doloroso que darte cuenta que tu trabajo quizás no sea predecir el futuro, sino simplemente imaginar uno de esos hipotéticos futuros en base a la muy limitada lectura que hacemos de históricos anteriores, y a la entropía que, consciente o inconscientemente, estamos metiendo en ese sistema.