La dificultad de hallar el margen de error aceptable de un sistema

analitica

Hace ya unos meses le dedicaba una pieza a lo que para un servidor, y en base a mi experiencia profesional, supone el almacenamiento de datos “inútiles” (que, por cierto, no tiene nada que ver con las mecánicas de Right Data que también he defendido por estos lares).

La tesis partía de un informe presentado por IBM en el que se hacía hincapié en la intrascendencia de cerca del 80% de los datos que una organización tipo almacena. Datos que en efecto no son aprovechados directamente, pero que bajo mi humilde opinión sí juegan un papel trascendente a la hora de evitar los efectos adversos de la homogeneización de los universos estudiados.

Me explico:

La intranscendencia de los datos reales

Por sintetizarlo al máximo y para no repetirme, hay dos maneras de afrontar un análisis de datos:

  • Partiendo de una premisa que dirige el análisis.
  • Partiendo de los datos para llegar a la premisa que éstos nos quieran ofrecer.

Lo chulo es partir de una premisa, sacando pecho delante del cliente sobre tu conocimiento previo de los resultados. Y en efecto es probable que en base a nuestra experiencia los resultados no se alejen mucho de lo esperado. Pero el problema radica en que si partimos de una premisa clara, podemos caer en el error de asumir una dirección analítica específica que tergiverse los resultados obtenidos.

¿El mejor ejemplo? La dificultad de eliminar sesgos humanos a la hora de establecer universos de datos que son los que utilizan los sistemas de inteligencia artificial de nuestros días para aprender del entorno.

Ya no solo es que estas IAs hayan sido programadas con unos sesgos específicos, sino que incluso una base de datos de palabras relacionadas como es Word2Vec, utilizada casi como estándar para todos los bots conversacionales presentes en nuestros dispositivos, parten ya de una serie de sesgos humanos (machismo, xenofobia…) que sin lugar a dudas dirigen el aprendizaje de la máquina para emularlos en su conocimiento y futuros aplicativos.

Que un buscador como Google identifique más a apellidos o fotografías de afroamericanos jóvenes con potenciales criminales que a sus homólogos de tez clara, no indica que Google sea racista, sino que simplemente ha utilizado para su aprendizaje universos de datos ya tergiversados por los propios humanos.

Por otro lado, delegar de forma absolutista la dirección del análisis a los datos se presenta como una postura bastante más sincera (por mucho bagaje que tengamos, cada caso es un mundo, y debería tratarse con las precauciones adecuadas)… que según el tamaño del universo, puede llegar a ser imposible de materializar.

El truco está por tanto en buscar un equilibrio sano en el que partiendo de una premisa, nos acerquemos al análisis bajo la óptica y dominancia de los datos, y cuyo análisis no estudiará todo el universo sino un segmento lo suficientemente significativo del mismo (un segmento formado por una parte elegida cuantitativa/cualitativamente y otra de forma totalmente aleatoria). Es decir, aceptar que el análisis, para que sea en la práctica posible de materializar, parte de un margen de error aceptable.

Sobre falsos positivos y negativos

Es aquí a donde quería llegar. Porque una vez podamos considerar que en efecto nos hemos acercado todo lo posible a ese equilibrio en el proceso de análisis, queda por tener en cuenta el margen de error que se puede desprender del propio análisis. El margen de falsos positivos y negativos que un sistema puede asumir.

Y este tema, que puede parecer baladí para un profano en materia, se vuelve crítico cuando entran en juego factores puramente exógenos al análisis, como es el impacto social, económico o discriminatorio que podría tener un margen de error sensiblemente superior al adecuado.

Imaginemos, por ejemplo, un antivirus convencional, que como seguramente ya sabe, se suelen basar en un tenso equilibrio entre listas negras (si algo aparece ahí, es que es potencialmente peligroso) y heurística (como medida paliativa para intentar reconocer amenazas que todavía no están contempladas en dichas listas).

¿Qué impacto tiene en un antivirus el reconocer algo (un archivo, una actividad…) como potencialmente peligroso? Desde el más intrascendente de los escenarios (el falso positivo bloquea un archivo o una biblioteca que ni siquiera tiene impacto en la actividad que está realizando el usuario), hasta la finalización de procesos críticos para el negocio de una compañía, o para el trabajo de miles de clientes (una actividad legítima del sistema que acaba por ser marcada erróneamente como maliciosa, bloqueando el funcionamiento de los dispositivos de dicha organización, o incluso de miles de organizaciones, tan pronto ese falso positivo sea actualizado en las listas globales de la herramienta).

O, como veíamos recientemente, ¿qué valor aporta un sistema de videovigilancia asistido por inteligencia artificial que marca a transeúntes como potenciales criminales tan solo por realizar una serie de movimientos que la máquina ha considerado extraños (caminar en la dirección contraria al grueso de transeúntes, esperar junto a una farola con una mochila posada en el suelo), y que quizás solo se deban a la propia caótica actividad de un ver vivo?

En mi trabajo me encuentro cada vez más con herramientas de analítica que aseguran poder automatizar el análisis de algo tan complejo como es el sentiment de un universo de comentarios. Como si los usuarios, máxime en un lenguaje tan profundamente complejo como es el español, dieran su opinión de forma concisa sin recurrir a enrevesadas frases, a veces contradictorias, sin hacer uso de parábolas, ironías y dobles significados, y cuyo análisis pueda realizarse sin considerar el propio contexto donde se ha producido.

Los resultados de un análisis de sentiment manual y uno automatizado puede ser radicalmente distintos, sencilla y llanamente porque en el segundo asumimos un margen de error probabilísticamente superior. Eso sí, el primero es prácticamente automático, y el segundo requiere de uno o varios analistas trabajando durante horas.

Por todo ello, lo que más preocupa es que se banalice la transcendencia del margen de error que se ha podido cometer, tanto en la decisión del propio universo de datos a analizar, como en la forma de hacerlo y en las herramientas y metodologías seguidas para ello.

Está claro que en muchos casos hay que hacer concesiones, y soy el primero que las defiendo. Pero no hay nada peor que estar haciéndolas sin conocimiento de causa, dando a un análisis la verosimilitud absolutista que parece que a día de hoy tiene todo lo que esté basado en datos, cuando realmente no deja de ser más que una interpretación simplista de una realidad muchísimo más compleja. Y para colmo, tergiversada.