Predictive Crime Analytics, o la sobrevaloración del machine learning

prediccion de crimenes

Leía esta semana pasada los copia/pega de la nota de prensa que Hitachi Data Systems debió enviar a varios medios, y que era recogida primero por FastCompany (EN), en la que aseguraban predecir crímenes antes de que ocurrieran.

Ya sabe, a lo Tom Cruise en Minority Report, pero sin tener a tres almas metidas en una bañera llena de leche (subjetividad humana), sino apostando por un esclavo que no se va a quejar: una máquina (profundamente objetiva).

El software, como cabría esperar, no predice nada. A lo sumo podrá generar mapas de calor donde mayor probabilidad de sucesos de este tipo pueda haber. Nada, por cierto, que ya no sepan los cuerpos de seguridad de cada ciudad, aunque con el añadido molón de ser algo más exacto y en casi tiempo real.

Pero ya que se han atrevido a sacarlo a la opinión pública, voy a opinar al respecto. Y lo haré con el sentido común por delante, que falta hace.

El Machine Learning es la panacea

El Santo Grial de cualquier entrepeneur con una idea en mente. Ahora parece que tiras cuatro líneas de código, pones a la máquina a mirar fotos de gatitos (o lo que sea), y en un par de meses tienes a la mejor mente preparada para solucionar un problema específico. Un trabajador al que no hay que pagarle. Un negocio mucho más escalable que el clásico (y necesario) basado en recursos humanos.

En estos artículos que he estado leyendo, escritos sin duda por periodistas ávidos de click baiting, se asegura que el machine learning permite a la máquina aprender por sí sola y encontrar la solución a problemas. Sin mediación humana, oye. Magia tecnológica.

Se libra por tanto de ese maniatado yugo del operador que le ha dado vida. Es un ente libre, no sujeto a las limitaciones de su creador.

Volviendo a la realidad, el machine learning no es más que un apaño informático para que una máquina sea capaz de diferenciar positivos de negativos, bajo un conjunto de reglas preestablecidas.

Porque sí, hay reglas. Aquí la máquina no tiene una idea feliz y a partir de ahí continua. Hay reglas que ese operario ha metido, lo suficientemente modulares como para que (aquí sí), la máquina pueda afinarlas, e ir paulatinamente mejorando los ratios de acierto.

No hay aprendizaje como tal. No brota de la nada. Hay una base que se ajusta, y esa base la va a tener que seguir metiendo el departamento técnico del cuerpo de seguridad oportuno, o el propio proveedor del servicio, convenientemente asesorado por los profesionales que hasta ahora hacían este mismo trabajo a pinrel.

El software de pre-crimen no deja de ser un sistema de Big Data que intenta aplicar “inteligencia” sobre un conjunto masivo de datos, buscando posibles relaciones que se repitan al menos con un porcentaje mayor del 50%. Así, los datos recogidos por sensores ambientales, cámaras y los del sistema telemático propio del cuerpo de seguridad, se comparan con análisis OSINT (redes sociales, mayormente), con la esperanza de que algún loco le de por avisar por Twitter que va a matar a X usuario.

Y lo dice alguien que hace a diario un trabajo semejante en un entorno distinto (fraude bancario). Que los verdaderos positivos se cuentan con la mano, y al final acabas teniendo que meter irracionalidad humana para despachar todos los falsos positivos.

Porque esta era una de las principales críticas que quería señalar.

El porcentaje de éxito del machine learning va mejorando, pero lo hace siempre y cuando el entorno de aprendizaje sea controlado. Y señor mío, variables tan exógenas como comentarios en las redes sociales le aseguro que no forman parte de un entorno controlado.

Quitando ese loco que justo ha usado en el tweet o comentario de Facebook las variables oportunas (“matar” por ejemplo), que el sistema de sentiment oportuno haya dado con el clavo al señalar el comentario como ineludiblemente agresivo, sin rasgo alguno de ironía (lo cual es muy, muy complicado de definir, por mucho machine learning que hayamos metido y por muy elaboradas que sean las reglas), ¿cómo controlan el contexto, si este se ha producido fuera del ámbito de actuación del sistema? ¿Y la propia subjetividad humana?

Un “acabo de matarlo, ¿tengo que hacer algo más, David?” podría ser tachado como positivo, se haya producido por un ataque a otro ciudadano, o por una duda informática que requería matar un demonio en el Administrador de Tareas.

No, aún estamos muy lejos de aplicar subjetividad procedimentalmente. De que una máquina sea capaz de trabajar objetiva y subjetivamente. Aunque joda reconocerlo. Aunque la alternativa (apostar por equipos mixtos, formados por máquina y analistas de carne y hueso) salga sin duda muchísimo más cara y sea para colmo menos escalable. Y que “venda” menos para el periodista, tecnológico o generalista, de turno.

La lectura que de verdad importa (y que debería preocuparle)

¿Para qué sirve entonces el software de Hitachi. Para algo mucho más importante.

Para optimizar recursos.

Este supuesto Análisis Predictivo de Crímenes viene genial para que los cuerpos de seguridad puedan anteponerse a situaciones que quizás no tenían a priori controladas, o que creían tenerlas:

  • Conocer el número recomendable de efectivos que deben movilizarse en una manifestación, no basado en una estimación sin criterio (o bajo un criterio limitado al historial anterior), sino en otra estimación que tiene en cuenta además variables tomadas en pseudo tiempo real.
  • Tener localizados los focos de inestabilidad ciudadana, externalizando parte de ese laborioso proceso de mantenimiento y actualización, con vistas a presupuestar mayor control en esas zonas, o incluso la apertura de un centro de operaciones.
  • Generación de informes con menor tasa de error, que repercutirá positivamente en el presupuesto que el Ayuntamiento o gobierno de turno destina a este sector.

Pero no, no va a predecir crímenes, puesto que en estos sucesos, el factor aleatoriedad es lamentablemente muy alto. Usted, o un servidor, podría mañana acabar envuelto en un crimen. Pese a que su historial y el mío sean intachables. Tanto si viene de una familia o zona conflictiva como si no. Pese a que llueva o haga sol, o sea partidario de una u otra ideología.

Nadie va a detenernos por un crimen que todavía no hemos cometido. O al menos no debiera, puesto que no hablamos de un entorno controlable sino puramente probabilístico.

Y por cierto, sistemas de este tipo sí podrían servir justo para lo que comentábamos la semana pasada. El problema con sistemas de este tipo no es que estos cuerpos de seguridad acaben usando esta tecnología para abusar de su poder, sino los posibles usos que podría tener el día de mañana.

Cada vez tengo más claro que la desinformación por defecto es una salida lógica para el entuerto en el que la tecnología nos ha metido. Al igual que cada vez apostamos más por bloqueadores de contenido. Sistemas automáticos de desinformación que incluyan mayor aleatoriedad a estos intentos de controlar lo incontrolable.

No por los riesgos que tendrá en nuestros días (que recalco, son muy limitados en comparación con sus beneficios), sino por los riesgos que entrañaría si cayera en malas manos.

 

Edit a día 23 de Agosto del 2016: Un nuevo estudio (ES) revela lo que ya se sabía. Estos sistemas no solo no son eficaces, sino que son contraproducentes, al señalar como objetivos ciudadanos con antecedentes que poco tienen que ver con el caso.