La problemática de la interrupción forzada de una IA “trascendente”

trascendencia ia

Resulta una labor muy interesante (aunque profundamente compleja para mis conocimientos algorítmicos) echar un ojo al paper (EN) que Laurent Orseau de Google DeepMind y Stuart Armstrong de The Future of Humanity Institute (Instituto del Futuro de la Humanidad) de la Universidad de Oxford, han publicado recientemente sobre la explicación matemática de cómo se podría llegar a interrumpir por parte de un operador humano el trabajo de una máquina considerada trascendente.

La investigación se adentra una y otra vez en materias que podríamos considerar holísticas, y es que en efecto el paradigma parece sacado hoy en día de una película de ciencia ficción. Hablamos de cómo detener a una inteligencia artificial que ha evolucionado por sí misma, y por ende, está libre de las limitaciones que nuestra especie haya podido implementar en fases iniciales de su desarrollo.

El escenario pintado me recuerda poderosamente a aquel del que hablaba ya hace unos meses, a colación de los riesgos que supondría para todos nosotros la creación de una máquina capaz de pensar y evolucionar por sí misma.

Porque negarnos a ese avance es negarnos a un entorno con un potencial inmenso.

Ya no solo hablamos de desdibujar la figura que hasta ahora teníamos de los límites legales, de remar hacia esa sociedad de la abundancia donde el papel del ciudadano no tiene por qué estar pegado ineludiblemente al de la producción de los recursos necesarios para la sociedad, sino de encontrar solución a problemas y preguntas que hoy en día se nos escapan.

Si problemas como el cáncer o la muerte pasan a un segundo plano en cuestión de décadas, gracias a esa inteligencia capaz de analizar, sistemática y objetivamente una serie prácticamente ilimitada de KPIs, encontrando correlaciones que ni siquiera el esfuerzo humano de todos estos últimos siglos ha llegado tan siquiera de dilucidar.

En aquella carta abierta (EN) en la que varios cientos de científicos pedían precaución sobre los avances actuales en inteligencia artificial, lo definían muy bien:

“Hay pleno consenso en que las investigaciones sobre inteligencia artificial consiguen cada vez nuevos avances, y que es probable que la IA en grado cada vez mayor tenga un efecto en la sociedad. Las potenciales ventajas son enormes, debido a que todo lo que actualmente ofrece la sociedad es resultado de la inteligencia humana. No podemos prever los resultados que sería posible alcanzar cuando esta inteligencia sea incrementada con la ayuda de herramientas derivadas de la inteligencia artificial; uno de tales escenarios es la eliminación de las enfermedades y la pobreza. Debido al mayúsculo potencial que representa la inteligencia artificial es importante investigar sobre la forma en que es posible aprovechar las ventajas, pero evitando los peligros”

En la película Trascendence, de hecho, se adelanta una problemática que quizás el día de mañana podría llegar a ocurrirnos: ¿Qué pasaría si esa inteligencia trascendente, en su afán por mejorar la vida de todo el planeta, entiende que lo mejor es exterminar la raza humana? ¿O que nuestro diseño biológico tan limitado puede ser mejorado implantando una serie de tecnologías que nos hagan en efecto ser superiores, a costa quizás de dejar de ser quienes somos?

Todo esto tiene cabida en una realidad cada vez más gestionada por inteligencias artificiales, y en esa feroz evolución que está sufriendo esta industria gracias al aumento exponencial de las capacidades del hardware, a la pura fuerza bruta.

El quid de la cuestión está en el modo de inhabilitar un algoritmo

El paper se centra en los mecanismos que podríamos llegar a diseñar para parar las acciones de una tipología de agentes específicos, llamados agentes de aprendizaje por refuerzo (ES), y que parecen estar dando muy buenos resultados.

El paradigma de estos agentes no difiere mucho del que se aplica aún hoy en día con el aprendizaje de los niños. Enseñar en base a premios o sanciones, de tal manera que la máquina (o el niño) acaba por acostumbrarse a recibir un feedback positivo cuando hace las cosas bien, y por tanto, intenta realizarlas para recibir ese feedback positivo.

El problema surge cuando una máquina (o de nuevo, un niño), en su afán por ser premiado, realiza una acción que el operador humano (o el profesor) entiende como negativa. Esto iría desde la protección de su honor en el patio del colegio hasta casos tan apocalípticos como el que comentábamos con anterioridad, con una IA decidiendo que lo mejor para todos es eliminar un porcentaje de la sociedad, o apagar la tecnología.

“Si un agente de este tipo opera en tiempo real bajo supervisión humana, será necesario ocasionalmente que el operador humano active el botón rojo para impedir que el agente continúe ejecutando una secuencia dañina, con actos dañinos ya sea para el agente o para su entorno, consiguiéndose así llevarle a una situación más segura. Sin embargo, si el agente en esta situación de aprendizaje espera ser premiado por tal secuencia es posible que también aprenda a evitar ser interrumpido, por ejemplo desactivando el botón rojo. Esto sería, indudablemente, un despropósito”

Detrás de esta decisión se encuentra una serie de aprendizajes adquiridos que le han dirigido precisamente a considerar que está haciendo lo correcto, pese a que las consecuencias quizás no sean de nuestro agrado.

Bajo este escenario, el tema está en encontrar la metodología por la cual un operario podría llegar a interrumpir la acción incluso cuando esta IA sea consciente de ello. Es decir, el cómo generar puertas traseras que permitan a ese operario o al propio entorno interferir en el trabajo del agente, y que éste, en su paulatina evolución, no encuentre la manera de deshabilitarlas.

Porque nos enfrentamos a la creación de un sistema que va a seguir evolucionando allí donde nuestras limitaciones ya no están presentes, y quizás entonces algunos de los procedimientos actualmente considerados seguros (como puede ser el típico tirar de los cables, u otros más indirectos como ser capaces de afectar a la cola de trabajo, agregar aleatoriedad o interferir en la prioridad de las acciones) no sean válidos.

Un verdadero reto, que me apetecía compartirlo con usted, y que va más allá de simplemente “crear un gran botón rojo” en algún panel de control específico. Y algo en lo que me agrada saber que están trabajando aquellos que hoy en día han sido capaces de crear algunas de las IAs más avanzadas de la historia.