jardis arquitectura


Hace un par de semanas dedicaba un artículo a analizar en profundidad el impacto que tienen los sesgos en las bibliotecas de incrustaciones de palabras a la hora de definir el cómo una inteligencia artificial entiende el mundo que le rodea, y por ello, en cómo ese sistema de IA realiza su cometido.

Hablábamos entonces de que un elemento tan básico como a priori puede resultar una relación de “hombre” con “programador”, y de “mujer” con “ama de casa” podría, conforme esa IA aprende de dicha base de datos, dar como resultado un sistema de elección de candidatos para un puesto en el que por ejemplo diera más prioridad al hombre que a la mujer, habida cuenta de que en su aprendizaje, indirectamente, ha extrapolado que el hombre es quien tiene que traer el dinero a casa. O que frente a una biblioteca que relaciona con un índice ligeramente superior nombres de personas africanas con criminales, pudiera el día de mañana sesgar por aspectos puramente raciales quien puede acceder a una hipoteca y quien no.

El contexto del lenguaje

El contexto del lenguaje, sea hablado o escrito, sigue siendo hoy en día el principal elemento de discordia a la hora de diseñar inteligencias artificiales, y así lo dejaba claro Zuckerberg en un extenso artículo en el que explica cómo ha construido a Jarvis (EN), el asistente del hogar que tiene en su casa, claramente inspirado en el que tenía Tony Stark (Iron Man) en el comic.

 

Ver vídeo en Facebook (EN)

Para ello, hace uso de una arquitectura bastante sencilla para poner en comunicación el usuario (inputs) con Jarvis mediante los bots de Messenger, el reconocimiento de voz y las cámaras, y Jarvis con el resto de elementos de acción (outputs) de la casa (luces, música, puerta, seguridad…).

Una vez solucionado el hándicap de la comunicación de Jarvis con el resto de sistemas de la casa (cada uno de su padre y de su madre, con diferentes APIs y sin una estandarización común), se centró en hacer uso de los bots de Messenger para definir algunas acciones específicas.


Messenger, como Telegram, ofrecen chatbots con APIs capaces de integrarse en múltiples sistemas de inteligencia artificial. A fin de cuentas, es un canal más de comunicación hombre-máquina, como explican en este artículo (ES), y se postula como el acercamiento más inmediato a la interacción con inteligencias artificiales.

Palabras como “luces” y “encender” son relativamente sencillas de relacionar con acciones, pero cuando nos pasamos a un lenguaje natural, y sacamos al sistema a un entorno no controlado, se requiere definir el contexto de una petición:

Por ejemplo, cuando tu pides que encienda las luces o ponga una canción sin especificar la habitación, el asistente necesita saber dónde estás o podría acabar poniendo la música o encendiendo las luces en toda la casa, o en la habitación de Max (su hijo pequeño), que es justo lo que no querrías que ocurriese.

Zuckerberg también habla de la importancia del contexto a la hora de pedir música a Jarvis. No es lo mismo decir “pon algo de este tipo” que “pon algo del tipo Adele”, que “pon algo de Adele”. Aunque semánticamente suena parecido, cada petición es completamente diferente. En la primera estamos pidiendo un tipo específico de canciones, mientras que en la segunda estamos pidiendo una recomendación de un artista parecido a Adele, y en la tercera realmente estamos pidiendo una playlist de Adele.

Tampoco es lo mismo que una persona diga “pon algo que me gusta” a que lo diga otra persona. Zuck pone el ejemplo de las diferencias que deberían existir entre que esta petición la haga él o la haga su mujer Priscilla. Lo que requiere, de facto, que la interfaz sea capaz de identificar ya no solo factores puramente exógenos (desde dónde se realiza la petición, qué contexto hay…), sino también endógenos (quién la realiza, que historial tenemos de esa persona…).

messenger bot

Hegemonía del lenguaje escrito frente al hablado

Aunque la tendencia parece la contraria, lo cierto es que el lenguaje escrito sigue ofreciendo mayores garantías que el hablado.


Y no solo a nivel de facilidad de desarrollo e inmediatez. Está claro que hoy en día están bastante más pulidos los chatbots escritos que los que se basan en reconocimiento de voz, más que nada porque los segundos funcionan traduciendo la voz a variables escritas, que son, a fin de cuentas, las que utilizan para determinar la acción a realizar.

También a nivel social, y para múltiples situaciones, se presta más el lenguaje escrito. Y la razon más obvia es que frente al texto, que puedes escribir en tu smartphone sin molestar a terceros, la voz tiene asociada un nivel de interrupción considerablemente más alto. Cosa que ocurre en los dos sentidos, como explica el fundador de Facebook:

Escribo mucho más de lo que hubiera esperado. […] Si la acción tiene que ver con la gente alrededor mía, la voz puede ser una interfaz adecuada, pero la mayoría de las veces el texto es lo más apropiado. De manera similar, cuando Jarvis se comunica conmigo, suelo preferir que lo haga mediante mensajes de texto que mediante voz. Esto es porque la voz es mucho más disruptiva que el texto y éste te da a ti un control de cuándo quieres mirarlo que no tenemos en la comunicación hablada.

Nada, de nuevo, que no hayamos tratado en más de una ocasión, al hilo de las notificaciones de los smartphones y de la productividad.

Para el reconocimiento de voz, por cierto, ha utilizado el nativo de iOS. También es verdad que en inglés funciona considerablemente mejor, pero no me quiero imaginar hasta dónde podría llegar si hiciera uso del de Google.

Un ejercicio realmente interesante, que asegura haberle llevado apenas 100 horas, y que plantea seguir actualizándolo hasta que quizás esté a la altura para sacarlo al gran público.

Pero de todo ello me quedo con la respuesta que le daba a una de las múltiples opiniones vertidas por los seguidores. Frente a la sentencia de que realmente en el proyecto no había inteligencia artificial, sino simplemente comunicación entre hombre y máquina, Zuckerberg contestaba:


Esa es la gracia de la IA. Es como la magia. Solo llamamos IA a las cosas que no podemos comprender todavía. Una vez las entendemos, simplemente son matemáticas.

¡Touché! Las mismas matemáticas que rigen el complejo mundo del contexto conversacional. Algo en lo que nuestro cerebro es increíblemente bueno. Y que intentamos emular en nuestros limitados ordenadores.

Apenas hemos arañando la superficie de un mundo tan rico como es el de la comunicación humana. Un campo apasionante, que nos depara aún muchísimas incógnitas, y cuya extrapolación a unos y ceros se plantea como una de las empresas más críticas para el devenir de nuestra sociedad.