En algún momento entre finales del 2020 y principios del 2050 (estoy exagerando, pero a este paso…) saldrá Cyberpunk2077 (ES), esa obra maestra (esperamos) del estudio de los creadores de la saga de videojuegos de The Witcher, CD Projekt.
Del juego en sí se le espera que sea el Santo Grial del rol en tiempo real, trasladando las mecánicas de Cyberpunk, el juego de rol de ficha, al mundo de los videojuegos, de una manera más afortunada de la que hemos tenido hasta el momento…
Es decir, que yo aquí poco más tengo que contar más allá del hecho de que le tengo muchísimas ganas… pero me esperaré a poder jugarlo a un precio asequible y en 4k 60hz en mi futura Xbox Series X.
El caso es que no vengo a hablar del juego en sí, sino de la tecnología que hace posible que sus personajes, al menos por lo que hemos visto hasta la fecha, parezca que están de verdad vivos.
Y es que con Cyberpunk2077, los chicos polacos han encontrado una solución para crear gestos hiperrealistas de cientos de personajes sin que lo tengan que hacer a mano los animadores.
Repito por si no se ha entendido.
No es que un ejército de animadores hayan reconstruido durante meses frame a frame la cara de los personajes en cada toma. O que como ya se lleva haciendo unos cuantos años en el cine y los videojuegos, tengamos por detrás a actores reales vestidos con trajes verdes con bolitas sensoras que estudian todos sus movimientos mientras interpretan (que también), sino que toda esta “magia”, que por momentos nos hace dudar si esa chica del tráiler es una actriz o es solo un conjunto de pixeles, ocurre gracias a otra cosa que es menos mágica: la inteligencia artificial.
Índice de contenido
Hablemos de JALI
Todo parte unos cuantos años ha, en base a un paper de la Universidad de Toronto titulado “JALI: An Animator-Centric Viseme Model for Expresive Lip Synchronization”, que enlazo por aquí (EN) por si alguien tiene los huevetes de leerlo y más aún de entenderlo, y que por resumir tenía como objetivo transformar los fonemas de un archivo de audio en “visemas”, es decir, en gestos faciales que refuerzan la comunicación no verbal.
Matheusz Tomaszkiewicz (qué manía con meterles “z” de más a las cosas que tienen estos del este…), el Quest Director de CDProjekt, quedó prendado por el paper y decidió ponerse en contacto con los investigadores. 4 años más tarde de esa llamada nacería la startup JALI Research Inc (EN), que tiene como fin democratizar esto de crear artificialmente apariencia de vida en conversaciones entre personajes creados por ordenador.
¿Que cómo lo hace?
Pues basándose en tres pilares: Rule Based AI + Animation Principles + Human Insights.
Y aquí viene lo bueno.
Sincronización labial en tiempo real
La base de una buena comunicación, al menos si no eres un ex-presidente del PP, es el movimiento labial.
Algo que como bien sabrás pecan ya no solo en videojuegos, sino también en el propio cine cuando se doblan las películas.
Pues JALI soluciona esto mediante un sistema procedural basado en el análisis de tres archivos (audio, transcripción en texto y etiquetado del desarrollador).
Es decir, que a JALI le metes el audio que tiene que decir el personaje, la transcripción en texto, y una serie de anotaciones que le quieras dar, y con ello recrea un movimiento de labios que ríete tú, teniendo en cuenta los cambios en la entonación para que parezca más real (speach style).
Por aquí puedes ver un ejemplo:
Animación facial
Pero claro, si los personajes únicamente movieran los labios, pues como que la cosa queda un poco irreal. JALI se encarga además de gestionar los músculos de la cara con otro sistema procedural para cada grupo muscular, y de nuevo emulando los estados de ánimo del personaje mediante dos ejes.
Ojos
El parpadeo es una pieza fundamental de nuestra biología expresiva, y además, cosas de la vida, es dependiente del estado de la persona (alguien nervioso, por ejemplo, tiende a parpadear más) y de factores externos.
Para solventar esto de nuevo JALI se encarga de generar un movimiento de pupilas dependiente de las fuentes externas (otros personajes, fuentes de luz) y adaptarlo mediante IA al audio que le metemos como fuente, de donde saca el posible estado del personaje.
Cejas
Más de lo mismo. Los humanos utilizamos las cejas para informar de nuestra situación actual en una conversación, o de nuestro estado emocional.
De ahí que los chicos que han diseñado JALI se hayan liado la manta a la cabeza para identificar diferentes perfiles emocionales a través del análisis de una serie de tags escritas por los desarrolladores.
Cuello
Y por último, todo lo anterior debe ir acorde con los muchas veces involuntarios movimientos leves que hacemos con la cara, girándola para mostrar interés o negando sutilmente algo que no nos gusta. Jali hace esto mismo con los rostros de los personajes para redondear la sensación de vida.
El resultado final lo tienes en el siguiente vídeo, en el minuto 13:10 (por si te quieres saltar toda la explicación técnica). Es sencilla y llanamente increíble lo que se consigue metiendo todos estos elementos:
Pues si te ha parecido poco, todo esto en Cyberpunk 2077 se ha hecho 10 veces: una para cada idioma en el que saldrá el juego.
Un trabajo titánico, que hubiera llevado años literales de desarrollo, y que han automatizado mediante tres sistemas que intentan emular todo lo anterior según el idioma y el lenguaje no verbal de cada cultura.
Lo que supone a futuro
Y sobra decir que JALI se va a licenciar con plugins para Maya, Unreal y Unity. Así que a la vista de todo esto, lo único que me queda por pensar es en dónde ha quedado ya ese valle inquietante tan habitual en el CGI del cine de hace unos años y de los videojuegos hasta el momento.
Y cuánto tardaremos en licenciar caras conocidas de actores de Hollywood y famosos varios, que se utilizarán durante años en diferentes producciones sin que la persona realmente necesite mover un dedo.
Ya hemos visto que las nuevas tecnologías en materia de reconocimiento facial y creación de rostros asistida por AI ha permitido eso que en su día definí como un relato distópico, y que hoy en día es tan real como tú y como yo: El que un vídeo de alguien diciendo algo que le incrimina pueda ser totalmente falso.
Y también hemos visto en el cine cómo se revivían a actores ya muertos, como fue el caso (no muy logrado, todo hay que decirlo) de la buena de la princesa Leia en las últimas películas de Star Wars.
Un ejemplo más de que toda tecnología puede tener un uso increíblemente interesante, o devastador para la sociedad.
Que al final JALI y cualquier otro desarrollo no deja de ser una herramienta, y como cualquier otra herramienta, puede ser usada para hacer el bien o el mal.
________
¿Quieres saber dónde conseguir juegos gratis periódicamente? Por aquí tienes un listado de servicios y eventos a marcar en tu calendario para no perderte ninguna de estas ofertas.
¿Quieres conocer cuáles son mis dispositivos de juego preferidos? Revisa mi setup (ES).
Y si te gustaría ver más de estos análisis por aquí. Si el contenido que realizo te sirve en tu día a día, piénsate si merece la pena invitarme a lo que vale un café, aunque sea digitalmente.
Apasionante y a la vez terrorífico… si ya se lía parda cuando descubren tweets antiguos comprometido de algún famoso, no me quiero imaginar que pasará cuando cualquier anónimo de internet pueda falsificar un vídeo del presidente del gobierno diciendo que le gusta tocar a niños o cualquier otra barbaridad.
Como bien dices no deja de ser una herramienta, y no se le pueden poner vallas al campo del desarrollo tecnológico/científico (por ahora), pero estas cosas me dan escalofríos xD
Si es que todo eso ya está pasando xD. He ahí el problema, que ya hace tiempo que lo que predije en ese relato distópico llamado “La Historia Patrocinada” es en verdad una realidad…
De hecho hace un par de años di una charla en el IMF Business School en la que profundizaba en cómo de fácil es hoy en día generar vídeos o llamadas fake. Con el móvil y una app ya se puede hacer, y como todo el procesamiento se realiza en la nube, ni siquiera necesitas ordenadores potentes para ello.