IAs generativas fuentes

Varios acontecimientos me llevan a publicar hoy esta pieza.

A saber:

Aún es pronto para predecir el impacto real que tendrán las IAs generativas

Hace unos días enviaba a la revista HackerCar un artículo explicando qué podemos esperar a nivel de seguridad y privacidad con el auge de las IAs generativas. Mi columna, lejos de centrarme en titulares catastrofistas, hacía hincapié en el hecho de que ahora mismo estábamos en la cresta de la ola a nivel de hype, de esa curva del hype tecnológico que en su día definió Gartner, y que nos hace ver un increíble potencial (y un riesgo terrible) a los avances con herramientas de la talla de ChatGPT o Midjourney. El artículo en el momento de publicar este aún no ha sido publicado (aunque lo estará dentro de unos días en el enlace superior), pero me autocito:

[,,,]

Así pues, estamos envueltos en esa campana de Gauss que ya definió Gartner hace eones en relación al hype por los avances tecnológicos.

campana gauss hype

Pasamos en apenas unos meses de una pendiente muy limitada (los años que lleva Open AI investigando sin más pena que gloria), a un mercado alcista de interés que nos dirige inexorablemente a ver tanto un potencial infinito, como un riesgo sin precedentes en todos y cada uno de los sectores productivos de nuestra sociedad.

La realidad, sin embargo, y aunque no acapare tantos titulares como los anunciados finales catastrofistas de estos últimos meses, es que muy probablemente estemos ante una serie

Estas IAs son lo que son gracias al contenido creado por ti y por mi

De aquí, saltamos a otra colaboración, esta vez en el programa Cuatro al Día de Cuatro Televisión, en el que me pidieron unas palabras sobre el posible abuso de este tipo de herramientas de los datos de millones de ciudadanos europeos (y de todo el mundo, pero ya me entiendes).

Cuando me llamaron, querían que me centrase en este hecho, pero como le expliqué al periodista, el problema que estaba llevando a países como España e Italia a abrir investigaciones contra Open AI por supuesto abuso de explotación de datos personales de ciudadanos europeos (algo prohibido, de facto, por la RGPD europea) era solo la punta del iceberg, habida cuenta de que no solo esto estaba en cuestión, sino el cómo esta antigua organización con fines académicos ahora reconvertida en empresa con ánimo de lucro había tenido acceso a datasets de millones de datos y contenido creado por todos nosotros, algunos de ellos protegidos bajo muros de pago.

Mañana publicaré la pieza hablando más en profundidad de esto en el blog de CyberBrainers, pero por ahora, te dejo por aquí la intervención que acabaron publicando en la cadena (les pasas alrededor de 2 minutos de grabación, y al final acaba saliendo como 10 segundos…):

Como tercer tema, tenemos el último «dramita» protagonizado por Elon Musk, que quiere demandar a Microsoft por, al parecer, haberse apropiado del contenido publicado por los usuarios de Twitter para entrenar los servicios de OpenAI (ChatGPT, principalmente).

En teoría, esta es la razón de por qué ha decidido cerrar la API de Twitter… mientras, casualidades de la vida, él mismo está montando una IA generativa que usa el contenido de Twitter para aprender.

Y por último, llego a la investigación, realizada por el Whasington Post (EN), y publicada el jueves, donde demuestran INEQUÍVOCAMENTE que estas IAs se han aprovechado de contenido creado por todos nosotros. Bloggers y periodistas como un servidor, pero también usuarios como tú y como yo.

De hecho, han creado un buscador donde puedes poner el nombre de una web y saber si el contenido de esta ha sido «crawleado» por C4, uno de los datasets más conocidos, usado por ejemplo por Google y Facebook para entrenar sus IAs.

Este dataset cuenta con el contenido de 15 millones de sitios webs, siendo una de sus principales fuentes b-ok.org, una plataforma que distribuía ilegalmente miles de ebooks protegidos por derechos de autor, y de la cuál ya hablamos hace unas cuantas semanas.

Y entre ellos, PabloYglesias aparece como una de las fuentes:

dataset pabloyglesias

Es decir, puedo decir sin pretender resultar pretencioso que ChatGPT es, al menos en una ínfima parte, lo que es gracias a mi :D.

Las IAs han aprendido con nuestro trabajo, y ahora quieren cobrarnos por usarlas

Como bien hemos comentado en varios artículos en esta página, todas estas herramientas han aprendido gracias al contenido que todos publicamos en la red. En páginas como esta, pero también en nuestros perfiles en redes sociales, en los foros, etc etc…

El tema es que:

  • Por un lado, parece que esa información no siempre ha sido recopilada mediante fuentes abiertas: Sin ir más lejos, estaría bien comprobar si de todo el contenido que han usado de esta web para crear el dataset C4, alguno de ese contenido era exclusivo para mecenas, y por tanto, no accesible a no ser que comprometieran la seguridad de esta página.
  • Por otro lado, una vez han conseguido enseñar a la IA a generar contenido como el que nosotros hemos creado (aprovechándose por tanto de nuestro trabajo), esperan que nosotros les paguemos por usarlas. Unas IAs que, recalco, son lo que son gracias al contenido de todos nosotros que, sin pagar por ello, han usado.

Exactamente lo mismo que ha pasado con las redes sociales. Unas plataformas que son lo que son gracias al contenido que todos creamos en ellas, y que sin embargo, están poco a poco limitando sus funcionalidades para forzar el pago por servicio.

Internet se ha vuelto esto, amigos.

Un ecosistema donde el más listo aprovecha la información que tiene disponible a su alcance sin pretender pagar por ella, pero que luego, espera que un tercero (ese mismo al que le «robó» la información) pague por usar su herramienta.

Con proyectos con fines académicos, como fue todo lo que durante años creaba OpenAI, aprovechándose de las políticas de gestión de datos más laxas para investigación, para luego cambiar a ser una empresa con fines de lucro cuyo principal herramienta es lo que es gracias a haberse aprovechado de esas políticas cuando era una organización sin ánimo de lucro.

Y con magnates como Musk, exigiendo que paguemos para usar esa plataforma que es lo que es gracias a haber crecido con el contenido de todos nosotros, y quejándose de que otros no pagaban por acceder a la información… mientras él mismo quiere explotar activamente el contenido creado por nosotros para luego vendernos una herramienta.

Mira que suelo estar poco a favor de la regulación restrictiva en materia digital, pero está claro que algo no funciona en el tercer entorno.

Y puesto que estas grandes compañías solo se mueven por el dinero, en esa suerte de separación entre el fin social y el económico que mueve el capitalismo moderno, lo único que espero es que se tomen las medidas oportunas, desde el marco regulatorio, para que al menos parte de esos beneficios astronómicos que reciben estas grandes compañías se reparta entre los que hemos hecho posible que sean tan grandes.

Y no, no hablo de una multa milmillonaria más que va a parar a las arcas del Estado de turno, sino de un reparto lógico y democrático, y de unas leyes que prohiban cobrar al usuario por servicios creados gracias a su trabajo.

Newsletter nuevas tecnologias seguridad

Imagínate recibir en tu correo semanalmente historias como esta

Suscríbete ahora a «Las 7 de la Semana», la newsletter sobre Nuevas Tecnologías y Seguridad de la Información. Cada lunes a las 7AM horario español un resumen con todo lo importante de estos últimos días.