Frente al SCRAPING MASIVO de la IA, el ENVENENAMIENTO de los DATASETs

¿Alguna vez te has preguntado cómo funcionan las IAs generativas como ChatGPT o Dall-E que muy probablemente ya estás usando en tu día a día?
¿Y si te dijera que el éxito de las IAs en este último año viene dado por haberse aprovechado descaradamente del contenido que todos hemos generado en Internet estas últimas décadas?

Conscientes de ello, cada vez son más los creadores de contenido que están empezando a usar estrategias para hacer que las IAs aprendan… a equivocarse. A que cuando les pidamos, por ejemplo, que nos hagan una imagen al estilo de Dalí… acaben dándonos una imagen con el estilo pictórico de Picasso.

A esto se le ha empezado a llamar Envenenamiento o Tergiversación de Datasets, y en este nuevo episodio del podcast enCLAVE Digital te voy a explicar cómo funciona y por qué te interesa.

¡Empecemos!

Índice de contenido

¿Qué es una IA generativa?
Las IAs han aprendido gracias a mi (y tú) contenido
¿Quién paga todo este aprendizaje?
Frente al scraping masivo, la desinformación algorítmica
Tergiversación de datasets como defensa personal y social
Sobre el videopodcast enCLAVE DIGITAL

¿Qué es una IA generativa?

Comencemos por el principio.

¿Qué es eso de una IA generativa?

Pues bien, para empezar, hay que tener claro que las inteligencias artificiales no han nacido este último año. Es más, llevamos literalmente décadas investigando sobre ellas… y utilizándolas.

Sin ir más lejos, algoritmos como los que deciden qué contenido se muestra cuando haces una búsqueda en Google o cuando entras a revisar el timeline de tu cuenta de Instagram o TikTok están regidos por sistemas de inteligencia artificial. O ya puestos, herramientas tan ubicuas en nuestro día a día como puede ser el autocompletado del teclado virtual de nuestro smartphone y de la amplia mayoría de servicios digitales que usamos… también.

Y ya no hablemos de la industria. Prácticamente todo lo que tanto tú como yo usamos desde que nos levantamos hasta que nos acostamos ha sido creado por máquinas que están controladas, aunque sea parcialmente, por sistemas de inteligencia artificial. La ropa, la tecnología, los muebles de tu casa… Todo lo que haya pasado por una cadena de montaje y logística (es decir, todo lo que tienes a tu alrededor) ha sido creado gracias a máquinas asistidas por sistemas de inteligencia artificial.

Lo único que ha cambiado en este último año es que, hasta ahora, el contacto que teníamos con las IAs era, por regla general, indirecto.

Nos aprovechábamos de su uso, pero no éramos conscientes de que estaban ahí, al estar integradas dentro de los procesos internos de producción y servicio.

Sin embargo, con el auge de las GANs (redes generativas antagónicas) y los chats conversacionales, de pronto, a finales de 2022, se hicieron masivas herramientas asistidas por inteligencia artificial cuya interfaz (es decir, con lo que interaccionamos nosotros, los usuarios) es directamente el propio sistema de inteligencia artificial.

Que, «de pronto» (y entiéndeme este «de pronto» como lo que hemos vivido como usuarios, que como investigadores este proceso ha llevado años y ha sido gradual), podíamos preguntarle en lenguaje humano directamente a una IA que nos diera tal cosa, y la propia IA nos la daba. Sin que hubiera procesos por el medio que «ofuscaran» el hecho de que detrás había una inteligencia artificial funcionando.

Las IAs han aprendido gracias a mi (y tú) contenido

Así pues, hechas las presentaciones, vamos a meternos en el turrón.

¿Cómo demonios hemos pasado de una inteligencia artificial que, por ejemplo, gestiona que una cadena de packaging funcione correctamente, a una que es capaz de crearnos una foto de un gatito?

Pues, simplemente, entrenándolas con muchas fotos de gatitos.

Las IAs generativas que tenemos en la actualidad no son más que el proceso iterativo de aprendizaje con contenido que previamente le hemos dado.

Un contenido que además tiene que estar estructurado, es decir, asociado a una serie de inputs, variables, que es lo que le permite a la IA categorizarlo.

Poniendo el ejemplo de esa IA que te pinta un gatito, lo que realmente está haciendo cuando le pedimos por texto «Hazme un gatito», es revisar en su dataset de conocimiento (esto es, básicamente, una biblioteca de millones de contenidos gráficos previamente categorizados) qué significa «gatito», que en su argot, será una serie de pixeles colocados de una manera tal que el resultado, al ojo humano, se parezca a un animal felino adorable.

La inteligencia artificial generativa no sabe, por tanto, qué es un gatito. Lo que sí sabe es que un gatito está formado por una serie de 1s y 0s ordenados de tal manera en una imagen computerizada como para que, el resultado final, sea una especie de animal a cuatro patas con ojos grandes, hocico pequeño, y bigote.

Y esto lo sabe porque PREVIAMENTE los humanos le hemos dado millones de fotos de gatitos en diferentes (y adorables) posturas, y le hemos dicho que de todas esas, en estas había un gato.

Es decir, que la IA ha aprendido gracias a millones de datos estructurados.

Datos que alguien ha tenido que sacar de algún lado, ¿verdad?

¿Y de dónde crees que ha podido obtenerlo?

¡Exacto!

De internet.

Y más concretamente, del contenido que durante años tú, y yo, hemos publicado en la red.

Estas diapositivas que estoy mostrando ahora en pantalla (si me estás viendo, que si solo me estás oyendo tranquilo, te lo explicaré de viva voz) pertenecen al comienzo de una de las charlas que más he impartido estos últimos años.

En ellas, te muestro algunos pantallazos del #10YearChallenge, un hashtag que antes del COVID se hizo viral, y que consistía en que cualquiera de nosotros subiera una foto de cómo éramos hace diez años, y otra de cómo somos ahora.

Pues bien.

En la charla explico que para el usuario, esta es otra de esas campañas chulas. Una excusa para mostrar lo bien que hemos envejecido algunos, y también compararnos con el resto de amigos. Vamos, el cotilleo de toda la vida.
Sin embargo, este tipo de campañas para un científico de datos es una verdadera mina de oro.

De pronto, y durante unas cuantas semanas, millones de usuarios estaban subiendo dos imágenes de la misma persona pero con diez años de diferencia. Es decir, un par de datos gráficos ESTRUCTURADOS.

¿Ves por dónde quiero ir?

Campañas como las del #10YearsChallenge, o esa aplicación en la que subías tu foto y te decía cómo serías si fueras mujer, o cómo será tu hijo, son memes que se hacen virales y que han permitido entrenar durante años a estas inteligencias artificiales.

Nosotros, los usuarios, por tanto, les hemos hecho el trabajo duro (la catalogación del contenido).

Y no solo eso.

En Abril del año pasado publicaba este artículo:

Varias IAs generativas han aprendido gracias a mis artículos, y a tu contenido

En él, explicaba cómo había descubierto que parte del contenido que he publicado en página PabloYglesias.com ha servido para entrenar a algunas de las principales IAs generativas de nuestros días.

¿La razón?

Pues que alguien había incluido hasta 140 artículos de mi página en un dataset llamado Google’s C4.

De hecho, mi contenido representaba el 0,00000009% de todo el contenido que tenía ese dataset, junto a otras millones de páginas de creadores de contenido a lo largo y ancho de todo el mundo.

¿Quién paga todo este aprendizaje?

Llegados a este punto, la pregunta que puede surgirte es cómo se monetiza este trabajo.

Y la respuesta es bien sencilla: Los creadores de contenido no hemos cobrado nada, y muy probablemente ya no cobremos nada por este trabajo.

De hecho, y como ya conté en un episodio reciente del podcast, los únicos que van a sacar tajada de todo esto son:

Las empresas detrás de estas IAs: Casos como el de OpenAI, creadores de ChatGPT, y que crecieron en base a subvenciones de EEUU y multinacionales como Microsoft cuando la organización era una organización sin ánimo de lucro, y que por tanto, cubierta por una legislación muchísimo más permisiva de explotación de datos personales (se suponía que lo hacían con fines puramente académicos), y que al poco de sacar al mercado ChatGPT y ver su increíble potencial, pasaron a ser empresa y por tanto tener un fin lucrativo, es buen ejemplo de las tácticas que ha seguido buena parte de la industria, y son los principales beneficiarios de todo este boom de las IAs generativas.
Los grandes tenedores tecnológicos: Recordemos cómo Elon Musk cerró la API de Twitter/X precisamente porque consideraba que empresas como OpenAI se habían aprovechado de SU contenido gratuitamente, y que si querían seguir usándolo, deberían pasar por caja. Es decir, que para Elon Musk, y en definitiva para cualquiera que administre una plataforma como son las redes sociales, el contenido que tú y que yo creamos en nuestros perfiles… no es nuestro, sino de ellos. Y ellos van a ganar dinero con tu contenido, sin que tú vayas a recibir ni un mísero céntimo por ello.

Que ahora me dirás: «Pues oye, Pablo, sinceramente, a mi me da igual. Yo utilizo las redes sociales para estar en contacto con los míos y subir fotos de gatitos».

Y sí, tienes razón.

Pero piensa ahora que quizás un fotógrafo, o un artista, o un diseñador, o un periodista, puede no verlo igual que tú.

De pronto, estos creadores de contenido se dan cuenta de que, gracias a su trabajo, se han creado unas herramientas que… en algunos casos (ya sabes, aquellos «profesionales» cuyo aporte de valor es más que cuestionable), pueden hasta quitarles el puesto.

Que igual al n-ésimo diseñador sin marca personal de turno no le hace mucha gracia que cualquiera con una herramienta como Stable Diffusion pueda crear imágenes que, oye, no serán perfectas, pero dan el pego.
Que igual a tal Luis Royo, uno de los artistas gráficos españoles más conocidos en el mundo de la fantasía épica, no le hace mucha gracia que ahora cualquiera pueda pedirle a la IA «Hazme un dibujo a lo Luis Royo», y obtenga un resultado calcado a una obra suya, pero sin pagar nada por ello.
Que igual, como vimos en el episodio en el que hablábamos de la industria cinematográfica, a un actor, a un guionista, no le va a hacer mucha gracia que el estudio prescinda de sus servicios, habida cuenta de que ahora con la IA pueden crear un guión bastante resultón, y gracias a las licencias que ya tenía de explotación de imagen de sus actores, puede poner al actor a actuar… sin que este tenga que pasar el plató y cobrar la jornada de trabajo.
Que igual a ese periodista no le hace mucha gracia que una buena mañana se entere que él, y todo el equipo de corresponsales con los que trabajaba, han sido despedidos y cambiados… por una IA.

Una IA que traduce todo lo que publican los periodistas anglosajones del mismo medio.

Que esto último no me lo estoy inventando, ojo.

Esto mismo le pasó al bueno de Matías, y a todo el equipo de periodistas de Gizmodo, uno de los principales medios de referencia del sector tecnológico, a finales del año pasado (ES).

Frente al scraping masivo, la desinformación algorítmica

Aquí es donde quería llegar.

Todo este salto evolutivo tecnológico ha sido posible gracias a que el scraping masivo de fuentes abiertas es legal.

Es decir, que por ejemplo, el hecho de que parte de mi contenido en la web haya sido usado por las IAs para entrenarse es totalmente legítimo en el momento en que yo, como administrador de mi página, decido publicar contenido de manera pública en Internet, y un tercero, los administradores de este dataset, están en todo su derecho de crear un sistema que recopile masivamente esos datos y los estructure en su herramienta.

Además, en mi caso, licencio toda mi producción pública bajo una licencia copyleft de atribución.

Es decir, que por poder pueden copiarme todo lo que quieran mientras se mencione que ese contenido ha sido creado por mi.

El scraping, por tanto, es uno de los pilares de Internet. Un pilar que algunos, como es el caso de los medios de comunicación, llevan años intentando limitar… y que rema en contra de toda la sociedad.

Por muchos motivos que si te interesan, dímelo en comentarios y le dedicaré un podcast en profundidad.

Pero una cosa es esa, y otra es que, por lo que parece, estas IAs también han aprendido de contenido oculto bajo muros de pago. Contenido por tanto no obtenido mediante scraping de fuentes abiertas, sino de fuentes cerradas.

Volviendo al símil con mi página, yo hay parte del contenido que publico en exclusiva para los miembros del club Negocios Seguros.

Ya sabes de qué hablo:

Un contenido exclusivo cada martes sobre negocios digitales, tecnología y seguridad.
Una newsletter exclusiva cada jueves con todo lo ocurrido en materia de privacidad y seguridad de la información.

Pues bien, este tipo de contenido no debería poder obtenerse a no ser que el usuario pagase la membresía mensual. Igual que pasa con muchos periódicos cuyo contenido es solo para suscriptores.

Disclaimer: Si te interesa estar bien informado, échale un ojo a la página pabloyglesias.com/club.

Y en cambio… se ha demostrado en ese mismo estudio antes mencionado que IAs como ChatGPT accedieron a contenido de fuentes cerradas.

Y a esto júntale el hecho de que quizás en mi caso todo lo que publico lo licencie con una licencia permisiva, pero, ¿y los miles de libros con los que herramientas como las de OpenAI han aprendido a hablar como los humanos? ¿Eran todos libres de derechos de autor?

Ya te digo yo que no.

Es más, estas IAs han llegado a utilizar tanto el scraping masivo, que han llegado incluso a pensar que las marcas de agua como las que meten automáticamente plataformas fotográficas como Getty Images… ¡son una parte más de sus creaciones!

En este ejemplo que te muestro a continuación, vemos una imagen creada con Stable Diffusion (una de las IAs generativas de fotos más conocidas) que claramente está copiando una foto real subida a GettyImages. Tanto es así, que además de ponerle casi la misma ropa, postura y hasta cara a los dos futbolistas que aparecen en la creación, ¡ha copiado incluso la marca de agua de gettyimages (EN)!

El problema de definir los límites éticos y legales entre lo que podemos considerar un scraping positivo para la sociedad (el que hacemos cualquiera de nosotros cuando navegamos por Internet) y un scraping masivo, automatizado y profundamente invasivo (como el que parece han usado para entrenar estas IAs generativas) es, como decía en un artículo reciente, un verdadero quebradero de cabeza para reguladores, expertos y artistas.

Tanto es así, que algunos han empezado la contraofensiva.

¿Cómo?

¡Generando desinformación para confundir a los datasets!

Escucha esto:

Esta nueva herramienta de envenenamiento de datos permite a los artistas luchar contra la IA generativa.

La herramienta, llamada Nightshade, altera los datos de entrenamiento de manera que podrían causar graves daños a los modelos de IA que generan imágenes.
MIT Technology Review (EN)

Básicamente, herramientas como Nightshade lo que hacen es generar datos conflictivos en imágenes, de manera que al ojo humano la imagen nos sigue pareciendo la misma… pero cuando una IA quiere procesarla, obtiene como resultado información contradictoria.

Así, esa foto de un gatito monísimo del cual hablábamos al principio del podcast puede hacerle pensar a la IA que, realmente, se trata de un perro.

Que lo haga un artista con una de sus creaciones, pues sinceramente, no va a pasar nada.

Pero si de pronto este tipo de herramientas pasan a usarse masivamente… generaríamos un entorno en el que las IAs «alucinarían» todavía más de lo que hacen ahora mismo, al haber «envenenado» su dataset de aprendizaje.

Tergiversación de datasets como defensa personal y social

Y fíjate, iría más lejos.

Buena parte de los riesgos que estamos asumiendo al pasar a una era donde la IA generativa parece que estará omnipresente, radica en el impacto que tendrá para nuestra privacidad, y ya puestos, para el futuro informativo de la sociedad.

Me explico.

Básicamente, estamos entrando en un escenario en el que pasamos de hacer una criba (cada uno de nosotros) sobre qué potencial respuesta es la correcta para la pregunta que tenemos en mente (por ejemplo, cuando buscamos algo en Internet) a otro donde le preguntaremos a un asistente virtual, y esta máquina decidirá por nosotros qué respuesta es la más correcta.

Una máquina que, recalco:

Ha sido diseñada para parecer que habla como un humano, no para dar la mejor información a una pregunta hecha.
Ha sido entrenada con millones de datos estructurados creados por todos nosotros, y por tanto, con los sesgos esperables de toda esa parte de la sociedad que podemos considerarnos creadores de contenido.

Es más, existen ya tácticas, como las que expliqué en un tutorial hace meses, para hackear los sistemas de aprendizaje de estas IAs conversacionales y que nos digan lo que nosotros queremos que nos digan. Incluso cuando esto incumple su propia política y ética.

Ingeniería de prompts: 5 hacks para burlar los filtros de seguridad de ChatGPT

Gracias a estas técnicas, es posible hacer «entender» a una IA que tal información es verídica.

Y esto afecta tanto a la capacidad que tiene la sociedad de estar bien informada, como a la presencia y reputación de cada uno de nosotros.

Si es posible engañar a la máquina haciéndole pensar que yo soy quien digo que soy y no quien de verdad soy, se rompe por completo la cadena tradicional de información, y se abre paso a ataques de desinformación y propaganda por parte de aquellos elementos del sistema con los suficientes recursos para llevarlos a cabo.

Bajo este escenario, y cómo ya expliqué en su día como defensa a los sistemas algorítmicos que hasta el momento rigen qué debemos ver y qué no en Internet, igual la locura de meter un poco de entropía, de datos incorrecta y voluntariamente desestructurados, permitiría que considerásemos las «alucinaciones» estos sistemas como una defensa más para que el grueso de la sociedad los entienda como lo que son (una buena herramienta de soporte informativo), y no como lo que no son (una buena herramienta informativa).

¿En caso contrario?

Pues entraremos en una nueva etapa en la que el impacto de las burbujas de filtro informacionales son aún más abstractas, se perciben como universales y neutrales cuando realmente no lo son, y para colmo seguirán estando en manos de unas pocas manos.

Lo mismo que ocurría y ocurre con los massmedia… solo que bajo la excusa de que es un algoritmo presuntamente neutral quien te da la respuesta, y no un equipo editorial con sus esperables sesgos y sus necesarios compromisos geopolíticos y económicos.

Dicho todo esto, turno para ti:

¿Conocías de la existencia de herramientas de desinformación algorítmica como es el caso de Nightshade?
¿Implementas en tu día a día algún tipo de acción para minimizar la huella digital que dejas y pervertir con ello los datos que estás exponiendo de tu persona?
Y por último, ¿Has delegado el acceso a la información en este tipo de chatbots conversacionales… a sabiendas del riesgo que ello supone?

Te leo en comentarios.

Sobre el videopodcast enCLAVE DIGITAL

enCLAVE DIGITAL es el videopodcast de Pablo F. Iglesias, consultor de presencia digital y reputación online.

Si este contenido te sirve para estar bien informado sobre la actualidad en materia de negocios digitales, reputación y tecnología, te agradecería que le dieras a suscribirte en mi canal de Youtube o en la plataforma de podcasting desde donde me escuchas, le des a Me Gusta, me dejes un comentario o reseña y lo compartas con aquellos a los que les pueda interesar.

¡Seguimos!

enCLAVE DIGITAL en Youtube

enCLAVE DIGITAL en Spotify

Si utilizas otra plataforma de podcasting, busca «enCLAVE DIGITAL« en la app para localizarlo, o visita la página del videopodcast, donde ofrezco enlaces directos a las principales plataformas actuales:

Videopodcast enCLAVE DIGITAL

2 Comentarios

José Moya el 29 enero, 2024 a las 9:55

Hola Pablo gracias por tu artículo: interesantísimo como siempre. Conocía Nightshade y su complementario Glaze, pero también he leído sobre sistemas que pueden envenenar a coPilot para que, en una fecha determinada, introduzca fallas de seguridad en el código generado.

Respecto de mi huella digital, procuro dejar cuanta menos, mejor, por eso no etiqueto las fotos que subo a la nube y tengo desactivado en esta el permiso de reconocimiento de rostros -aunque no sé si Amazon y OneDrive honran la decisión del usuario de no permitir el reconocimiento de rostros.
Responder
- Pablo F. Iglesias el 29 enero, 2024 a las 10:16
  
  Muchísimas gracias José!
  
  Muy buen aporte con lo de coPilot. No lo había visto, y en efecto, hecha la ley, hecha la trampa.
  
  Y bien haces con el tema de tu huella digital. Aunque también te digo que no existe mejor huella que la que proactivamente quieres tú dejar. Por ejemplo, en mi caso, publico mucho por redes sociales y por el blog, como bien sabes. Pero la idea es intentar, en la medida de lo posible, exponer solo esa parte que me interesa exponer de mi identidad. De esta forma lleno Internet de una información valiosa para mis intereses, brindando mi perfil ante futuras crisis reputacionales… y limitando entonces la huella digital que inevitablemente también dejo al usar servicios online.

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

COMENTARIO

Nombre *

Correo electrónico *

Web

Notificarme nuevos comentarios por correo electrónico.

Información básica de protección de datos.

Es mi deber informarte de que el Responsable del Tratamiento de los datos que facilitas es Pablo F. Iglesias (es decir, yo), y se tratan con el fin de participar en la página web a través de comentarios y/o atender tu petición de recibir semanalmente información sobre tecnología y seguridad y/o participar en sorteos, por lo que la legitimación deriva de ti como interesado. Los datos solo se cederán: a) a terceros directamente si existe amparo legal para ello; b) a Encargados de Tratamiento; c) en otros casos, se te solicitaría consentimiento previo y expreso. Tienes derecho a saber si se tratan sus datos y a acceder, rectificar, oponerte, portar, limitar su tratamiento y a no ser objeto de decisiones automatizadas, así como a suprimirlos y cancelarlos en los casos legales, y puedes ejercitarlos dirigiendo tu solicitud a [email protected].

Se conservan en los plazos legales y contractuales aplicables según el caso. Puedes acceder a información más amplia sobre privacidad en esta página.

Current ye@r *

Frente al SCRAPING MASIVO de la IA, el ENVENENAMIENTO de los DATASETs

¿Qué es una IA generativa?

Las IAs han aprendido gracias a mi (y tú) contenido

¿Quién paga todo este aprendizaje?

Frente al scraping masivo, la desinformación algorítmica

Tergiversación de datasets como defensa personal y social

Sobre el videopodcast enCLAVE DIGITAL

Otros artículos relacionados

Sobre el Autor

Pablo F. Iglesias

2 Comentarios

Deja una respuesta Cancelar la respuesta

Pablo F. Iglesias