La doble cara del sesgo a la hora de diseñar sistemas basados en IA

Word2Vec

Una búsqueda rápida en esta humilde morada bajo el criterio “sesgo” devuelve 6 páginas y 28 artículos en los que de una u otra manera he hablado a lo largo de estos últimos años de este asunto, generalmente en relación a su implicación en sistemas de inteligencia artificial.

El porqué debería ser sencillo de entender: en un escenario cada vez más dependiente del criterio de una máquina, conviene preguntarse cómo esa máquina toma las decisiones que toma, lo que nos lleva ineludiblemente a preguntarnos si puede haber sesgo en su manera de entender el mundo que le rodea. Y de ser así, si ese sesgo juega en contra o a favor de nuestros intereses.

Desde esa máquina encargada de decidir qué noticias son importantes para cada uno de nosotros, como aquella encargada de mostrarnos las mejores potenciales compras en base a nuestros intereses, toda esta nueva economía del dato (que no del algoritmo) se basa precisamente en la suposición que tanto el universo inicialmente analizado, como las capas de aprendizaje posterior, han partido de una neutralidad interesada en no pervertir el resultado final.

Y ya le adelanto que fallamos estrepitosamente en este cometido.

Incrustaciones de palabras sesgadas por el hombre

En un reciente estudio (enlazado unos párrafos más abajo) llevado a cabo por los investigadores Tolga Bolukbasi, Kai-Wei Chang, James Zou, Venkatesh Saligrama y Adam Kalai, se partió de la hipótesis de que los conjuntos de género (pares de palabras con las que habitualmente se alimenta a sistemas de traducción, bots de conversación, programas para escribir automáticamente y algoritmos de recomendación) eran puramente neutrales en cuanto a sesgo.

A sabiendas que para realizar el aprendizaje a cada palabra se le asigna un valor matématico, lo suyo sería pensar que “hombre” equivaldría a “mujer”, y que “abogado”, por ejemplo, equivaldría a “abogada”. Nada más lejos de la realidad.

Al parecer, lo más parecido matemáticamente a “programador” es “hombre”, y lo más parecido a “mujer” en el terreno profesional es… “ama de casa” (EN/PDF). Y ojo, que estoy hablando de repositorios de incrustaciones de palabras como Word2Vec (EN), por defecto en inglés, donde como bien sabe, no existe diferencia gramática de género.

¿Cómo se le queda el cuerpo?

Estamos diciendo que la mayoría de estas grandes bases de datos contextuales que sirven de materia prima para el aprendizaje de cada vez más sistemas de inteligencia artificial parten de una concepción claramente sexista (esto es, sesgada) de la realidad. Esto significa que por ejemplo un sistema recomendador de noticias podría rankear de forma ligeramente inferior un artículo sobre programación porque quien lo escribe es una mujer y no un hombre. Claro está que va a tener en cuenta muchísimos otros criterios. ¿Pero tiene sentido que entre ellos esté éste?

Y esto descontando que hablamos de un pilar donde se asienta el resto del conocimiento de una IA. Puede darse que, al haber aprendido que “ama de casa” está más cercano a “mujer”, y haber partido de esta máxima para conformar el resto del entendimiento capilar del mundo que rodea a un sistema de inteligencia artificial, que el día de mañana, y bajo el cometido de seleccionar los mejores trabajadores para un puesto específico, discrimine positivamente a un hombre por considerar que su papel debe estar más cercano a la labor de traer dinero a casa, que a una mujer, ya que matemáticamente está más cercana al trabajo en el hogar.

No estoy contando algo que pudiera ocurrir. En Fiverr ya hay estudios (EN) que apuntan a que los trabajadores afroamericanos y asiáticos obtienen calificaciones más bajas que las personas caucásicas. En TaskRabbit, las mujeres y los afroamericanos son por lo general peor evaluados que el resto. Incluso hay informes que apuntan a que las ofertas de trabajo con mejores salarios se muestran con mayor frecuencia a los hombres (EN/PDF) que a las mujeres. En parte, seguramente por prejuicios puramente humanos. Pero prejuicios a fin de cuentas que son los que utilizan estos sistemas para aprender, y que utilizan ya en nuestros días para recomendar el mejor candidato a un puesto, o el acceso o no a un préstamo hipotecario.

Google, encargado del mantenimiento y actualización de Word2Vec, es consciente de las implicaciones de este tipo de sesgos en repositorios como el suyo, y de hecho no hace mucho publicaba un artículo en su blog técnico sobre una posible salida para eliminar “eventuales discriminaciones” (EN) que podrían darse en la toma de decisión de una inteligencia artificial. GloVe (EN), desarrollado por la Universidad de Stanford, está también en el ojo de todas las miradas por la misma situación, pero no he encontrado propuesta alguna al respecto.

Y aquí viene lo bueno.

Algunos apuntan a que quizás no sea tan nocivo como a priori se presenta.

En busca de un equilibrio entre sesgo y realidad

Barbara Grosz (EN), coautora de IA100 y una de las máximas críticas a la evolución de las inteligencias artificiales, se ha pronunciado en más de una ocasión a favor y en contra de eliminar el sesgo humano:

Cuando formas parte de una sociedad que evoluciona de determinadas maneras, entonces realmente estás intentando cambiar el futuro para que no se parezca al pasado. Y en la medida en que confiamos en algoritmos para ese tipo de predicciones, existe una duda ética sobre si al hacerlo estamos inhibiendo el mismo cambio que buscamos.

No es como si se pudiera evitar todo tipo de discriminación, pero tenemos que ser conscientes de ello al diseñarlo y con lo que buscamos con nuestros programas. Para muchas de estas preguntas éticas, de hecho, no existe una única respuesta correcta.

Porque al final, ¿no es menos neutral un algoritmo que interesadamente ha sido manipulado para evitar sesgos sexista o raciales, que uno que nace de la pura extrapolación del sentimiento humano? ¿Y no generaría este nuevo repositorio de incrustaciones de palabras, per sé, un sesgo que pudiera llegar a tener mayor impacto que el que por sí ofrece un repositorio de incrustaciones no manipulado?

Obviando además que estaríamos alimentando sistemas de inteligencia artificial con datos que no son del todo reales (aunque quizás más justos). Y que esa misma inteligencia tendrá que operar el día de mañana en un escenario real, donde manejará datos distintos a los que a priori, y debido al sesgo humano, estaría acostumbrado, pudiendo llevarle a tomas de decisión equivocadas.

El tema, como ve, no es para nada tan sencillo como declararse abiertamente en contra del sesgo y a favor de homogeneizar lo más idealmente posible los repositorios de datos. Tanto hacia un lado, como hacia otro, corremos el riesgo de alterar bien sea el funcionamiento óptimo del algoritmo, bien sea el resultado global del mismo.

Qué falta nos hacen más científicos y más filósofos detrás de estos proyectos…