Este es un ejemplo de los artículos que semanalmente escribo de forma exclusiva para los mecenas de la Comunidad.

Si quieres recibir contenido exclusivo como éste directamente en tu bandeja de correo, revisa las opciones de mecenazgo de esta página.

*******

perder movil romperse

De un estudio de Google de 2013 que analizaba la profundidad que tenía una palabra de ir acompañada de otra en miles de noticias recogidas por Google News, acabó por obtenerse un conjunto de datos llamado Word2vec (EN), formado por millones de pares de palabras del tipo “Paris-Francia” “Luna-Satélite”.

Esta base de datos es realmente interesante porque de forma innata, una máquina ha relacionado conceptos a priori no asociados directamente a un grafo, y sus aplicaciones son múltiples (traducción automática, búsquedas inteligentes,…).  Incluso es capaz de, aplicando conceptos abstractos, buscar la solución. Por ejemplo, a la búsqueda “padre:médico :: madre:x” contestará, “x = enfermera”. Y aquí empiezan los problemas.

El no haber un sistema específico de catalogación, y al depender la BBDD de los datos recopilados de titulares escritos por personas (aunque sean profesionales de la comunicación), se ha demostrado nuevamente que existe un claro sesgo entre géneros.

Word2vec tiende a dar más peso al género masculino que al femenino, de manera que en búsquedas del tipo “hombre:ordenador :: programador :: mujer:x” devuelve por ejemplo “x = ama de casa”.

Según Tolga Bolukbase de la Universidad de Boston, esto se debe a una deformación matemática del espacio vectorial de Word2vec, y por tanto, puede ser corregido.

Deformación matemática

Y en eso precisamente están. Intentando definir matemáticamente una deformación debida a la irracionalidad humana y la replicación absoluta por parte de la máquina.

Para ello, buscan pares de palabras del tipo él:ella, y éstas son expuestas al ojo de varios voluntarios (esto es, capa humana) que dictaminan si pueden ser o no consideradas sexistas, creando entonces una nueva lista de palabras.

Es decir, que pasamos de un escenario humano puramente ineficiente, a otro escenario artificial puramente ineficiente, para volver a un escenario híbrido que se antoja, a priori, bastante más adecuado. Justo de lo que escribía estos días, por cierto.

Un trabajo titánico que aúna esfuerzos humanos y artificiales en pos de crear una base de datos que en verdad no esté sesgada por criterios externos.

Por si te mola ver la parte técnica del asunto, hay más infomación en el paper de la universidad (EN).

________

Este es un ejemplo de los artículos que semanalmente escribo de forma exclusiva para los mecenas de la Comunidad.

Si quieres recibir contenido exclusivo como éste directamente en tu bandeja de correo, revisa las opciones de mecenazgo de esta página.

Articulo exclusivo PabloYglesias