¿Qué se puede saber de un barrio por los coches de sus habitantes?

Segmentacion Coche

Muy revelador el paper del equipo de Timnit Gebru, de la Universidad de Stanford, para realizar evaluaciones demográficas basadas en datos accesibles en las imágenes de Google Street View (EN/PDF).

Históricamente estos estudios se han realizado mediante encuestas que cada X meses la Oficina del Censo de cada país, o las empresas dedicadas a ello, realizan a un porcentaje significativo de la sociedad.

Hablamos de encuestas generalmente largas, normalmente vía telefónica, en las que el entrevistado tiene que dedicar al menos quince o veinte minutos a responderlas. Encuestas que normalmente tocan temas conflictivos, como la intención de voto o los gustos sexuales, y que aunque se hacen bajo una suerte de anonimización (ES), obligan a la persona a responder a preguntas claramente identificativas (con qué banco trabaja, qué tiempo pasa en casa y cuánto fuera de ella, dónde vive, cuántas personas viven en su casa…).

Como cabría esperar, el margen de error es relativo, dependiente en todo caso de dos factores:

  • El universo estudiado es una parte ínfima del espectro total de ciudadanos: Nada que no deba sorprendernos ya, y que aún así, bien definido (una mezcla de segmentación en base a profiling y otra en base a la más pura aleatoriedad), suele representar con bastante exactitud el grueso de la sociedad. ¿Cuál es el problema? Que habitualmente este tipo de censos solo cubren poblaciones de X miles de habitantes, dejando fuera a pueblos y villas que en su conjunto, y como ha quedado demostrado en más de una ocasión en esta convulsa época política, representan un porcentaje de la sociedad determinante.
  • Las preguntas incómodas tienden a ser respondidas con mentiras: Aunque el carácter de estos estudios es puramente cuantitativo (no hay interés en identificar al sujeto, sino únicamente conocer los hábitos de los ciudadanos), a fin de cuentas nos están haciendo una entrevista por teléfono (nuestro número de teléfono, visible posiblemente en las páginas amarillas y asociado a un barrio específico) o en la propia puerta de casa. Y estamos hablando con otra persona (una desconocida) sobre temas que consideramos privados (educación, trabajo, vida familiar…), lo que lleva a que la veracidad de la información compartida deba tomarse con pinzas, y acabe por llevar a las organizaciones que utilizan estos estudios como base de cara a la toma de decisión estratégica hacia derroteros que quizás no sean los más adecuados.

Un error bajo debido al estudio de una pequeña parte más un error que podemos considerar significativo debido a que es el propio encuestado quien responde, pudiendo decir o no la verdad.

Inteligencia artificial y aprendizaje profundo al rescate

La propuesta de este equipo de investigadores pasa por utilizar las imágenes de Google Street View para bypasear ese segundo error, de mayor volumen, automatizando de paso todo el proceso. Porque además de lo anteriormente comentado, creo que queda patente que realizar este tipo de estudios demográficos supone una partida presupuestaria considerable (unos 1.000 millones de dólares al año solo en EEUU, por ejemplo).

Y la estrategia seguida es lo que me ha animado a escribir sobre ello.

Básicamente hablamos de un sistema en dos fases:

  • Reconocimiento de vehículos: Partieron de un universo de 50 millones de imágenes en Street View, pertenecientes a 200 ciudades estadounidenses. Mediante reconocimiento de imágenes, identificaron los vehículos que aparecían y los categorizaron dentro de 2.657 categorías distintas según factores como la marca, el modelo y su antigüedad. En total, 22 millones de vehículos, un tercio del parque móvil de estas ciudades, a razón de 0,2 segundos por vehículo.
  • Extrapolación con los datos del censo: Con esta base de datos cruzaron otras pertenecientes al censo estadounidense y a los patrones de votación de cada distrito. En una primera fase, referentes a 35 de esas ciudades. Aplicando modelos de aprendizaje profundo, sacaron las correlaciones entre la tipología de los vehículos de cada barrio y la demografía esperable (precio del vehículo, atributos socieconómicos de su dueño, preferencias políticas históricas del distrito…), para obtener curiosamente una lectura muchísimo más detallada del ciudadano.

“Conducir por una ciudad durante 15 minutos mientras contábamos berlinas y camionetas nos permitió determinar de manera fiable si una ciudad vota a demócratas o republicanos”

(Ya sabe cómo les mola a los americanos los titulares fáciles)

Hay mucho más donde rascar: para bien y para mal

Y se me antoja que este tipo de metodologías de trabajo con datos podrían ir bastante más allá:

  • Nivel socioeconómico.
  • Nivel socioeducativo.
  • Demografía profesional.

La principal ventaja es que una vez extrapolados los datos y teniendo los algoritmos de IA aprendidos, podemos replicarlo a nivel masivo incluso en aquellos pueblos donde por falta de recursos se hace imposible realizar un seguimiento demográfico tradicional. Simplemente con que los coches de Google (en este caso), o los datos de cualquier servicio de conducción como Wave hayan pasado por la zona, tendríamos acceso a dicha información.

Por supuesto, en el estudio de este equipo, se queda fuera todo aquel que no tenga vehículo propio (como un servidor). Algo que quizás acabe por volverse tendencia a favor del carsharing y demás plataformas de compartición de viajes. Pero lo mismo podríamos hacer con la forma de vestir de los ciudadanos, con la tipología de tiendas que hay en las calles, con el estado de las propias calles y así un largo etcétera.

Al final, hablamos de utilizar los sistemas de inteligencia artificial como una herramienta de soporte para encontrar correlaciones entre factores que seguramente, y debido a nuestra visión en corto, somos incapaces de identificar.

Compulsar esos datos con los estudios demográficos que ya tenemos, y en base a los resultados obtenidos, optimizar el proceso (menos recursos necesarios para realizar este tipo de evaluaciones) y los outputs obtenidos (datos más completos que permitan a terceros utilizarlos de una forma más eficiente en sus objetivos).

Y ya de paso, piense en lo que supone que toda esta información esté ya disponible de forma abierta a cualquier interesado. Ecosistemas informativos como Facebook, Twitter, Youtube o Amazon son en esencia ingentes bases de datos esperando ser explotadas en prácticamente cualquier disciplina que se le ocurra. Bien sea con los fines más halagüeños que nos podamos echar a la espalda. Bien sea justo lo contrario.