Defendiendo el papel de los datos “inútiles” almacenados

dark data

Hace como un par de semanas varios medios tecnológicos que tengo por el RSS se hicieron eco de un estudio de IBM en el que la compañía aseguraba que el 80% de los datos almacenados mediante técnicas de Big Data no se aprovechan o son inútiles.

El que el informe sea de hace un año (EN) parece no haberle importado a nadie, y revisando el feed veo que la amplia mayoría ni siquiera se molestó en enlazar a la fuente original, lo que me hace pensar que como en muchos otros casos, ha sido un efecto bola de nieve que venía ni pintado para sacar adelante la editorial en Agosto.

Dejando de lado este asunto, se abordaba la problemática haciendo mención a esos dos KPIs que el bueno de Bob Picciano (EN/me encanta eso de que los altos directivos utilicen como nombre su diminutivo, como si así fueran más accesibles :)) ha repetido hasta la saciedad, y con los que es difícil no estar de acuerdo. El primero ya lo conoce, y el segundo es que al parecer, el 60% de la información pierde su valor casi inmediatamente después de ser recolectada.

Unimos estos dos mantras y tenemos un corolario que no se aleja en demasía a la realidad del mercado digital de nuestra era:

Un interés que roza lo absurdo por obtener datos de nuestros usuarios/lectores/suscriptores/clientes, y que a la hora de la verdad no acaba por materializarse en el propio negocio, o en los objetivos propuestos en ese Santo Grial que representa el retorno de la inversión.

Y sin embargo, hoy me ha dado por hacer de abogado del diablo, y en base a mi humilde experiencia, profundizar en cómo ese Dark Data (qué termino más molón :)) es un efecto secundario que se vuelve positivo e incluso necesario para la buena consecución de una estrategia (personal o corporativa, ojo) afianzada en el análisis de datos.

Qué fue antes, ¿el huevo o la gallina?

Esta cuestión, que trae como locos a la humanidad desde el principio de los tiempos, tiene una solución bastante sencilla si la aplicamos al entorno analítico, pese a que seguramente sea contraria al sentimiento del grueso de la sociedad.

Generalmente, cuando te enfrentas al análisis de grandes volúmenes de información, te encuentras ante un universo caótico en el que al menos en esencia deberías partir con absoluto desconocimiento del resultado final.

En este caso, recalco, los datos, ejemplificados en el huevo, son anteriores a la gallina (las conclusiones del análisis o el análisis en sí, si me apura), y aunque en la práctica siempre tendemos a partir de un estado conocido (queremos por ejemplo saber qué porcentaje de nuestros clientes son mujeres, en qué lugares estuve en ese viaje a Italia de hace unos cuantos años o qué impacto ha tenido X fuga de información), el éxito del análisis debería estar precisamente en recopilar un universo lo más heterogéneo posible de datos.

Universo que por su propia idiosincrasia acabará formando un conjunto considerable de datos que podemos considerar Dark Data, pero que en esa fase inicial, llevando la contraria a Bob (:P), tienen un valor potencial inabarcable.

Afrontar un análisis desde la otra óptica (sabiendo ya qué preguntas queremos responder) nos dirige a un análisis que no va a poder ser profesional, habida cuenta que existe entonces un interés específico que moldeará la información extrapolable de esos datos, y nos conducirá a una solución influenciada por esa subjetividad inicial.

La información obtenida entonces estará supeditada a un interés exógeno que le resta credibilidad y valor.

Por poner un ejemplo reciente, en el análisis preliminar que realicé sobre el supuesto hackeo de la NSA por parte de Shadow Brokers, hubiera esperado un impacto social mucho mayor que el que en realidad ha tenido. Y si fuera de los de hacer las preguntas antes de sumergirme en la marea de datos, el resultado del informe hubiera estado centrado en dicho impacto, y no en el que al final ha tenido a nivel de scraping web (portales de noticias, foros y un largo etcétera), mucho más especializado y con un alcance sensiblemente menor. Aunque eso sí, profundamente más interesante para el cliente.

Gracias a ese adoctrinamiento al que algunos analistas nos sometemos para intentar aplacar nuestra subjetividad y afrontar el estudio desde la óptica más profesional posible, semana tras semana realizamos informes que aportan valor a posteriori, en base a etiquetar y segmentar el Big Data según lo que el propio Big Data nos da, y no según lo que a nosotros no gustaría que nos diera.

El handicap de la eficiencia

Lo he defendido ya con anterioridad, pero no me importa volver a hacerlo.

El verdadero reto no está por tanto en minimizar ese Dark Data que cuesta dinero (almacenamiento, ergo electricidad, ergo $$$), sino en encontrar las estrategias adecuadas para que con un universo de datos más reducido, contemos con una heterogeneidad como mínimo tan amplia que nos permita ofrecer análisis que aporten valor.

Es decir, ser más eficientes a la hora de recopilar los datos, de manera que con menos obtengamos como mínimo lo mismo que metiendo todo lo que se mueva en el saco.

Y sí, entiendo que es fácil decirlo pero es muy complicado llevarlo a cabo. Los humanos no estamos preparados para saber distinguir de un golpe de vista qué es importante de lo que no lo es cuando todo tiene una estructura semejante. De ahí que sea un reto, por cierto :).

Pero recalco que el problema no es el Dark Data per sé. Que ese Dark Data, a diferencia de entornos más industriales como puede ser la fabricación de un producto, puede estar aportándonos un valor que resulta crítico para comprender lo que los datos nos quieren decir.

Que ese Síndrome de Diógenes digital al que la tecnología nos ha empujado en esa lucha por ofrecer cada vez más espacio a un coste cada vez menor no es tan nociva siempre y cuando el usuario o el analista sepa aprovecharlo, siempre y cuando las herramientas para su análisis sean las adecuadas.

Y que es precisamente gracias a esos datos “inservibles”, a esos supuestos caminos sin salida, la única manera que tenemos de aprender y mejorar en lo nuestro. Seamos como es el caso un mero humano (por ahora, que todo se andará G.G), o seamos una inteligencia artificial ávida de aplicar el machine learning que mis “limitados y subjetivos” creadores han diseñado para que aprenda.