waybackmachine

Vuelvo otra vez con un tema que me apasiona: el de la obsolescencia informativa.

Que sí, que soy muy pesado, pero de verdad que es algo CRÍTICO para el devenir de nuestra sociedad. Para que las generaciones del futuro entiendan las preocupaciones de nuestra era.

La premisa es que estos días he estado, como hago cada cierto tiempo, activando la revisión automática de enlaces rotos en esta página. Activo el plugin de rigor y lo dejo dos días ahí funcionando de sol a sol, para luego tirarme un par de horas revisando los resultados y decidiendo qué hago (si elimino el enlace, si busco una alternativa o si es un falso positivo).

¿Resultado? Alrededor de 500 errores de indexación a URLs.

  • Una minoría, en torno al 3%, de URLs internas, principalmente de imágenes que por alguna perversión de las tripas de Internet, de pronto, dejan de funcionar.
  • Otro trozo de tarta, que conforma tranquilamente el 20% de los enlaces antes mencionados, errores de acceso que ha tenido el sistema automático (falsos positivos). Páginas que probablemente tienen algún javascript dinámico que bloquea robots, o cualquier otra causa que hace que a ojos de la máquina esta URL ya no esté funcionando, mientras que a ojo humano (el que nos importa) funciona.
  • ¿El resto? En efecto errores 404 o similares. Páginas, fotos y vídeos que han desaparecido de Internet. Bien sea porque la web ha cerrado, por que el dominio no se ha renovado, porque ese contenido se ha borrado…

La cuestión es que hablamos del 76% de las URLs con errores enlazadas en una humilde página que escribe a diario, precisamente, sobre tecnología. Y no hace años que no hago esa limpieza de URLs. Todo lo contrario. La última limpieza, según me chiva mi gestor de tareas, fue en marzo de este mismo año, por lo que han pasado apenas 6 meses.

Y fíjate que aquí no estoy teniendo en cuenta el cuarto subgrupo:

  • URLs que siguen funcionando, pero cuyo contenido ya no es el que enlacé. Páginas hackeadas que muestran spam, dominios caducados y recomprados… Vamos, contenido que directamente es nocivo (es raro que alguien haga algo de esto con fines benévolos).

Parece que mucha gente ha visto conveniente no renovar sus dominios en estos meses de pandemia…

Sobre la biología de Internet

Las razones detrás de esta paulatina destrucción de información, como decía, son múltiples, y ya en su día debatimos sobre ello.

Sabemos que Internet nació en 1969 (ES) con la unión de unas cuantas universidades en EEUU, y que en 1971 eran 23 los ordenadores que formaron ARPANET. Sin embargo, hoy en día, y apenas medio siglo después, nos resulta en la práctica imposible acceder a contenido original de aquella época.

Aún cuando seguramente haya recursos que siguen estando disponibles. Y pese a que en la actualidad contamos con herramientas muchísimo más eficientes para realizar esa búsqueda.

¿Cuál es la razón entonces?

La tesis del mismo es que al igual que ocurre en la naturaleza, de forma orgánica «el Internet de la superficie» está continuamente actualizándose, lo que explicaría por qué resulta tan complicado encontrar recursos en la red que de verdad lleven desde el inicio inmutables.

En el artículo señalan varias investigaciones que en su día intentaron explicar por qué las rocas de la superficie de la tierra siempre son «jóvenes», pese a que en teoría deberían ser tan antiguas como el propio planeta.

Esto se debe, entre otros múltiples factores, al movimiento de las placas, que tiende a empujar los recursos antiguos en favor de los nuevos, creando continuamente capas de sedimentos que son hoy en día elemento crítico para datar la historia de la Tierra.

Y en Internet parece que pasa lo mismo.

Conforme más contenido se genera, más se «empuja» al contenido anterior hacia aquellos derroteros de la red más alejados. El contenido nuevo se posiciona paulatinamente mejor que el antiguo, aunque seguramente deba su posicionamiento al primero, lo que hace que en cuestión de años resulte complicado encontrar contenido que se haya quedado desactualizado y/o abandonado. Contenido que permita datar el Internet de su época.

Para colmo, las propias leyes que rigen el posicionamiento en la red, unido a los cambios culturales y tecnológicos que periódicamente afectan al cómo navegamos por ella, hacen que aquellos recursos de antaño que siguen hoy en día accesibles por el Internet visible vayan sufriendo cambios, lo que de facto les hace perder ese valor histórico que en su momento tendrían.

A esto me refiero cuando hablo de la biología de Internet. Si pensamos en Internet como en un ente en constante evolución, las propias reglas de juego (SEO/Posicionamiento en buscadores y redes sociales + continua evolución de las tripas de la Red) hace que se prime el contenido actual, obviando la trascendencia del contenido antiguo.

Y esto genera falsas dicotomías que, en esencia, llevan en su interior el germen de un problema mayor: Si la preservación de información en el soporte por antonomasia de nuestra civilización (Internet) es cada vez más endeble, ¿qué impacto tendrá esto para las futuras generaciones?

Es decir, que el día de mañana cuando unos arqueólogos quieran estudiar el siglo XXI, ¿qué tendrán a su alcance para hacerlo?

Y lo que es peor, ¿qué conjeturas sacarán de la falta de toda esa información?

El símil con la biología del mundo real no es por tanto una entelequia mía, sino que me parece un acercamiento profundamente acertado.

Conforme más avanza nuestro conocimiento en biología, hemos descubierto, por ejemplo, que la idea que teníamos del velociraptor (la misma que nos llevó al cine Jurassic Park) se alejaba con mucho de la realidad. Al parecer estos dinosaurios se parecían más a un ave con pluma que a un reptil.

Todo porque por supuesto, sacar conjeturas únicamente de un esqueleto, pues como que es muy complicado.

Ahora imaginemos este mismo símil con el Internet de nuestra era. Presuponiendo que, como nos ha pasado a nosotros con el contenido de la Red de hace apenas cincuenta años, dentro de otros cincuenta la amplia mayoría del contenido que nuestra sociedad está generando ya no exista, ¿en qué se van a basar los historiadores?

  • ¿En lo que les cuenten los ancianos del lugar? Es decir, esa historia bien adobada de mito.
  • ¿En lo que encuentren en un servidor por ahí perdido con varias miles de webs? Es decir, una visión claramente acotada y subjetiva (lo que el administrador de turno en su día decidió guardar ahí) de la realidad.

¿Ves por dónde quiero ir?

Ya no hablamos simplemente del ego del creador. Como ya dije alguna que otra vez, me quita el sueño el pensar que cuando muera, a los pocos MESES (no años, ni siglos, meses, hasta que toque renovar el dominio y por razones obvias no lo haga), todo el trabajo que durante años he hecho aquí simplemente desaparecerá para siempre.

Hablo de que la suma de unas cuantas millones de webs como PabloYglesias.com a lo largo de varias generaciones da como resultado el sistema cultural de una civilización. Ese mismo que a Sócrates en su día también le preocupaba con la sistematización del conocimiento escrito. Ese mismo cuyo soporte, por cierto, llega a durar SIGLOS.

El de ahora (Internet), MESES.

El de antes (libros), SIGLOS.

Y ya sabemos qué les pasa a las sociedades que no miran hacia atrás para definir el camino a seguir. ¿No hace falta que lo repita, verdad?

WayBackMachine: Cómo hackear el ciclo de vida de Internet

Indagando en ello acabé en esta pieza de Gwern (EN), incluso más cargada de enlaces que mis artículos, en la que su creador (al que por cierto, haciendo mucho menos que un servidor en Patreon veo que le va genial :D) enumera las problemáticas y propone algunas salidas.

La más interesante, la de WayBackMachine, que un servidor ya ha propuesto varias veces, y que sin lugar a dudas se postula hoy en día como el sitio con mayores garantías para enlazar… pese a que, por cierto, también tiene el mismo cáncer de pérdida constante de URLs.

Lo que me lleva entonces a plantearme si los que escribimos a diario y nos gusta enlazar a otras fuentes, deberíamos empezar a hacerlo directamente a WayBackMachine, este servicio de Archive.org, en vez de a la fuente original.

La pregunta no es para nada baladí, ya que haría un poco más perecedero el contenido en Internet. Por si no lo sabes, en WayBackMachine tienes la copia de buena parte de las páginas y servicios digitales (468 mil millones de webs…) con un histórico, de forma que ya no solo puedes navegar por la web, sino que además puedes hacerlo «viajando en el tiempo» y viendo cómo estaba en un momento dado.

Para prueba, esta misma página, que al momento de escribir este artículo tiene 366 copias en WayBackMachine (ES), las primeras del 5 de agosto ¡del 2012!

Una herramienta que esperemos siga funcionando durante mucho tiempo, y que tiene como único inconveniente el que no es tan cómoda de utilizar como el buscador de Google, y que además el diseño de las webs suele medio perderse, al depender cada vez más de recursos externos o del propio servidor que ya no están.

Pero oye, el contenido, que es lo que nos importa, ahí seguirá mientras WayBackMachine siga funcionando (y no extravíe esa URL…). Una suerte de separación del contenido con el recipiente, [este último] en muchos casos dependiente de un modelo de negocio que puede ser finito en el tiempo.

¿Qué opinas?

¿Tendría sentido empezar a enlazar a instantáneas del contenido del pasado? ¿O debemos asumir que el negocio manda, y que una sociedad como la que relataba Bradbury (ES), absorta en el presente, es el futuro que nos espera?

________

¿Quieres conocer cuáles son mis dispositivos de trabajo y juego preferidos?

Revisa mi setup de trabajo, viaje y juego (ES).

Y si el contenido que realizo te sirve para estar actualizado en tu día a día, piensa si te merece la pena entrar en el Club Negocios Seguros y aprovecharte de todo el contenido exclusivo que publico para los miembros.

Banner negocios seguros