index Google


La noticia saltaba ayer al dominio público.

Matthew Rothenberg (EN) creó una página web con el fin de poner a prueba las arañas de indexación de Google. Una página en apariencia sencilla, donde los visitantes podían o no comentar y compartir, a sabiendas que si lo hacían, corrían el peligro de acelerar el proceso de indexación.

En el backoffice, la página estaba continuamente buscándose a sí misma (¿egosurfing machine?), de forma que si en algún momento se encontraba, se autodestruiría.

El proyecto duró 22 días y fue vista por 246 usuarios, y lo único que queda de ella es la página de despedida (ya no disponible). Durante esos 22 días, la web estuvo dentro de la denominada Deep Web, que pese a la opinión generalizada (mediatizada erróneamente por los medios), no tiene porqué estar relacionada con TOR u otras redes de anonimato, sino que define aquella porción de Internet no indexada por los buscadores.

En ningún momento Matthew Rothenberg dio aviso a Google para que indexara su web (EN). Esto, hace unos años, era obligatorio si querías aparecer en sus páginas. Entiendo además que configuró el robots.txt y los ficheros de configuración como el .htaccess para evitar, en la medida de lo posible, que Google accediera al contenido (EN).

También contaba con metaetiquetas “noindex” dirigidas a los robots de Google, que es casualmente el método que los de Mountain View animan a utilizar (ES).

Pero de nada ha servido, ya que nuevamente, la feroz estrategia expansionista del buscador se salta la estandarización e indexa todo el contenido que puede.


¿Por qué alguien no querría aparecer en Google?

Hay diversas razones, y en general, todas bastante alejadas de la concepción de mercado oscuro o foros de “hackers” malignos.

La deep web está formada por millones de intranets, pequeños espacios privados donde organismos, grupos y empresas se coordinan. Y la información que trabajan dentro de sus fronteras es y debería seguir siendo privada.

También podemos encontrarnos personas con principios, que hartos de la tiranía de un buscador con sus propias leyes, deciden abandonar el Internet visible y vivir al margen de los dictámenes del SEO. Claro que para ello la web no puede ser tu forma de vida (o al menos, no por número de visitas), pero afortunadamente, y aunque en muchos casos el tráfico del buscador sea un % muy a considerar de un sitio, hay factores como la calidad de la visita y la tasa de rebote que pueden mejorar sensiblemente si desaparecemos de los buscadores. Hablábamos de ello hace ya algunos años, y a cada paso que damos, empiezo a mirarlos con mejores ojos.

Pero el discurso que quería tratar hoy va por otros derroteros.

¿Qué derecho tiene Google a indexar contenido que no desea ser indexado?

Peor aún, me gustaría saber de dónde sacó el enlace para indexar la web de Rothenberg, teniendo en cuenta que la mayoría de esos 246 usuarios que la compartieron, lo harían seguramente de forma privada, una tendencia al alza de la que ya dediqué en su día un monográfico, y que es en sí tan trascendente como parece.

Partiendo de la hipótesis de que ninguno lo hubiera hecho en redes sociales en abierto (la web alertaba del “peligro” de hacerlo), ¿hasta dónde llegan los tentáculos de Google?

Peor aún, ¿indexará Google enlaces que aparezcan en chats privados de hangouts o en emails que pasen por los servidores de GMail? No hace falta que conteste :).


El dark social web está irrefutablemente siendo usado por los grandes servicios de agregación de datos para conocernos mejor. Lo vimos con los privados de Facebook, incluso con aquellos contenidos que tecleábamos, y antes de darle a enviar, decidíamos no hacerlo. Lo vimos con el correo supuestamente privado de estas grandes compañías.

Y lo hacen por la sencilla razón de que es precisamente el contenido que enviamos supuestamente por canales privados el que de verdad define nuestros intereses, nuestra forma de ser, y nuestras relaciones con el resto de usuarios.

¿No tendría que tener la última palabra el administrador de un sitio web? o por ende ¿es el buscador, juez, jurado y verdugo de todo lo respectivo a la indexación web?

Me hago estas preguntas y me temo que ya todos conocemos las respuestas. El discurso de Google ha ido cambiando con el paso de los tiempos. Ya no hay rastro del “Don’t be evil” con el que el recién creado buscador atacaba a la poderosa Microsoft.

Ahora las tornas se han cambiado, y son precisamente estos últimos, junto a Apple, las dos grandes compañías tecnológicas que parecen velar por los intereses de privacidad de sus clientes.

Y ojo, que velan porque pueden, porque su pilar de negocio no son los datos. Porque esta es una estrategia tan buena como otra cualquiera para señalar a la competencia con el dedo, y posicionarse como los buenos de la película.

Ahora se preguntará qué importancia tiene este hecho mientras por permisos y arquitectura de una web evites que los crawlers accedan al interior de una página (ya sabe, un acceso mediante credenciales de usuario).

Pero el mal ya está hecho. Las puertas a ese espacio han sido indexadas, cuando ni tienen valor informativo ni nadie ha pedido que esto ocurriera. El buscador de Google pasa de ser un servicio a ser una imposición.

En juego, el derecho a la privacidad de los servicios albergados en internet. Subidos a la red, repito, no a Google.

Porque a veces es difícil saber dónde empieza uno y acaba otro.