La noticia saltaba ayer al dominio público.
Matthew Rothenberg (EN) creó una página web con el fin de poner a prueba las arañas de indexación de Google. Una página en apariencia sencilla, donde los visitantes podían o no comentar y compartir, a sabiendas que si lo hacían, corrían el peligro de acelerar el proceso de indexación.
En el backoffice, la página estaba continuamente buscándose a sí misma (¿egosurfing machine?), de forma que si en algún momento se encontraba, se autodestruiría.
El proyecto duró 22 días y fue vista por 246 usuarios, y lo único que queda de ella es la página de despedida (ya no disponible). Durante esos 22 días, la web estuvo dentro de la denominada Deep Web, que pese a la opinión generalizada (mediatizada erróneamente por los medios), no tiene porqué estar relacionada con TOR u otras redes de anonimato, sino que define aquella porción de Internet no indexada por los buscadores.
En ningún momento Matthew Rothenberg dio aviso a Google para que indexara su web (EN). Esto, hace unos años, era obligatorio si querías aparecer en sus páginas. Entiendo además que configuró el robots.txt y los ficheros de configuración como el .htaccess para evitar, en la medida de lo posible, que Google accediera al contenido (EN).
También contaba con metaetiquetas “noindex” dirigidas a los robots de Google, que es casualmente el método que los de Mountain View animan a utilizar (ES).
Pero de nada ha servido, ya que nuevamente, la feroz estrategia expansionista del buscador se salta la estandarización e indexa todo el contenido que puede.
¿Por qué alguien no querría aparecer en Google?
Hay diversas razones, y en general, todas bastante alejadas de la concepción de mercado oscuro o foros de “hackers” malignos.
La deep web está formada por millones de intranets, pequeños espacios privados donde organismos, grupos y empresas se coordinan. Y la información que trabajan dentro de sus fronteras es y debería seguir siendo privada.
También podemos encontrarnos personas con principios, que hartos de la tiranía de un buscador con sus propias leyes, deciden abandonar el Internet visible y vivir al margen de los dictámenes del SEO. Claro que para ello la web no puede ser tu forma de vida (o al menos, no por número de visitas), pero afortunadamente, y aunque en muchos casos el tráfico del buscador sea un % muy a considerar de un sitio, hay factores como la calidad de la visita y la tasa de rebote que pueden mejorar sensiblemente si desaparecemos de los buscadores. Hablábamos de ello hace ya algunos años, y a cada paso que damos, empiezo a mirarlos con mejores ojos.
Pero el discurso que quería tratar hoy va por otros derroteros.
¿Qué derecho tiene Google a indexar contenido que no desea ser indexado?
Peor aún, me gustaría saber de dónde sacó el enlace para indexar la web de Rothenberg, teniendo en cuenta que la mayoría de esos 246 usuarios que la compartieron, lo harían seguramente de forma privada, una tendencia al alza de la que ya dediqué en su día un monográfico, y que es en sí tan trascendente como parece.
Partiendo de la hipótesis de que ninguno lo hubiera hecho en redes sociales en abierto (la web alertaba del “peligro” de hacerlo), ¿hasta dónde llegan los tentáculos de Google?
Peor aún, ¿indexará Google enlaces que aparezcan en chats privados de hangouts o en emails que pasen por los servidores de GMail? No hace falta que conteste :).
El dark social web está irrefutablemente siendo usado por los grandes servicios de agregación de datos para conocernos mejor. Lo vimos con los privados de Facebook, incluso con aquellos contenidos que tecleábamos, y antes de darle a enviar, decidíamos no hacerlo. Lo vimos con el correo supuestamente privado de estas grandes compañías.
Y lo hacen por la sencilla razón de que es precisamente el contenido que enviamos supuestamente por canales privados el que de verdad define nuestros intereses, nuestra forma de ser, y nuestras relaciones con el resto de usuarios.
¿No tendría que tener la última palabra el administrador de un sitio web? o por ende ¿es el buscador, juez, jurado y verdugo de todo lo respectivo a la indexación web?
Me hago estas preguntas y me temo que ya todos conocemos las respuestas. El discurso de Google ha ido cambiando con el paso de los tiempos. Ya no hay rastro del “Don’t be evil” con el que el recién creado buscador atacaba a la poderosa Microsoft.
Ahora las tornas se han cambiado, y son precisamente estos últimos, junto a Apple, las dos grandes compañías tecnológicas que parecen velar por los intereses de privacidad de sus clientes.
Y ojo, que velan porque pueden, porque su pilar de negocio no son los datos. Porque esta es una estrategia tan buena como otra cualquiera para señalar a la competencia con el dedo, y posicionarse como los buenos de la película.
Ahora se preguntará qué importancia tiene este hecho mientras por permisos y arquitectura de una web evites que los crawlers accedan al interior de una página (ya sabe, un acceso mediante credenciales de usuario).
Pero el mal ya está hecho. Las puertas a ese espacio han sido indexadas, cuando ni tienen valor informativo ni nadie ha pedido que esto ocurriera. El buscador de Google pasa de ser un servicio a ser una imposición.
En juego, el derecho a la privacidad de los servicios albergados en internet. Subidos a la red, repito, no a Google.
Porque a veces es difícil saber dónde empieza uno y acaba otro.
Lo perdimos cuando ridiculizamos a Mario Costeja o cuando tomamos partido visceral por Google frente a la prensa tradicional en el asunto de GoogleNews, argumentando que el su bot debería poder indexar y agregar todo lo que quiera mientras no se le niegue expresamente en el formato que establece la propia Google. Lo perdimos cuando bendijimos el proyecto de GoogleBooks de escanear todos los libros editados para alimentar su IA. Lo perdimos cuando aceptamos cederles toda clase de datos personales a cambio de pequeñas migajas en forma de servicios. Lo perdimos cuando empezaron a trackear los clics en los enlaces de su buscador con el fin de elaborar perfiles y no nos dimos inmediatamente de baja. Lo perdimos cuando sacralizamos a Google y su modelo de Internet, como si fuera el único posible, y nos convertimos en sus mejores abogados de manera inconsciente. Ahora ya nadie les puede parar.
Imagino que no compartirás estas reflexiones o bien te parecerán demasiado radicales, y lo entiendo 🙂
Tu artículo me ha gustado mucho y lo considero muy valiente: contra lo que se suele creer, en Internet están muy mal vistas determinadas opiniones. No sabía que algunos blogueros os estabais planteando vivir al margen de Google. Y es algo esperanzador.
¡Touché Pidal! Tienes más razón que un santo. Hay poco que añadir a tu reflexión, sinceramente. Estoy totalmente de acuerdo.
También piensa que un servidor no vive hoy en día del blog como tal. La página es un canal para venderme, pero ni tengo publicidad ni dependo de analíticas de clickbait.
La experiencia me dice que el porcentaje de paracaidistas (usuarios que llegan a la página desde Google) que se vuelven lectores activos es muy baja. Las redes sociales, y sobre todo, la lista de correo, son canales bastante más efectivos para crear comunidad.
Al final de lo que se trata, al menos bajo mi punto de vista, es que el % de visitas de Google vaya paulatinamente bajando. A no ser que sea de forma forzada, eso significaría que la distribución y peso en otros canales va aumentando. Mayor heterogeneidad, a fin de cuentas, y por tanto, mayor enriquecimiento de opiniones.
Saludos, ¡y muchísimas gracias!
Excelente artículo Pablo. Una vez más. El mínimo derecho que debe tener un creador o administrador de cualquier sitio web, trate este de lo que trate, es poder decir “oye alimaña (la bendita araña), esta página o este contenido o todo este sitio, porque me da la gana, NO ME LO INDEXES en tu fabuloso buscador”. Pero en esto nos hemos convertido, en datos para explotar en lugar de ciudadanos para respetar. Repico sobre lo mismo, el exceso de poder que lleva al absoluto abuso. Y agrego, un poco fuera del tema, ya está aquí la nueva amenaza a la violación de la privacidad a través de la Internet de las cosas. Los televisores inteligentes que te graban, o quizás te observan para recolectar más datos. La cafetera que sin tener idea como, se comunica con su fabrica porque tuvo una falla (ver este artículo: securityArtWork). ¿será que también te escucha? Mañana te sirve un café con espuma que forma un aviso para venderte algo. Terminaremos como la robot de alien resurrection, extrayendonos el modem para desconectarnos de la red que nos controla.
Muy buena reflexión Fernando. El problema es justamente ese. El buscador de Google es un servicio que a priori debería ser opcional. Es decir, para la mayoría es interesante que el proyecto esté indexado, pero sino quieres, deberían aceptar las normas que la industria ha impuesto para dejar claro a un buscador que no quieres ser indexado.
Y vivimos esto mismo con la publicidad. El Do Not Track es un estándar al que las compañías pueden o no hacer caso. Un usuario deja claro que no quiere que lo traceen, pero en cambio, la última palabra la tiene la compañía… Es absurdo, sinceramente.
La privacidad no existe, deal with it.
Internet es una red de compartición de información. Si no quieres compartirlo, no sé que narices haces publicándolo. No puedes compartir algo y quejarte de que la gente lo use… lo siento, pero no funciona así.
Habláis de impedir el acceso a Google, por las razones que sean. Mañana impediréis el acceso a otro colectivo, porque os dará la gana. Al final habrá grupos de población que tengan una visión totalmente sesgada del conocimiento humano, porque resulta que la gente tiene derecho a decidir a qué información se puede y a cuál no se puede acceder.
Sinceramente, creo que se os va la pinza, mucho.
Ten en cuenta que la propia Google da herramientas para que el administrador de un sitio que es de su posesión pueda decidir si quiere indexarlo o no.
La cuestión es que se las salta. Y ya de paso, Internet nació como una red para compartir información entre universidades, sin protocolos de comunicación seguros ya que en aquel entonces quien se conectaba a esa red era de la universidad. ¿Nos quedamos entonces también con eso?
La tecnología tiene que evolucionar según los hábitos y necesidades de quien la usa. Y si alguien desea crear algo, y por la razón que sea, no quiere utilizar los beneficios de aparecer en un buscador como Google (hablamos de un servicio que sin pedir permiso está indexando todo lo que encuentra a su camino, pese a que su creador diga expresamente que no desea aparecer), ¿por qué no debería tener la opción?
Y si te lo preguntas, sí. Bajo mi humilde opinión, una estrategia opt-in (darse de alta para aparecer) como lo que hicieron con los medios europeos antes del canon AEDE sería un acierto. Si quieres aparecer, le pides por favor a Google que te indexe, con todos los beneficios (y consecuencias) que ello tiene.
De acuerdo por completo con Pablo Carballude, pero no menos de acuerdo con la respuesta de PabloYglesias. Este blog es un fantástico lugar para tener argumentos de uno y otro lado, y que todos sean válidos.
Una estrategia de opt-in solo llevaría a dos resultados. O bien nadie encuentra nada porque surgen n-mil buscadores y obviamente no te vas a dar de alta en todos, o un único buscador se queda con toda la cuota de mercado y hemos monopolizado el acceso a la información.
Google no es santo de mi devoción, pero es que el robots.txt es una recomendación. Si te da la gana la sigues, y si no… pues no. ¿Es Google mal educado no siguiendo tus recomendaciones? Pues no sé… ¿son maleducados los súbditos que se levantan contra su dictador? Es cuestión de perspectivas. Bajo mi punto de vista, prohibir rara vez suele ser beneficioso para el interés común.
Además, date cuenta de que si “respetáramos” ese supuesto derecho de alguien a no ser indexado, si desapareciese esa información, no habría forma de recuperarla. ¿Tienes más derecho una persona a retirar su creación que la humanidad a conocer de su existencia? No sé… yo creo que jugar a poseer la información es muy peliagudo.
Precisamente por eso creo que Europa se equivoca con el “derecho al olvido”. Simplemente no tiene sentido. Reconocer el derecho “al olvido” de alguien, significa retirar el derecho a tener información a la humanidad. Imaginad que ahora todos los delincuentes piden “el olvido”. ¿qué? Nos quedamos sin la información de los delitos cometidos en la historia de la humanidad porque, pobres, tienen derecho al olvido. Ya puestos, vamos a quemar las enciclopedias…
Hay que diferenciar dos puntos. El derecho al olvido va contra webs de terceros, y ahí estoy tan de acuerdo con tu postulamiento como cabría esperar. Lo de Europa es un esperpento, que van a usar (y de hecho, están usando) principalmente políticos y demás corruptos para ocultar sus fechorías.
Aquí lo que se debate es que un servicio que yo administro, pueda o no decidir si quiero indexarlo en un servicio de una empresa como Google, que ha quedado más que patente que aprovecha su posición para parasitar mercados aledaños. Al ser administrado por mi, podría estar mintiendo descaradamente sobre cualquier tema que me involucre, ya que yo soy dueño y señor de ese servicio (lo digo por el miedo a que la sociedad pierda acceso a información).
Si yo lo acepto, lo acepto con lo bueno y con lo malo (más visitas y control por parte de Google). Si yo, utilizando las herramientas que la propia Google pone a disposición de los administradores, le digo que no quiero que indexe mi servicio en su buscador, lo que espero es que no lo haga, tanto para lo bueno como para lo malo. Perderé visitas, pero es que quizás ese servicio es una intranet de mi empresa y no le importa a nadie llegar ahí más que a mis trabajadores.
Y pongo la estocada incómoda… ¿Y no será que el bot que hacía egosurfing compulsivo ha terminado por enviar la señal a Google del ligue de discoteca? Es decir, y sé que por esto me pueden llamar de machista para arriba, pero lo hago desde el sentido del humor: te quiero decir que sí, pero te digo que no.
PD: si tú, lector, lectora, de veras te vas a quedar con la coplilla del machismo, habla conmigo primero. Llevo toda mi vida militando y ejerciendo contra el machismo.
No conozco la parte técnica del proyecto, y por tanto, tampoco puedo defender uno u otro supuesto. Con lo que sé, posible podría ser. Buen punto Alfonso, para variar…
Completamente de acuerdo con Pablo Carballude (no veo la opción de responder en un comentario anidado, PabloYglesias, por eso lo dejo como comentario independiente, sorry).
Habría que responder al comentario inicial, y ya se hila con los anteriores (tampoco esperes que haya una gestión de multihilos, que eso ya hay que trabajarlo externamente).
Acabo de contestaros con mi parecer al respecto. Así que espero críticas, xD.
Jajaja, OK, Pablo. Ya he respondido también a ese otro, en comentario aparte (bórralo, y respondo en el original).
No menos de acuerdo con la respuesta de PabloYglesias. ¡Rediós qué fantástico es este blog para tener argumentos de uno y otro lado!
Si bien sabéis que cada postura tiene sus ventajas e inconvenientes. ¿Anteponemos principios individuales a los colectivos? Lo perfecto sería que quien quisiera, utilizando las herramientas oportunas, pudiera desaparecer de Google.
Es un sistema más efectivo (menos recursos en su mantenimiento). Pero, ¿y si esas herramientas no están funcionando? ¿Y si lo que indexa es contenido crítico para una empresa que llega a ocasionarle pérdidas económicas?
No solo hablamos de activistas de la privacidad, sino de intranets y perfiles en redes sociales supuestamente privadas que llegan a manejar hasta datos de la salud (endomondo, por ejemplo) y que pueden ser accesibles mediante algo de Google hacking.
Y también partimos del supuesto que en efecto para esta prueba se usaron correctamente todas las herramientas oportunas y se esperó un tiempo aceptable (tarda bastante más Google en desindexar que en indexar).
En esta era, la gente valora cada vez menos la privacidad (Facebook es el mejor )
Lo que más le duele a Microsoft y a Apple es que ya no pueden ganar sumas exorbitantes de dinero con productos caros al usuario, que Google ofrece gratis. No voy a cuestionar lo “ética” de cada estrategia de negocio , después de todo Microsoft aplastó a la competencia con prácticas monopólicas y Apple ha demandado a cada empresa Tecnológica que existe en un afán de mantener el mercado, ya que afirma haber patentado el rectángulo negro. La ética, es de lo que menos saben estas empresas.
Queda en el usuario elegir los servicios y productos que va a usar. El usuario del iphone no piensa en las fábricas llenas de esclavos haciendo su dispositivo.
Si Google hace dinero con tus datos, quizá no te afecte , quizá si, sobre todo si son cosas privadas. Entonces busca opciones.