Los límites de una red centralizada

nest caida google

Esto que ves aquí es una de las múltiples cerraduras inteligentes del mercado. Y un modelo en particular de los afectados este fin de semana con la caída de Google Cloud (EN), la plataforma en la nube de Google.

Durante unas cinco horas en la tarde del domingo Google Cloud pasó por una serie de problemas, debidos a un fallo humano, que hicieron que muchos de los servicios de Google en Europa Occidental y América (principalmente la costa este) se comportaran erráticamente, o directamente no funcionasen.

Como explicaban hace unas horas, una de las pruebas que debería haberse propagado en un muy limitado número de servidores se propagó a prácticamente toda su arquitectura (EN), haciendo que estos ordenadores operasen a la mitad de eficiencia, entrando en juego los balanceadores de carga que expulsaban y cancelaban procesos «menos críticos», entre los que se encontraban algunos necesarios para el buen funcionamiento de sus sistemas.

Y parece que se dieron cuenta al momento, pero tardaron media mañana en solventarlo precisamente porque ese mismo gestor de conexiones afectaba por igual a usuarios que a los propios ingenieros de la compañía.

Que Google falle es algo bastante raro. Tanto como para que estos días muchos medios se hayan hecho eco de la noticia.

Pero lo que realmente me interesa, más allá de los problemas de acceso a Youtube, GMail, Drive o el propio buscador esperables cuando parte de la arquitectura de red se cae, es el impacto que puede tener (y que de hecho ha tenido) una caída así proveniente de una de las mayores plataformas en la nube del mundo.

Y no hablo solo del impacto económico que puede haber tenido para Google (ya te digo que unos cuantos cientos de millones, con la tontería) y el impacto que de ello puede desprenderse para todas aquellas compañías que utilizan la suite de Google y que estaban trabajando en domingo (llega a pasar esto por semana y es el «acabose»), sino un poco más allá.

Porque como decía, si en su día decidiste instalar una cerradura inteligente de Nest (la marca de domótica de Google) en casa, este domingo te podrías haber encontrado en la tesitura de que la puerta no podía abrirse vía app.

Lo comentaban, de hecho, por Hacker News (EN). Puesto que, como es normal, la cerradura tiene que tirar de la nube para ofrecer conectividad en remoto, este usuario y otros cuantos cientos iban descubriendo cómo cosas tan sencillas como dar acceso a la casa a un familiar o activar/desactivar el termostato no se podía realizar.

Que ojo, frente a la noticia catastrofista que he estado leyendo por ahí, hay que dejar claro que nadie se ha quedado sin calefacción o encerrado en su hogar. Estos dispositivos de domótica, por motivos obvios, ofrecen también la opción de operar en local, acercándote tú a la puerta y/o el centro de control para activarlos/desactivarlos.

Que a lo sumo (y esto sí me parece interesante) parece que algunos tuvieron forzosamente que reiniciar el sistema (EN) para poder operar con él. Una casuística que se me antoja extraña (creo que lo primero que habrán probado los ingenieros de la compañía antes de sacar el producto a la venta es, como mínimo, ver si puede funcionar sin conexión), pero que quizás se debiera a que realmente conexión tenían, lo único que no recibía toda la señal y quizás se quedaban esperando una respuesta. Algo a todas luces difícil de emular.

A nosotros el domingo nos pilló de viaje, por lo que sinceramente no he podido probar si en efecto nuestro Google WiFi (la compra del año pasado, como ya dije) era accesible vía app o no. Supongo que estaría afectado de la misma manera que los productos de Nest, habida cuenta de que no deja de ser otro hardware más gestionable vía remota y que tira de Google Cloud para calcular y dotar de inteligencia a la conectividad que tenemos por casa.

En un ecosistema tan masivo, el impacto no solo depende únicamente de los servicios inhouse

Además, junto con los servicios de la propia Google que se vieron afectados también sufrieron problemas otros menos esperables como puede ser Discord o Snapchat.

¿La razón? Pues que estas dos herramientas, junto con miles más, dependen de Google Cloud para su operativa.

Si el proveedor que te suministra los servidores tiene problemas, tu aplicación también los tendrá.

Aquí entra el haber o no creado una arquitectura de nube híbrida a prueba de lo que en el argot técnico se llama Chaos Engineering, y sobre lo cual hablé precisamente la semana pasada en un artículo exclusivo de mecenas.

El ser capaces de generar un ecosistema digital que se aproveche de las ventajas de la nube (escalabilidad en tiempo real y flexible, mucha mayor resistencia a eventuales problemas de red…) sin que la dependencia hacia terceros sea crítica.

Que si Google cae, y has delegado por completo tu operativa en su arquitectura, aunque en efecto lo que tiene Google va a ser infinitamente más resiliente que aquello que puedas tan siquiera llegar a soñar con implementar inhouse, cuando Google falle (tarde o temprano le acabará ocurriendo) tu caerás con ellos.

Sin embargo, aunque te apoyes en el ecosistema de Google (o de Amazon, o de Microsoft, o de quien sea) si has hecho los deberes y tienes capacidad para replicar recursos críticos en otros entornos, cuando su arquitectura falle tus activos seguirán funcionando con aunque sea un mínimo de eficiencia.

Quizás no todos, y sin duda no al nivel esperable. Pero no tendrás que parar máquinas.

Sobre esto Netflix sabe bastante. De hecho en la pieza antes enlazada hablo de todo el estudio que hizo la compañía cuando migró su plataforma de streaming a Amazon Web Services.

Por supuesto, establecer estrategias de mitigación de daño del tipo Chaos Engineering suele estar solo al alcance de una mediana/gran compañía.

Para las PYMES, en todo caso, sigue siendo más seguro apostar por una nube que hacerlo por un servidor físico.

Y para muestra un botón:

Google lleva sin sufrir una caída masiva de este tipo… ¿5 años quizás?

Es mucho más probable que el router, el ordenador (o la operadora de turno) te deje tirado en la oficina que el que lo haga el proveedor de cloud.

Así que una de cal y otra de arena.

Si podemos (a nivel de conocimiento y recursos) todo lo que sea dividir activos en diferentes arquitecturas no hace más que sumar resiliencia a nuestros activos digitales.

Ser menos débiles frente a la centralización… abrazando, de paso, mayor complejidad.

Al final todo va de intentar buscar el equilibrio.

Como todo en esta vida, de hecho :).