¿Por qué debo tener un plan de recuperación ante desastres y qué características ha de poseer?
- Contar con infraestructura en alta disponibilidad localizada en puntos regionales con suficiente distancia entre ellos
Una de las primeras cosas que debemos plantearnos es poseer una buena arquitectura que se encuentre distribuida geográficamente. Aquí debemos jugar con los costes/riesgos. Simplificando, a más distancia entre los servicios redundantes más aumentan los costes. Para muchos servicios la probabilidad de que dos datacenters dentro de la misma región y separados más de 20K se vean afectados por un catástrofe es suficiente, reduciendo los costes de explotación, sin dañar la disponibilidad. Eso sí, hay que garantizar que las medidas de seguridad y requisitos de implantación de los datacenters son adecuadas ya que no todos los proveedores son iguales. Idealmente, debes de tener tus activos en diferentes regiones, por ejemplo, una plataforma en el CDP de Francia y la otra en el CDP de Alemania. En caso de caída o desastre, el sistema debería balancear automáticamente o podríamos sacar del DNS la plataforma que se encuentre con problemas y mientras tendríamos otra funcionando con normalidad.
- Usa IaaC para poder levantar la infraestructura de manera rápida sobre Cloud en casos extremos
Teniendo nuestra infraestructura como código (IaaC) podremos desplegar todas nuestras redes, máquinas, políticas de seguridad y acceso, entre otros, en cuestión de minutos y simplemente cambiando la variable de la región. Si tuviéramos que hacer todo este proceso a mano nos llevaría varias horas, aumentando el tiempo de recuperación, además de que podríamos cometer errores a la hora de hacerlo, cosa que podemos evitar si lo tenemos en código. La infraestructura como código no sólo abarca la definición de tus máquinas virtuales, también su propia configuración y la de los diferentes servicios (servidor web, base de datos, etc) los cuales debemos también tener en cuenta.
- Configura siempre un backup que se guarde en distinta localización al origen y programa pruebas de restauración de dicho backup para verificar su integridad
Las copias de seguridad son una parte esencial de la administración de sistemas. Sin embargo, realizar backups adecuados sigue siendo una tarea compleja en la que muchas organizaciones no invierten el tiempo necesario. No sólo debemos hacer backup de nuestro código, debemos recordar incluir bases de datos, archivos estáticos así como configuraciones de nuestros servicios, se debe almacenar todo lo necesario para que el servicio funcione de manera correcta. Si tu CPD principal está en Francia, haz los backups en Alemania. Planifica una tarea mensual de restauración de backups. Es muy complejo validar los backups aunque hay mil pequeños trucos para validarlos, la única forma veraz de hacerlo es probar a restaurarlos. Como añadido extra puede ser interesante que los planes de contingencia y continuidad de negocio se almacenen en diferentes proveedores cloud respecto a los que se hace la explotación.
- Aprovecha las ventajas que te ofrece el Cloud para tu plan de recuperación
Teniendo la infraestructura como código podemos restaurar nuestra plataforma en otra región en cuestión de minutos. O también, tenemos la posibilidad de tener nuestra plataforma de respaldo desplegada en otra región y tenerla apagada. Debemos jugar con los costes de los almacenamientos, pues no necesitamos una disponibilidad inmediata para los backups más antiguos.
- Si por el contrario seguimos en servidores on premise
Podemos tener una plataforma de respaldo, es decir, una réplica exacta de nuestra plataforma de producción, apagada o encendida en función del ahorro de costes, ubicada en una región diferente de donde tenemos la plataforma principal, para que en caso de desastre en ese data center ese desastre no nos afectase de ninguna manera. También deberíamos realizar backups cruzados entre las regiones disponibles.
- Detecta puntos únicos de fallos
Hay servicios de los que nuestros activos son dependientes (autenticación, logística, …) por ello hay que tenerlos identificados y pensado un plan B en caso de fallo de estos. El uso de arquitecturas asíncronas y desacopladas aumenta la resiliencia de nuestros activos y nos permite continuar.
- Monitorización y verificación periódica
Dentro del plan de continuidad de negocio tienen que estar definidas pruebas periódicas de de restauración y recuperación de datos y servicios para garantizar que todo está funcionando como se espera y tener optimizados los procedimientos. Es interesante hacer Chaos Monkey test para ver cómo se comportan tus activos con fallos aleatorios y anticiparse a posibles futuros problemas. Y si esto te parece insuficiente o necesitas ayuda para poder crear tu propio plan de recuperación, confía en los mejores partners digitales, aquellos que en casos como éste sepan actuar rápidamente y solventar, dentro de lo posible, la situación de desastre.