Teniendo en cuenta la explosión de datos que están experimentando las empresas y la ciega confianza que ponen en sus sistemas de TI a la hora de generar ingresos, cualquier tipo de interrupción implica repercusiones graves, tanto materiales como intangibles.
Los sistemas de Tecnología de la Información (TI) que gestionan el abastecimiento de información empresarial aportan un valor extraordinario pero implican también una vulnerabilidad: si se produce una interrupción en el acceso a los datos cruciales, la empresa sufrirá las consecuencias.
Un fallo en los sistemas de TI puede acarrear, como mínimo, elevados costes por la pérdida de ingresos, la reducción de la productividad y problemas jurídicos. Y, en un caso extremo, una interrupción duradera del servicio puede poner en peligro la propia existencia de la empresa. Según Gartner Group, “dos de cada cinco empresas que sufren un desastre quiebran en un plazo de cinco años.” (Gartner, Disaster Recovery Plans and Systems are Essential, Robert Witty, Donna Scott).
No es difícil imaginar las situaciones que podrían paralizar la estructura informática de una empresa. Ya sea como consecuencia de un fallo en la red de alimentación, un atentado terrorista, una inundación o cualquier otra catástrofe natural, las empresas de todo el mundo cuentan con ejemplos muy recientes que confirman la importancia de una planificación ante desastres. Por muy inverosímil que pueda parecer, hoy en día todas las empresas deben tener presente la probabilidad de un fallo total de sus sistemas de TI en un futuro.
La anticipación de estos sucesos y la planificación de los procesos necesarios para contrarrestar su impacto es hoy en día un requisito imprescindible para el éxito de una empresa.
La preparación de una estrategia de cara a lo inesperado es de lo que se ocupa la planificación de la continuidad de los negocios (Business Continuity Planning, BCP). Una de las subáreas de BCP comprende las medidas preventivas adoptadas por un grupo de TI para garantizar el acceso permanente a los recursos de información, lo que se denomina planificación de recuperación de desastres (Disaster Recovery Planning, DRP).
La terminología DRP puede resultar confusa e incomprensible para aquellas personas que no trabajan habitualmente en el ámbito de la planificación de desastres. Muchos términos de DR son, a primera vista, ambiguos por su afinidad (por ejemplo, alta disponibilidad y tolerancia a desastres); otros están empapados de una jerga tecnológica ininteligible.
En todo caso, tanto para los analistas de aplicaciones como para el personal comercial involucrado en el proceso de DR, es esencial entender el lenguaje utilizado para describir el DRP. Las propuestas para la protección de los sistemas críticos para el negocio están a menudo salpicadas de expresiones enrevesadas y extravagantes, por lo que la valoración de un concepto concreto de DR resultará bastante difícil sin unas nociones generales del lenguaje utilizado.
Planificación de la continuidad de los negocios (BCP) y planificación de la recuperación de desastres (DRP)
El procedimiento completo que emplea una empresa para garantizar que los procesos empresariales esenciales estén en condiciones de seguir funcionando en caso de surgir un desastre se denomina BCP. BCP se encarga de definir todas las instalaciones (oficinas, almacenes y establecimientos de venta al por menor) que deben utilizarse cuando dejan de estar accesibles los emplazamientos comerciales normales, directrices para los departamentos que especifican cómo mantener las operaciones bajo circunstancias anormales y muchos otros aspectos.
DRP constituye un subconjunto de BCP y se centra exclusivamente en la recuperación de los sistemas de TI. Cada aplicación empresarial debe ser catalogada, sus exigencias en materia de recuperación evaluadas y documentadas, y la importancia que la aplicación tiene para la empresa debe ser cuantificada de modo que el personal de TI pueda sentar prioridades en el proceso de recuperación.
Análisis del impacto empresarial
Un análisis del impacto empresarial (Business Impact Analysis, BIA) cuantifica las consecuencias de una interrupción del servicio en cada uno de los sistemas empresariales. El BIA determina el efecto que tendrá la pérdida de un sistema de TI específico en la empresa. Por ejemplo, un fallo que interrumpa el sistema de acreedores comerciales puede repercutir gravemente en el flujo de efectivo, la fidelidad de la clientela y el nivel de solvencia crediticia de la empresa.
En el marco del BIA es necesario llevar a cabo un análisis de riesgos para determinar las posibilidades de que se produzca una interrupción de las aplicaciones empresariales. La probabilidad de un suceso se equipara con el alcance de las repercusiones que podría causar dicho suceso. Los resultados obtenidos del BIA permiten al departamento de TI definir las estrategias oportunas para interceptar el riesgo en caso de presentarse una incidencia.
Hotsites, warmsites y coldsites
Si bien las características específicas de un hotsite, warmsite o coldsite varían de una a otra empresa, estos términos se emplean de forma generalizada para clasificar el nivel de preparación de un centro de datos remoto.
Un hotsite DR pone a disposición un entorno informático totalmente operativo que incluye servidores, almacenamiento y equipamiento de red. Las aplicaciones y los datos que residen en el hotsite están ampliamente sincronizados con el centro de datos principal y, en caso de desastre, el soporte operativo de los sistemas de TI puede trasladarse rápidamente del centro principal al hotsite. El respaldo de ejecución inmediato de las aplicaciones en un hotsite minimiza el impacto de una interrupción en las operaciones comerciales. Un hotsite DR aporta los más elevados niveles de protección contra interrupciones del servicio gracias a su disponibilidad inmediata.
Un warmsite consiste, por regla general, en una instalación de centro de datos con todo el equipamiento de hardware y comunicaciones necesario para mantener el curso de un negocio, si bien en este caso los sistemas no se mantienen constantemente listos para la operación. Cuando ocurre un desastre, las aplicaciones y los datos deben recuperarse en el warmsite para poder mantener las operaciones comerciales corrientes. Un warmsite DR es idóneo como protección contra interrupciones del servicio prolongadas, pero no ofrece una disponibilidad instantánea.
Una instalación de tipo coldsite pone a disposición electricidad, acceso de comunicaciones y el entorno para albergar una infraestructura informática, pero carece de hardware físico. Si se presenta un desastre, el personal de TI debe recrear los datos del centro de datos partiendo de cero, lo que requiere un considerable esfuerzo antes de poder dar soporte a las aplicaciones empresariales. Un coldsite DR es idóneo como protección contra interrupciones del servicio prolongadas, pero significa tener que invertir mucho tiempo para la activación y puesta en marcha.
Tolerancia a desastres
Conscientes de la importancia de DRP, los diseñadores de aplicaciones están empezando a integrar funciones para la preparación ante desastres en sus sistemas empresariales. La tolerancia a desastres es un término utilizado para la designación de un sistema con una determinada capacidad para resistir un fallo grave. Existen varias tecnologías que facilitan la tolerancia a desastres, como redundancia de hardware, duplicación de datos, clustering de servidores y centros de datos remotos.
Alta disponibilidad
Los sistemas que mayor tolerancia a desastres ofrecen se distinguen como sistemas de alta disponibilidad (HA). Estas configuraciones están diseñadas de forma que se eliminan el tiempo de interrupción de las aplicaciones mediante hardware redundante y componentes de red, así como con software especial para aplicaciones y sistemas operativos. Los sistemas HA son capaces de “circunvalar” los fallos en la infraestructura informática directamente y sin alterar el acceso de los usuarios a los datos.
La estabilidad de un sistema HA se mide, con frecuencia, a través de terminología adoptada del sector de las telecomunicaciones. Una configuración que ofrece una disponibilidad del 99.999%, denominada también “five-nines”, por ejemplo, no sobrepasará los cinco minutos de interrupción al año.
Recovery Point Objective (RPO) y Recovery Time Objective (RTO)
El BIA arroja dos parámetros básicos que definen la capacidad de un sistema empresarial para tolerar la pérdida de datos e interrupciones. El Recovery Point Objective (RPO) expresa la cantidad de datos que una aplicación puede llegar a perder antes de que ello suponga repercusiones negativas para la empresa. El Recovery Time Objective (RTO) indica cuánto tiempo puede emplear el personal de TI para volver a poner la aplicación en línea después de ocurrir un desastre. La unidad de medición, tanto en el RPO como en el RTO, es el tiempo, con valores que abarcan desde segundos hasta días o semanas. Cuanto más se aproximen los valores RPO y RTO de una aplicación a cero, mayor será la dependencia de la organización del proceso en particular y, por consiguiente, mayor prioridad tendrá a la hora de recuperar los sistemas en caso de desastre.
Estrategias de recuperación de desastres
Las estrategias aplicadas para la protección de datos contra la pérdida como consecuencia de un desastre deben reflejar las prioridades de la empresa. Gastar un millón de dólares en asegurar una recuperación rápida de un servidor de archivos o de impresión puede ser excesivo, pero la inversión de esta misma cantidad de dinero para salvaguardar una aplicación crítica que genera ingresos puede justificarse.
El RPO y el RTO proporcionan a los administradores de TI la información necesaria para identificar la estrategia idónea para una aplicación en concreto. Estos dos parámetros del DRP pueden resultar también útiles a la hora de verificar el resultado de una estrategia elegida en el marco de un ensayo de DR.
Las redes de alta velocidad hacen hoy posible la conservación de copias de los datos de producción en emplazamientos remotos, sin que para ello deba recurrirse a la recuperación basada en cinta y sus impredecibles consecuencias. La disponibilidad generalizada y los costes relativamente bajos de las redes de ancho de banda extenso han permitido que la duplicación de datos suplante a las cintas magnéticas tradicionales, convirtiéndose en la clave de una recuperación de desastres eficaz.
La praxis de los entornos de TI modernos dictará la implantación de una serie de tecnologías diferentes para la protección de desastres. En todo caso, el primer paso hacia un plan DR eficaz es entender las necesidades que plantea cada aplicación en particular. Independientemente de la tecnología disponible, el RPO y el RTO son la referencia más fidedigna del nivel de protección que una empresa necesita para cada una de sus aplicaciones.
CRÉDITOS
Autor: Gonzalo Landaluce
Director general Symantec Ibérica
Fuente:
BORRMART S.A