¿Cuál es el coste e interrupción en un Data Center?
El impacto financiero por vulnerabilidad de la infraestructura

Quizá un llamativo título para un post.., pero una pregunta realmente complicada de enfocar y resolver; por tal motivo, decidí escribir este post y compartir la experiencia adquirida a través del tiempo.

Durante las últimas dos décadas, el sector empresarial ha cambiado de manera casi radical. Dentro de todos los cambios que, como sociedad, hemos experimentado, ninguno es tan fundamentalmente profundo como lo es la dependencia de los sistemas de tecnologías de la información en el soporte de la infraestructura crítica para el negocio. El rendimiento de los centros de datos se ha convertido en una “commodity” monetizable para todas empresas de los principales sectores como la banca, el retail, la aeronáutica, las telecomunicaciones, los proveedores de servicios de internet, entre otros.

Esta dependencia sin precedentes de los sistemas de TI ha tenido como resultado una conexión aún más fuerte entre la disponibilidad de los Data Center y la alineación del negocio para las empresas. Tan solo un evento de tiempo de inactividad en un Data Center significa un impacto significativo y directo tanto en la rentabilidad como en la viabilidad del negocio.


La función principal de los Data Center es proporcionar un tiempo de actividad constante para las aplicaciones de misión crítica que alberga. Sin embargo, interrupciones en el delivery del servicio pueden suceder de manera inesperada y los operadores deben ser proactivos en encontrar maneras de prevenirlos y corregirlos. Comprender las causas de las interrupciones en los Data Center, cuantificar las pérdidas provocadas a las empresas y encontrar formas de prevenirlas es crucial para evitar que la interrupción del negocio se convierta en pérdidas millonarias, pérdida de clientes y daños a la imagen corporativa.

Casos reales de interrupciones en Data Centers y su enorme costo económico para las empresas involucradas.

British Airways, costo de pérdida aproximada de $200 millones, durante 3 días.

El 27 de mayo del 2017, la compañía British Airways (BA) tuvo una interrupción en su Data Center que le obligó cancelar más de 400 vuelos y dejar en el suelo a más de 75.000 pasajeros.

Un portavoz de BA dijo a la publicación del Reino Unido IT PRO: “Hubo una pérdida de energía en el Data Center del Reino Unido, que se vio agravada por el retorno incontrolado de energía, lo que provocó una oleada de energía que eliminó nuestros sistemas de TI. Así que sabemos lo que sucedió; solo tenemos que averiguar por qué. No fue una falla de TI y no tuvo nada que ver con la externalización de TI; fue una fuente de alimentación eléctrica que fue interrumpida”. Dieciocho meses después, BA decidió demandar al especialista en propiedades CBRE, quien era el operador del Data Center por los daños ocasionados durante la interrupción.


Un portavoz de BA dijo a la publicación del Reino Unido IT PRO: “Hubo una pérdida de energía en el Data Center del Reino Unido, que se vio agravada por el retorno incontrolado de energía, lo que provocó una oleada de energía que eliminó nuestros sistemas de TI. Así que sabemos lo que sucedió; solo tenemos que averiguar por qué. No fue una falla de TI y no tuvo nada que ver con la externalización de TI; fue una fuente de alimentación eléctrica que fue interrumpida”. Dieciocho meses después, BA decidió demandar al especialista en propiedades CBRE, quien era el operador del Data Center por los daños ocasionados durante la interrupción.

Delta Airlines, costo de pérdida aproximada de $150 millones, durante 5 días.

La compañía Delta Airlines ha tenido varios incidentes en sus Data Center, el primero de ellos, a gran escala, se tradujo en la cancelación de más de 2000 vuelos durante 5 días en agosto de 2016, pérdidas por aproximadamente $150 millones y más de 250.000 pasajeros detenidos en los aeropuertos.

Un componente eléctrico en su sede de Atlanta falló, lo que provocó el apagado del transformador que proporciona energía al Data Center de la aerolínea.

BlackBerry, costo de pérdida aproximada de $350 millones, durante 4 días.

La interrupción se extendió a lo largo de cuatro días y cinco continentes, con más de la mitad de sus 70 millones de usuarios en todo el mundo afectados y millones de emails críticos para sus clientes sin enviar. Las estimaciones de pérdidas variaron desde una estimación aislada de solo $26 millones en el Reino Unido hasta una retrospectiva mundial de $350 millones en total. Para BlackBerry, significó la pérdida masiva de clientes corporativos y de usuarios de sus teléfonos móviles además del debacle de la compañía; y para la competencia, como AppleGoogle y Samsung, significó un golpe de suerte.


El costo estimado en la vulnerabilidad de la infraestructura.

Según el Instituto de Investigación de Energía Eléctrica (EPRI), el 98 % de los cortes de energía duran menos de 10 segundos. Pero imagine cuánto puede costarle a las empresas si sus aplicaciones de misión crítica fallan tan solo 10 segundos. La encuesta de 2016 del Instituto Ponemon mostró que el costo promedio general de la interrupción de un centro de datos es $750,500.


Según estudios del Uptime Institute, las tres principales causas de las interrupciones en los Data Center son las siguientes:

1.     Fallo en los sistemas de poder ininterrumpidos (UPS)

2.     Cibercrimen (DDoS)

3.     Error humano

Son estos tres los responsables de más del 50 % de todas las interrupciones en los Data Center.



Los costos monetarios de los fallos en estas tres principales causas se comparan en el siguiente cuadro, expresado en $1000.

 

Tipos de costos asociados en la interrupción de los Data Center.

Dentro de los Data Center, los costos asociados debido a las interrupciones de los servicios pueden abarcar una gran cantidad de variables, los centros de costos y actividades más comunes se pueden agrupar dentro de las siguientes categorías.

Costo de detección: actividades asociadas con el descubrimiento inicial y la investigación posterior del incidente por interrupción parcial o completa.


Costo de contención: actividades y costos asociados que permiten a una empresa, razonablemente, evitar que una interrupción se propague, empeore o cause una mayor interrupción.


Costo de recuperaciónactividades y costos asociados que se relacionan con traer las redes y sistemas centrales de la empresa a un estado de disponibilidad.

Costo de respuesta: todos los costos incidentales posteriores al hecho asociado con la interrupción y la recuperación del negocio.

Costo del equipo: el costo de la compra y la reparación de equipos nuevos, incluida la renovación.

Costo por pérdida de productividad de TI: el tiempo perdido y los gastos relacionados asociados con el personal de TI.

Costo por pérdida de productividad del usuario: el tiempo perdido y los gastos relacionados asociados con el usuario final.

Costo de terceros: el costo de contratistas, consultores, auditores y otros especialistas comprometidos con ayudar a resolver interrupciones no planificadas.

Costo por pérdida de ingresos: pérdida total de ingresos de clientes y clientes potenciales debido a su incapacidad para acceder a los sistemas centrales durante el período de interrupción.

Costo por interrupción del negocio (consecuencias): pérdida económica total de la interrupción, incluyendo daños a la reputación, pérdida de clientes y oportunidades comerciales perdidas.

Costo por procesos legales: los procesos legales y demandas asociados por incumplimiento de contratos por delivery del servicio.


El DCIM como herramienta aliada en el delivery del servicio.

Los software de Data Center Infrastructure Management (DCIM) permiten a los administradores de Data Center evitar el tiempo de inactividad no planificado que puede costar cientos de miles de dólares por interrupción y causar estragos en su negocio. Algunas de las formas para evitar errores humanos y maximizar el tiempo de actividad con DCIM son las siguientes:

·       Gestión de la temperatura y humedad.

·       Garantía de la redundancia de energía.

·       Planeamiento de actividades de mantenimiento.

·       Gestión de las salas blancas.

·       Análisis de casos “What If” para escenarios de interrupción.

·       Encuestas de salud para equipos de facilities y TI.

·       Monitoreo en tiempo real en equipos de facilities y TI.

·       Recopilación de datos para análisis post mortem.


Conclusión.


La infraestructura de Data Center es crítica para la operación de las empresas en la actualidad. Los casos de interrupciones en los Data Center ya han provocado pérdidas millonarias a varias empresas en distintos sectores en la economía. Los diversos factores que interoperan dentro del ecosistema del mundo de la gestión y del almacenamiento de datos, y lo crítico de su correcta gestión hace que utilizar las herramientas adecuadas para garantizar de manera oportuna el delivery del servicio sea una prioridad fundamental para mantener las operaciones vitales de las empresas.

  

                                                                                                         Let it work for you



10 Estrategias para superar los Cuellos de Botella en los Data Center