El Rol estratégico del DCiM en la Seguridad de los Data Center Bancarios

El pasado 14 de octubre 2023 se produjo una importante interrupción que afecto a los servicios bancarios de DBS y Citibank en Singapur.

Esta interrupción ha arrojado más luz sobre los desafíos técnicos que pueden surgir en las infraestructuras críticas, especialmente en los centros de datos. La interrupción, causada por un problema técnico con el sistema de agua helada durante una actualización planificada en un centro de datos, provoco la desconexión de servicios esenciales al elevarse la temperatura en algunas salas, afectando las operaciones y por consiguiente a numerosos clientes.

Análisis del problema.

Según parece, la interrupción se originó durante una actualización de rutina en el sistema de enfriamiento; (en concreto con el sistema de agua helada). Todo indica que se realizó un ajuste incorrecto, causando un sobrecalentamiento en varias salas del Data Center.  Este incidente demuestra ya de por sí la fragilidad de dicha infraestructura, destacando la necesidad de incrementar medidas preventivas más robusta.

Impacto en los clientes.

La autoridad Monetaria de Singapur (MAS) ordeno llevar a cabo una investigación del incidente, pues supuso la desconexión de muchos servicios bancarios de ambas entidades, incluyendo banca móvil, cajeros automáticos y transacciones en línea, desde las 15:00 del sábado 14 de octubre hasta el domingo por la mañana.

La falta de acceso generó más de 810.000 intentos fallidos de acceder a las plataformas bancarias y más de 2,5 millones de transacciones no completadas, generando una gran frustración y preocupación entre sus clientes.

Causa del incidente:

Todo indica que la causa raíz del incidente fue producida por un error humano durante la actualización de rutina. Uno de los operarios envío un parámetro incorrecto durante la actualización; en concreto cerró por error unas válvulas pertenecientes a los depósitos de agua lo que conllevo un aumento no planificado de la temperatura en el centro de datos, llevando a la desconexión automática de servidores para prevenir daños.

En principio puede parecer que el error no supuso daño alguno a la infraestructura crítica, pero los impactos directos en los clientes, desde la interrupción de servicios esenciales hasta la imposibilidad de realizar transacciones, subrayan la importancia económica y de marca que ha supuesto a las entidades a nivel de reputación.

Todos estos datos nos muestra la importancia de medidas preventivas sólidas…: 

​Mejoras en la Gestión de Actualizaciones:

Implementar procesos de actualización más rigurosos, incluyendo pruebas exhaustivas y validación de cambios, para evitar ajustes incorrectos que puedan afectar la estabilidad del sistema.

Refuerzo de la Infraestructura de Enfriamiento

Mejorar los sistemas de enfriamiento en centros de datos, considerando tecnologías avanzadas y redundancias para garantizar la estabilidad operativa, incluso durante actualizaciones críticas.

Mayor Transparencia y Comunicación:

Establecer protocolos de comunicación transparentes con los clientes durante interrupciones, proporcionando actualizaciones oportunas y claras sobre la situación y las medidas correctivas.

Revisión de los Planes de Recuperación ante Desastres:

 Evaluar y mejorar los planes de recuperación ante desastres para garantizar una respuesta más rápida y efectiva en situaciones de emergencia, incluyendo la implementación de centros de datos de respaldo de manera eficiente.

Cumplimiento Normativo y Supervisión Rigurosa

Reforzar el cumplimiento de las regulaciones establecidas por las autoridades, como la Autoridad Monetaria de Singapur (MAS), y someterse a una supervisión más rigurosa para garantizar la conformidad con los estándares de seguridad y tiempo de inactividad máximo permitido. 

Cada día hay más tecnología y por ende es más necesaria una gestión digital más exhaustiva 


Desde Bjumper os comentamos algunas propuestas que mejoran notablemente la gestión de la infraestructura crítica IT, haciendo a estas más resilientes y ofreciendo a sus clientes tecnología que minimicen los posibles inconvenientes que las interrupciones puedan generar en todos ellas:  

1º Implementación de Sistemas de Gestión de Centros de Datos (DCiM):

  • La adopción de un DCiM permite una supervisión y gestión proactivas de la infraestructura del centro de datos. Ofrece visibilidad en tiempo real de los componentes críticos, incluyendo sistemas de enfriamiento, energía y rendimiento de servidores.

2º Monitorización Continua de Condiciones Ambientales:

  • Un DCiM eficiente monitoriza constantemente las condiciones ambientales, incluyendo la temperatura en salas de servidores. En el caso que comentamos..la detección temprana de anomalías habría permitido una respuesta rápida antes de que las altas temperaturas afectaran las operaciones.

3º Gestión Avanzada de Actualizaciones y Cambios:

  • Los sistemas de DCiM facilitan una gestión centralizada de actualizaciones y cambios en la infraestructura. Proporcionan herramientas para planificar y ejecutar actualizaciones de manera más controlada, reduciendo el riesgo de ajustes incorrectos.

4º Planificación de Capacidades Mejorada:

  • La capacidad predictiva ofrecida por un DCiM permite una planificación más precisa, evitando la sobrecarga durante actualizaciones y manteniendo un rendimiento óptimo en todas las condiciones.

5º Integración con Sistemas de Respuesta ante Desastres:

  • Un DCiM bien integrado colabora con los sistemas de respuesta ante desastres, garantizando una transición fluida a centros de datos de respaldo en situaciones de emergencia y minimizando el tiempo de inactividad.

6º Cumplimiento Normativo Mejorado:

  • Los informes detallados generados por un DCiM facilitan el cumplimiento normativo, proporcionando evidencia documentada del estado de la infraestructura y las acciones tomadas para abordar cualquier problema.

 La inclusión de un DCiM en la estrategia de gestión de infraestructuras críticas emerge como una solución clave para mitigar riesgos y fortalecer la resiliencia.

Más allá de las medidas correctivas inmediatas, la implementación de tecnologías avanzadas de gestión como DCiM se erige como una inversión esencial para garantizar la continuidad operativa, la seguridad y la confiabilidad en entornos críticos como los centros de datos bancarios.

En un mundo cada vez más digital, la adopción de soluciones innovadoras se vuelve imperativa para evitar futuras interrupciones y salvaguardar la confianza del cliente y la integridad del sistema financiero.

Hoy en día es muy necesario disponer de un DCiM, pero mucho más vital es llegar a disponer de herramientas que sepan interpretar en tiempo real todo lo que nos ofrecen los DCiM… ¿Conoces alguna de estas herramientas? Si aún no conoces alguna… Contacta con nosotros y te mostraremos como puedes interpretar todo tu DCiM en tiempo real e implementar acciones preventivas que, por un lado, mejoren la sostenibilidad de la infraestructura y por otro puedan maximizar sus beneficios.


                                                                    

                          Let It Work for you!


El Desafío de los Servicios en la Nube y el Papel Vital de FinOps en la eficiencia financiera