O Papel Estratégico do DCiM na Segurança dos Centros de Dados Bancários.

No passado dia 14 de outubro, ocorreu uma interrupção significativa que afetou os serviços bancários do DBS e Citibank em Singapura..

Essa interrupção lançou mais luz sobre os desafios técnicos que podem surgir nas infraestruturas críticas, especialmente nos centros de dados. A interrupção, causada por um problema técnico no sistema de água gelada durante uma atualização planejada em um centro de dados, resultou na desconexão de serviços essenciais ao aumentar a temperatura em algumas salas, afetando as operações e, consequentemente, vários clientes.

Análise do problema.

Parece que a interrupção ocorreu durante uma atualização de rotina no sistema de resfriamento, especificamente no sistema de água gelada. Tudo indica que foi feito um ajuste incorreto, causando superaquecimento em várias salas do DataCenter. Esse incidente por si só evidencia a fragilidade dessa infraestrutura, destacando a necessidade de implementar medidas preventivas mais robustas..

Impacto nos clientes..

La Autoridade Monetária de Singapura (MAS) ordenou a realização de uma investigação sobre o incidente, pois resultou na desconexão de muitos serviços bancários de ambas as entidades, incluindo serviços bancários móveis, caixas automáticos e transações online, desde as 15:00 do sábado, 14 de outubro, até a manhã de domingo.

A falta de acesso gerou mais de 810.000 tentativas fracassadas de acessar as plataformas bancárias e mais de 2,5 milhões de transações não concluídas, causando grande frustração e preocupação entre seus clientes..

Causa do incidente:

Tudo indica que a causa raiz do incidente foi causada por um erro humano durante a atualização de rotina. Um dos operadores enviou um parâmetro incorreto durante a atualização; especificamente, fechou erroneamente algumas válvulas pertencentes aos tanques de água, o que resultou em um aumento não planejado da temperatura no centro de dados, levando à desconexão automática dos servidores para prevenir dano.

Em princípio, pode parecer que o erro não causou danos à infraestrutura crítica, mas os impactos diretos nos clientes, desde a interrupção de serviços essenciais até a impossibilidade de realizar transações, destacam a importância econômica e de marca que representou para as entidades em termos de reputação.

Todos esses dados mostram a importância de medidas preventivas sólidas: 

​Melhorias na Gestão de Atualizações:

Implementar processos de atualização mais rigorosos, incluindo testes abrangentes e validação de alterações, para evitar ajustes incorretos que possam afetar a estabilidade do sistema..

Reforço da Infraestrutura de Resfriamento:

Aprimorar os sistemas de resfriamento em centros de dados, considerando tecnologias avançadas e redundâncias para garantir a estabilidade operacional mesmo durante atualizações críticas.

Maior Transparência e Comunicação.:

Estabelecer protocolos de comunicação transparentes com os clientes durante interrupções, fornecendo atualizações oportunas e claras sobre a situação e as medidas corretivas..

Revisão dos Planos de Recuperação de Desastres:

 Avaliar e aprimorar os planos de recuperação de desastres para garantir uma resposta mais rápida e eficaz em situações de emergência, incluindo a implementação eficiente de centros de dados de backup.

Conformidade Normativa e Supervisão Rigorosa.

Reforçar o cumprimento das regulamentações estabelecidas pelas autoridades, como a Autoridade Monetária de Singapura (MAS), e submeter-se a uma supervisão mais rigorosa para garantir a conformidade com os padrões de segurança e tempo de inatividade máximo permitido.. 

Cada dia há mais tecnologia e, portanto, é mais necessária uma gestão digital mais rigorosa 


A partir Bjumper Nós compartilhamos algumas propostas que melhoram significativamente a gestão da infraestrutura crítica de TI, tornando-as mais resilientes e oferecendo aos seus clientes tecnologias que minimizem os possíveis inconvenientes que as interrupções possam gerar em todas elas:::  

1º Implementação de Sistemas de Gestão de Centros de Dados (DCiM).

  • A adoção de um DCiM possibilita uma supervisão e gestão proativas da infraestrutura do centro de dados. Ele proporciona visibilidade em tempo real dos componentes críticos, incluindo sistemas de resfriamento, energia e desempenho de servidores..

2ºMonitoramento Contínuo das Condições Ambientais:º Monitorización Continua de Condiciones Ambientales:

  • Um DCiM eficiente monitoriza constantemente as condições ambientais, incluindo a temperatura nas salas de servidores. No caso que estamos discutindo, a detecção precoce de anomalias teria permitido uma resposta rápida antes que as altas temperaturas afetassem as operações.

3º Gestão Avançada de Atualizações e Mudanças:

  • Os sistemas de DCiM facilitam uma gestão centralizada de atualizações e mudanças na infraestrutura. Eles fornecem ferramentas para planejar e executar atualizações de forma mais controlada, reduzindo o risco de ajustes incorretos..

4º Planejamento de Capacidade Aprimorado::

  • A capacidade preditiva oferecida por um DCiM permite um planejamento mais preciso, evitando sobrecargas durante atualizações e mantendo um desempenho ótimo em todas as condições.

5º Integração com Sistemas de Resposta a Desastres:5º Integración con Sistemas de Respuesta ante Desastres:

  • Um DCiM bem integrado colabora com os sistemas de resposta a desastres, garantindo uma transição suave para centros de dados de backup em situações de emergência e minimizando o tempo de inatividade.

6º Cumprimento Normativo Aprimorado: Cumplimiento Normativo Mejorado:

  • Os relatórios detalhados gerados por um DCiM facilitam o cumprimento normativo, fornecendo evidências documentadas do estado da infraestrutura e das ações tomadas para abordar qualquer problema..

 A inclusão de um DCiM na estratégia de gestão de infraestruturas críticas surge como uma solução chave para mitigar riscos e fortalecer a resiliência.​.

Além das medidas corretivas imediatas, a implementação de tecnologias avançadas de gestão, como o DCiM, se destaca como um investimento essencial para garantir a continuidade operacional, a segurança e a confiabilidade em ambientes críticos, como os centros de dados bancários..

Num mundo cada vez mais digital, a adoção de soluções inovadoras torna-se imperativa para evitar futuras interrupções e salvaguardar a confiança do cliente e a integridade do sistema financeiro.

Hoje em dia, é muito necessário ter um DCiM, mas é ainda mais vital ter ferramentas que possam interpretar em tempo real tudo o que os DCiM nos oferecem. Você conhece alguma dessas ferramentas? Se ainda não conhece alguma, entre em contato conosco e mostraremos como você pode interpretar todo o seu DCiM em tempo real e implementar ações preventivas que, por um lado, melhorem a sustentabilidade da infraestrutura e, por outro, possam maximizar seus benefícios..


                                                                    

                          Let It Work for you!


O Desafio dos Serviços em Nuvem e o Papel Vital do FinOps na Eficiência Financeira