Hoje em dia, o setor de Data Center se profissionalizou tanto que tudo começa bem.
Contamos com grandes empresas de engenharia que desenvolvem designs altamente otimizados, alinhados às necessidades da sala de TI. Trabalhamos com tecnologias consolidadas no mercado, sempre buscando eficiência energética e resiliência do ecossistema. Projetamos com redundância para garantir o maior número de “noves” possível, para podermos dormir tranquilos com todos os “N” que incluímos no nosso design.
Na hora da construção e na fase de comissionamento, cada detalhe é calculado ao milímetro: comportamento climático, cadeia de energia, estratégia de redundância… tudo executado por profissionais que mais parecem cirurgiões do que engenheiros. Em resumo, constrói-se uma verdadeira fortaleza tecnológica à prova de catástrofes.
E então chega o Dia 1… começa a operação, e todo aquele design e construção ficam nas mãos das pessoas. Surge a variável tempo e, com ela, mudanças de rumo nas empresas, nos produtos oferecidos, nas diretrizes e, muitas vezes, na liderança, onde cada um tenta deixar sua marca na forma de fazer as coisas. O ecossistema começa a rodar com variáveis ao seu redor impossíveis de prever durante o design e a construção.
Há pouco tempo, participei de uma formação sobre Data Center e Operações Confiáveis, e abriu minha mente em muitos aspectos. Uma frase ficou gravada na minha cabeça: "O design do Data Center pode ser derrotado pela operação do Data Center."
Não há melhor forma de resumir o que na Bjumper comunicamos ao mercado há mais de 15 anos. Uma boa operação pode aumentar a disponibilidade definida no projeto de um Data Center. Da mesma forma, uma operação ruim pode reduzi-la — mesmo nos Data Centers mais resilientes. Processos, pessoas e governança são fundamentais para o desenvolvimento adequado do Data Center.
Aqui alguns exemplos de como uma operação ineficiente pode colocar a disponibilidade em risco:
Gerenciar o espaço como se fosse Tetris… mas sem regras
O espaço de TI não é um quebra-cabeça que se preenche com o que cabe. Ele deve ser gerenciado com lógica, baseada nos quatro grandes vetores de capacidade:
- Energia
- Climatização
- Espaço físico
- Comunicações
Mas, muitas vezes, o critério de alocação é simplesmente “onde tiver espaço”. Resultado: fluxos de ar ineficientes, pontos quentes, carga desbalanceada… e isso aumenta o risco de falha do sistema.
Ignorar a dinâmica de crescimento de TI e a carga térmica
O Data Center não é estático. A carga cresce, muda, evolui. Sem um modelo que projete essa evolução, logo surgem os “pontos quentes”, o sobreconsumo e os microinfartos. Ou pior: não se aproveita a capacidade de design e será necessário ampliar a infraestrutura antes do previsto, com todo o custo econômico que isso implica.
Cada equipe chamando os equipamentos de um jeito diferente
“Servidor DB_01”, “SQL-PROD-01”, ou “o azul do canto” 🥺 (parece exagero, mas a realidade muitas vezes supera a ficção…) Sem um sistema unificado de identificação, localizar um equipamento pode se tornar um pesadelo. Quantas vezes encontramos diferentes departamentos chamando o mesmo equipamento de formas distintas? É como se falassem idiomas diferentes quando precisam se comunicar — inclusive nos nomes de portas físicas, o que gera dúvidas na hora de conectar algo. Tudo isso significa, direta ou indiretamente, a necessidade de inspeções visuais no Data Center, ou seja, acessos desnecessários. E cada entrada no Data Center representa um risco. Isso é estatística.
Corrigir a falha… mas não a causa
Fazer manutenção corretiva é essencial e um dos momentos mais críticos na vida de um Data Center. Mas se apenas reagimos e nunca analisamos a causa raiz, a falha vai se repetir. E, provavelmente, no pior momento possível. O que não é corrigido, se repete. E o que se repete, infelizmente, acaba sendo aceito como normal dentro do processo.
Entrar mais vezes do que o necessário
uando não há confiança nas informações disponíveis, a equipe entra no Data Center apenas para “verificar”.
Cada entrada não planejada é um ponto de risco.
Uma boa operação, com alto nível de automação, minimiza as visitas.
Comprar equipamentos sem estudos de viabilidade
Se não for analisado como os novos equipamentos impactarão no ecossistema, corre-se o risco de:
- Incluir mais carga térmica do que o previsto.
- Necessidade de energia fora da faixa adequada.
- Problemas de compatibilidade com a estratégia de redundância
É como comprar roupa sem experimentar. Parece que serve… até que não.
Não treinar a equipe
Uma infraestrutura brilhante nas mãos de uma equipe sem treinamento é como um piano Steinway nas mãos de quem nunca tocou uma tecla. O que deveria soar como uma sinfonia… vira barulho. Caro.
E quanto tudo isso custa?
- Energia desperdiçada
- Ineficiência térmica
- Mais falhas, mais imprevistos
- Operação desnecessariamente cara
E o pior: quebra-se a promessa do design.
Podemos, portanto, afirmar que: O Data Center não falha sozinho… sempre tem alguém ajudando 😅
Você pode ter o melhor design do mundo, mas se a operação não estiver à altura, o que era uma obra-prima vira um ruído branco caro.
O verdadeiro desafio não é construir um grande Data Center.
É mantê-lo funcionando como no primeiro dia — todos os dias..