El Data Center: El diseño pone las bases, pero la operación lo sostiene… o lo hunde

Hoy en día se ha profesionalizado tanto el sector del Data Center que todo empieza bien.
Tenemos grandes ingenierías que realizan diseños muy optimizados conforme a las necesidades de la sala IT, se trabaja con tecnología muy consolidada en el mercado y que buscan de forma constante la eficiencia energética y la resiliencia del ecosistema, trabajamos en la redundancia para asegurar el máximo número de 9, y poder dormir tranquilos de tantos “N” que ponemos en nuestro diseño.

A la hora de la construcción y de la fase de commisioning, se calculan al milímetro comportamientos de la parte de clima, de la cadena de energía, la redundancia con grandes profesionales que más parecen cirujanos que ingenieros. En definitiva, se construye una verdadera fortaleza tecnológica a prueba de catástrofes. 

Y llega el día 1 y… empieza la operación, y todo el diseño y la construcción se queda en manos de las personas, y comienza la variable tiempo, y con ello los cambios de rumbo de las empresas, de los productos que ofrecen, de las directrices y en muchas ocasiones de liderazgos donde cada uno siempre intentamos marcar nuestra forma de hacer… comienza a rodar el ecosistema con variables a su alrededor imposibles de calcular durante el diseño y la construcción.

Hace poco realicé una formación sobre Data Center y Operaciones confiables, me abrió la mente en muchas áreas y hubo una frase que se me quedó grabada: “El diseño del Data Center puede ser DERROTADO por la operación del Data Center.” No se puede definir en mejores palabras lo que desde Bjumper llevamos más de 15 años comunicando al mercado. Una buena operación puede aumentar la disponibilidad definida en el diseño de un Data Center, igual como en grandes Data Centers con la máxima disponibilidad puede hacer que se vea reducida: los procesos, las personas y la gobernanza son claves para el correcto desarrollo del Data Center.

Algunos ejemplos de cómo una operación ineficiente puede poner en riesgo la disponibilidad:

     Gestionar el espacio como si fuera Tetris… pero sin reglas

El espacio IT no es un puzzle que se llena con lo que cabe. Debería gestionarse con lógica basada en los 4 grandes vectores de capacidad:

  • Energía
  • Clima
  • Espacio físico
  • Comunicaciones

Pero muchas veces el criterio de colocación se asigna según “donde haya hueco”.
Resultado: flujos de aire ineficientes, zonas calientes, carga desequilibrada… y esto aumenta el riesgo de fallo del sistema.

    Ignorar la dinámica de crecimiento IT y la carga térmica  

El Data Center no es estático. La carga crece, cambia, muta.
Si no hay un modelo que proyecte cómo evolucionará, pronto llegan los “puntos calientes”, el sobreconsumo y los microinfartos, o lo que es peor, no se sacará el provecho de la capacidad de diseño, y nos veremos en la obligación de hacer ampliaciones antes de tiempo con el coste económico que supone no usar adecuadamente los recursos.

    Cada equipo con su propio nombre conforme a sus propios criterios.

“Servidor DB_01”, “SQL-PROD-01”, “el azul de la esquina” 🥺 (parece exagerado, pero la realidad muchas veces supera la ficción…)
Sin un sistema unificado de identificación, encontrar un equipo se vuelve en ocasiones un dolor de cabeza, cuantas ocasiones nos hemos encontrado con diversos departamentos que llaman al mismo equipo de diferentes formas, es como si hablasen idiomas diferentes cuando se tienen que comunicar, o incluso con los puertos, lo cual a la hora de la conexión física se generan muchas dudas.
Todos estos puntos significan de forma directa o indirecta la necesidad de inspecciones visuales en el Data Center y, por tanto, entradas innecesarias, y cada acceso al Data Center supone un riesgo, esto es estadística.

    Corregir la falla… pero no la causa

Hacer mantenimientos correctivos es clave y uno de los momentos más críticos en la vida de los Data Centers. Pero si solo se reacciona y nunca se analiza la raíz del problema, el fallo volverá. Y probablemente cuando menos le convenga al servicio.
Lo que no se corrige, se repite. Y lo que se repite, tristemente se convierte en parte de la rutina y se termina por aceptar como normal dentro del proceso.

    Entrar más veces de las necesarias

Si no hay confianza en la información disponible, el equipo entra al Data Center solo para “verificar”.
Y cada entrada no planificada es un punto de riesgo.
Una buena operación, incluyendo puntos máximos de automatización, minimiza las visitas.

    Comprar equipos sin hacer estudios de prefactibilidad

Si no se analiza cómo impactarán los nuevos equipos en el ecosistema, se corre el riesgo de:

  • Incluir más carga térmica de la prevista.
  • Necesidades energéticas fuera de rango.
  • Problemas de compatibilidad con la estrategia de redundancia
    Es como comprar ropa sin probársela. Parece que encaja… hasta que no.

     No formar al equipo

Una infraestructura brillante en manos de un equipo sin formación es como un piano Steinway en manos de quien nunca tocó una tecla.
Lo que debería sonar como una sinfonía… se vuelve ruido. Caro.

    ¿Y todo esto cuánto cuesta?

  • Energía desperdiciada
  • Ineficiencia térmica
  • Más fallas, más imprevistos
  • Operación innecesariamente cara

Y lo peor: se rompe la promesa del diseño.

Por tanto podemos decir que: El Data Center no falla solo… alguien siempre ayuda 😅
Puedes tener el mejor diseño del mundo, pero si la operación no está a la altura, lo que era una obra maestra se convierte en un ruido blanco caro.
El verdadero desafío no es construir un buen Data Center.
Es mantenerlo funcionando como el primer día, todos los días.


¿Por qué la industria del automóvil está automatizada… y los data centers no?