LLM, VLA y WLM hablar era fácil, entender el mundo no

Durante las últimas semanas, casi sin querer y entre comidas y cenas de Navidad, he estado leyendo bastante sobre robótica e inteligencia artificial. No como una desconexión del mundo tecnológico, sino más bien como una forma de no perderle el pulso a algo que empieza a moverse por debajo del ruido habitual.

Y hay una sensación que se repite una y otra vez.

No estamos ante ese momento grandilocuente de “esto va a cambiarlo todo mañana”. Estamos ante un punto mucho más interesante —y también más incómodo—: el de saber que, dentro de unos años, probablemente no reconoceremos lo que hoy nos parece normal.

Gran parte de esa sensación gira alrededor de tres siglas que, hasta hace poco, apenas formaban parte de mi vocabulario: LLM, VLA y WLM.

Cuando el lenguaje deja de ser suficiente

Los LLM ya nos resultan familiares. Han cambiado la forma en la que interactuamos con la tecnología y han convertido el lenguaje natural en una interfaz casi universal. Pero cuando intentamos sacar esta inteligencia del software y llevarla al mundo físico, empiezan los problemas.

Durante años hemos tenido robots extremadamente precisos en entornos controlados. En una línea de montaje funcionan de maravilla. El problema aparece cuando el entorno deja de ser predecible.

Fuera de la fábrica, nada está exactamente donde esperas. Las condiciones cambian, las personas damos instrucciones imprecisas y el contexto pesa más de lo que parece. Programar un robot para cubrir todas esas variaciones no es realista.

Por eso seguimos rodeados de robots brillantes en fábricas… pero ninguno especialmente útil en entornos cotidianos. No es una cuestión de potencia. Es una cuestión de comprensión.

El primer salto: empezar a entender el entorno

Aquí es donde entran los modelos VLA. La idea, simplificando mucho, es que el robot no solo ejecute una orden, sino que combine lo que ve, lo que se le dice y lo que puede hacer.

No para reaccionar de forma mecánica, sino para adaptarse mínimamente a lo que tiene delante.

Si aprende a coger una taza, puede inferir cómo coger un vaso. Si sabe abrir una puerta, puede enfrentarse a una que no sea exactamente igual. No porque piense como una persona, sino porque ha visto suficientes ejemplos como para generalizar.

Esto ha hecho que muchas empresas empiecen a tomarse en serio la robótica fuera de entornos hipercontrolados. No tanto por tener robots más espectaculares, sino por la posibilidad de que empiecen a desenvolverse con cierta soltura en un mundo imperfecto.

Algo muy parecido a lo que ocurre cuando hablamos de automatización en infraestructuras complejas: no gana el sistema más sofisticado, sino el que mejor se adapta a la realidad. Es una idea que ya hemos tratado en el blog al hablar de automatización e infraestructuras críticas.

Entender la tarea no es entender el mundo

Con el tiempo empezó a aparecer un límite bastante claro.

Un robot puede ver un objeto, entender una instrucción y saber qué acción ejecutar… y aun así fallar. Porque entiende la tarea, pero no entiende cómo se comporta el mundo.

No anticipa qué pasa cuando aplica una fuerza concreta, cómo se mueve un líquido, qué implica el equilibrio o qué consecuencias tiene un pequeño error. Y en sistemas reales, ese tipo de desconocimiento no es menor. Es el tipo de cosas que hacen que algo se rompa.

Enseñar a la máquina cómo funciona la realidad

Aquí es donde empiezan a cobrar sentido los WLM, los llamados modelos de mundo.

La idea no es programar reglas rígidas, sino que la máquina tenga una representación interna de cómo funcionan las cosas. Una especie de intuición estadística sobre el comportamiento físico del entorno.

Es la diferencia entre saberse las normas y entender la situación. Algo que, salvando las distancias, también ocurre en la operación de un Data Center: no basta con tener datos y procedimientos si no se entiende el contexto en el que se aplican.

Ya lo comentábamos cuando hablábamos de la distancia entre el dato y la decisión real:  Cómo cambia tu Data Center cuando el dato toma el mando

Expectativas, realidad y esa fase incómoda

Cuando se habla de todo esto, el discurso suele irse rápido a grandes promesas. Robots domésticos, hospitales automatizados, fábricas completamente flexibles.

La realidad, como casi siempre, es bastante menos épica.

La tecnología existe, las demostraciones funcionan, pero llevar todo eso a producción estable sigue siendo complicado. Nada nuevo para quien haya trabajado con sistemas complejos. Lo vemos constantemente en infraestructuras críticas, donde la diferencia entre el diseño ideal y la operación real es enorme: El mayor riesgo de un Data Center: la operaciónPor qué todo esto me genera prudencia… y curiosidad.

Por qué todo esto me genera prudencia… y curiosidad

Quizá por eso esta evolución me genera una mezcla rara de prudencia y fascinación. Prudencia, porque la historia nos ha enseñado que estas transiciones son lentas, difíciles y duras en la última milla.

Y fascinación, porque por primera vez en mucho tiempo parece que el foco está en el sitio correcto. No en hacer sistemas más rápidos o más fuertes, sino en hacer sistemas que entiendan mejor el entorno en el que operan.

Y, como casi siempre, acabamos mirando al Data Center

Quizá por eso esta evolución me genera una mezcla curiosa de prudencia y curiosidad. Prudencia, porque estas transiciones suelen ser lentas y difíciles. Curiosidad, porque por primera vez en mucho tiempo el foco parece estar bien puesto: entender el contexto antes de actuar.

Y aquí aparece una pregunta inevitable.
Si esta robótica más versátil acaba madurando, ¿podría ser una base real para una operación de Data Centers más automatizada y realmente gestionable en remoto? ¿Podría ayudarnos a entender sistemas complejos antes de intervenir sobre ellos?

Nada cerrado, nada definitivo (por ahora)

No tengo claro cómo acabará todo esto. Tampoco creo que nadie lo tenga, aunque algunos hablen con mucha seguridad.

Lo que sí parece claro es que algo está cambiando en la forma en la que intentamos que las máquinas se relacionen con el mundo. Ya no basta con que respondan bien. Empieza a ser necesario que entiendan el contexto y las consecuencias.

No sé si esto acabará siendo una revolución silenciosa o una burbuja bien contada.
Pero prefiero observarlo de cerca, con calma y cierto escepticismo, que ignorarlo y descubrir demasiado tarde que el cambio ya pasó.


El verdadero regalo de fin de año para un Data Center