Un nuevo trabajo de investigación firmado por David Klindt, Yann LeCun y Randall Balestriero busca responder una pregunta central para el desarrollo de sistemas de inteligencia artificial más autónomos: ¿cuándo puede decirse que un modelo aprende una representación fiel del mundo y no solo una colección útil de patrones?
El estudio, titulado When Does LeJEPA Learn a World Model?, analiza LeJEPA, una arquitectura de aprendizaje autosupervisado basada en el enfoque JEPA (Joint-Embedding Predictive Architecture), una de las líneas que LeCun ha defendido como alternativa a los sistemas centrados en predecir el siguiente token o reconstruir píxeles.
La idea central del paper es que una IA no debería limitarse a memorizar correlaciones superficiales. Para planear, generalizar y actuar en entornos cambiantes, necesita aprender una estructura interna del mundo: variables como posición, velocidad, forma, color, movimiento o relaciones entre objetos, sin mezclarlas de manera arbitraria.
Los autores advierten que una representación que “revuelve” los verdaderos grados de libertad del mundo puede funcionar en tareas estrechas, pero fallar cuando el entorno cambia. Por ejemplo, si un sistema mezcla la posición de un objeto con su color, o la velocidad con la textura, puede obtener buenos resultados en una prueba específica, pero carecer de una representación estable para planear o generalizar.
El trabajo propone una garantía matemática para ese problema. Según los autores, LeJEPA puede recuperar linealmente las variables latentes del mundo a partir de observaciones no lineales. A esta propiedad se le conoce como identificabilidad lineal: la representación aprendida no reproduce necesariamente las variables originales de forma idéntica, pero sí las conserva de manera recuperable mediante transformaciones simples, como una rotación.
El resultado depende de condiciones precisas. Los autores prueban que esta garantía funciona en una clase de mundos donde las variables latentes siguen una distribución gaussiana y evolucionan mediante transiciones estacionarias con ruido aditivo. También sostienen que la distribución gaussiana no es solo una opción conveniente, sino la única para la cual se obtiene esa garantía general.
LeJEPA combina una pérdida de alineación, que busca que representaciones relacionadas estén cerca entre sí, con una regularización gaussiana, conocida como SIGReg, diseñada para evitar que el modelo colapse hacia representaciones triviales. En lugar de depender de trucos de entrenamiento más frágiles, como arquitecturas maestro-estudiante, gradientes detenidos o ajustes heurísticos, el enfoque intenta imponer una forma estadística controlada a las representaciones internas.
La relevancia del estudio está en que convierte una intuición empírica en una afirmación demostrable: bajo ciertas condiciones, el modelo no solo aprende características útiles, sino una representación alineada con la estructura latente del entorno.
Los autores también conectan esta propiedad con la planeación. Si el modelo recupera las variables latentes hasta una transformación lineal u ortogonal, entonces puede planear en ese espacio aprendido como si estuviera operando sobre las variables reales del mundo. Esto resulta importante para robótica, control y agentes que necesitan anticipar consecuencias antes de actuar.
El estudio incluye validaciones experimentales que van desde ejemplos bidimensionales hasta espacios latentes de 1024 dimensiones, además de pruebas con control robótico basado en píxeles. Los autores afirman que todos los teoremas fueron verificados formalmente en Lean 4, un sistema usado para comprobar demostraciones matemáticas.
Sin embargo, el trabajo no significa que los sistemas actuales ya tengan una comprensión general del mundo comparable a la humana. La garantía se mantiene dentro de supuestos matemáticos específicos y no resuelve por sí sola todos los problemas de causalidad, sentido común, intervención o comprensión social que enfrentan los modelos de IA.
Aun así, el paper apunta a una dirección relevante: pasar de modelos que funcionan por desempeño empírico a arquitecturas cuya capacidad para aprender estructuras del mundo pueda ser descrita, acotada y eventualmente verificada.
En un momento en que buena parte de la industria se concentra en escalar modelos de lenguaje, la línea de LeCun insiste en otra ruta: construir sistemas capaces de aprender representaciones internas manipulables, estables y útiles para planear. La pregunta ya no es solo cuántos datos puede procesar un modelo, sino qué tipo de estructura aprende cuando observa el mundo.
