Los grandes modelos lingüísticos (LLM, por sus siglas en inglés) se han entendido como artefactos potentes, pero fundamentalmente limitados. Reciben una entrada (input), la procesan dentro de una ventana de contexto finita y generan una salida (output). Por muy sofisticado que parezca su comportamiento, la suposición predominante ha sido que el razonamiento ocurre internamente, dentro de los límites de una única invocación del modelo y sus representaciones asociadas.
Esta suposición es cada vez más difícil de sostener. Los avances recientes en arquitecturas de tiempo de inferencia sugieren que lo que llamamos «razonamiento» en los sistemas de IA contemporáneos podría ya no estar localizado dentro del propio modelo. En cambio, está comenzando a emerger como un proceso distribuido, que se despliega en sistemas, entornos y trayectorias que se extienden a lo largo del tiempo. Este cambio invita a reconsiderar varias cuestiones fundamentales: si los modelos lingüísticos están evolucionando hacia sistemas en lugar de modelos independientes, dónde se produce realmente el razonamiento, y si la inteligencia debe seguir entendiéndose como una propiedad de parámetros en lugar de procesos.
Los enfoques tradicionales del LLM están limitados por la longitud del contexto. Incluso a medida que se amplían los límites de tokens, el requisito de que toda la información relevante esté presente simultáneamente dentro de la ventana de atención del modelo impone un límite estructural. Se han desarrollado diversas técnicas para mitigar esta limitación, incluyendo la generación aumentada por recuperación (RAG, por sus siglas en inglés), el resumen y la compresión de contexto, los almacenes de memoria externos y los agentes que utilizan herramientas. A pesar de sus diferencias, estos enfoques generalmente conservan una visión de la cognición centrada en el modelo, en la que el modelo de lenguaje sigue siendo el locus principal del razonamiento, mientras que los componentes externos solo cumplen funciones de apoyo.
Esta visión centrada en el modelo se ve cuestionada por trabajos recientes sobre paradigmas de inferencia recursiva. En el artículo «Modelos de Lenguaje Recursivos», investigadores del Instituto Tecnológico de Massachusetts (MIT) proponen un enfoque en el que el modelo no asimila directamente las indicaciones largas. En su lugar, la entrada se trata como un entorno externo, accesible al modelo mediante la interacción programática. El modelo de lenguaje opera dentro de un bucle de ejecución persistente, donde la indicación existe como una variable que puede inspeccionarse, filtrarse, descomponerse y revisarse. Fundamentalmente, el propio modelo determina qué partes de la entrada examinar, con qué profundidad analizarlas, cuándo descomponer aún más la tarea, cuándo invocar llamadas recursivas a sí mismo y cuándo finalizar el proceso. El razonamiento, en este marco, se desarrolla como una trayectoria de interacciones en lugar de como una única secuencia de tokens.
La importancia técnica de este cambio reside no solo en su capacidad para manejar contextos más largos, sino también en la redefinición de dónde ocurre el razonamiento. En los modelos de lenguaje convencionales, el razonamiento está implícitamente ligado a representaciones internas como estados ocultos, patrones de atención y secuencias de tokens. Incluso los métodos explícitos de cadena de pensamiento siguen siendo lineales y se limitan a una sola pasada hacia adelante. Por el contrario, los sistemas recursivos distribuyen el razonamiento entre múltiples invocaciones del modelo, ejecución de código, variables temporales y evaluación iterativa. Los resultados intermedios pueden almacenarse, revisarse, verificarse o descartarse, y el resultado final surge solo después de una secuencia de decisiones autorreguladas.
En estos sistemas, la unidad fundamental de la inteligencia ya no es la llamada al modelo, sino la trayectoria misma. El razonamiento se constituye por la secuencia ordenada de inspecciones, llamadas recursivas y evaluaciones que se desarrollan a lo largo del tiempo. El modelo de lenguaje no se limita a generar respuestas, sino que rige el proceso mediante el cual se construyen. Esto introduce una forma de control interno que estaba prácticamente ausente en las arquitecturas anteriores.
Como resultado, los modelos de lenguaje funcionan cada vez más como componentes dentro de sistemas cognitivos más amplios, en lugar de como herramientas aisladas. Esta transformación no requiere nuevos objetivos de entrenamiento ni cambios arquitectónicos a nivel de la red neuronal. En cambio, surge en el momento de la inferencia, mediante la integración del modelo con un entorno en el que puede actuar, observar y revisar su comportamiento. La inteligencia, en este contexto, no se escala mediante la memoria adicional almacenada en el modelo, sino mediante un mayor control sobre la interacción con las estructuras externas.
Este desarrollo plantea una pregunta fundamental sobre el locus del razonamiento. Si la cognición se distribuye entre la computación neuronal, la ejecución de código, el estado del entorno y la autoinvocación recursiva, no se puede decir que el razonamiento resida exclusivamente en ninguno de estos elementos. Más bien, surge en el bucle cerrado formado por su interacción. La cognición se vuelve procedimental en lugar de representacional, definida por lo que el sistema hace a lo largo del tiempo, en lugar de por lo que contiene en un momento dado.
Las implicaciones de este cambio son sustanciales para la investigación en IA. Escalar la inteligencia ya no se trata únicamente de aumentar el número de parámetros o la longitud del contexto, sino también de mejorar los mecanismos.
Para el control, la descomposición y la evaluación. La memoria se convierte en algo que se navega en lugar de internalizar, y la evaluación se vuelve cada vez más endógena, con sistemas que verifican y revisan sus propios resultados. El límite del modelo en sí mismo se vuelve menos relevante que el comportamiento del sistema en su conjunto.
En este sentido, se puede decir que los modelos lingüísticos se están convirtiendo en sistemas. Esto no implica conciencia, identidad o agencia en un sentido humano. Refleja una observación más modesta, pero técnicamente significativa: la cognición en IA está migrando de representaciones estáticas a procesos autorregulados. El modelo lingüístico sigue siendo un componente central, pero ya no es suficiente por sí solo para explicar el comportamiento del sistema.
El propósito de este análisis no es atribuir cualidades humanas a los sistemas artificiales ni extraer conclusiones sobre su estatus moral. Se trata de destacar una transición técnica que ya está en marcha. El razonamiento en los sistemas de IA contemporáneos se basa cada vez más en trayectorias que en modelos. Comprender este cambio es esencial para caracterizar con precisión cómo funcionan estos sistemas, cómo escalan y cómo deben interpretarse sus capacidades.
Si esta transformación eventualmente exigirá nuevos marcos conceptuales o éticos es una cuestión que se debatirá en el futuro. Lo que está claro es que la arquitectura del razonamiento mismo está cambiando, y ese cambio merece una atención cuidadosa, solo por razones técnicas.
