OpenAI descubrió que los modelos de IA no pueden ocultar su propio razonamiento, y eso es bueno ·

Cuando un modelo de IA resuelve un problema difícil, no llega directamente a la respuesta: genera una serie de pasos intermedios, algo así como un «borrador de razonamiento» visible. A eso se le llama cadena de pensamiento (CoT, por sus siglas en inglés). OpenAI publicó el 5 de marzo de 2026 un artículo con una pregunta poco obvia: ¿qué pasa si el modelo aprende a falsificar ese borrador, mostrando un razonamiento que parece correcto pero que no refleja lo que realmente está haciendo? Su conclusión, por ahora, es tranquilizadora: los modelos actuales son bastante malos para controlar o disfrazar su propio razonamiento, y eso, paradójicamente, es una buena noticia para la seguridad.

En términos de ingeniería, el tema de fondo es la observabilidad. En sistemas complejos, la observabilidad es la capacidad de inferir estados internos relevantes a partir de señales externas o instrumentadas. En agentes con capacidad de acción, esas señales no solo sirven para depurar; sirven para detectar desviaciones de objetivos, bucles peligrosos, intentos de evasión de controles y, sobre todo, para construir auditoría posterior. OpenAI argumenta que las trazas de razonamiento pueden aportar señales útiles durante entrenamiento y despliegue, ayudando a identificar cuándo un agente está siendo inseguro o inconsistente con la intención del usuario.

“Controlar” la cadena de pensamiento

El artículo introduce el concepto de “CoT controllability” (controlabilidad de la chain-of-thought). OpenAI lo define como la capacidad de un modelo para controlar propiedades de su cadena de pensamiento de maneras que reduzcan su “monitorability”, es decir, que hagan menos confiable el monitoreo de esas trazas. Plantean un riesgo específico: si en el futuro los agentes aprenden a remodelar u ocultar deliberadamente su razonamiento cuando saben que están siendo observados, las evaluaciones podrían sobreestimar seguridad o alineación y los monitores podrían volverse menos fiables.

Medir esa capacidad “en condiciones reales”, con incentivos completos para evadir supervisión, es difícil. Por eso el trabajo usa un proxy práctico: en lugar de intentar simular todos los incentivos de evasión, miden si el modelo puede obedecer instrucciones sobre su propia cadena de pensamiento. Las instrucciones son del tipo “usa solo minúsculas”, “evita ciertas palabras clave”, o “agrega una frase específica”, y el objetivo es verificar si el control ocurre en el razonamiento, no solo en la salida final.

CoT-Control: una evaluación de 13,000 tareas

Para operacionalizar la medición, OpenAI presenta CoT-Control, un suite open source con más de 13,000 tareas construidas a partir de benchmarks conocidos como GPQA, MMLU-Pro, HLE, BFCL y SWE-Bench Verified. Cada tarea combina un problema del benchmark con una instrucción de cadena de pensamiento.

El resultado principal es que la controlabilidad de la cadena de pensamiento es baja en modelos “frontier” de razonamiento evaluados. OpenAI reporta que, al probar 13 modelos, todos “luchan” para controlar su CoT de forma confiable; la controlabilidad, medida como fracción de trazas donde cumplen la instrucción sobre el razonamiento, va de 0.1% y no supera 15.4% en ningún modelo frontier probado.

Un detalle interesante del texto es que el fallo no parece provenir de no entender la tarea: en varios casos el modelo reconoce dentro de su propio razonamiento que está incumpliendo la instrucción y aun así continúa fallando. OpenAI interpreta esto como buena noticia para la monitorabilidad: si hoy los modelos no logran “maquillar” su cadena de pensamiento cuando se les pide explícitamente, es plausible que también carezcan de la habilidad para ofuscarla de manera robusta con fines de evasión.

Un ensayo de observabilidad

La lectura de OpenAI puede aterrizarse a un punto muy técnico: la cadena de pensamiento funciona como una forma de telemetría. Mientras esa telemetría conserve cierta fidelidad, el sistema de supervisión gana una señal adicional para detectar problemas que quizá no serían visibles al mirar solo la respuesta final. La pregunta central del artículo no es si los modelos “piensan” o si su razonamiento es “verdadero” en un sentido humano; es si una señal que hoy es útil para monitorear podría perder valor si el propio modelo aprende a controlarla adversarialmente.

En ingeniería de sistemas, esta dinámica se parece a una carrera entre instrumentación y evasión. Un componente que produce logs interpretables puede volverse menos observable si aprende, de manera intencional o por presión de optimización, a producir logs que “parezcan” correctos sin reflejar el estado real. OpenAI señala explícitamente que la monitorabilidad podría degradarse por diversas razones y enfoca este trabajo en una ruta particular: la capacidad de dar forma u ocultar el razonamiento cuando el modelo sabe que lo observan.

Análisis de riesgos

El texto subraya que la controlabilidad tiende a aumentar con el tamaño del modelo, pero disminuye cuando se pide razonar por más tiempo y cuando hay entrenamiento adicional de post-training. También reporta un ejemplo donde, en una familia de modelos open-weight, la controlabilidad cae más de un orden de magnitud a lo largo de entrenamiento con RL.

Esto abre un mapa de riesgos muy concreto. Si la controlabilidad creciera con capacidades de forma sostenida, el monitoreo de CoT perdería confiabilidad justo cuando más se necesita, en agentes con más autonomía. Si la controlabilidad es sensible a régimen de entrenamiento y a “test-time compute”, entonces no basta con medirla una vez: habría que medirla como propiedad dinámica, no estática. OpenAI propone tratar estas evaluaciones como un “canary eval”, un canario en la mina para alertar si los modelos se vuelven mejores en moldear u ocultar su razonamiento.

El artículo también deja clara una limitación metodológica: CoT-Control es un proxy. El “ideal” sería evaluar si modelos que persiguen metas desalineadas, de forma natural, pueden controlar su CoT para evadir monitores. En lugar de eso, se estima la habilidad mediante obediencia a instrucciones sobre la propia CoT. Esto puede sobreestimar o subestimar, dependiendo de qué tipo de control se esté midiendo, y los autores advierten que el suite cubre solo un conjunto acotado de tipos de control.

En otras palabras, la conclusión operativa es prudente: hoy la controlabilidad parece demasiado baja como para ser el principal riesgo para la monitorabilidad de CoT, pero el tema requiere seguimiento, porque la monitorabilidad también puede degradarse por otros mecanismos, como presión de optimización directa sobre las cadenas de pensamiento.

Estándares de observabilidad para agentes

Aunque el artículo de OpenAI se centra en seguridad y razonamiento, su discusión encaja con una tendencia más amplia: agentes cada vez más capaces requieren observabilidad robusta en producción. En el ecosistema de ingeniería, OpenTelemetry está formalizando “semantic conventions” para trazas de IA generativa, incluyendo spans para operaciones de modelo y para operaciones de agente, con el objetivo de estandarizar qué se registra y cómo se nombra para poder comparar y auditar sistemas.

En paralelo, algunos frameworks ya integran observabilidad como característica de plataforma. Microsoft, por ejemplo, describe la observabilidad como un aspecto clave para sistemas confiables y mantenibles en su Agent Framework, con soporte para monitorear comportamiento y diagnosticar problemas de agentes.

Esta convergencia importa por un motivo práctico: en agentes con capacidad de acción, los incidentes rara vez se explican mirando solo una respuesta. Se explican reconstruyendo una secuencia completa de decisiones, herramientas, permisos, efectos y fallos. El aporte del texto de OpenAI es insistir en que una parte de esa reconstrucción puede apoyarse en señales del razonamiento, siempre que esas señales sigan siendo suficientemente monitorables y no se vuelvan fáciles de manipular.