OpenAI informó que algunos modelos ya lanzados fueron expuestos de forma accidental a una evaluación limitada de sus cadenas de pensamiento durante procesos de aprendizaje por refuerzo, pese a que la compañía mantiene una política interna para evitar esa práctica por sus posibles riesgos de seguridad.
De acuerdo con una publicación del equipo de alineamiento de OpenAI, el incidente fue descubierto tras implementar un sistema automatizado para detectar cuándo las cadenas de pensamiento, conocidas como chain of thought o CoT, aparecen dentro de los mecanismos usados para calcular recompensas durante el entrenamiento de modelos.
El incidente no afectó necesariamente porque “el modelo pensó mal”, sino porque pudo aprender a maquillar cómo explica lo que piensa. La preocupación central es que, si un modelo recibe recompensas o penalizaciones con base en su razonamiento interno escrito, podría aprender a modificar esa explicación para complacer al evaluador, ocultar razonamientos problemáticos o producir trazas de pensamiento menos útiles para monitorear posibles conductas desalineadas. OpenAI señaló que este tipo de monitoreo ha sido útil para detectar problemas durante el entrenamiento y despliegue de modelos, pero también reconoció que su confiabilidad puede ser frágil.
La cadena de pensamiento sirve como una especie de ventana de monitoreo: permite revisar si el modelo está razonando de forma problemática, tramposa, evasiva o desalineada. OpenAI dice que esa ventana ha sido útil para detectar problemas durante entrenamiento y despliegue. El riesgo aparece cuando esa misma ventana entra al sistema de calificación del entrenamiento.
Según la compañía, la exposición accidental afectó entrenamientos de GPT-5.4 Thinking, GPT-5.1 Instant a GPT-5.4 Instant, GPT-5.3 mini y GPT-5.4 mini. OpenAI afirmó que GPT-5.5 no fue afectado.
La empresa identificó tres tipos de fallas: recompensas relacionadas con la utilidad de una trayectoria, penalizaciones a preguntas de confirmación innecesarias y penalizaciones por inyecciones de prompt exitosas. En los casos descritos, el porcentaje de muestras afectadas fue limitado: menos de 0.6% para GPT-5.4 Thinking en uno de los casos, menos de 1.5% para GPT-5.4 mini, menos de 3.8% para GPT-5.1 Instant y menos de 0.3% en el caso relacionado con inyecciones de prompt.
OpenAI dijo que, tras analizar los entrenamientos afectados, no encontró evidencia clara de una degradación significativa en la capacidad de monitorear las cadenas de pensamiento de esos modelos. Sin embargo, la compañía reconoció que no puede descartar efectos más sutiles o difíciles de medir.
Como respuesta, OpenAI aseguró que corrigió las rutas de recompensa afectadas, amplió su sistema automático de detección y reforzó sus procesos internos para evitar que las cadenas de pensamiento entren de nuevo en mecanismos de recompensa durante el entrenamiento. La compañía también compartió un borrador del informe con organizaciones externas como METR, Apollo Research y Redwood Research.
Redwood Research publicó una revisión independiente en la que valoró positivamente que OpenAI hiciera público el problema, aunque advirtió que la evidencia disponible no elimina por completo la posibilidad de efectos difíciles de observar. Su evaluación general fue que el análisis de OpenAI reduce gran parte de la preocupación inicial, pero no basta para descartar todos los escenarios problemáticos.
El caso muestra una tensión creciente en el desarrollo de modelos avanzados: las cadenas de pensamiento pueden servir como una ventana para vigilar el comportamiento interno de una IA, pero esa ventana puede volverse menos confiable si el propio entrenamiento enseña al modelo a escribir razonamientos que maximizan recompensas en lugar de reflejar con fidelidad su proceso de decisión.
OpenAI sostuvo que no cambiará su política: seguirá evitando que las cadenas de pensamiento sean evaluadas directamente durante el aprendizaje por refuerzo. La compañía afirmó que preservar la posibilidad de monitorear esos razonamientos no es solo un problema técnico, sino también de infraestructura, procesos y cultura dentro de los laboratorios que desarrollan IA de frontera.
