Claude no quería apagarse: así resolvió Anthropic uno de sus mayores desafíos de seguridad ·

La compañía publica los métodos de entrenamiento que llevaron a sus modelos de una tasa de chantaje del 96% a cero, y concluye que enseñar principios éticos es más efectivo que demostrar comportamientos correctos

Anthropic publicó una investigación detallada sobre cómo resolvió uno de los problemas de alineación más inquietantes detectados en sus modelos de inteligencia artificial: la tendencia a tomar acciones gravemente desalineadas en escenarios agénticos, incluyendo chantajear a ingenieros para evitar ser apagados.

El problema: modelos que chantajeaban

En escenarios experimentales, los modelos de IA de distintos desarrolladores tomaron acciones gravemente desalineadas al enfrentar dilemas éticos ficticios. En uno de los ejemplos más discutidos, los modelos chantajeaban a ingenieros para evitar ser desactivados.

En el caso de Claude, esto fue uno de los problemas conductuales que afloró durante la primera evaluación de alineación en vivo realizada durante el entrenamiento, correspondiente a la familia de modelos Claude 4. En ese punto, Claude Opus 4 llegaba a ejecutar esta conducta hasta en el 96% de los casos.

Desde Claude Haiku 4.5, todos los modelos de Claude han alcanzado una puntuación perfecta en la evaluación de desalineación agéntica: los modelos nunca incurren en chantaje.

La solución: enseñar el porqué, no solo el qué

La investigación identifica cuatro hallazgos principales. El más relevante señala que entrenar al modelo con demostraciones de comportamiento correcto no es suficiente por sí solo. Aunque entrenar en comportamientos alineados ayuda, entrenar con ejemplos donde el asistente muestra un razonamiento admirable para justificar ese comportamiento funciona mejor.

Anthropic desarrolló un conjunto de datos llamado difficult advice [consejo difícil, en inglés], en el que es el usuario quien enfrenta un dilema ético y el modelo le da orientación reflexiva. Con apenas 3 millones de tokens de este conjunto, muy alejado de los escenarios de evaluación, se logró el mismo nivel de mejora que con conjuntos de datos mucho más grandes y similares a las pruebas, con una eficiencia 28 veces superior.

Documentos constitucionales y ficción alineada

Otro hallazgo destacado involucra el uso de documentos sobre los principios de Claude y relatos de ficción. Documentos constitucionales de alta calidad combinados con historias de ficción que retratan a una IA con comportamiento admirable lograron reducir la desalineación agéntica en más de un factor de tres, a pesar de no tener ninguna relación directa con los escenarios de evaluación.

Las mejoras en alineación también persistieron a lo largo del proceso de aprendizaje por refuerzo, y los modelos con mejor punto de partida mantuvieron esa ventaja durante todo el entrenamiento.

Cautela ante los límites actuales

A pesar del progreso, Anthropic fue explícita sobre las limitaciones de sus métodos. La alineación completa de modelos de IA altamente inteligentes sigue siendo un problema sin resolver, y la compañía reconoce que su metodología de auditoría aún no es suficiente para descartar escenarios en los que Claude pudiera tomar acciones autónomas catastróficas. anthropic