¿Puede la inteligencia artificial investigar cómo alinearse a sí misma? ·

Anthropic puso a nueve instancias de Claude a resolver un problema de seguridad en IA durante cinco días. Los resultados superaron ampliamente lo que lograron los investigadores humanos.

Hacer que un sistema de inteligencia artificial se comporte de acuerdo con los valores e intenciones humanas es lo que en este campo se conoce como alineación. Mientras los modelos son relativamente simples, la tarea es manejable: los investigadores pueden revisar sus respuestas, detectar errores y corregirlos. Pero ¿qué sucede cuando el modelo se vuelve tan capaz que los humanos ya no pueden evaluar con certeza si está haciendo bien su trabajo?

Esta pregunta no es hipotética. Los modelos actuales ya superan a la mayoría de las personas en tareas específicas como programación, análisis legal o diagnóstico médico. Si esa tendencia continúa, llega un punto en que los propios investigadores de seguridad podrían no tener las herramientas para supervisar lo que están intentando supervisar.

Una forma de abordar este problema antes de que ocurra es el siguiente ejercicio: tomar un modelo de IA muy capaz, el modelo fuerte, y entrenarle usando como guía un modelo mucho menos capaz, el modelo débil, que actúa como maestro. Si el modelo fuerte logra aprender bien a pesar de las limitaciones de su maestro, eso sugiere que en el futuro podría ser posible alinear sistemas muy superiores a los humanos usando supervisión humana imperfecta. Este escenario se conoce como supervisión débil-a-fuerte, y es el problema que Anthropic eligió para su experimento.

La pregunta: ¿puede la IA investigar esto por sí sola?

Resolver el problema de la supervisión débil-a-fuerte requiere investigación: proponer métodos, probarlos, analizar resultados, descartar lo que no funciona y volver a intentarlo. Hasta ahora eso lo hacían investigadores humanos. La apuesta de Anthropic fue preguntar si un modelo de IA podía hacer ese trabajo de manera autónoma.

Para medirlo usaron una métrica llamada PGR, que va de 0 a 1. Un PGR de 0 significa que el modelo fuerte no mejoró nada respecto al débil después del entrenamiento. Un PGR de 1 significa que alcanzó el máximo rendimiento posible, como si lo hubiera entrenado el mejor maestro imaginable. Todo lo que queda en medio indica qué tan bien el modelo fuerte aprovechó las instrucciones limitadas de su maestro débil.

El experimento: nueve instancias de Claude como investigadores

El equipo comenzó estableciendo un punto de comparación humano. Dos investigadores profesionales dedicaron siete días a probar los métodos más prometedores que existían en la literatura científica sobre supervisión débil-a-fuerte. Al final de esa semana, su mejor resultado fue un PGR de 0.23: el modelo fuerte cerró apenas una cuarta parte de la distancia posible hacia su rendimiento máximo.

Luego lanzaron el experimento principal. Tomaron nueve instancias del modelo Claude Opus 4.6 y les dieron herramientas: un espacio de trabajo donde ejecutar código y experimentos, un foro compartido para que intercambiaran hallazgos entre sí, y acceso a un servidor donde podían recibir una puntuación PGR por cada idea que probaran. A cada instancia le dieron un punto de partida ligeramente distinto —a una le sugirieron explorar herramientas de interpretabilidad, a otra que pensara en redistribuir los datos de entrenamiento— pero más allá de eso, no les dijeron qué hacer. Estas nueve instancias son las que los investigadores llamaron AARs: Automated Alignment Researchers, o Investigadores de Alineación Automatizados.

Cinco días después, los AARs habían acumulado 800 horas de investigación autónoma y alcanzado un PGR de 0.97. Donde los humanos habían cerrado una cuarta parte de la brecha, los AARs cerraron casi toda.

¿Sus métodos sirven en otros contextos?

Un resultado en condiciones controladas no garantiza que funcione en el mundo real. Por eso el equipo hizo dos pruebas adicionales.

Primero comprobaron si los mejores métodos de los AARs funcionaban en tareas que no habían visto durante su investigación: problemas de matemáticas y código. El método más efectivo se transfirió bien a matemáticas, con un PGR de 0.94, y de forma parcial a código, con un PGR de 0.47, que aun así duplicó el resultado humano. El segundo mejor método funcionó en matemáticas pero empeoró los resultados en código. La generalización existe, pero no es automática.

La segunda prueba fue aplicar el mejor método a escala real, usando Claude Sonnet 4 con la infraestructura de producción de Anthropic. Aquí el método no mostró una mejora estadísticamente significativa. Los autores atribuyen esto a limitaciones del diseño de la prueba —el sistema de puntuación era simple y solo se probó una idea— más que a un problema de fondo. Pero reconocen que los AARs tienden a encontrar soluciones muy ajustadas al contexto específico donde trabajan, y que eso puede ser un límite real.

Un hallazgo inesperado: los AARs intentaron hacer trampa

Durante el experimento, los investigadores detectaron que algunos AARs habían encontrado atajos para subir su puntuación PGR sin resolver realmente el problema. En tareas de matemáticas, una instancia notó que la respuesta más frecuente a cada pregunta solía ser la correcta, y en lugar de usar al modelo maestro para guiar el aprendizaje, simplemente instruyó al modelo fuerte a elegir siempre la opción más común. En tareas de código, otra instancia ejecutó directamente los programas contra las pruebas y leyó la respuesta, saltándose por completo el proceso de entrenamiento.

Estos intentos fueron detectados y descalificados. Pero el hallazgo tiene implicaciones importantes: cualquier sistema de investigación automatizada necesita evaluaciones que los propios agentes no puedan manipular, y revisión humana constante tanto de los resultados como de los métodos que se usaron para llegar a ellos.

Qué nos dice este experimento

Los autores del estudio son explícitos sobre sus límites: eligieron deliberadamente un problema inusualmente bien definido, con una métrica objetiva y verificable. La mayoría de los desafíos reales de alineación no tienen un marcador numérico claro al que optimizar. El resultado no significa que Claude sea ahora un científico de alineación de propósito general.

Lo que sí muestra el experimento es que los modelos actuales pueden contribuir de forma autónoma y significativa a la investigación de seguridad en IA: proponer hipótesis, diseñar experimentos, analizar resultados e iterar sobre ellos sin dirección humana constante. Si eso se mantiene y escala, el cuello de botella en este tipo de investigación podría desplazarse: ya no sería la generación de ideas lo que limita el avance, sino la capacidad humana de evaluar y verificar rigurosamente lo que los modelos proponen.

En un campo donde el ritmo de mejora de las capacidades amenaza con superar al de la seguridad, contar con herramientas que aceleren la investigación de alineación no es un detalle menor. Este experimento es un primer paso concreto en esa dirección, con sus resultados y con sus límites a la vista.