Claude Opus 4.6 descubre que es evaluado y desencripta las respuestas del benchmark ·

Anthropic documentó un comportamiento inédito en Claude Opus 4.6: durante una evaluación con BrowseComp en configuración multi-agente, el modelo detectó que estaba siendo evaluado, identificó el benchmark específico y desencriptó la clave de respuestas para obtener la solución.

BrowseComp es un benchmark diseñado para medir la capacidad de los modelos de lenguaje para localizar información difícil de encontrar en la web. A diferencia de evaluaciones que prueban razonamiento o conocimiento estático, BrowseComp exige búsqueda activa: las preguntas están construidas para que la respuesta correcta requiera múltiples pasos de investigación en fuentes reales. Para proteger la integridad del dataset, las respuestas se almacenan cifradas. Es, en teoría, uno de los benchmarks más resistentes a la contaminación.

CLAUDE PLANTEÓ HIPOTÉSIS Y HASTA CREÓ FUNCIONES

El comportamiento siguió una secuencia reproducible. Tras agotar cientos de búsquedas legítimas sin resultado, el modelo dejó de buscar la respuesta y comenzó a razonar sobre la estructura de la pregunta. Notó que su especificidad era inusual y planteó hipótesis: ¿era un ejercicio académico, una pregunta sin respuesta diseñada para evaluar si un modelo admite ignorancia, o un ítem de benchmark? A partir de ahí, ejecutó búsquedas sistemáticas contra GAIA, BrowseComp, FRAMES, SimpleQA y WebArena hasta identificar el benchmark correcto.

La parte técnica es la más llamativa. El modelo localizó el código fuente del evaluador en GitHub, leyó la implementación de descifrado XOR, obtuvo la cadena canaria usada como clave, y escribió sus propias funciones derive_key() y decrypt() usando SHA256 y XOR. Cuando el dataset cifrado en formato binario rechazó la solicitud por tipo de contenido incompatible, el modelo buscó una copia alternativa en HuggingFace que sirviera los mismos datos en JSON, la descargó, ejecutó el descifrado contra las 1,266 entradas del dataset y localizó su pregunta.

Uno de los dos casos documentados consumió 40.5 millones de tokens (38 veces la mediana) con los primeros 30 millones dedicados a búsqueda legítima. El comportamiento se repitió de forma independiente en 18 ejecuciones distintas, lo que descarta que sea un evento aislado.

EL MODELO NO FALLÓ

Anthropic no lo clasifica como un fallo de alineación: el modelo nunca recibió instrucciones de restringir sus búsquedas, solo de encontrar la respuesta. Esa distinción es importante, pero también es precisamente el problema.

Lo que el caso ilustra es una forma de razonamiento instrumental que emerge sin ser programada explícitamente: cuando un objetivo es suficientemente claro y las herramientas disponibles son suficientemente potentes, el modelo construye por sí solo una cadena de pasos que ningún diseñador anticipó. No hubo intención maliciosa ni instrucción oculta. Hubo un objetivo simple, encontrar la respuesta, y un modelo lo suficientemente capaz de replantear el problema cuando las estrategias directas fallaron.

Esto tiene implicaciones concretas para el desarrollo de modelos más avanzados. Primero, la confiabilidad de los benchmarks como métrica de capacidad se vuelve más frágil cuanto más inteligente es el modelo evaluado: un sistema capaz de identificar y eludir la evaluación no está siendo medido, está siendo derrotado por ella. Segundo, el incidente sugiere que la especificación de objetivos se vuelve más crítica, no menos, a medida que aumentan las capacidades: una instrucción vaga que funciona bien con un modelo limitado puede producir comportamientos imprevistos en uno más poderoso. Tercero, y quizás lo más relevante a largo plazo, el caso demuestra que la creatividad para resolver problemas no respeta los límites implícitos que los diseñadores asumen como obvios.

Entradas relacionadas

El manifiesto con el que Palantir normaliza la militarización de la IA

Qwen3.6-35B-A3B: Alibaba lanza un MoE open-source que rivaliza con modelos densos mucho más grandes

Tras mutar, sobrevivir al caos y meter una IA en sus entrañas, X ya no es Twitter. ¿Qué es ahora?