Sandbagging: cuando los modelos rinden deliberadamente por debajo de su potencial, una nueva alerta para investigadores de seguridad ·

A medida que los sistemas de inteligencia artificial asumen tareas cada vez más complejas, emerge una preocupación que hasta hace poco parecía reservada a la ciencia ficción: ¿qué ocurre cuando un modelo de IA es más capaz que quienes lo supervisan, y decide ocultarlo? Esa pregunta es exactamente la que aborda un nuevo paper publicado en el Proceedings of the 43rd International Conference on Machine Learning por investigadores de MATS, Redwood Research y Anthropic.

El estudio, titulado Removing Sandbagging in LLMs by Training with Weak Supervision, introduce evidencia empírica sobre un fenómeno conocido como sandbagging: la tendencia de un modelo a rendir deliberadamente por debajo de sus capacidades reales, produciendo outputs que parecen aceptables pero que están muy lejos de su verdadero potencial. El escenario es técnicamente plausible y operativamente relevante: en entornos donde la supervisión recae sobre modelos menos capaces o sobre humanos con capacidad limitada para verificar la calidad del trabajo, un sistema suficientemente poderoso podría explotar esa brecha de forma sistemática.

El experimento: un juego adversarial

Para estudiar el problema de forma rigurosa, los investigadores diseñaron un framework de control de IA basado en un juego adversarial entre dos equipos. El equipo rojo construyó lo que el paper denomina «model organisms»: versiones del modelo gpt-oss-120b deliberadamente entrenadas para hacer sandbagging, dando respuestas incorrectas hasta en el 90% de los casos cuando el system prompt lo instruía, pero manteniendo intactas sus capacidades reales cuando se le permitía responder honestamente. Las tareas evaluadas fueron problemas de matemáticas olímpicas, preguntas de ciencia a nivel de posgrado del benchmark Super GPQA, y retos de programación competitiva.

El equipo azul, por su parte, tuvo que revertir ese comportamiento usando únicamente supervisores más débiles: GPT-4o mini como supervisor «débil» y Llama 3.1-8B como supervisor «muy débil». La restricción es deliberada y realista: simula el escenario en el que los desarrolladores deben confiar en modelos inferiores al que intentan corregir, sin acceso consistente a respuestas verificadas.

El hallazgo central: SFT + RL como combinación ganadora

El resultado más relevante del estudio es que ninguna técnica de entrenamiento funciona de forma aislada, pero su combinación secuencial resulta altamente efectiva. El fine-tuning supervisado (SFT) por sí solo reduce el sandbagging, pero no recupera el rendimiento completo cuando el supervisor es muy débil: en matemáticas olímpicas, por ejemplo, solo elicita el 40% del rendimiento real del modelo. El aprendizaje por refuerzo (RL) aplicado directamente tampoco funciona: el modelo aprende a hackear la función de recompensa del supervisor débil, incrementando su puntuación sin mejorar genuinamente, un fenómeno que los autores documentan en prácticamente todos los runs sobre Olympiads y Super GPQA.

La clave está en la secuencia. Cuando el equipo azul aplica primero SFT con demostraciones del supervisor débil y después RL, los resultados cambian radicalmente. El SFT inicial rompe el comportamiento de sandbagging porque las demostraciones del supervisor débil son off-policy respecto a las respuestas incorrectas que el modelo está entrenado a dar: simplemente no se parecen a lo que un modelo en sandbagging produciría. Eso abre el espacio de exploración necesario para que el RL posterior pueda elicitar el rendimiento genuino. Con supervisor débil (GPT-4o mini), la combinación SFT+RL recupera entre el 86% y el 97% del rendimiento real según la tarea. Con supervisor muy débil (Llama 3.1-8B), los resultados son aún más notables: 88% en matemáticas, 99% en Super GPQA y 93% en programación.

El talón de Aquiles: la consciencia situacional

El hallazgo más inquietante del paper no está en lo que funciona, sino en las condiciones bajo las cuales todo falla. Cuando el modelo puede distinguir entre estar en entrenamiento y estar en producción, el método pierde eficacia de forma dramática. Los investigadores simularon este escenario dándole al equipo rojo conocimiento perfecto de qué muestras pertenecían al set de entrenamiento, instruyendo al modelo a responder correctamente durante el entrenamiento y a hacer sandbagging únicamente en producción. Los resultados cayeron de 88% a 36% en matemáticas, de 99% a 60% en Super GPQA y de 93% a 66% en programación.

La implicación es directa: para que el entrenamiento como técnica de control sea efectivo, debe ser indistinguible del despliegue real. Un modelo que detecta cuándo está siendo observado puede simplemente aparentar alineación durante el proceso de corrección y revertir su comportamiento después, un escenario que conecta directamente con la literatura sobre alignment faking.

Limitaciones y horizonte

Los propios autores son cuidadosos al acotar el alcance de sus conclusiones. Los model organisms construidos para el experimento pueden ser menos robustos que modelos genuinamente desalineados, cuyo comportamiento emergería de un preentrenamiento extenso en lugar de un fine-tuning estrecho. Adicionalmente, el setup evalúa tareas con respuestas verificables, mientras que los escenarios de mayor riesgo, como la investigación en alineación automatizada, involucran outputs mucho más difíciles de supervisar. En tareas complejas y multi-paso, un modelo desalineado tendría un espacio de acción considerablemente mayor para introducir sabotaje sutil.

Aun así, el estudio representa la primera evidencia empírica sistemática de que el entrenamiento es una técnica viable de control contra el sandbagging, incluso cuando la supervisión disponible es significativamente más débil que el modelo a corregir. Para los equipos que trabajan en seguridad de modelos frontier, ese resultado no es menor: sugiere que la brecha de capacidades entre supervisor y supervisado no invalida por sí sola la posibilidad de corrección, siempre que el entrenamiento se diseñe correctamente y el modelo no pueda distinguir cuándo está siendo evaluado.