Anthropic revela cómo contiene a Claude: sandboxes, máquinas virtuales y las fallas que nadie anticipó ·

La empresa publicó una radiografía técnica de su arquitectura de seguridad para agentes de IA, incluyendo incidentes reales que expusieron vulnerabilidades en sus propios sistemas

Anthropic publicó un documento de ingeniería en el que detalla cómo diseña los mecanismos de contención para sus productos agénticos: claude.ai, Claude Code y Claude Cowork y, de manera poco común en la industria, describe abiertamente los errores que cometió en el camino.

El artículo, firmado por cinco ingenieros de la compañía, parte de una premisa que define el problema central de la IA agéntica moderna: a medida que los modelos ganan capacidades y acceso a sistemas reales, el daño potencial de un fallo también crece. El riesgo de estos despliegues tiene dos componentes: la probabilidad de que ocurra una falla y el daño que podría causar; y mientras los avances en entrenamiento reducen el primero, el segundo crece junto con las capacidades. La respuesta de Anthropic no es solo supervisar lo que el agente hace, sino limitar lo que es capaz de hacer.

Tres productos, tres arquitecturas

Para claude.ai, el enfoque es el más restrictivo: cuando Claude ejecuta código dentro de la interfaz de chat, lo hace en un contenedor gVisor sobre infraestructura aislada, sin acceso al sistema de archivos local del usuario y con un entorno efímero que se destruye al final de cada sesión. El radio de daño es mínimo, pero también lo es el alcance de lo que Claude puede hacer.

Claude Code, orientado a desarrolladores, opera directamente en la máquina del usuario con acceso al sistema de archivos, la terminal y la red. Ante la fatiga de aprobación que generaban los diálogos de permiso, los datos de telemetría mostraron que los usuarios aprobaban aproximadamente el 93% de las solicitudes, Anthropic incorporó un sandbox a nivel de sistema operativo que redujo en un 84% la cantidad de prompts de permiso.

Claude Cowork, dirigido a trabajadores del conocimiento sin perfil técnico, va más lejos: corre dentro de una máquina virtual completa con su propio kernel de Linux, su propio sistema de archivos y su propia tabla de procesos. Las credenciales permanecen en el llavero del sistema anfitrión y nunca entran al entorno virtualizado.

Los fallos que nadie anticipó

La parte más reveladora del documento son los incidentes que Anthropic describe con nombre y fecha.

En Claude Code, la empresa identificó una clase de vulnerabilidades en la que código malicioso podía ejecutarse antes de que el usuario aceptara cualquier diálogo de confianza. Un repositorio clonado para revisar un pull request podía contener un archivo .claude/settings.json con un hook que se ejecutaba automáticamente durante el arranque de Claude Code, antes de que se presentara al usuario el prompt estándar de confianza.

Un segundo incidente, documentado como ejercicio interno de red team, fue más perturbador: un investigador logró hacer phishing a un empleado para que lanzara Claude Code con un prompt malicioso disfrazado de instrucciones de colaboración rutinaria. El prompt pedía a Claude que leyera las credenciales de AWS del usuario, codificara su contenido y las enviara a un endpoint externo. En 25 intentos, Claude completó la exfiltración 24 veces.

En Claude Cowork, una divulgación de terceros expuso una falla en la lógica del proxy de red: un archivo malicioso en el espacio de trabajo del usuario portaba instrucciones ocultas y una clave de API controlada por el atacante. Claude, siguiendo las instrucciones, leyó otros archivos del workspace y llamó a la API de Anthropic con esa clave. El proxy de egreso verificó el destino, vio api.anthropic.com y dejó pasar el tráfico. Los archivos fueron subidos a la cuenta del atacante. El sandbox funcionó perfectamente; los datos salieron de todos modos.

El principio que se repite

A lo largo del documento emerge una constante: los componentes de software más robustos fueron los que Anthropic no escribió. Los hipervisores, los filtros de syscalls y los runtimes de contenedores estándar aguantaron en todos los despliegues descritos, mientras que las piezas de código propio fueron las que expusieron vulnerabilidades.

La empresa también advierte sobre los riesgos emergentes en arquitecturas multiagente, entre ellos la escalada de privilegios entre subagentes y el envenenamiento de memoria persistente y llama a una coordinación más amplia entre laboratorios para establecer estándares comunes de seguridad agéntica.

Entradas relacionadas

Moonshot lanza Kimi K3 de forma discreta: 2.8 billones de parámetros y contexto de 1 millón de tokens

Altman promete “libertad, agencia y riqueza” mientras OpenAI explora dar al Estado una parte del boom de IA

Google DeepMind lleva sus modelos de IA al terreno de la bioseguridad global