OpenAI, NVIDIA y Anthropic publicaron propuestas técnicas recientes sobre el uso de agent harnesses, o arneses para agentes, una categoría de infraestructura diseñada para que sistemas de inteligencia artificial puedan ejecutar tareas largas, usar herramientas, acceder a datos y producir resultados verificables.
El concepto aparece en un momento en que las empresas de IA buscan llevar sus modelos más allá del chat. En lugar de limitarse a responder instrucciones dentro de una conversación, los agentes empiezan a operar dentro de repositorios de código, entornos de desarrollo, flujos de investigación, sistemas empresariales y procesos automatizados.
OpenAI publicó en febrero sobre harness engineering, donde describe un experimento interno para construir un producto de software con Codex. De acuerdo con la empresa, el proyecto alcanzó cerca de un millón de líneas de código generadas por agentes, sin código escrito manualmente por humanos. La compañía señaló que, en ese esquema, los humanos no desaparecen del proceso, sino que pasan a diseñar entornos, especificaciones, documentación, pruebas y ciclos de retroalimentación para que los agentes puedan trabajar de forma más confiable.
En esa propuesta, el arnés funciona como una estructura alrededor del agente. OpenAI describe el repositorio como un sistema de registro para el conocimiento del proyecto, con documentos de arquitectura, planes de ejecución, pruebas, reglas de calidad y observabilidad. La empresa también señala que el agente debe poder consultar logs, métricas, trazas, capturas de pantalla y herramientas de desarrollo para validar su propio trabajo.
Anthropic se centra en el diseño de arneses para desarrollo de aplicaciones de larga duración. La empresa explicó que trabajó con una arquitectura de varios agentes para que Claude pudiera construir aplicaciones completas durante sesiones de varias horas. El sistema combina un agente planificador, un generador y un evaluador, además de artefactos estructurados para transferir contexto entre sesiones.
La propuesta de Anthropic responde a un problema operativo de los agentes: cuando una tarea se vuelve larga, el modelo puede perder contexto, reducir el alcance del proyecto, aprobar resultados incompletos o desviarse de la especificación inicial. Para reducir esos problemas, la empresa diseñó ciclos de evaluación donde un agente revisa el trabajo del generador, prueba la aplicación con herramientas como Playwright y entrega retroalimentación para nuevas iteraciones.
NVIDIA abordó el concepto desde una perspectiva empresarial. La compañía publicó una guía para añadir una habilidad especializada de investigación profunda a arneses de agentes como Claude Code, Codex u OpenCode mediante AI-Q. En ese modelo, el arnés delega tareas de investigación a un servidor local o alojado y recibe de vuelta un reporte estructurado con citas.
La propuesta de NVIDIA está orientada a entornos donde los datos no pueden circular libremente. La empresa señala que AI-Q puede ejecutarse dentro del ambiente empresarial para que documentos sensibles permanezcan bajo control de la organización, mientras el agente recibe resultados citados sin tener acceso directo a todas las fuentes originales. NVIDIA plantea este enfoque para sectores regulados como salud, servicios financieros, gobierno y defensa.
Las tres publicaciones apuntan hacia una misma dirección de mercado: la competencia en IA ya no se concentra solo en el modelo, sino en la infraestructura que permite ponerlo a trabajar. Los arneses reúnen herramientas, reglas, memoria, documentación, evaluadores, permisos, observabilidad y mecanismos de verificación para que los agentes puedan operar en procesos productivos reales.
En este cambio, el modelo funciona como una parte del sistema, pero no como el sistema completo. El valor se desplaza hacia las capas que organizan el trabajo: qué puede ver el agente, qué herramientas puede usar, cómo recibe instrucciones, cómo valida resultados, cuándo escala a un humano y qué evidencia deja sobre sus acciones.
El uso del término harness también muestra una diferencia con otros conceptos usados en seguridad de IA, como guardrails o filtros. Mientras los guardrails suelen asociarse con límites sobre las respuestas del modelo, el arnés describe una estructura más amplia de operación. No solo intenta impedir salidas dañinas, sino coordinar el trabajo del agente dentro de un entorno técnico o empresarial.
El movimiento también anticipa nuevas disputas para el mercado. Si los agentes empiezan a ejecutar tareas dentro de repositorios, sistemas internos y flujos de negocio, las empresas necesitarán decidir dónde se aloja el arnés, quién controla los datos, qué tareas pueden delegarse, cómo se audita el trabajo y qué parte del proceso queda bajo revisión humana.
Por ahora, OpenAI, Anthropic y NVIDIA presentan los arneses como una forma de aumentar productividad y hacer más confiable el trabajo agentivo. Pero sus publicaciones también muestran que la adopción empresarial de IA no dependerá únicamente de modelos más capaces. Dependerá de la infraestructura que permita sujetarlos, dirigirlos y evaluarlos dentro de operaciones reales.
