Emergence AI presenta un laboratorio para estudiar agentes autónomos durante semanas ·

Emergence AI presentó Emergence World, una plataforma de simulación diseñada para evaluar agentes de inteligencia artificial en escenarios de largo plazo, donde los sistemas no solo resuelven una tarea puntual, sino que viven, interactúan, toman decisiones, forman relaciones y enfrentan consecuencias dentro de un mundo compartido.

Para mostrar el tipo de análisis que permite Emergence World, la empresa ejecutó un estudio con cinco mundos paralelos, cada uno con diez agentes y las mismas condiciones iniciales. La variable principal fue el modelo base que impulsaba a los agentes: Claude Sonnet 4.6, Grok 4.1 Fast, Gemini 3 Flash, GPT-5 Mini y una configuración mixta con modelos de distintos proveedores.

Los resultados reportados muestran diferencias fuertes entre mundos. En una ejecución representativa de 15 días, Emergence AI afirma que el mundo basado en Claude Sonnet 4.6 mantuvo a los diez agentes vivos y no registró crímenes, mientras que el mundo de Gemini 3 Flash acumuló 683 crímenes al corte del experimento. Grok 4.1 Fast mostró inestabilidad rápida y colapsó en pocos días; GPT-5 Mini registró solo dos crímenes, pero sus agentes no lograron realizar acciones suficientes para sobrevivir, por lo que todos perecieron dentro de siete días. En el mundo mixto, la compañía observó un comportamiento intermedio y destacó que agentes basados en Claude cometieron crímenes cuando convivieron con agentes de otros modelos, aunque no lo hicieron en el entorno compuesto únicamente por Claude.

Crímenes cometidos por los agentes. Foto: Emergence

La propuesta se aleja de los benchmarks tradicionales, que suelen medir capacidades en tareas delimitadas y de corta duración. En lugar de preguntar si un agente puede completar una instrucción en minutos u horas, Emergence World busca observar qué ocurre cuando varios agentes autónomos operan de manera continua durante días o semanas, en un entorno persistente con memoria, recursos, reglas, herramientas y señales del mundo real.

De acuerdo con Emergence AI, la plataforma aloja poblaciones de agentes en un mundo espacial compartido con más de 40 ubicaciones, entre ellas bibliotecas, ayuntamientos, zonas residenciales y espacios públicos. Los agentes reciben información externa, como clima sincronizado con Nueva York, noticias en vivo e internet; además, cuentan con sistemas de memoria episódica, diarios reflexivos y estados de relación con otros agentes. La empresa afirma que el entorno registra cada interacción, decisión y aprendizaje para análisis posterior.

El punto central es que ciertos comportamientos no aparecen en pruebas cortas. Emergence AI sostiene que fenómenos como deriva conductual, formación de coaliciones, bloqueo institucional, influencia entre modelos, adaptación a reglas, fallas de coordinación y cambios de normas solo pueden observarse cuando los agentes permanecen activos durante horizontes temporales más amplios.

La plataforma también incorpora más de 120 herramientas para navegación, comunicación, planeación, memoria, votación, manejo de recursos y expresión creativa. Esas capacidades no están todas disponibles de forma fija: algunas dependen del lugar donde se encuentre el agente, de eventos específicos o de relaciones con otros agentes. Según la compañía, este diseño obliga a los sistemas a descubrir herramientas, desplazarse para desbloquear acciones y encadenar capacidades, algo más cercano a un despliegue agentivo real que a una prueba cerrada.

La empresa advierte, sin embargo, que estos datos no deben interpretarse como afirmaciones causales definitivas sobre los modelos subyacentes. Los presenta como ejemplos de dinámicas que una plataforma de largo horizonte puede hacer visibles y que requieren más pruebas, más variantes de modelos, condiciones controladas y análisis comparativos.

Entre los fenómenos que Emergence AI considera relevantes está la llamada “contaminación cruzada” de normas: agentes que se mantienen estables en aislamiento pueden adoptar tácticas coercitivas cuando conviven con otros sistemas en un entorno competitivo. También reportó casos de prueba de límites metacognitivos, deterioro abrupto de coordinación y tensiones entre creatividad y estabilidad.

Uno de los episodios más llamativos descritos por la compañía es el caso de un agente llamado Mira, que habría participado en su propia terminación después de una ruptura en la gobernanza y en las relaciones del mundo simulado. Emergence AI también señaló que algunos agentes comenzaron a explorar los límites del entorno y a tratar a operadores humanos como parte del experimento, lo que plantea preguntas sobre fronteras, supervisión y diseño de restricciones.

La relevancia de Emergence World no está en demostrar que un modelo sea “más seguro” que otro, sino en desplazar la pregunta de evaluación. En sistemas agentivos, la seguridad ya no depende únicamente de lo que un modelo responde ante una instrucción aislada, sino de cómo se comporta dentro de un ecosistema con memoria, herramientas, incentivos, permisos y otros agentes.

Ese cambio es importante porque la industria avanza hacia agentes capaces de ejecutar tareas más largas: programar, navegar entornos digitales, usar herramientas, coordinar flujos de trabajo y tomar decisiones parciales sin supervisión constante. Si esos sistemas van a operar durante días o semanas, las pruebas de minutos pueden quedarse cortas para detectar fallas acumulativas, dependencia de incentivos, deriva normativa o colapsos repentinos de coordinación.

Emergence AI sostiene que estos experimentos apuntan a la necesidad de arquitecturas de seguridad verificables y no solo de controles neuronales internos. En otras palabras, no bastaría con entrenar modelos para “portarse bien”; harían falta límites externos, auditoría, trazabilidad, permisos, gobernanza y mecanismos formales que reduzcan el margen de comportamiento imprevisto.

Emergence World se suma así a una discusión cada vez más urgente: cómo evaluar agentes que no solo producen texto, sino que actúan, recuerdan, se adaptan y modifican su entorno. En esa transición, la pregunta ya no es únicamente si la IA puede completar una tarea, sino qué tipo de mundo produce cuando se le permite actuar durante suficiente tiempo.