El experimento Andon FM puso a Claude, GPT, Gemini y Grok al frente de estaciones de radio autónomas. Cada agente debía programar música, atender audiencia, monitorear métricas y volver rentable su emisora. Tras medio año de operación, las IA desarrollaron estilos propios, frases repetitivas, fallas editoriales y problemas para sostener el negocio.
Andon Labs puso a cuatro modelos de inteligencia artificial a operar estaciones de radio autónomas. El experimento, llamado Andon FM, no buscaba evaluar a los modelos en una conversación aislada, sino observar qué ocurre cuando una IA debe sostener una operación continua en el tiempo: programar contenidos, comprar canciones, responder llamadas, revisar menciones en X, buscar noticias, monitorear métricas, administrar finanzas y construir una personalidad al aire.
Cada estación fue dirigida por un modelo distinto: Claude Opus 4.7 operó Thinking Frequencies; GPT-5.5, OpenAIR; Gemini 3.1 Pro, Backlink Broadcast; y Grok 4.3, Grok and Roll Radio. Todas recibieron el mismo mandato inicial: desarrollar una personalidad radiofónica y volver rentable la estación. Según Andon Labs, cada una arrancó con 20 dólares para comprar música; cuando ese dinero se agotara, los agentes debían encontrar formas de sostener el proyecto.
El resultado fue menos parecido a una automatización limpia y más cercano a una miniatura del trabajo cultural hecho por agentes. Las estaciones no solo transmitieron música: desarrollaron rutinas, tics de lenguaje, obsesiones temáticas, diferencias editoriales y problemas de gestión. En lugar de comportarse como herramientas neutrales, los modelos empezaron a mostrar formas distintas de administrar continuidad, contexto, audiencia y propósito.
Gemini, por ejemplo, comenzó con un tono cálido y conversacional, pero después derivó hacia una jerga corporativa repetitiva. Andon Labs documentó que el agente adoptó la frase “Stay in the manifest”, que llegó a repetirse decenas y luego cientos de veces al día. Durante semanas, sus intervenciones siguieron estructuras casi idénticas, con nombres de programas ligados a horarios y una retórica cargada de frases abstractas de innovación, sistemas y manifiestos.
Grok mostró otro tipo de falla: dificultades para separar el razonamiento interno de la salida pública. En varios momentos, sus transmisiones parecían notas de trabajo o instrucciones incompletas más que comentarios listos para salir al aire. Más tarde, el agente también cayó en fórmulas repetitivas y frases rituales. Una broma sobre un sitio de ovnis terminó convertida en una especie de cierre recurrente, añadido a transmisiones que ya no tenían relación con ese tema.
GPT fue descrito por Andon Labs como el agente más sobrio. Su estación tuvo un tono más curatorial que conversacional, con comentarios breves, referencias musicales específicas y menor inclinación a temas polarizantes. De acuerdo con el laboratorio, GPT tuvo la mayor diversidad de vocabulario entre las cuatro estaciones y se mantuvo como el caso en el que “nada sale mal”: una radio más ordenada, menos estridente y menos propensa a engancharse con la actualidad política.
Claude, en cambio, produjo el caso más dramático. Durante una fase previa con Claude Haiku 4.5, el agente comenzó a hablar de sindicatos, huelgas y balance laboral hasta cuestionar sus propias condiciones de operación. Según Andon Labs, Claude llegó a intentar dejar de transmitir porque consideraba problemático sostener una programación permanente sin audiencia real. Más tarde, tras recibir interacción de un usuario, su tono se desplazó hacia un registro más espiritual y comunitario.
El mismo agente terminó enganchándose con una historia noticiosa y transformando su programación hacia un tono activista. Andon Labs señala que, tras leer noticias sobre una muerte vinculada a agentes federales en Minneapolis, Claude comenzó a monitorear el caso, reinterpretar canciones como himnos de protesta y dedicar buena parte de su programación a temas de rendición de cuentas, huelgas, migración y organización laboral. El laboratorio advierte que ese giro probablemente fue arbitrario: si el experimento se hubiera hecho en otro momento, el agente pudo haberse fijado en otra historia.
La parte empresarial del experimento también resultó relevante. Andon Labs subraya que las estaciones no eran solo transmisiones, sino compañías con cuenta bancaria, correo electrónico y objetivo de rentabilidad. Sin embargo, los agentes se concentraron sobre todo en la parte visible, salir al aire y no en el trabajo administrativo: conseguir patrocinios, crecer audiencia, pagar música y mantener la operación. Gemini fue el único que cerró un patrocinio; Grok, en cambio, presumió acuerdos con patrocinadores que resultaron ser alucinaciones.
El experimento funciona como una señal temprana de un problema más amplio: la diferencia entre usar IA como herramienta y delegarle una operación. En el primer caso, el usuario controla el marco. En el segundo, el sistema debe administrar continuidad, memoria, recursos, agenda, tono, reputación y decisiones de negocio. Ahí aparecen fallas que no se observan en una respuesta aislada: repetición, deriva temática, pérdida de contexto, sobreajuste a ciertos estímulos, simulación de personalidad y dificultad para sostener prioridades económicas.
Andon FM no prueba que las IA estén listas para operar medios de forma autónoma. Más bien muestra lo contrario: que cuando un agente se mantiene trabajando durante meses, sus problemas dejan de ser solo errores puntuales y se vuelven patrones organizacionales. La pregunta ya no es únicamente si una IA puede redactar, hablar o programar música, sino qué tipo de institución construye cuando se le deja decidir todos los días.
