GPT-5.5 y Opus 4.7 tropiezan en ARC-AGI-3: la IA aún ve patrones sin construir mundo ·

Un análisis de ARC Prize muestra que los modelos frontera pueden observar efectos locales, formular hipótesis y hasta resolver algunos niveles, pero siguen fallando cuando deben aprender las reglas profundas de un entorno nuevo. La prueba apunta al límite actual de la autonomía agéntica.

Los modelos de inteligencia artificial más avanzados ya pueden razonar, escribir código, resolver problemas complejos y ejecutar tareas con herramientas externas. Sin embargo, una nueva evaluación de ARC Prize sugiere que todavía enfrentan una dificultad fundamental: aprender cómo funciona un mundo desconocido a partir de la experiencia.

El análisis, publicado el 1 de mayo de 2026, revisó 160 repeticiones y trazas de razonamiento de GPT-5.5, de OpenAI, y Opus 4.7, de Anthropic, en ARC-AGI-3, una prueba diseñada para medir adaptación a la novedad, planeación y aprendizaje continuo en entornos abstractos. Los resultados fueron bajos: GPT-5.5 obtuvo 0.43% y Opus 4.7 alcanzó 0.18% en el conjunto semi-privado evaluado por ARC Prize. Pero el punto central del informe no es solo quién obtuvo más puntos, sino cómo fallaron los modelos.

ARC-AGI-3 no funciona como un examen tradicional de preguntas y respuestas. La prueba consiste en 135 entornos novedosos, creados manualmente, donde los modelos no reciben instrucciones sobre cómo jugar. Para avanzar, deben explorar interfaces desconocidas, inferir reglas con retroalimentación escasa, formar y probar hipótesis, recuperarse de supuestos equivocados y transferir lo aprendido de un nivel al siguiente.

En otras palabras, la prueba no mide únicamente si una IA puede reconocer un patrón visual. Evalúa si puede construir una representación funcional del entorno: qué objetos existen, qué acciones los modifican, qué reglas conectan esas acciones con los cambios observados y cómo usar esa información para resolver situaciones nuevas. A esto se refiere ARC Prize cuando habla de “modelos de mundo”.

El hallazgo más importante es que los modelos sí detectan efectos locales, pero no siempre logran convertirlos en reglas globales. Por ejemplo, pueden observar que una acción rota un objeto, pero fallan al comprender que esa rotación determina qué lado recibirá un valor y que, por tanto, deben orientar el objeto antes de ejecutar la siguiente acción. ARC Prize resume este patrón como: “efecto local verdadero, modelo de mundo falso”.

En los gráficos se pueden observar el tipo de desafíos que las IAs llevaron a cabo en las pruebas. Fotos: ArcPrize.

Esta diferencia es clave. Un modelo puede notar que “un botón mueve algo” sin entender todavía qué papel cumple ese movimiento dentro de la lógica completa del sistema. La comprensión operativa exige algo más: transformar observaciones parciales en una teoría causal que permita actuar.

El segundo modo de falla observado fue la abstracción equivocada desde datos de entrenamiento. Según el análisis, los modelos intentaron interpretar entornos nuevos comparándolos con juegos conocidos como Tetris, Frogger, Sokoban, Breakout, Pong o Boulder Dash. Esa analogía puede ser útil en algunos casos, pero también puede volverse una trampa: una semejanza visual local activa una teoría completa equivocada, y el modelo empieza a probar acciones como si estuviera jugando otra cosa.

El tercer problema fue aún más revelador: resolver un nivel no significó necesariamente aprender el juego. ARC Prize documentó casos en los que un modelo superó una primera fase por coincidencia o por una regla incompleta, pero luego fracasó cuando el siguiente nivel exigía comprender la mecánica real. En esos casos, el éxito temprano no funcionó como aprendizaje, sino como una falsa confirmación de una hipótesis equivocada.

La comparación entre GPT-5.5 y Opus 4.7 también muestra diferencias interesantes. De acuerdo con ARC Prize, Opus 4.7 fue más fuerte descubriendo mecánicas de corto plazo, pero tendió a fijarse con confianza en teorías falsas. GPT-5.5, en cambio, generó hipótesis más amplias y a veces articuló la idea correcta, pero tuvo más dificultad para convertirla en un plan de acción consistente. El informe lo resume así: Opus comprimió mal sus observaciones; GPT-5.5 tuvo dificultad para comprimirlas.

La palabra “compresión” aquí es importante. No se trata de comprimir archivos, sino de condensar muchas observaciones en una regla útil. Para actuar en un entorno nuevo, un agente necesita reducir el caos de estímulos a una teoría manejable: “este objeto se mueve así”, “este botón cambia esta propiedad”, “este patrón indica el objetivo”. Si comprime demasiado pronto, puede quedar atrapado en una explicación falsa. Si no logra comprimir, puede producir muchas hipótesis sin consolidar ninguna estrategia.

Por eso ARC-AGI-3 es relevante para el futuro de los agentes de IA. Un agente real no operará siempre dentro de prompts limpios o tareas conocidas. Tendrá que navegar sitios web, paneles internos, formularios, APIs, flujos empresariales y casos no descritos de antemano. En esos escenarios, el problema no será solo responder bien, sino aprender reglas nuevas mientras actúa. ARC Prize sostiene que esas condiciones, novedad, ambigüedad, planeación y adaptación, son precisamente las demandas que enfrentarán los agentes en el mundo real.

El resultado no significa que los modelos actuales “no razonen”. Más bien muestra un límite más específico: pueden observar, inferir y verbalizar hipótesis, pero todavía tropiezan al estabilizar esas hipótesis como modelos causales del entorno. La IA puede detectar piezas del mecanismo, pero no siempre reconstruye el mecanismo completo.

ARC-AGI-3 apunta así a una frontera más profunda que la generación de texto o la resolución de benchmarks convencionales. La pregunta ya no es únicamente si un modelo puede contestar correctamente, sino si puede aprender a actuar en mundos desconocidos sin confundir una semejanza superficial con una regla verdadera.

En ese sentido, el análisis deja una lección importante para la era de la IA agéntica: la autonomía no depende solo de tener más herramientas o más contexto, sino de construir modelos de mundo suficientemente estables para actuar, corregirse y transferir aprendizaje. Hoy, incluso los modelos frontera siguen fallando justo en ese punto.

Entradas relacionadas

Imágenes satelitales muestran daños en edificios costeros de La Guaira tras terremotos en Venezuela

Mercado castiga a los chips de IA tras reporte sobre posible retraso de la IPO de OpenAI

OpenAI presenta GPT-5.6 Sol, pero limita su acceso por solicitud del gobierno de EU