Cursor lanza Composer 2 como modelo frontier que supera a GPT-5.4 y Opus 4.6 en sus benchamarks

Cursor lanza Composer 2 como modelo frontier que supera a GPT-5.4 y Opus 4.6 en sus benchamarks

La carrera por construir asistentes de programación más capaces acaba de sumar un nuevo capítulo. Cursor anunció este 19 de marzo el lanzamiento de Composer 2, un nuevo modelo para tareas de coding que la empresa presenta como una combinación óptima entre rendimiento y costo dentro de su plataforma.

De acuerdo con Cursor, Composer 2 ya está disponible y fue diseñado para resolver tareas de programación de mayor complejidad, incluidas secuencias largas de acciones en terminal. La empresa afirma que el modelo alcanza un nivel “frontier” en coding y lo acompaña con una estructura de precios agresiva: 0.50 dólares por millón de tokens de entrada y 2.50 dólares por millón de tokens de salida. También anunció una variante rápida, con el mismo nivel de inteligencia según su descripción, que será la opción por defecto para los usuarios.

El anuncio llega en un momento en que la competencia entre herramientas de programación asistida por IA ya no gira solo en torno a quién autocompleta mejor, sino a qué sistema puede actuar durante más pasos, mantener contexto y ejecutar tareas complejas con mayor autonomía. Cursor sostiene que Composer 2 fue entrenado para resolver problemas de coding de largo horizonte mediante reinforcement learning, después de una fase de continued pretraining que, según la empresa, fortaleció la base del modelo.

Para respaldar el lanzamiento, Cursor publicó resultados en varios benchmarks donde el modelo superó a los modelos frontera de OpenAI (GPT-5.4 high) y de Anthropic (Opus 4.6 high) . En su reporte, Composer 2 obtuvo 61.3 en CursorBench, 61.7 en Terminal-Bench 2.0 y 73.7 en SWE-bench Multilingual, cifras superiores a las de Composer 1.5 y Composer 1. La empresa afirma además que el modelo es capaz de resolver tareas exigentes que requieren cientos de acciones.

Composer 2 superó a Opus 4.6 (High) de Anthropic en sus propio benchmark. Foto: Cursor AI

Sin embargo, el anuncio también exige una lectura cuidadosa. Las cifras fueron presentadas por la propia compañía y parte de la comparación depende de la manera en que se ejecutaron los benchmarks. Cursor explica que su evaluación en Terminal-Bench 2.0 se hizo con el framework oficial Harbor y cinco iteraciones por modelo, mientras que para otros sistemas tomó el mejor resultado entre el leaderboard oficial y corridas en su propia infraestructura. El sitio oficial de Terminal-Bench define esta prueba como un benchmark orientado a medir el desempeño de agentes de IA en entornos de terminal, una capacidad cada vez más importante en la nueva generación de herramientas para programar.

Composer 2 superó al modelo frontera de OpenAI, GPT-5.4 en tokens por segundo, de acuerdo con sus propias métricas. Foto: Cursor AI.

Más allá de la cifra exacta, el movimiento de Cursor confirma algo más profundo: el mercado de asistentes para desarrollo está entrando en una etapa donde lo decisivo ya no es solo la calidad del texto generado, sino la capacidad de ejecutar flujos completos de trabajo con costo competitivo. En ese terreno, Composer 2 aparece como una apuesta para consolidar a Cursor no solo como editor con IA, sino como plataforma de agentes de programación.

La pregunta de fondo no es únicamente si Composer 2 supera a sus rivales en una tabla, sino qué tipo de trabajo empieza a automatizar con más solvencia. Cada nuevo lanzamiento en esta categoría empuja un poco más la frontera entre asistir al programador y actuar en su lugar durante segmentos cada vez más amplios del proceso de desarrollo. Esa es la verdadera disputa que deja ver el anuncio de Cursor. Esta última idea es una inferencia periodística a partir de las capacidades y el posicionamiento que describe la empresa.