Anthropic lanza Claude Opus 4.8 que integra la honestidad como métrica técnica de rendimiento ·

El nuevo modelo supera a GPT-5.5 en codificación agentiva y estrena herramientas que dan más control a usuarios y desarrolladores.

Anthropic anunció el lanzamiento de Claude Opus 4.8, la última actualización de su modelo insignia, disponible de inmediato al mismo precio que su predecesor. El lanzamiento llega menos de dos meses después de Opus 4.7 y consolida la cadencia de lanzamientos bimestrales que la compañía ha mantenido durante 2026.

Benchmarks: avances en cada frente

Los números hablan por sí solos. En SWE-Bench Pro, el estándar de referencia para agentes de programación, Opus 4.8 obtiene un 69.2%, frente al 64.3% de Opus 4.7 y el 58.6% de GPT-5.5 de OpenAI. Es el mayor diferencial de la generación actual entre los dos competidores directos.

El razonamiento multidisciplinario con herramientas sube de 54.7% a 57.9%, y la puntuación de knowledge work, trabajo profesional complejo, pasa de 1,753 a 1,890 puntos en la escala interna de Anthropic. El avance más llamativo, sin embargo, está en el uso de computadora y agentes de navegador: Opus 4.8 alcanza el 84% en Online-Mind2Web, superando tanto a Opus 4.7 como a GPT-5.5.

Honestidad como métrica técnica

Anthropic introduce un ángulo poco habitual en los lanzamientos de modelos: la honestidad como indicador de rendimiento. Según la compañía, Opus 4.8 es aproximadamente cuatro veces menos propenso que su predecesor a dejar pasar errores en código sin señalarlos. En la práctica, esto significa que el modelo avisa cuando detecta problemas en su propio trabajo en lugar de presentar resultados deficientes con falsa confianza.

Los primeros testers reportan que el modelo es más cuidadoso con las afirmaciones que no puede respaldar y más explícito cuando encuentra incertidumbre. Una mejora que importa especialmente en flujos de trabajo autónomos, donde un error no señalado puede propagarse durante horas.

Fast Mode: mismo rendimiento, tres veces más barato

Una de las novedades más relevantes para desarrolladores es la rebaja de precio del Fast Mode. Esta modalidad, que permite al modelo trabajar a 2.5× la velocidad habitual, costaba seis veces más que el modo estándar en Opus 4.6. Con Opus 4.8, el precio cae a la mitad del estándar en términos relativos: $10 por millón de tokens de entrada y $50 por millón de tokens de salida.

El precio para uso regular no cambia respecto a Opus 4.7: $5 por millón de tokens de entrada y $25 por millón de salida.

Dynamic workflows y control de esfuerzo

El lanzamiento llega acompañado de dos funciones nuevas. La primera, dynamic workflows, está disponible en vista previa para planes Enterprise, Team y Max en Claude Code. Permite que el modelo planifique una tarea y ejecute cientos de subagentes en paralelo dentro de una sola sesión, con verificación de resultados antes de reportar al usuario. Según Anthropic, esto hace posible migraciones de código a escala de base de código completa de principio a fin.

La segunda función es el control de esfuerzo, disponible para todos los planes en claude.ai y Cowork. Una palanca junto al selector de modelo permite a los usuarios decidir cuánto tiempo y recursos dedica Claude a cada respuesta. Menor esfuerzo equivale a respuestas más rápidas y menor consumo de cuota; mayor esfuerzo activa razonamiento más profundo y frecuente.

Alineación y lo que viene

En el plano de seguridad, el equipo de Alignment de Anthropic reporta que Opus 4.8 alcanza nuevas marcas en métricas prosociales, apoyo a la autonomía del usuario y actuación en su mejor interés, y muestra tasas de comportamiento desalineado comparables a Claude Mythos Preview, el modelo más avanzado de la compañía, aún en acceso restringido.

Sobre ese punto, Anthropic confirma que trabaja en extender el acceso a modelos de clase Mythos al público general en las próximas semanas. Por ahora, una selección de organizaciones usa Claude Mythos Preview para trabajo en ciberseguridad dentro del Proyecto Glasswing. Opus 4.8 está disponible hoy a través de la API con el identificador claude-opus-4-8.

Entradas relacionadas

Moonshot lanza Kimi K3 de forma discreta: 2.8 billones de parámetros y contexto de 1 millón de tokens

Altman promete “libertad, agencia y riqueza” mientras OpenAI explora dar al Estado una parte del boom de IA

Google DeepMind lleva sus modelos de IA al terreno de la bioseguridad global