OpenAI presentó GPT-5.4 para ChatGPT, su API y Codex y según su propia descripción, asegura que este nuevo modelo mejoró en razonamiento, programación, uso de herramientas y tareas profesionales como hojas de cálculo, documentos y presentaciones, además de que se le incorporó soporte de contexto de hasta 1 millón de tokens en ciertos entornos. La promesa es que se este modelo será más eficiente para tareas complejas de conocimiento, programación y flujos de trabajo prolongados.
De acuerdo con OpenAI, GPT-5.4 no está pensado solo como una mejora conversacional, sino como una herramienta para producir trabajo utilizable en entornos reales. La compañía afirmó que el modelo destaca en generación de código de calidad de producción, construcción de interfaces front-end, seguimiento de patrones específicos de un repositorio y cambios en múltiples archivos con menos reintentos. También sostuvo que fue afinado para mantener mejor el tono, seguir instrucciones complejas y ejecutar tareas de varios pasos con mayor disciplina.
Uno de los cambios más relevantes es su orientación a tareas largas y con herramientas. La documentación para desarrolladores señala que GPT-5.4 fue diseñado para “long-running tasks”, uso de herramientas y ejecución más confiable en flujos complejos. OpenAI añadió que el modelo mejoró en análisis de contextos extensos, síntesis basada en evidencia y persistencia en procesos de varios pasos, algo especialmente útil para asistentes y agentes que deben consultar fuentes, verificar datos o encadenar varias acciones antes de responder.
En desempeño profesional, OpenAI reportó que GPT-5.4 alcanzó 83.0% en GDPval, una evaluación orientada a trabajo de conocimiento en 44 ocupaciones, frente a 70.9% de GPT-5.2. En una prueba interna de modelado de hojas de cálculo para tareas similares a las de un analista junior de banca de inversión, GPT-5.4 obtuvo 87.3%, contra 68.4% de GPT-5.2. La empresa también aseguró que, en evaluaciones humanas, sus presentaciones fueron preferidas 68% de las veces frente a las generadas por GPT-5.2.

OpenAI también lo presentó como un modelo más factual. Según la compañía, en un conjunto de prompts anonimizados donde usuarios habían señalado errores, GPT-5.4 mostró afirmaciones individuales 33% menos propensas a ser falsas y respuestas completas 18% menos propensas a contener algún error, en comparación con GPT-5.2.
En programación, GPT-5.4 integra capacidades heredadas de GPT-5.3-Codex. OpenAI reportó 57.7% en SWE-Bench Pro, 75.1% en Terminal-Bench 2.0 y mejoras en tareas de uso de herramientas y navegación, como 82.7% en BrowseComp. En visión y uso computacional, la empresa reportó 75.0% en OSWorld-Verified y 82.1% en MMMU Pro con herramientas.

En el plano técnico, la documentación de OpenAI indicóque GPT-5.4 puede trabajar con una ventana de contexto de hasta 1 millón de tokens, una capacidad orientada a analizar bases de código completas, colecciones largas de documentos o trayectorias extensas de agentes en una sola solicitud. OpenAI precisó, sin embargo, que en Codex ese soporte de 1 millón de tokens aparece como experimental y que el umbral estándar sigue siendo de 272 mil tokens, con tarifas diferenciadas para solicitudes por encima de ese límite.
Para desarrolladores, OpenAI recomiendó usar GPT-5.4 con la Responses API, porque esa interfaz permite pasar entre turnos parte del razonamiento previo del sistema, lo que según la empresa mejora la inteligencia práctica del modelo, reduce tokens de razonamiento generados, aumenta el aprovechamiento de caché y disminuye latencia. La documentación también añade nuevas recomendaciones para flujos largos, como el uso del parámetro phase, pensado para evitar cortes prematuros y distinguir entre mensajes intermedios y respuesta final en tareas extensas o con herramientas.
Otra novedad destacada es el trabajo con herramientas. OpenAI señaló que GPT-5.4 fue postentrenado en herramientas específicas y mantiene funciones como “custom tools” y “allowed tools”, con las que los desarrolladores pueden declarar qué herramientas están disponibles y restringir cuáles puede usar el modelo en un momento dado, con el objetivo de mejorar seguridad, predictibilidad y caché.
En cuanto a disponibilidad, GPT-5.4 ya está disponible en la API como gpt-5.4, mientras que GPT-5.4 Pro aparece como gpt-5.4-pro para quienes necesitan mayor desempeño en tareas complejas. En ChatGPT, GPT-5.4 Thinking comenzó a llegar a usuarios Plus, Team y Pro, sustituyendo a GPT-5.2 Thinking. OpenAI informó además que GPT-5.2 Thinking seguirá en la sección de modelos heredados por tres meses y será retirado el 5 de junio de 2026.
Sobre precios en la API, OpenAI reportó para GPT-5.4 un costo de 2.50 dólares (44.49 pesos mexicanos) por millón de tokens de entrada, 0.25 dólares por millón de tokens de entrada en caché y 15 dólares por millón de tokens de salida. En el caso de GPT-5.4 Pro, la tarifa publicada es de 30 dólares por millón de tokens de entrada y 180 dólares por millón de tokens de salida.
En conjunto, el anuncio muestra una dirección clara: OpenAI está empujando GPT-5.4 menos como un modelo para conversación casual y más como infraestructura para trabajo profesional, automatización asistida, producción de documentos, análisis de grandes volúmenes de información y desarrollo de software. Esa es, al menos, la apuesta que la compañía está intentando colocar en el mercado con esta versión. Esta última lectura es una inferencia periodística basada en cómo OpenAI describe el producto, sus benchmarks y sus casos de uso.
