OpenAI lanza Images 2.0: más precisión, mejor texto, soporte multilingüe y un salto hacia el diseño visual útil ·

OpenAI presentó a ChatGPT Images 2.0, una nueva versión de su sistema de generación de imágenes que apunta a dejar atrás la idea de la IA visual como una herramienta meramente decorativa. En el anuncio, la empresa plantea que una imagen también puede “explicar un mecanismo, construir una atmósfera, probar una idea o hacer un argumento”, y ubica a su nuevo modelo como un paso hacia imágenes más útiles, precisas y listas para usarse en contextos reales.

Según OpenAI, Images 2.0 da un salto en seguimiento detallado de instrucciones, composición, ubicación y relación entre objetos, y renderización de texto denso dentro de la imagen. La empresa sostiene que el modelo ya no se queda “cerca” de lo que el usuario pidió, sino que puede entregar piezas mucho más fieles a la intención original, incluyendo iconografía, interfaces, composiciones densas y restricciones estilísticas más sutiles. En la API, además, puede trabajar con salidas de hasta 2K de resolución, aunque OpenAI aclara que los outputs por encima de 2K siguen en beta y pueden ser inconsistentes en algunos casos.

Uno de los puntos más relevantes del anuncio es la mejora en texto dentro de imagen, un área en la que históricamente los generadores visuales han tenido fallas. OpenAI asegura que Images 2.0 es más consistente no solo en inglés y otros idiomas con escritura latina, sino también en lenguas no latinas, con avances puntuales en japonés, coreano, chino, hindi y bengalí. La promesa es que el sistema no solo traduzca palabras sueltas, sino que sea capaz de producir carteles, diagramas, explicadores o cómics en los que el lenguaje forme parte integral del diseño visual.

La empresa también destacó una mejora en sofisticación estilística y realismo. Images 2.0, dice OpenAI, logra mayor fidelidad en una variedad de lenguajes visuales, desde fotografía y escenas cinematográficas hasta pixel art, manga y otros estilos distintivos. El foco no está solo en “imitar una estética”, sino en capturar con más consistencia textura, iluminación, composición y detalles finos. En fotografía, incluso apunta a reproducir pequeñas imperfecciones que aportan verosimilitud, algo que OpenAI presenta como especialmente útil para prototipado de videojuegos, storyboards, marketing y creación de piezas en medios o géneros específicos.

Otra novedad es la flexibilidad en formatos. El nuevo modelo soporta relaciones de aspecto de hasta 3:1 en horizontal y 1:3 en vertical, lo que permite generar imágenes preparadas para banners, diapositivas, pósters, pantallas móviles, separadores o gráficos para redes sociales. En otras palabras, OpenAI intenta posicionar a Images 2.0 no solo como un generador de “una imagen”, sino como una herramienta adaptable a distintos productos y canales de publicación.

OpenAI también asegura que el modelo incorpora una comprensión más actualizada del mundo, con knowledge cutoff de diciembre de 2025, para producir imágenes más relevantes y contextualmente correctas. Ese punto es importante para piezas como materiales educativos, resúmenes visuales e infografías, donde la claridad y la exactitud pesan tanto como el acabado estético. La empresa añade que esta capa de inteligencia le permite sintetizar información, estructurar una historia visual y organizarla con mayor limpieza, jerarquía y flujo.

La actualización se vuelve aún más ambiciosa cuando se utiliza con un modelo thinking dentro de ChatGPT. En ese modo, Images 2.0 puede dedicar más tiempo a entender la tarea, usar la web para buscar información relevante, transformar materiales cargados por el usuario en explicadores visuales y razonar la estructura de la imagen antes de generarla. OpenAI lo describe como un “thought partner” visual: un sistema que ya no solo renderiza una idea, sino que ayuda a desarrollarla y llevarla hacia un activo final con menos trabajo manual.

Ese modo también habilita una de las novedades más llamativas: la posibilidad de producir múltiples imágenes distintas en una sola tanda, con continuidad de personajes, objetos y estilo entre sí. OpenAI habla de hasta ocho salidas coherentes por pedido, algo que habilitaría flujos antes más engorrosos, como secuencias de páginas de manga, familias de pósters, varias direcciones de diseño para una casa completa o colecciones de piezas sociales en distintos idiomas y formatos.

La compañía además lleva estas capacidades a Codex, donde busca convertir la generación de imágenes en parte del mismo espacio de trabajo usado para crear, iterar y lanzar apps, presentaciones y otros productos. La idea es que diseñadores, marketers, equipos de producto, ventas o aprendizaje puedan generar conceptos visuales, prototipos o direcciones de interfaz, comparar opciones y pasar de las ideas más fuertes a implementaciones más concretas sin salir del entorno de trabajo. OpenAI señala que es posible usar imágenes en Codex con la suscripción de ChatGPT, sin necesidad de crear una clave de API aparte.

En paralelo, OpenAI anunció la disponibilidad del modelo gpt-image-2 en la API, lo que permite a desarrolladores y empresas integrar estas capacidades en sus propios productos. La empresa sugiere usos empresariales como publicidad localizada, infografías, explicadores, contenido educativo, herramientas de diseño, plataformas creativas y productos de creación web. En la documentación de precios de OpenAI, gpt-image-2 ya figura como modelo de generación de imágenes con tarifas diferenciadas por modalidad de entrada y salida, aunque la compañía remite a la selección de calidad y resolución para calcular el costo final de cada flujo.

Como suele ocurrir en este tipo de lanzamientos, OpenAI también incluye una sección de limitaciones. Reconoce que Images 2.0 todavía puede fallar en tareas que requieren un modelo físico del mundo completamente coherente, como guías de origami, rompecabezas tipo cubo Rubik, superficies ocultas, invertidas o en ángulo, además de detalles visuales extremadamente densos o repetitivos. La compañía añade que diagramas y etiquetas todavía pueden requerir revisión humana, sobre todo cuando dependen de flechas o rotulados precisos.

En términos de disponibilidad, OpenAI afirma que ChatGPT Images 2.0 está disponible desde hoy para usuarios de ChatGPT y Codex, mientras que las salidas avanzadas con capacidades de thinking están reservadas para usuarios Plus, Pro y Business. En la API, el modelo está disponible como gpt-image-2.

Más allá de la retórica promocional, el lanzamiento deja ver un cambio claro en la estrategia de OpenAI: la empresa ya no está vendiendo solo la capacidad de generar imágenes llamativas, sino la posibilidad de construir un sistema visual utilitario, orientado a comunicación, diseño, prototipado y producción. El verdadero diferencial de Images 2.0, si cumple lo que promete, no sería únicamente la calidad visual, sino su capacidad para convertir instrucciones complejas en piezas funcionales, coherentes y listas para circular.

Entradas relacionadas

Google demanda a red que habría usado Gemini para crear sitios falsos y estafas por SMS

El Gobierno de EU ordena a Anthropic suspender Fable 5 y Mythos 5 para extranjeros por seguridad nacional

Palantir huele sangre: usa el miedo al gasto en tokens para venderse como guardián de la IA empresarial