OpenAI lanza nuevos modelos de voz en tiempo real para agentes que escuchan, traducen y actúan mientras hablas

OpenAI lanza nuevos modelos de voz en tiempo real para agentes que escuchan, traducen y actúan mientras hablas

La compañía presentó GPT-Realtime-2, GPT-Realtime-Translate y GPT-Realtime-Whisper, una nueva generación de modelos de audio para desarrolladores que buscan convertir la voz en una interfaz directa entre personas, productos y agentes de IA.

OpenAI presentó una nueva generación de modelos de voz en tiempo real para su API, diseñados para construir aplicaciones capaces de escuchar, razonar, traducir, transcribir y ejecutar acciones mientras una persona habla.

La compañía anunció tres modelos: GPT-Realtime-2, un modelo de voz con razonamiento de clase GPT-5; GPT-Realtime-Translate, enfocado en traducción de voz en vivo; y GPT-Realtime-Whisper, un nuevo sistema de transcripción en streaming de baja latencia.

El anuncio marca un paso importante en la evolución de las interfaces de voz. OpenAI plantea que la voz ya no funciona solo como una forma más cómoda de dictar comandos, sino como una capa de interacción para productos capaces de mantener contexto, usar herramientas, responder a interrupciones y avanzar en tareas complejas durante una conversación.

De hablar con una app a hablar con un agente

Según OpenAI, construir productos útiles por voz requiere más que respuestas rápidas o voces naturales. Un agente de voz debe entender lo que una persona quiere decir, sostener el contexto, recuperarse cuando una solicitud cambia, usar herramientas y responder con un tono adecuado al momento.

Ahí está el punto central del anuncio: la voz empieza a dejar de ser una interfaz secundaria para convertirse en una forma de operación. Ya no se trata únicamente de pedirle algo a una aplicación, sino de conversar con un sistema que puede buscar, organizar, traducir o ejecutar tareas mientras escucha.

OpenAI describe tres patrones emergentes: voz a acción, cuando una persona describe lo que necesita y el sistema usa herramientas para completar una tarea; sistemas a voz, cuando una aplicación transforma información contextual en orientación hablada; y voz a voz, cuando la IA permite sostener conversaciones entre idiomas o contextos distintos.

Entre los ejemplos mencionados por la compañía están asistentes inmobiliarios, soporte al cliente multilingüe y aplicaciones de viaje capaces de manejar cambios de itinerario o traducir conversaciones durante un desplazamiento.

GPT-Realtime-2: voz con razonamiento y uso de herramientas

El modelo principal del lanzamiento es GPT-Realtime-2, pensado para interacciones de voz en vivo donde el sistema no solo responde, sino que razona, usa herramientas, maneja correcciones e interrupciones, y mantiene la conversación en movimiento.

OpenAI afirma que el modelo puede usar “preambles”, pequeñas frases como “déjame revisar eso” para indicar al usuario que está trabajando; también puede hacer llamadas paralelas a herramientas y volver esas acciones audibles, por ejemplo al decir que está revisando un calendario o buscando información.

La compañía también destaca una ventana de contexto ampliada de 32K a 128K, mejor retención de vocabulario especializado, mayor control del tono y niveles ajustables de razonamiento —de minimal a xhigh— para equilibrar latencia y profundidad según la tarea.

En evaluaciones citadas por OpenAI, GPT-Realtime-2 con razonamiento alto obtuvo una mejora de 15.2% sobre GPT-Realtime-1.5 en Big Bench Audio, mientras que la configuración xhigh mejoró 13.8% en Audio MultiChallenge, una prueba de diálogo hablado multiturno.

Traducción de voz en vivo: el pez babel se vuelve API

El segundo modelo, GPT-Realtime-Translate, permite construir experiencias multilingües en vivo donde cada persona puede hablar en su idioma y escuchar la traducción mientras la conversación avanza.

OpenAI afirma que el modelo soporta más de 70 idiomas de entrada y 13 idiomas de salida, con casos de uso en soporte al cliente, ventas internacionales, educación, eventos, medios y plataformas para creadores.

La clave no está solo en traducir, sino en hacerlo con baja latencia y mantener el ritmo del hablante, incluso cuando hay pronunciaciones regionales, cambios de contexto o lenguaje especializado. OpenAI menciona pruebas con empresas como Deutsche Telekom, Vimeo y BolnaAI.

En términos culturales, esta función acerca a las plataformas de IA a una vieja fantasía de la ciencia ficción: conversaciones que atraviesan idiomas sin que el usuario tenga que detenerse a traducir. Pero ahora aparece como infraestructura comercial para agentes, atención a clientes, educación y servicios globales.

GPT-Realtime-Whisper: transcripción mientras ocurre la conversación

El tercer modelo es GPT-Realtime-Whisper, una nueva versión de transcripción en streaming. Está diseñado para convertir voz a texto con baja latencia mientras una persona habla, lo que puede servir para subtítulos en vivo, notas de reuniones, clases, transmisiones, soporte, salud, ventas o reclutamiento.

La diferencia frente a una transcripción tradicional es que el habla se vuelve utilizable dentro del flujo de trabajo mientras ocurre. Una reunión puede generar notas en tiempo real; un agente de soporte puede entender al usuario de forma continua; una clase o evento puede producir subtítulos sin esperar a que termine la sesión.

Seguridad, disponibilidad y precios

OpenAI asegura que la Realtime API incorpora capas de seguridad y clasificadores activos que pueden detener conversaciones si detectan violaciones a sus políticas de contenido. También indica que los desarrolladores deben dejar claro a los usuarios cuando están interactuando con IA, salvo que sea evidente por el contexto.

Los tres modelos ya están disponibles en la Realtime API. GPT-Realtime-2 cuesta 32 dólares por millón de tokens de audio de entrada y 64 dólares por millón de tokens de audio de salida; GPT-Realtime-Translate cuesta 0.034 dólares por minuto; y GPT-Realtime-Whisper cuesta 0.017 dólares por minuto.

La voz como nueva capa de internet

El lanzamiento confirma una dirección clara: la IA ya no solo quiere escribir respuestas o generar imágenes. Ahora busca ocupar el espacio de la conversación oral, donde las personas resuelven problemas, coordinan tareas, negocian, enseñan, piden ayuda o se mueven por el mundo.

La voz vuelve a la interfaz más antigua —hablar— pero conectada a sistemas capaces de razonar, usar herramientas y actuar en tiempo real. Eso puede hacer más accesible la tecnología, especialmente para personas que no quieren o no pueden depender de pantallas y teclados. Pero también abre nuevas preguntas sobre consentimiento, grabación, automatización del soporte, reemplazo laboral y dependencia de agentes que escuchan siempre.

El cambio profundo es que el software empieza a dejar de esperarnos detrás de botones y menús. Con estos modelos, la aplicación puede convertirse en una presencia conversacional: escucha, interpreta, traduce, responde y ejecuta. La interfaz ya no es una pantalla. Es una voz.