Google lanza Gemini Omni Flash, su nuevo modelo para crear y editar video con IA desde texto, imagen, audio y video ·

El modelo permite transformar videos mediante instrucciones conversacionales y marca otro paso en la carrera por integrar generación, edición y razonamiento multimodal en una sola herramienta.

Google presentó Gemini Omni, una nueva familia de modelos de inteligencia artificial diseñada para crear contenido a partir de distintos tipos de entrada: texto, imagen, audio y video. El primer modelo disponible será Gemini Omni Flash, enfocado inicialmente en generación y edición de video.

De acuerdo con Google, Gemini Omni combina la capacidad de razonamiento de Gemini con herramientas creativas para generar videos “desde cualquier entrada”, comenzando por video. La promesa central es que los usuarios puedan modificar escenas mediante lenguaje natural: cambiar objetos, transformar acciones, alterar estilos visuales, ajustar ángulos de cámara o refinar una secuencia en varios turnos de conversación.

Google sostiene que el modelo mantiene continuidad entre instrucciones sucesivas: los personajes conservan consistencia, la escena recuerda transformaciones previas y la física del entorno se preserva mejor durante el proceso de edición. La empresa también afirma que Omni puede apoyarse en el conocimiento general de Gemini para producir videos con mayor contexto histórico, científico o cultural, así como explicar ideas complejas mediante visualizaciones generadas por IA.

El lanzamiento forma parte de una tendencia más amplia: los modelos generativos están dejando de funcionar como herramientas separadas para texto, imagen, audio o video, y comienzan a integrarse como sistemas capaces de recibir referencias múltiples y producir una salida coherente. En este caso, Google plantea que Omni puede tomar combinaciones de imagen, texto, video y audio para crear clips que respeten estilo, movimiento, ritmo o referencias visuales indicadas por el usuario.

La compañía también anunció una función de avatares, que permitirá crear videos con una versión digital del propio usuario y su voz. Google señaló que, fuera de esta modalidad, todavía está probando con cautela las capacidades de edición de audio y habla, debido a los riesgos asociados con la manipulación de identidad y voz.

Todos los videos generados con Gemini Omni incluirán SynthID, la marca de agua digital imperceptible de Google DeepMind. Además, la empresa indicó que los videos podrán verificarse desde la app de Gemini, Gemini en Chrome y Google Search, como parte de sus herramientas de transparencia sobre contenido creado o editado con IA.

Gemini Omni Flash comenzó a desplegarse este 19 de mayo para suscriptores de Google AI Plus, Pro y Ultra a nivel global en la app de Gemini y Google Flow. También llegará sin costo a usuarios de YouTube Shorts y YouTube Create durante esta semana. Google adelantó que, en las próximas semanas, el modelo estará disponible para desarrolladores y clientes empresariales mediante API.

Más que un lanzamiento aislado, Gemini Omni confirma hacia dónde se mueve la competencia entre grandes laboratorios de IA: modelos capaces de editar el mundo audiovisual por conversación, combinar múltiples fuentes de entrada y producir contenido sintético con capas de verificación. La generación de video ya no se presenta solo como una función creativa, sino como una nueva interfaz para transformar, narrar y reconstruir la realidad digital.