Google DeepMind anunció Gemini Omni Flash, un sistema de inteligencia artificial diseñado para editar y generar video a partir de instrucciones escritas, imágenes, audio o texto. La compañía lo compara con Nano Banana, el generador de imágenes que en agosto de 2025 alcanzó 13 millones de usuarios en cuatro días y superó 5 mil millones de imágenes dos meses después.
La propuesta técnica se centra en mantener la continuidad visual: personajes que no cambian de apariencia, objetos que respetan la física y escenas que conservan su lógica interna a lo largo del clip. Google sostiene que el modelo puede recibir una escena base y alterar solo elementos específicos sin perder coherencia.

En demostraciones publicadas, Gemini Omni transformó una escultura en burbujas, convirtió un espejo en superficie líquida y generó un video educativo en claymation sobre plegamiento de proteínas. Los cambios se ejecutan mediante instrucciones breves escritas en inglés.
Una prueba realizada por Xataka partió de una fotografía fija de la Puerta de Alcalá en Madrid. El prompt solicitó animar la imagen: coches en movimiento y peatones caminando. El resultado mostró vehículos avanzando, personas transitando y sonido ambiental sincronizado.

Google no precisó fechas de lanzamiento público ni niveles de acceso para desarrolladores. Tampoco ofreció detalles sobre costos, requisitos de hardware o políticas de uso para contenido generado.
El anuncio se produce en un de competencia con OpenAI y Anthropic, quienes han presentado avances similares en modelos multimodales. Hasta el momento, ninguna de las demostraciones ha sido verificada de forma independiente.

La promesa de edición no destructiva y control preciso plantea interrogantes sobre autoría, derechos de imagen y posibles usos indebidos. La empresa no publicó protocolos de.
Etiquetas: Tecnología, Inteligencia Artificial, Google, Video, Gemini Omni, Tecnología · OpenAI, ChatGPT y Anthropic, Tecnología · OpenAI, ChatGPT y Anthropic
