Cómo generar vídeos de 8 segundos con sonido usando Veo 3 desde Gemini

Veo 3.1 y Gemini permiten crear vídeos cortos de 8 segundos con audio totalmente generativo.
La API ofrece control sobre relación de aspecto, resolución, duración e imágenes de referencia.
Se pueden usar modos texto a vídeo, imagen a vídeo, interpolación y extensión de vídeos previos.
Existen límites de seguridad, retención y versiones de modelo que condicionan el uso avanzado.

¿Cómo generar vídeos de 8 segundos con sonido usando Veo 3 desde Gemini? Si estás buscando cómo generar vídeos de 8 segundos con sonido usando Veo 3 desde Gemini, has llegado al lugar adecuado. Google ha montado un ecosistema bastante potente alrededor de los modelos Veo 3.x para vídeo y Gemini para orquestarlo todo, pero la información oficial está muy desperdigada y a veces es demasiado técnica. Aquí vas a encontrar una explicación ordenada, clara y en castellano de España, para que entiendas qué puedes hacer, cómo funciona y qué limitaciones tiene.

En las próximas líneas verás cómo crear vídeos con audio a partir de texto, imágenes o incluso otros vídeos, cómo controlar duración, formato, resolución, cómo manejar las operaciones asíncronas de la API y qué parámetros avanzados te dan más control creativo. Además, te adelanto que los usuarios Pro de Gemini pueden generar actualmente una cantidad limitada de vídeos semanales directamente desde la interfaz, sin tocar código, y que Gemini Omni va a ir asumiendo el papel de Veo dentro de la app.

Gemini, Omni y Veo 3: cómo encaja todo

Google está fusionando cada vez más Gemini y Veo para que el proceso creativo sea más sencillo. En la app de Gemini, el modelo Omni irá sustituyendo progresivamente a Veo como interfaz principal, pero por debajo se siguen usando modelos de vídeo de la familia Veo 3.x: Veo 3.1, Veo 3.1 Fast, Veo 3.1 Lite, Veo 3 y sus variantes Fast, además de Veo 2 para ciertos casos.

Omni combina la inteligencia multimodal de Gemini con capacidades avanzadas de medios generativos: generación de vídeo desde texto, conversión de imágenes en clips animados, edición de vídeo con IA y comprensión de vídeo. Entiende contexto, audio, imagen y texto a la vez, y te ofrece más control sobre la edición fina del resultado, y compite con feeds de vídeo IA como Meta Vibes.

Si usas la API de Gemini, accedes a estos modelos de vídeo por medio de códigos de modelo específicos (por ejemplo, «veo-3.1-generate-preview» para la última versión en vista previa). Si eres usuario Pro en la interfaz de gemini.google.com, tienes ahora mismo acceso directo a Veo 3 para generar hasta 10 vídeos de 8 segundos por semana sin tocar código y existen alternativas como Bing Video Creator.

En resumen: Gemini es la puerta de entrada, Omni es la experiencia unificada dentro de la app, y Veo 3.x son los motores especializados que realmente generan los vídeos con sonido, controlando parámetros como relación de aspecto, duración, resolución, imágenes de referencia, interpolación o extensión.

Qué es Veo 3.1 y por qué es clave para vídeos de 8 segundos con sonido

Veo 3.1 es el modelo de última generación de Google para vídeo dentro del ecosistema Gemini. Está diseñado para generar clips cortos de 8 segundos (y también de 4 o 6 segundos) con calidad de hasta 4K y, muy importante, con audio generado de forma nativa y sincronizada con la escena.

Con este modelo puedes producir vídeos de 8 segundos en 720p, 1080p o 4K, tanto en formato horizontal 16:9 como vertical 9:16. Es especialmente potente en estilos cinematográficos, animación creativa y vídeos con diálogos y efectos de sonido, y añade varias funciones avanzadas: vídeos verticales, extensión de vídeos previos, especificación de primer y último fotograma, e imágenes de referencia.

En la práctica, cuando llamas a la API de Gemini con el modelo «veo-3.1-generate-preview«, puedes pasar un simple prompt de texto para texto a vídeo, o combinarlo con entradas de imagen o vídeo para lograr casos más complejos: imagen a vídeo, interpolación entre fotogramas o extensión de metraje existente generado previamente con Veo.

Además, Veo 3.1 genera siempre vídeo con audio integrado, sin necesidad de montar la banda sonora por separado. Esto incluye diálogo, efectos de sonido y ambiente, siempre sujetos a los filtros de seguridad del sistema.

Modos básicos: texto a vídeo, imagen a vídeo y vídeo a vídeo

El uso más directo es el modo texto a vídeo: le das al modelo una descripción detallada de lo que quieres, incluyendo si quieres diálogos, efectos de sonido y ambiente, y obtienes un vídeo de 8 segundos. En la API, esto se hace con una llamada a generate_videos (Python, JavaScript, Go, Java) o a la ruta REST predictLongRunning del modelo Veo.

Por ejemplo, puedes solicitar un plano corto de dos personas mirando un dibujo en una pared, con una linterna parpadeando y un breve intercambio de diálogos. El modelo generará tanto la escena visual como las voces murmurando y los sonidos ambientales de forma coherente con el texto que has descrito.

El segundo modo es imagen a vídeo, donde aportas una imagen como fotograma inicial. Veo la usa como punto de partida y genera movimiento y sonido alrededor de ella. Un caso típico es crear primero una imagen con «gemini-3.1-flash-image-preview» (el modelo de imagen conocido internamente como Nano Banana 2) y luego pasar esa imagen a Veo 3.1 para animarla. El resultado es un clip en el que la escena cobra vida durante 8 segundos.

Por último, está el modo vídeo a vídeo (extensión), exclusivo de Veo 3.1 y Veo 3.1 Fast: proporcionas un vídeo generado anteriormente por Veo y el modelo lo continúa añadiendo unos segundos adicionales de acción, manteniendo estilo y narrativa. Este uso es perfecto si ya tienes un clip sólido de 8 segundos y quieres seguir la secuencia con coherencia.

Contenido exclusivo - Clic Aquí Cómo pasar de Ubuntu 25.04 sin soporte a una versión segura

Controlar la relación de aspecto: horizontal y vertical

Para que tus vídeos encajen bien en YouTube, editar vídeos dentro de TikTok, Reels o Shorts, es crucial dominar la relación de aspecto. Veo 3.1 permite elegir entre formato horizontal 16:9 (por defecto) y vertical 9:16, usando el parámetro aspect_ratio en la configuración de generación.

En las bibliotecas de cliente (por ejemplo, Python), simplemente defines aspect_ratio=»9:16″ en la configuración para obtener un vídeo vertical. En JavaScript se usa «aspectRatio» en el objeto config, y en REST se pasa «aspectRatio» dentro de «parameters». Si no indicas nada, se genera un vídeo panorámico 16:9 tradicional.

Un ejemplo habitual sería un reel de comida con un montaje vertical de un chef preparando una pizza, con música electrónica de fondo. En ese caso, indicas relación 9:16 y Veo generará el clip ya listo para redes verticales, respetando el encuadre y la composición pensados para móvil.

Esta flexibilidad te permite diseñar contenido específico para cada plataforma sin tener que reencuadrar después. Solo ajustas el parámetro y el modelo se encarga de encajar toda la acción dentro del formato solicitado.

Elegir resolución: 720p, 1080p y 4K

Otro factor clave es la resolución del vídeo, que controlas con el parámetro «resolution». Veo 3.1 puede generar directamente clips en 720p, 1080p y 4K (esta última no disponible en Veo 3.1 Lite). Por defecto, la mayoría de ejemplos usan 720p, pero para vídeos de alta calidad puedes solicitar 1080p o 4K siempre que la duración sea de 8 segundos.

Hay varias cosas a tener en cuenta: a mayor resolución, más latencia y mayor coste. Los vídeos 4K tardan más en generarse y el precio por llamada también sube, por lo que tiene sentido reservar este formato para piezas clave o material que necesites con máxima definición.

Además, la función de extensión de vídeo está limitada a 720p, así que si quieres poder alargar posteriormente un clip, conviene crearlo inicialmente a esta resolución. Veo 3 y Veo 3.1 solo permiten 4K y 1080p en duración de 8 segundos, lo cual encaja bien con el escenario de vídeos cortos con sonido que nos interesa aquí.

En la API, basta con indicar «resolution»: «4k» o «1080p» según el lenguaje de cliente. En REST se pasa dentro de «parameters». Si no especificas nada, obtendrás un clip 720p, que suele ser suficiente para redes sociales y prototipado.

Usar imágenes como entrada y como referencia

Una de las funciones más potentes de Veo 3.1 es que acepta hasta tres imágenes de referencia para guiar el estilo y el contenido del vídeo. Este sistema funciona en paralelo a la imagen principal (si la usas como primer fotograma), y sirve para mantener consistencia de personajes, vestuario o productos a lo largo del clip.

Imagina que has generado con Gemini 3.1 Flash Image tres imágenes: un vestido llamativo, unas gafas de sol con forma de corazón y un retrato de la modelo. Puedes pasar esas imágenes a Veo 3.1 como objetos de tipo referencia indicando que son de tipo «asset». El modelo las usará para que la mujer del vídeo mantenga el mismo rostro, el mismo vestido de plumas y las mismas gafas en movimiento por una laguna turquesa.

Esta técnica es muy útil para campañas creativas con personajes o productos recurrentes, ya que consigues que el resultado animado respete el diseño creado previamente en imagen fija. En la configuración de generación, simplemente incluyes un array de «reference_images» o «referenceImages» según el lenguaje, con cada una de las imágenes codificadas (normalmente en base64 o como objeto de imagen de la librería de cliente).

Además, puedes usar una sola imagen como primer fotograma (image) sin referencias adicionales, si lo que quieres es únicamente animar esa escena tal cual. Veo utilizará la composición de la imagen y la extenderá en el tiempo, generando el movimiento y el sonido acorde a la instrucción de texto.

Controlar el primer y el último fotograma (interpolación)

Veo 3.1 permite algo especialmente interesante para usuarios avanzados: generar un vídeo definiendo de forma explícita el fotograma inicial y el fotograma final. Esta funcionalidad, pensada para interpolación, te da un nivel de control muy alto sobre cómo empieza y cómo termina exactamente la secuencia.

El flujo es sencillo: pasas una imagen inicial como parámetro principal «image» y le indicas una imagen final como «lastFrame» o «last_frame» dentro de la configuración. El modelo genera los 8 segundos de metraje interpolando de forma coherente entre ambas imágenes, respetando además la descripción textual de lo que debe ocurrir en medio.

Un ejemplo típico sería una escena de terror suave: una figura fantasmal columpiándose bajo un árbol retorcido en un claro con niebla. La imagen inicial muestra a la mujer fantasma en el columpio; la imagen final, el columpio vacío oscilando solo. Veo 3.1 se encarga de producir el movimiento de la niebla, la desaparición gradual del personaje y los efectos sonoros inquietantes que acompañan el cambio.

Esta interpolación te permite clavar la composición exacta del primer y el último plano, algo muy útil cuando quieres respetar diseños de concept art o integrar el vídeo en una secuencia mayor donde esos fotogramas concretos son críticos.

Extender vídeos generados con Veo

Otra función destacada de Veo 3.1 y Veo 3.1 Fast es la extensión de vídeo. Puedes tomar un clip que ya generaste con Veo (hasta 141 segundos) y alargarlo en tramos de 7 segundos, hasta un máximo total de 148 segundos. La API concatena el vídeo original y la parte extendida en un único archivo resultante.

Contenido exclusivo - Clic Aquí Cómo crear una hoja de puntuaciones en Google Sheets

Hay varias restricciones: el vídeo de entrada debe tener resolución 720p, relación de aspecto 16:9 o 9:16 y duración máxima de 141 segundos. Además, solo puedes extender vídeos generados por Veo y conservados en el servidor durante los últimos dos días (si los usas como entrada, se resetea el contador de esos 2 días).

El uso práctico sería algo así: generas un clip de una mariposa de origami que sale volando hacia un jardín y luego lo extiendes para seguirla mientras se posa en una flor y aparece un cachorro juguetón. En la llamada de extensión, pasas el vídeo anterior como entrada y añades una nueva instrucción de texto que explica qué debe continuar sucediendo.

Esta característica es ideal cuando quieres iterar sobre una idea que ya funciona o convertir vídeos largos en clips virales, sin empezar desde cero y manteniendo estilo, paleta de color y ambiente.

Cómo funcionan las operaciones asíncronas de la API

La generación de vídeo es una tarea pesada a nivel de cómputo, por lo que la API de Gemini para Veo funciona con operaciones de larga duración. Es decir, envías la petición, recibes un objeto «operation» inmediatamente, y luego tienes que ir consultando su estado hasta que el campo «done» sea verdadero.

El patrón es similar en Python, JavaScript, Go, Java y REST: inicias la generación con generate_videos o la llamada REST predictLongRunning, guardas el nombre de la operación y después montas un bucle que hace polling cada cierto tiempo (por ejemplo, cada 10 segundos) llamando a operations.get o a la ruta REST de operaciones con ese nombre.

Una vez la operación aparece como completada, el objeto de respuesta incluye la lista de vídeos generados. En la mayoría de ejemplos se trabaja con un único vídeo (position 0), que puedes descargar a través del cliente de archivos de la librería o usando la URI de descarga proporcionada en la respuesta, junto con tu API key.

El sistema contempla una latencia mínima de unos 11 segundos y máxima de hasta 6 minutos en horas punta. Conviene programar el polling con cierta paciencia y gestionar errores de red o cancelaciones según tus necesidades de backend.

Parámetros clave de la API de Veo 3.x

Para sacar todo el partido a Veo 3.1 y sus variantes es importante conocer bien los parámetros que puedes ajustar en cada solicitud. A grandes rasgos se dividen en dos grupos: las «instancias» (inputs) y los parámetros de generación.

Entre las entradas soportadas están: prompt de texto (la descripción del vídeo, incluyendo pistas de audio), image (una imagen inicial), lastFrame (imagen final para interpolación, combinada con image), referenceImages (hasta tres imágenes de referencia como comentábamos antes) y video (solo en Veo 3.1 / 3.1 Fast, para extensión de vídeo generado previamente).

En cuanto a parámetros de generación, los más relevantes son: aspectRatio (16:9 o 9:16), durationSeconds (4, 6 u 8, con la condición de que debe ser 8 cuando hay extensión, imágenes de referencia o resoluciones de 1080p y 4K), personGeneration (que controla cómo se generan personas, con restricciones regionales), y resolution (720p, 1080p, 4K dependiendo del modelo y el caso).

Además, existe un parámetro seed en Veo 3 y Veo 3.1 que permite mejorar ligeramente la consistencia entre generaciones, aunque no garantiza un determinismo perfecto. Es útil si quieres repetir una idea con variaciones similares sin que el resultado se dispare completamente a otra cosa.

Versiones de Veo y sus diferencias principales

Dentro de Gemini hay varias versiones de modelo Veo, cada una pensada para una combinación distinta de calidad, velocidad y disponibilidad:

Veo 3.1 («veo-3.1-generate-preview») es la versión más avanzada en vista previa. Admite texto e imagen como entrada y genera vídeo con audio. Mantiene un límite de entrada de texto de 1.024 tokens y está pensada para la máxima calidad y capacidades completas (incluida extensión en 720p, 4K a 8 segundos, etc.).

Veo 3.1 Fast («veo-3.1-fast-generate-preview») prioriza velocidad frente a calidad máxima, pero sigue generando vídeo con audio. Es ideal para servicios comerciales que necesitan sacar muchas variantes para pruebas A/B, anuncios o contenido de redes sociales rápidamente.

Veo 3.1 Lite («veo-3.1-lite-generate-preview») ofrece un perfil más ligero: texto e imagen como entrada, vídeo con audio, pero sin 4K y con ciertas limitaciones en extensión. Es útil para reducir costes o latencia en escenarios menos exigentes.

Además de la serie 3.1, siguen existiendo Veo 3 («veo-3.0-generate-001») y Veo 3 Fast («veo-3.0-fast-generate-001»), ambos estables, que soportan entrada de texto e imagen y salida en vídeo con audio, con resoluciones de hasta 1080p y funciones similares a las de 3.1 pero con menor alcance en las novedades más recientes.

Por debajo está Veo 2 («veo-2.0-generate-001»), que admite texto e imagen como entrada pero genera vídeo sin audio integrado, con resolución de hasta 720p y ciertas diferencias en cómo se gestiona la generación de personas. Sigue siendo útil para algunos flujos donde no necesitas sonido.

Limitaciones, seguridad y marcas de agua

Como en todo sistema de generación de contenido, Veo 3.x está sujeto a filtros de seguridad y restricciones de uso. Gemini aplica filtros para evitar contenido ofensivo o que incumpla las políticas, y bloquea prompts que infringen las condiciones del servicio o las guías de uso.

En cuanto a generación de personas, hay limitaciones regionales muy claras: en la UE, Reino Unido, Suiza y la región MENA, los modelos Veo 3 y 3.1 solo permiten el modo «allow_adult» para personGeneration; Veo 2 admite «dont_allow» y «allow_adult», siendo «dont_allow» el valor por defecto. Esto impacta en la forma de describir personajes humanos en tus prompts.

Contenido exclusivo - Clic Aquí Mejora del modo portátil en Nintendo Switch 2: todo lo que debes saber

El sistema implementa también un mecanismo de retención temporal de vídeos: los clips generados se quedan almacenados en los servidores de Google durante 2 días. Después se eliminan, así que si necesitas conservarlos debes descargarlos en ese intervalo. Si usas un vídeo como entrada para extensión, se considera un nuevo vídeo y el contador vuelve a arrancar.

Por último, todos los vídeos generados con Veo incorporan marca de agua SynthID, una tecnología propia de Google que incrusta señales invisibles para poder identificar contenido generado por IA. Esta marca se puede verificar usando la plataforma de verificación de SynthID, lo que aporta transparencia y trazabilidad.

Cómo escribir buenas instrucciones (prompts) para Veo

Si quieres sacarle todo el jugo a Veo 3.1 para tus vídeos de 8 segundos con sonido, necesitas cuidar mucho la calidad del prompt. Las mejores instrucciones son claras, descriptivas y utilizan terminología propia del lenguaje audiovisual.

Hay varios elementos que conviene incluir: el asunto (qué aparece, por ejemplo una ciudad futurista o un cachorro), la acción (qué hace el sujeto: caminar, correr, mirar a cámara), el estilo (cine negro, ciencia ficción, animación 3D, recorte de papel, etc.), el movimiento y posicionamiento de cámara (plano general, primer plano, vista aérea, dolly, cámara subjetiva), los efectos de lente (profundidad de campo, macro, gran angular) y el ambiente de luz y color (tonos fríos, atardecer cálido, luz natural, neones, etc.).

Un ejemplo de prompt mejorado podría pasar de «hombre hablando por teléfono» a una descripción como: un primer plano cinematográfico de un hombre desesperado con abrigo verde gastado, marcando en un teléfono de disco negro sobre una pared de ladrillo sucia, iluminado por un neón verde, con profundidad de campo superficial centrada en su frente arrugada y el dial del teléfono, y fondo desenfocado en un mar de luces. Cuanto más detalles relevantes aportes, más fácil será que Veo entienda el tono y la estética que buscas.

También puedes controlar la relación de aspecto desde el propio texto, mencionando si quieres una «pantalla ancha» o un vídeo pensado para móvil vertical, aunque lo recomendable es combinarlo con el parámetro técnico «aspectRatio» para mayor precisión.

Solicitar audio: diálogos, efectos y ambiente

Veo 3.1

Una de las ventajas diferenciales de Veo 3.1 frente a modelos de vídeo sin sonido es que acepta indicaciones explícitas sobre el audio. Puedes describir diálogos concretos, efectos sonoros puntuales y el paisaje sonoro de fondo directamente en el prompt.

Para el diálogo, se recomienda usar comillas para el discurso literal: por ejemplo, «Esta debe ser la llave», murmuró. Así el modelo distingue claramente qué partes son texto hablado y cuáles son descripción. En el caso de los efectos de sonido, conviene nombrarlos de manera directa: neumáticos que chirrían, motor que ruge, ramas que se quiebran, pasos sobre tierra húmeda, etc.

El ruido ambiental también juega un papel importante: un zumbido misterioso de fondo, el murmullo lejano de la ciudad, el canto ocasional de un pájaro solitario… Estos matices ayudan a que la banda sonora generada acompañe bien la atmósfera visual que has descrito.

En la práctica, puedes ir de menos a más detalle. Un prompt minimalista puede limitarse a indicar el tipo de voz y una frase; uno avanzado describirá tono de voz, silencios, texturas de sonido y ambiente. El modelo se encarga de sincronizar el resultado con la acción del vídeo y luego puedes subtitular automáticamente tus vídeos para accesibilidad y difusión.

Usar imágenes de referencia e interpolación en la práctica

Además de las referencias para estilo y personajes, Veo permite usar imágenes como entrada para guiar la creación de prompts e historias. Puedes partir de una foto macro surrealista (por ejemplo, surfistas diminutos surfeando dentro de un lavabo de piedra) y desarrollar un prompt que describa cómo se desplaza lentamente la cámara por la escena, cómo cae el agua del grifo y cómo brillan las olas turquesas.

En otros casos, puedes combinar varias referencias para crear mezclas curiosas: un pez de aguas profundas de aspecto amenazante, un disfraz de princesa rosa con varita y tiara, y un prompt que pida una versión de dibujos animados del pez llevando el disfraz y agitando la varita. Las referencias visuales anclan el diseño del personaje, mientras que el texto guía la historia.

La interpolación con primer y último fotograma amplía estas posibilidades: defines con precisión cómo es el plano inicial (por ejemplo, un gato jengibre al volante de un descapotable rojo en la Riviera francesa) y cómo es el plano final (el coche saliendo disparado por un acantilado), y dejas que Veo se invente la secuencia intermedia coherente en 8 segundos.

En conjunto, estas herramientas convierten a Veo 3.1 en un motor muy flexible para storytelling visual corto, donde puedes combinar diseño estático detallado (hecho con modelos de imagen) con animación y sonido generados por IA, sin perder control sobre los elementos clave.

Todo lo anterior hace que, hoy por hoy, usar Veo 3 desde Gemini sea una de las maneras más completas de crear vídeos breves con sonido de forma programática o directamente desde la app: controlas duración, formato, resolución, personajes, estilo visual, audio y hasta cómo evoluciona un clip existente con extensiones sucesivas, siempre que respetes las limitaciones de seguridad, retención y parámetros técnicos que impone la plataforma.

YouTube Shorts incorpora Veo 2, la nueva IA de Google para generar videos

Cristian Garcia

Apasionado de la tecnología desde pequeñito. Me encanta estar a la última en el sector y sobre todo, comunicarlo. Por eso me dedico a la comunicación en webs de tecnología y videojuegos desde hace ya muchos años. Podrás encontrarme escribiendo sobre Android, Windows, MacOS, iOS, Nintendo o cualquier otro tema relacionado que se te pase por la cabeza.