Veig 3 i Imatge 4: Així revolucionen Google la creació d'imatges i vídeos amb IA

Darrera actualització: 23/05/2025

  • Veig 3 permet generar vídeos amb àudio i diàlegs realistes des d'un simple text
  • Imatge 4 aconsegueix imatges amb detalls, textos i qualitat inèdits a IA, fins a 2K i múltiples formats
  • Tots dos models ja s'integren a apps com Gemini, Flow i eines de Google Workspace
Imatge 4 Veig 3-4

La intel·ligència artificial segueix fent passos de gegant. Si hi ha una empresa que no deixa de marcar el ritme en aquest camp, aquesta és, sens dubte, Google. En el seu esperat esdeveniment anual Google I/O 2025, La companyia ha tornat a revolucionar la creació de contingut presentant dos avenços que prometen canviar la forma en què produïm imatges i vídeos: els models generatius Veig 3 e Imatge 4. Tots dos porten una sèrie de novetats tan capdavanteres i inesperades que han deixat sense respiració tant experts com usuaris d'IA generativa.

Des de la generació de vídeos amb so ambiental i diàlegs completament realistes, Passant per imatges amb detalls gairebé impossibles de distingir una fotografia tradicional, fins a la integració perfecta en eines d'oficina i plataformes creatives, aquests models marquen un abans i un després en allò que podem esperar de la intel·ligència artificial aplicada a allò visual i sonor.

Què és Veo 3: la nova era del vídeo generat per IA amb àudio realista

Veo 3 no és només una actualització més; representa l'arribada de la primera IA generativa de Google que creeu vídeos amb so nadiu generat automàticament. Fins ara, altres models de la competència com Sora d'OpenAI s'havien quedat endarrerits en aquest aspecte, i eren incapaços d'afegir àudio sincronitzat en el procés de generació mateix. Google posa sobre la taula una proposta realment diferencial: vídeos amb sons ambientals, diàlegs i fins i tot efectes sonors totalment sintètics però realistes, tot a partir de descripcions que lusuari li proporciona. Per exemple, podeu demanar “una escena urbana amb trànsit i persones parlant” i obtindreu exactament això, amb els sorolls propis i els personatges dialogant amb sincronització de llavis.

Això situa Veo 3 com la IA que millor comprèn els prompts complexos i els tradueix en acció audiovisual. Podeu detallar quins personatges voleu, què heu de dir, i fins i tot com heu de sonar l'entorn per aconseguir una atmosfera específica. Aquesta capacitat de crear vídeos 4K, de fins a dos minuts de durada (heretada del model Veo 2), ara es reforça amb una capa de realisme que acosta la ficció creada per IA a estàndards cinematogràfics.

A més, Veig 3 permet modificar el resultat sobre la marxa: afegir o eliminar objectes, canviar l'enquadrament (de vertical a horitzontal i viceversa), i fins i tot ampliar el camp visual mitjançant tècniques d'outpainting. Sumat a controls molt més precisos de càmera (rotacions, zoom, tràveling), el resultat és un nivell de control sobre la narrativa audiovisual mai vist fins ara en una IA de consum.

Per facilitar l'accés, Google ha integrat aquest model a l'app de Gemini (abans Bard), així com a la nova plataforma Flux (de la qual parlarem més endavant) i en eines professionals com Vèrtex AI.

Honra 400
Article relacionat:
Google presenta la seva nova eina de generació de vídeos per IA per a smartphones Honor

Detalls avançats: de la sincronia labial a l'edició sobre la marxa

Un dels grans desafiaments per a les IA generatives de vídeo era aconseguir que els diàlegs tinguessin una sincronització labial natural i convincent. Veig 3 fa un salt endavant en incorporar una tecnologia que ajusta perfectament el moviment dels llavis a l'àudio generat, fent possible que les converses en vídeo resultin creïbles i fluides. Això no només millora la percepció de realisme, sinó que obre la porta a nous usos a nivell educatiu, audiovisual i publicitari.

Contingut exclusiu - Clic Aquí  Com escriure una ressenya anònima a Google

A més, la IA de Google no es limita a la generació inicial: permet que l'usuari ampliï l'escena, canviï l'orientació i ajusti els elements visuals segons les preferències, tot a cop de descripció textual. D'aquesta manera, pots transformar un pla tancat en una panoràmica, passar de la manera vertical a l'horitzontal o incorporar nous objectes sense haver de tornar a començar des de zero. També pots eliminar elements no desitjats, una cosa extremadament útil en la producció ràpida de contingut personalitzat.

Imatge 4: la revolució en generació d'imatges amb IA

Imatge 4 i Veig 3 de Google

En paral·lel a Veo 3, Google ha presentat imatge 4, el seu nou model de generació d'imatges mitjançant intel·ligència artificial. salt de qualitat en detall i velocitat de resposta. Si abans les IA es quedaven curtes en aspectes com ara la reproducció de textures fines (gotes d'aigua, pelatge d'animals, reflexos complexos), ara Imatge 4 crea imatges que rivalitzen amb fotografies professionals tant a escenaris realistes com a composicions abstractes.

L'altre gran avantatge és la velocitat de generació: Imatge 4 és fins 10 vegades més ràpida que la seva predecessora, la ja avançada Imatge 3. Això permet fluxos de treball molt més àgils, facilitant la creativitat fins i tot en projectes que exigeixen immediatesa, com ara el disseny gràfic urgent o la producció de peces per a xarxes socials.

Pel que fa a la qualitat tècnica, Imatge 4 crea imatges en resolució de fins a 2K, fent-les aptes per a impressió en alta definició i presentacions a gran escala. A més, suporta la generació en diferents relacions d'aspecte, des de formats quadrats a panoràmics, cosa que atorga versatilitat total per crear des de postals fins a cartells.

Un detall especialment rellevant és la millora substancial a l'ortografia i la tipografia: ara, la IA pot incloure textos dins de les imatges de manera correcta, permetent dissenyar targetes, invitacions, cartells i fins i tot còmics amb textos llegibles i ben formatats. Això elimina un dels reptes principals que encara presentaven els models generatius anteriors, que solien tenir errors en l'escriptura de textos incrustats.

Integració a l'ecosistema de Google i disponibilitat

Els dos models, Veig 3 e Imatge 4, no funcionen com a eines aïllades, sinó que s'integren a l'ecosistema de Google. Els usuaris poden accedir-hi directament des de l'app de Gemini i des de Flow, però també apareixen integrades a plataformes com Docs, Slides, Vids i altres eines de Workspace. Això permet a estudiants, creadors i professionals portar el contingut visual i audiovisual directament als projectes quotidians sense sortir de l'entorn de Google.

Contingut exclusiu - Clic Aquí  Com enregistrar un vídeo de Google Earth

La disponibilitat, això sí, està restringida en aquesta primera fase. Veig 3 està accessible en beta dins de Gemini únicament per a usuaris dels Estats Units amb la subscripció Google IA Ultra, mentre que Imatge 4 ja s'ha desplegat a Gemini i altres eines de Google per a tots els territoris compatibles. També apareixen en aplicacions especialitzades com Whisk i Vèrtex AI, pensades per a l'ús empresarial i el desenvolupament de productes personalitzats.

Tots els continguts generats amb Imatge 4 porten una marca d'aigua digital anomenada SynthID. Aquesta marca permet identificar fàcilment si una imatge va ser creada amb IA a través de l'eina SynthID Detector, cosa que afegeix una capa de transparència i confiança als entorns on l'autenticitat del contingut és crucial.

Flow: l'eina cinematogràfica que uneix el millor de Veo, Imagen y Gemini

Juntament amb els models de generació a partir de prompts, Google ha llançat Flow, una eina de creació i edició de vídeos dissenyada per treure-li el màxim partit a Veo 3, Imatge 4 i Gemini. Flow es recolza en l'experiència prèvia de VideoFX (un experiment de Google Labs) i la porta molt més lluny, permetent als usuaris produir videoclips, editar escenes, controlar moviments de càmera i gestionar assets duna manera senzilla i potent.

Entre les seves funcions avançades, Flow permet controlar el moviment i perspectiva de càmera, estendre les escenes ja existents, afegir noves preses mitjançant el sistema Scenebuilder i gestionar els recursos gràfics i sonors des d'una mateixa interfície. Tot el procés és guiat per IA, fent que la corba daprenentatge sigui mínima fins i tot per als qui no són experts en edició.

A més, Flow té un component social que convida a compartir i descobrir contingut creat amb IAPer exemple, gràcies a Flow TV, els usuaris poden explorar vídeos generats per altres creadors, trobar inspiració i participar en una comunitat dinàmica on la tecnologia i la creativitat es donen la mà.

Com s'accedeix a Veig 3 i Imatge 4? De moment, només als EUA

Google AI Ultra

L´accés a aquestes tecnologies d´avantguarda s´ha organitzat en plans esglaonats. Google AI Ultra és la subscripció més exclusiva, dirigida als que volen accedir abans que ningú a les darreres novetats i al model més avançat de Bessons, així com a Veo 3, Flow, Whisk, Llibreta LM, Gemini integrat a l'ecosistema Google, Gemini a Chrome, YouTube Premium i 30 TB d'emmagatzematge al núvol.

el cost, De moment, és de 249,99 dòlars al mes, encara que hi ha descomptes de llançament. Només els usuaris dels Estats Units poden contractar-la de moment, però l'expansió internacional està prevista properament.

Empreses i professionals poden aprofitar Veo 3 a través de Vèrtex AI, el que els permet integrar la generació de vídeo i àudio en els fluxos de treball corporatius, desenvolupament de productes o campanyes de màrqueting avançat. Els usuaris més creatius i aficionats tenen al seu abast Imatge 4 i part de les funcionalitats de Flow als plans Pro i bàsics de l'ecosistema IA de Google.

Contingut exclusiu - Clic Aquí  Com apagar Google Fotos a iPhone

Google també ha dissenyat un ecosistema col·laboratiu, on les millores en els models s'estenen ràpidament a totes les eines de productivitat i creació, garantint que sempre tinguis accés al més punter sense esforç addicional.

¿ Per què Veig 3 és un salt davant de la competència?

Fins a l'arribada de Veo 3, la majoria de generadors de vídeo amb IA del mercat (com Runway, Luma AI o Pika Labs) només permetien afegir-hi àudio extern després de la generació. No podien crear sons nadius sincronitzats a la mateixa peça, cosa que suposava un problema per als que buscaven resultats completament automàtics. col·loca Google al capdavant de la carrera per la IA audiovisual, per davant fins i tot de propostes com Sora d'OpenAI, que encara no ha aconseguit integrar l'àudio a la generació inicial de vídeos.

Pel que fa a la qualitat visual, els detalls aconseguits per Imatge 4 en textures, il·luminació i precisió en la reproducció d'estils superen els estàndards actuals d'IA d'imatges. La possibilitat de generar textos ben escrits i elements gràfics complexos dins de les imatges mateixes multiplica les opcions d'ús, des de la creació artística fins al disseny gràfic professional, passant per aplicacions lúdiques i educatives.

Capacitats combinades: l'autèntica creativitat sense límits

imatge 4

L'element diferenciador de l'aposta de Google és com els seus models es combinen entre si. Veig 3 i Imatge 4 poden treballar junts gràcies a Flow i Gemini, permetent fluxos creatius en què pots començar amb una imatge estàtica, transformar-la en una escena animada, afegir àudio i ajustar-la al detall fins a obtenir un vídeo professional. Aquesta integració multiplataforma converteix Google en el soci ideal per a estudiants, professionals creatius, agències de publicitat o simplement qualsevol usuari que vulgui explorar nous territoris visuals de manera senzilla i efectiva.

L'ecosistema també inclou altres tecnologies com Lyria 2, pensada per a la generació de música adaptativa que acompanya les transicions i les emocions dels vídeos de manera intel·ligent i coherent. Això completa el cercle i permet produir peces amb qualitat d'estudi, sense necessitat de recórrer a bancs de sons o material extern.

Per als desenvolupadors i empreses, l'API i les eines de gestió de contingut faciliten la integració d'aquestes solucions en productes finals, serveis a mida, apps i plataformes digitals, potenciant la innovació en sectors tan variats com l'educació, la comunicació, la sanitat o l'entreteniment.

Google es posiciona com un referent en intel·ligència artificial creativa, obrint possibilitats que anteriorment semblaven ciència ficció. La combinació de control, realisme i personalització en un ecosistema unificat estableix un nou estàndard en generació de contingut visual, sonor i gràfic, amb un impacte potencial enorme en diferents sectors i en la manera com els creadors produeixen i comparteixes les seves idees.

NotebookLM Android-1
Article relacionat:
NotebookLM ja està disponible a Android: tot sobre l'aplicació d'IA de Google per crear, resumir i escoltar les notes