- Binibigyang-daan ka ng Veo 3 na bumuo ng mga video na may makatotohanang audio at diyalogo mula sa simpleng text.
- Nakakamit ng Image 4 ang mga larawang may hindi pa nagagawang detalye, text, at kalidad sa AI, hanggang 2K at maraming format.
- Ang parehong mga modelo ay isinama na sa mga app tulad ng Gemini, Flow, at mga tool ng Google Workspace.

Ang artificial intelligence ay patuloy na gumagawa ng malalaking hakbang. Kung mayroong isang kumpanya na patuloy na nagtatakda ng bilis sa larangang ito, ito ay, walang duda, Google. Sa kanyang pinakahihintay Taunang kaganapan ng Google I/O 2025, ang kumpanya ay muling binago ang paglikha ng nilalaman sa pamamagitan ng paglalahad ng dalawang pagsulong na nangangako na babaguhin ang paraan ng paggawa namin ng mga larawan at video: mga generative na modelo Nakita ko ang 3 at Larawan 4. Parehong nagdadala ng isang serye ng mga cutting-edge at hindi inaasahang mga inobasyon na nagpaiwan sa mga eksperto at gumagamit ng generative AI na hindi makahinga.
Desde pagbuo ng mga video na may ambient na tunog at mga diyalogo nang ganap makatotohanang, dumadaan mga larawang may mga detalye na halos imposibleng makilala sa tradisyonal na litrato, sa tuluy-tuloy na pagsasama sa mga tool sa opisina at malikhaing platform, ang mga modelong ito ay nagmamarka ng bago at pagkatapos ng kung ano ang maaari nating asahan mula sa artificial intelligence na inilapat sa visual at audio. Tingnan natin kung ano talaga ang magagawa ng Veo 3 at Imagen 4, punta tayo dito.
Ano ang Veo 3: Ang bagong panahon ng video na binuo ng AI na may makatotohanang audio
Veo 3 Ito ay hindi lamang isa pang pag-update; kumakatawan sa pagdating ng unang generative AI ng Google na lumilikha mga video na may awtomatikong nabuong katutubong tunog. Hanggang ngayon, ang iba pang nakikipagkumpitensyang modelo tulad ng OpenAI's Sora ay nahuhuli sa bagay na ito, na hindi makapagdagdag ng naka-synchronize na audio sa mismong proseso ng pagbuo. Inilalagay ng Google sa talahanayan ang isang tunay na panukalang pagkakaiba: mga video na may ambient sounds, dialogue, at kahit sound effects ganap na gawa ng tao ngunit makatotohanan, lahat ay batay sa mga paglalarawang ibinigay ng user. Halimbawa, maaari kang humingi ng "isang urban na eksena na may trapiko at mga taong nag-uusap" at talagang makukuha mo iyon, na may mga karaniwang tunog at character na nagli-lip-sync.
Inilalagay nito ang Veo 3 bilang AI na mas nauunawaan ang mga kumplikadong senyas at isinasalin ang mga ito sa pagkilos audiovisual. Maaari mong i-detalye kung aling mga character ang gusto mo, kung ano ang dapat nilang sabihin, at maging kung ano ang dapat na tunog ng kapaligiran upang makamit ang isang partikular na kapaligiran. Ang kakayahang gumawa ng mga 4K na video, hanggang dalawang minuto ang haba (na minana mula sa modelong Veo 2), ay pinalalakas na ngayon ng isang layer ng realismo na naglalapit sa fiction na nilikha ng AI sa mga pamantayan ng cinematic.
Bukod dito, Pinapayagan ka ng Veo 3 na baguhin ang resulta sa mabilisang: magdagdag o mag-alis ng mga bagay, baguhin ang pag-frame (mula patayo hanggang pahalang at kabaligtaran), at palawakin pa ang larangan ng view gamit ang mga diskarte sa outpainting. Pinagsama sa mas tumpak na mga kontrol ng camera (mga pag-ikot, pag-zoom, pagsubaybay), ang resulta ay isang antas ng kontrol sa audiovisual narrative na hindi kailanman nakita sa consumer AI.
Upang mapadali ang pag-access, isinama ng Google ang modelong ito sa ang Gemini app (dating Bard), gayundin sa bagong platform Pag-agos (na pag-uusapan natin mamaya) at sa mga propesyonal na tool tulad ng Vertex AI.
Mga Advanced na Detalye: Mula sa Lip-Synchronizing hanggang On-the-Fly Editing
Isa sa mga malalaking hamon para sa generative video AI ay ang pagkuha ng nagkaroon ng natural at nakakumbinsi na lip-syncing ang mga dialogue. Ang Veo 3 ay sumusulong sa pamamagitan ng pagsasama ng teknolohiya na perpektong tumutugma sa paggalaw ng labi sa nabuong audio, na ginagawang kapani-paniwala at tuluy-tuloy ang mga pag-uusap sa video. Ito ay hindi lamang nagpapabuti sa pananaw ng pagiging totoo, ngunit nagbubukas din ng pinto sa mga bagong gamit sa edukasyon, audiovisual, at advertising.
Bukod dito, Ang AI ng Google ay hindi limitado sa paunang henerasyon: nagbibigay-daan sa gumagamit na mag-zoom in sa eksena, baguhin ang oryentasyon, at ayusin ang mga visual na elemento ayon sa kanilang mga kagustuhan, lahat ay may paglalarawan sa teksto. Sa ganitong paraan, maaari mong gawing panoramic view ang isang close-up shot, lumipat mula patayo patungo sa pahalang na mode, o isama ang mga bagong bagay nang hindi kinakailangang magsimula sa simula. Maaari mo ring alisin ang mga hindi gustong elemento, na lubhang kapaki-pakinabang sa mabilis na paggawa ng custom na nilalaman.
Larawan 4: Ang rebolusyon sa pagbuo ng imahe gamit ang AI
Kaayon ng Veo 3, ipinakita ng Google Imagen 4, ang bagong modelo nito para sa pagbuo ng mga larawan gamit ang artificial intelligence. Ang highlight ng bersyon na ito ay ang kahanga-hanga tumalon sa kalidad sa detalye at bilis ng pagtugon. Bagama't dati ay kulang ang AI sa mga aspeto tulad ng pag-reproduce ng mga magagandang texture (mga patak ng tubig, balahibo ng hayop, kumplikadong pagmuni-muni), ang Larawan 4 ay lumilikha na ngayon ng mga larawan na nakikipagkumpitensya sa propesyonal na photography sa parehong makatotohanang mga setting at abstract na komposisyon.
Ang isa pang malaking kalamangan ay ang bilis ng henerasyon: Ang larawan 4 ay hanggang sa 10 beses na mas mabilis kaysa sa hinalinhan nito, ang advanced na Image 3. Nagbibigay-daan ito para sa mas maliksi na daloy ng trabaho, na nagpapadali sa pagkamalikhain kahit na sa mga proyektong humihingi ng madalian, gaya ng agarang graphic na disenyo o ang paggawa ng mga piraso para sa social media.
Tulad ng para sa teknikal na kalidad, Ang Larawan 4 ay lumilikha ng mga larawan sa resolusyon hanggang sa 2K, na ginagawang angkop ang mga ito para sa high-definition na pag-print at malakihang mga presentasyon. Sinusuportahan din nito ang pag-render sa iba't ibang mga aspect ratio, mula sa square hanggang sa mga panoramic na format, na nagbibigay ng kumpletong versatility para sa paglikha ng lahat mula sa mga postcard hanggang sa mga poster.
Ang isang partikular na nauugnay na detalye ay ang malaking pagpapabuti sa spelling at typographyAng AI ay maaari na ngayong mag-embed nang tama ng teksto sa loob ng mga larawan, na nagbibigay-daan sa iyong magdisenyo ng mga card, imbitasyon, poster, at kahit na mga komiks na may nababasa at mahusay na na-format na teksto. Inaalis nito ang isa sa mga pangunahing hamon na ipinakita pa rin ng mga nakaraang generative na modelo, na kadalasang mga error kapag nagsusulat ng naka-embed na teksto.
Pagsasama sa Google ecosystem at availability
Ang dalawang modelo, Nakita ko ang 3 at Larawan 4, hindi sila gumagana bilang mga nakahiwalay na tool, ngunit sa halip ay isinama sa Google ecosystem. Maa-access ng mga user ang mga ito nang direkta mula sa Gemini app at mula sa Flow, ngunit lumilitaw din silang isinama sa mga platform tulad ng Docs, Slides, Vids at iba pang mga tool sa Workspace. Nagbibigay-daan ito sa mga mag-aaral, tagalikha, at mga propesyonal na dalhin ang kanilang visual at audiovisual na nilalaman nang direkta sa kanilang pang-araw-araw na mga proyekto nang hindi umaalis sa kapaligiran ng Google.
Ang availability, gayunpaman, ay pinaghihigpitan sa unang yugtong ito. Available ang Veo 3 sa beta sa loob ng Gemini para lang sa mga user ng US na may subscription sa Google AI Ultra, habang ang Image 4 ay nailunsad na sa Gemini at iba pang mga tool ng Google para sa lahat ng sinusuportahang teritoryo. Lumilitaw din ang mga ito sa mga espesyal na application tulad ng Whisk at Vertex AI, na idinisenyo para sa paggamit ng negosyo at pagbuo ng mga customized na produkto.
Ang lahat ng nilalamang nabuo gamit ang Imagen 4 ay may dalang a digital watermark na tinatawag na SynthID. Pinapadali ng markang ito na matukoy kung ang isang imahe ay ginawa gamit ang AI gamit ang SynthID Detector tool, na nagdaragdag ng layer ng transparency at tiwala sa mga kapaligiran kung saan ang pagiging tunay ng nilalaman ay mahalaga.
Daloy: ang cinematic tool na pinagsasama ang pinakamahusay ng Veo, Imagen at Gemini
Kasama ang prompt-based na mga modelo ng henerasyon, inilunsad ng Google ang Flow, isang tool sa paggawa at pag-edit ng video na idinisenyo upang masulit ang Veo 3, Image 4, at Gemini. Bumubuo ang Flow sa nakaraang karanasan ng VideoFX (isang eksperimento sa Google Labs) at higit pa itong nagpapatuloy, na nagpapahintulot sa mga user na gumawa ng mga video clip, mag-edit ng mga eksena, kontrolin ang mga galaw ng camera at pamahalaan ang mga asset sa simple at makapangyarihang paraan.
Kabilang sa mga advanced na tampok nito, Binibigyang-daan ka ng daloy na kontrolin ang paggalaw at pananaw ng camera, pahabain ang mga kasalukuyang eksena, magdagdag ng mga bagong kuha gamit ang Scenebuilder system, at pamahalaan ang mga graphic at sound resources mula sa iisang interface. Ang buong proseso ay ginagabayan ng AI, na ginagawang minimal ang curve ng pag-aaral kahit na para sa mga hindi eksperto sa pag-edit.
Bukod dito, May social component ang Flow na nag-iimbita sa iyong magbahagi at tumuklas ng content na ginawa gamit ang AI.. Halimbawa, sa Flow TV, ang mga user ay maaaring mag-explore ng mga video na ginawa ng iba pang mga creator, makahanap ng inspirasyon, at lumahok sa isang dynamic na komunidad kung saan ang teknolohiya at pagkamalikhain ay magkakaugnay.
Paano ko maa-access ang Veo 3 at Imagen 4? Sa ngayon, sa US lang
Ang pag-access sa mga makabagong teknolohiyang ito ay isinaayos sa mga sunod-sunod na plano. Google AI Ultra Ito ang pinakaeksklusibong subscription, na naglalayon sa mga gustong maging unang maka-access sa pinakabagong balita at ang pinaka-advanced na modelo ng Gemini, pati na rin ang Veo 3, Flow, Whisk, NotebookLM, isinama ang Gemini sa Google ecosystem, Gemini sa Chrome, YouTube Premium at 30 TB ng cloud storage.
Ang gastos, Sa ngayon, Ito ay $249,99 sa isang buwan, bagama't may mga panimulang diskwento. Ang mga user lang sa United States ang makakapag-sign up para dito sa ngayon, ngunit Ang internasyonal na pagpapalawak ay pinaplano sa lalong madaling panahon.
Maaaring samantalahin ng mga kumpanya at propesyonal ang Veo 3 hanggang Vertex AI, na nagpapahintulot sa kanila Isama ang pagbuo ng video at audio sa iyong mga corporate workflow, pagbuo ng produkto o mga advanced na kampanya sa marketing. Maa-access ng mga malikhain at masigasig na user ang Imagen 4 at ang ilan sa mga feature ng Flow sa Pro at Basic na mga plano ng AI ecosystem ng Google.
Nagdisenyo din ang Google ng isang collaborative na ekosistema, kung saan ang mga pagpapahusay sa mga modelo ay mabilis na umaabot sa lahat ng pagiging produktibo at mga tool sa paggawa nito, na tinitiyak na palagi kang may access sa mga pinakabagong development nang walang karagdagang pagsisikap.
Bakit ang Veo 3 ay isang leap forward kumpara sa kompetisyon?
Hanggang sa pagdating ng Veo 3, karamihan sa mga AI video generator sa market (gaya ng Runway, Luma AI o Pika Labs) ay pinapayagan lamang ang pagdaragdag panlabas na audio pagkatapos ng henerasyon. Hindi sila makagawa ng mga naka-synchronize na katutubong tunog sa loob ng parehong piraso, na nagdulot ng problema para sa mga naghahanap ng ganap na awtomatikong resulta. Niresolba ng Veo 3 ang hamon na iyon at inilalagay ang Google sa pangunguna sa karera para sa audiovisual AI, kahit na nauuna sa mga panukala tulad ng Sora ng OpenAI, na hindi pa nakakapagsama ng audio sa unang henerasyon ng mga video.
Sa mga tuntunin ng visual na kalidad, ang Ang mga detalyeng nakamit ng Larawan 4 sa mga texture, ilaw, at katumpakan ng pagpaparami ng istilo ay lumampas sa kasalukuyang mga pamantayan ng AI ng imahe.. Ang kakayahang bumuo ng mahusay na pagkakasulat ng teksto at kumplikadong mga elemento ng grapiko sa loob ng mga larawan mismo ay nagpapataas ng mga posibilidad para magamit, mula sa artistikong paglikha hanggang sa propesyonal na graphic na disenyo, kabilang ang mga libangan at pang-edukasyon na aplikasyon.
Mga pinagsamang kakayahan: tunay na pagkamalikhain nang walang limitasyon
Ang elemento ng pagkakaiba ng diskarte ng Google ay nakasalalay sa kung paano pinagsama ang mga modelo nito sa isa't isa. Maaaring magtulungan ang Veo 3 at Imagen 4 salamat sa Flow at Gemini, pagpapagana ng mga malikhaing daloy kung saan maaari kang magsimula sa isang hindi gumagalaw na larawan, ibahin ito sa isang animated na eksena, magdagdag ng audio, at i-fine-tune ito upang lumikha ng isang propesyonal na video. Ang cross-platform integration na ito ay ginagawang perpektong kasosyo ang Google para sa mga mag-aaral, mga creative na propesyonal, mga ahensya ng advertising, o sa sinumang gustong mag-explore ng mga bagong visual na teritoryo nang madali at epektibo.
Kasama rin sa ecosystem ang iba pang mga teknolohiya tulad ng Lyria 2, na idinisenyo para sa adaptive music generation na kasama ng mga transition at emosyon ng mga video sa matalino at magkakaugnay na paraan. Kinukumpleto nito ang bilog at nagbibigay-daan para sa paggawa ng mga piraso ng kalidad ng studio nang hindi nangangailangan na gumamit ng mga tunog na bangko o panlabas na materyal.
Para sa mga developer at negosyo, pinapadali ng API at mga tool sa pamamahala ng content na isama ang mga solusyong ito sa mga end product, iniangkop na serbisyo, app, at digital na platform, na nagpapalakas ng inobasyon sa mga sektor na magkakaibang gaya ng edukasyon, komunikasyon, pangangalaga sa kalusugan, at entertainment.
Google ay nakaposisyon bilang a benchmark sa creative artificial intelligence, nagbubukas ng mga posibilidad na dati ay parang science fiction. Ang kumbinasyon ng kontrol, pagiging totoo at pagpapasadya Sa isang pinag-isang ecosystem, nagtatakda ito ng bagong pamantayan para sa pagbuo ng visual, audio, at graphic na nilalaman, na may napakalaking potensyal na epekto sa iba't ibang sektor at sa paraan ng paggawa at pagbabahagi ng mga creator ng kanilang mga ideya.
Isa akong mahilig sa teknolohiya na ginawang propesyon ang kanyang mga "geek" na interes. Ako ay gumugol ng higit sa 10 taon ng aking buhay sa paggamit ng makabagong teknolohiya at pag-iisip sa lahat ng uri ng mga programa dahil sa purong kuryusidad. Ngayon ay nagdadalubhasa na ako sa teknolohiya ng kompyuter at mga video game. Ito ay dahil sa higit sa 5 taon na ako ay sumusulat para sa iba't ibang mga website sa teknolohiya at mga video game, na lumilikha ng mga artikulo na naglalayong ibigay sa iyo ang impormasyong kailangan mo sa isang wika na naiintindihan ng lahat.
Kung mayroon kang anumang mga katanungan, ang aking kaalaman ay mula sa lahat ng nauugnay sa Windows operating system pati na rin ang Android para sa mga mobile phone. At ang aking pangako ay sa iyo, lagi akong handang gumugol ng ilang minuto at tulungan kang lutasin ang anumang mga katanungan na maaaring mayroon ka sa mundo ng internet na ito.




