Matau 3 ir 4 paveikslėlius: štai kaip „Google“ keičia vaizdų ir vaizdo įrašų kūrimą pasitelkdama dirbtinį intelektą.

Paskutiniai pakeitimai: 23/05/2025

  • „Veo 3“ leidžia generuoti vaizdo įrašus su tikrovišku garsu ir dialogais iš paprasto teksto.
  • „Image 4“ pasiekia vaizdus su precedento neturinčiu detalumu, tekstu ir kokybe, naudojant dirbtinį intelektą, iki 2K raiška ir įvairiais formatais.
  • Abu modeliai jau integruoti į tokias programas kaip „Gemini“, „Flow“ ir „Google Workspace“ įrankiai.
4 paveikslėlis. Matau 3–4

Dirbtinis intelektas ir toliau daro milžinišką pažangą. Jei ir yra įmonė, kuri ir toliau diktuoja tempą šioje srityje, tai, be jokios abejonės, yra "Google". Jo ilgai lauktame „Google I/O 2025“ kasmetinis renginys, bendrovė dar kartą pakeitė turinio kūrimą, pristatydamas du patobulinimus kurie žada pakeisti vaizdų ir vaizdo įrašų kūrimo būdą: generatyviniai modeliai Matau 3 ir 4 paveikslėlį. Abu jie pristato daugybę pažangių ir netikėtų inovacijų, kurios atitraukė kvapą tiek generatyvinio dirbtinio intelekto ekspertams, tiek naudotojams.

Nuo vaizdo įrašų su aplinkos garsu ir dialogais generavimas realistiškasper nuotraukos su detalėmis, kurių beveik neįmanoma atskirti nuo tradicinės nuotraukos, iki sklandaus integravimo į biuro įrankius ir kūrybines platformas, šie modeliai žymi, ko galime tikėtis iš dirbtinio intelekto taikymo vaizdui ir garsui, prieš ir po. Pažiūrėkime, ką iš tikrųjų gali „Veo 3“ ir „Imagen 4“, ir pradėkime.

Kas yra „Veo 3“: nauja dirbtinio intelekto generuojamo vaizdo įrašo su tikrovišku garsu era?

Veo 3 Tai ne šiaip eilinis atnaujinimas; reiškia pirmojo „Google“ generatyvinio dirbtinio intelekto, kuris kuria, atsiradimą vaizdo įrašai su automatiškai sugeneruotu natūraliu garsu. Iki šiol kiti konkuruojantys modeliai, tokie kaip „OpenAI“ „Sora“, šiuo atžvilgiu atsiliko, nes negalėjo į patį generavimo procesą įtraukti sinchronizuoto garso. „Google“ pateikia išties išskirtinį pasiūlymą: vaizdo įrašus su aplinkos garsai, dialogai ir net garso efektai visiškai sintetinis, bet realistiškas, visa tai paremta vartotojo pateiktais aprašymais. Pavyzdžiui, galite paprašyti „miesto scenos su eismu ir kalbančiais žmonėmis“ ir gausite būtent tai – su įprastais garsais ir personažų lūpų sinchronizavimu.

Tai Veo 3 priskiria dirbtiniam intelektui, kuris geriau supranta sudėtingus raginimus ir juos paverčia veiksmais audiovizualinis. Galite išsamiai aprašyti, kokių personažų norite, ką jie turėtų pasakyti ir netgi kaip aplinka turėtų skambėti, kad būtų pasiekta konkreti atmosfera. Ši galimybė kurti iki dviejų minučių trukmės 4K vaizdo įrašus (paveldėta iš „Veo 2“ modelio) dabar sustiprinta realizmo sluoksniu, kuris dirbtinio intelekto sukurtą grožinę literatūrą priartina prie kinematografinių standartų.

Be to, „Veo 3“ leidžia modifikuoti rezultatą akimirksniu: pridėti arba pašalinti objektus, keisti kadravimą (iš vertikalaus į horizontalų ir atvirkščiai) ir netgi išplėsti matymo lauką naudojant užtamsinimo technikas. Kartu su daug tikslesniais kameros valdikliais (pasukimais, priartinimu, sekimu) gaunamas audiovizualinio pasakojimo valdymo lygis, kokio dar niekada nebuvo matyti vartotojų dirbtiniame intelekte.

Siekdama palengvinti prieigą, „Google“ integravo šį modelį į „Gemini“ programėlė (anksčiau „Bard“), taip pat naujoje platformoje Tėkmė (apie ką kalbėsime vėliau) ir profesionaliuose įrankiuose, tokiuose kaip Viršūnė AI.

Garbės 400
Susijęs straipsnis:
„Google“ pristato naują dirbtinio intelekto valdomą vaizdo įrašų kūrimo įrankį „Honor“ išmaniesiems telefonams.

Išplėstinės detalės: nuo lūpų sinchronizavimo iki greito redagavimo

Vienas didžiausių generatyvinio vaizdo dirbtinio intelekto iššūkių buvo gauti dialogai buvo natūralūs ir įtikinami sinchronizuojant lūpas. „Veo 3“ žengia žingsnį į priekį, įdiegdamas technologiją, kuri idealiai suderina lūpų judesius su generuojamu garsu, todėl vaizdo pokalbiai tampa patikimi ir sklandūs. Tai ne tik pagerina realizmo suvokimą, bet ir atveria duris naujiems panaudojimo būdams švietimo, audiovizualinėje ir reklamos srityse.

Išskirtinis turinys – spustelėkite čia  Kaip susieti „Google Classroom“ su „Infinite Campus“.

Be to, „Google“ dirbtinis intelektas neapsiriboja pradine karta: leidžia vartotojui priartinti sceną, keisti orientaciją ir koreguoti vaizdo elementus pagal savo pageidavimus, visa tai pateikiant tekstinį aprašymą. Tokiu būdu galite transformuoti stambaus plano nuotrauką į panoraminį vaizdą, perjungti iš vertikalaus į horizontalų režimą arba įtraukti naujų objektų nepradėdami nuo nulio. Taip pat galite pašalinti nepageidaujamus elementus, o tai labai naudinga greitai kuriant pasirinktinį turinį.

4 paveikslėlis: Vaizdų generavimo revoliucija naudojant dirbtinį intelektą

4 paveikslėlis, o aš matau 3 iš „Google“

Lygiagrečiai su „Veo 3“, „Google“ pristatė 4 vaizdas, naujas vaizdų generavimo modelis naudojant dirbtinį intelektą. Šios versijos akcentas yra įspūdingas kokybės šuolis detalių ir reagavimo greičio atžvilgiu. Nors anksčiau dirbtinis intelektas (DI) nepasiteisino tokiose srityse kaip smulkių tekstūrų (vandens lašelių, gyvūnų kailio, sudėtingų atspindžių) atkūrimas, dabar „Image 4“ sukuria vaizdus, ​​kurie gali varžytis su profesionalia fotografija tiek realistiškoje aplinkoje, tiek abstrakčiose kompozicijose.

Kitas didelis privalumas yra tas, generavimo greitis4 paveikslėlis yra iki 10 kartų greitesnis nei jo pirmtakas, jau pažangų „Image 3“. Tai leidžia atlikti daug lankstesnius darbo eigą, skatinant kūrybiškumą net ir tuose projektuose, kuriems reikalingas neatidėliotinumas, pavyzdžiui, skubus grafinis dizainas ar socialinės žiniasklaidos kūrinių gamyba.

Kalbant apie techninę kokybę, 4 paveikslėlis sukuria vaizdus iki 2K raiškos, todėl jie tinka didelės raiškos spausdinimui ir didelio masto pristatymams. Jis taip pat palaiko įvairių formatų – nuo ​​kvadratinių iki panoraminių – vaizdavimą, suteikdamas visišką lankstumą kuriant bet ką – nuo ​​atvirukų iki plakatų.

Ypač aktuali detalė yra ta, esminis rašybos ir tipografijos patobulinimasDirbtinis intelektas dabar gali teisingai įterpti tekstą į vaizdus, ​​todėl galite kurti korteles, kvietimus, plakatus ir net komiksus su įskaitomu, gerai suformatuotu tekstu. Tai pašalina vieną iš pagrindinių iššūkių, su kuriais vis dar susidūrė ankstesni generatyviniai modeliai – dažnas klaidas rašant įterptąjį tekstą.

Integracija į „Google“ ekosistemą ir prieinamumas

Du modeliai, Matau 3 ir 4 paveikslėlįjie neveikia kaip atskiri įrankiai, o veikiau yra integruoti į „Google“ ekosistemą. Vartotojai gali prie jų prisijungti tiesiogiai iš „Gemini“ programėlės ir „Flow“, tačiau jie taip pat atrodo integruoti į platformos, tokios kaip „Docs“, „Slides“, „Vids“ ir kiti „Workspace“ įrankiai. Tai leidžia studentams, kūrėjams ir specialistams tiesiogiai įtraukti savo vaizdinį ir audiovizualinį turinį į kasdienius projektus neišeinant iš „Google“ aplinkos.

Išskirtinis turinys – spustelėkite čia  Kaip pridėti garso įrašą prie „Google“ skaidrių pristatymo

Tačiau šiame pirmajame etape prieinamumas yra ribotas. „Veo 3“ jau pasiekiama beta versijoje „Gemini“ sistemoje tik JAV vartotojams, turintiems „Google AI Ultra“ prenumeratą, o „Image 4“ jau įdiegta „Gemini“ ir kituose „Google“ įrankiuose visose palaikomose teritorijose. Jie taip pat rodomi specializuotose programose, tokiose kaip „Whisk“ ir Viršūnė AI, skirtas verslo reikmėms ir pritaikytų produktų kūrimui.

Visas turinys, sukurtas naudojant „Imagen 4“, turi skaitmeninis vandens ženklas, vadinamas SynthID. Šis ženklas leidžia lengvai nustatyti, ar vaizdas buvo sukurtas naudojant dirbtinį intelektą naudojant „SynthID Detector“ įrankį, taip suteikiant skaidrumo ir pasitikėjimo aplinkose, kuriose turinio autentiškumas yra labai svarbus.

„Flow“: kinematografinis įrankis, sujungiantis geriausias „Veo“, „Imagen“ ir „Gemini“ savybes

Kartu su raginimais pagrįstų generavimo modelių „Google“ pristatė „Flow“ – vaizdo įrašų kūrimo ir redagavimo įrankį, skirtą maksimaliai išnaudoti „Veo 3“, „Image 4“ ir „Gemini“ galimybes. „Flow“ remiasi ankstesne „VideoFX“ („Google Labs“ eksperimento) patirtimi ir ją pakelia į priekį, leisdama vartotojams kurti vaizdo klipus, redaguoti scenas, valdyti kameros judesius ir tvarkyti išteklius paprastu ir galingu būdu.

Tarp pažangių funkcijų, „Flow“ leidžia valdyti kameros judėjimą ir perspektyvą, išplėskite esamas scenas, pridėkite naujų kadrų naudodami „Scenebuilder“ sistemą ir valdykite grafikos bei garso išteklius iš vienos sąsajos. Visą procesą valdo dirbtinis intelektas, todėl net ir ne redagavimo ekspertams mokytis reikia minimaliai.

Be to, „Flow“ turi socialinį komponentą, kuris kviečia dalytis ir atrasti turinį, sukurtą naudojant dirbtinį intelektą.. Pavyzdžiui, naudodamiesi „Flow TV“, vartotojai gali naršyti kitų kūrėjų sukurtus vaizdo įrašus, rasti įkvėpimo ir dalyvauti dinamiškoje bendruomenėje, kurioje susipina technologijos ir kūrybiškumas.

Kaip pasiekti „Veo 3“ ir „Imagen 4“? Kol kas tik JAV

„Google“ dirbtinis intelektas Ultra

Prieiga prie šių pažangiausių technologijų buvo organizuota etapais. „Google“ dirbtinis intelektas Ultra Tai išskirtiniausia prenumerata, skirta tiems, kurie nori pirmieji gauti naujausias naujienas ir pažangiausią modelį. Dvyniai, taip pat „Veo 3“, „Flow“, „Whisk“, Užrašų knygelėLM, „Gemini“ integruota į „Google“ ekosistemą, „Gemini“ naršyklėje „Chrome“, „YouTube Premium“ ir 30 TB debesies saugykla.

Kaina, dabar, Tai kainuoja 249,99 USD per mėnesį, nors yra ir įvadinių nuolaidų. Šiuo metu gali užsiregistruoti tik JAV vartotojai, tačiau Netrukus planuojama tarptautinė plėtra.

Įmonės ir profesionalai gali pasinaudoti „Veo 3“ privalumais per Viršūnė AI, kuri leidžia jiems Integruokite vaizdo ir garso generavimą į savo įmonės darbo eigą, produktų kūrimą ar pažangias rinkodaros kampanijas. Kūrybingi ir entuziastingi vartotojai gali pasiekti „Imagen 4“ ir kai kurias „Flow“ funkcijas „Google“ dirbtinio intelekto ekosistemos „Pro“ ir „Basic“ planuose.

Išskirtinis turinys – spustelėkite čia  Kaip pakeisti „Google“ nuotraukų dydį

„Google“ taip pat sukūrė bendradarbiaujanti ekosistema, kur modelio patobulinimai greitai taikomi visoms jo produktyvumo ir kūrimo priemonėms, užtikrinant, kad visada turėtumėte prieigą prie naujausių patobulinimų be papildomų pastangų.

Kodėl „Veo 3“ yra šuolis į priekį, palyginti su konkurentais?

Iki „Veo 3“ pasirodymo dauguma rinkoje esančių dirbtinio intelekto vaizdo generatorių (pvz., „Runway“, „Luma AI“ arba „Pika Labs“) leido pridėti tik išorinis garsas po kartos. Jie negalėjo sukurti sinchronizuotų vietinių garsų tame pačiame kūrinyje, o tai sukėlė problemų tiems, kurie siekė visiškai automatinių rezultatų. „Veo 3“ išsprendžia šį iššūkį ir iškelia „Google“ į lyderės poziciją lenktynėse dėl audiovizualinio dirbtinio intelekto, netgi lenkiant tokius pasiūlymus kaip „Sora by OpenAI“, kuriam dar nepavyko integruoti garso į pradinės kartos vaizdo įrašus.

Kalbant apie vaizdo kokybę, „Image 4“ pasiektos tekstūrų, apšvietimo ir stiliaus atkūrimo detalės viršija dabartinius vaizdų dirbtinio intelekto standartus.. Gebėjimas generuoti gerai parašytą tekstą ir sudėtingus grafinius elementus pačiuose vaizduose padidina naudojimo galimybes – nuo ​​meninės kūrybos iki profesionalaus grafinio dizaino, įskaitant pramogines ir edukacines programas.

Sujungtos galimybės: tikras kūrybiškumas be ribų

4 vaizdas

Skiriamasis „Google“ požiūrio elementas yra tai, kaip jos modeliai dera tarpusavyje. „Veo 3“ ir „Imagen 4“ gali veikti kartu „Flow“ ir „Gemini“ dėka., įgalindami kūrybinius srautus, kur galite pradėti nuo nejudančio vaizdo, paversti jį animuotu vaizdu, pridėti garsą ir tiksliai suderinti, kad sukurtumėte profesionalų vaizdo įrašą. Ši kelių platformų integracija daro „Google“ idealiu partneriu studentams, kūrybos specialistams, reklamos agentūroms ar tiesiog visiems, norintiems lengvai ir efektyviai tyrinėti naujas vizualines teritorijas.

Ekosistema taip pat apima kitas technologijas, tokias kaip „Lyria 2“, skirtą adaptyvi muzikos karta kuris intelektualiai ir darniai lydi vaizdo įrašų perėjimus ir emocijas. Tai užbaigia ciklą ir leidžia kurti studijinės kokybės kūrinius, nereikalaujant garso bankų ar išorinių medžiagų.

Programuotojams ir įmonėms API ir turinio valdymo įrankiai leidžia lengvai integruoti šiuos sprendimus į galutinius produktus, pritaikytas paslaugas, programas ir skaitmenines platformas, skatinant inovacijas tokiuose įvairiuose sektoriuose kaip švietimas, komunikacijos, sveikatos apsauga ir pramogos.

"Google" yra išdėstytas kaip a kūrybinio dirbtinio intelekto etalonas, atveriant galimybes, kurios anksčiau atrodė kaip mokslinė fantastika. Derinys valdymas, realizmas ir pritaikymas Vieningoje ekosistemoje ji nustato naują vaizdo, garso ir grafinio turinio kūrimo standartą, turintį didžiulį potencialų poveikį įvairiems sektoriams ir kūrėjų idėjų kūrimo bei dalijimosi būdais.

NotebookLM Android-1
Susijęs straipsnis:
„NotebookLM“ dabar pasiekiama „Android“ sistemoje: viskas apie „Google“ dirbtinio intelekto programėlę, skirtą užrašams kurti, apibendrinti ir klausytis.