- Veo 3 ले तपाईंलाई साधारण पाठबाट यथार्थपरक अडियो र संवाद भएका भिडियोहरू उत्पन्न गर्न अनुमति दिन्छ।
- छवि ४ ले AI मा अभूतपूर्व विवरण, पाठ र गुणस्तर, २K सम्म र धेरै ढाँचाहरू सहितका छविहरू प्राप्त गर्दछ।
- दुबै मोडेलहरू पहिले नै जेमिनी, फ्लो र गुगल वर्कस्पेस उपकरणहरू जस्ता एपहरूमा एकीकृत छन्।

कृत्रिम बुद्धिमत्ताले विशाल प्रगति गरिरहेको छ। यदि कुनै कम्पनी छ जसले यस क्षेत्रमा गति कायम राख्छ भने, त्यो निस्सन्देह, गुगल। उनको लामो समयदेखि प्रतिक्षा गरिएको गुगल I/O २०२५ को वार्षिक कार्यक्रम, कम्पनी दुईवटा प्रगति प्रस्तुत गरेर सामग्री निर्माणमा फेरि एक पटक क्रान्तिकारी परिवर्तन ल्याएको छ जसले हामीले छवि र भिडियोहरू उत्पादन गर्ने तरिका परिवर्तन गर्ने वाचा गर्दछ: जेनेरेटिभ मोडेलहरू म ३ र छवि ४ देख्छु।। दुबैले अत्याधुनिक र अप्रत्याशित आविष्कारहरूको श्रृंखला ल्याउँछन् जसले जेनेरेटिभ एआईका विशेषज्ञ र प्रयोगकर्ता दुवैलाई सास फेर्न बाध्य बनाएको छ।
बाट परिवेश ध्वनि र संवादहरू सहितको भिडियोहरूको उत्पादन पूर्ण रूपमा यथार्थवादी, जाँदैछ परम्परागत तस्बिरबाट छुट्याउन लगभग असम्भव विवरण भएका तस्बिरहरू, कार्यालय उपकरणहरू र रचनात्मक प्लेटफर्महरूमा निर्बाध एकीकरणको लागि, यी मोडेलहरूले दृश्य र अडियोमा लागू गरिएको कृत्रिम बुद्धिमत्ताबाट हामीले के आशा गर्न सक्छौं भन्ने कुरामा पहिले र पछि चिन्ह लगाउँछन्। Veo 3 र Imagen 4 ले वास्तवमा के गर्न सक्छ हेरौं, अब कुरा गरौं।
Veo ३ के हो: यथार्थपरक अडियोको साथ एआई-उत्पन्न भिडियोको नयाँ युग
Veo 3 यो केवल अर्को अपडेट मात्र होइन; गुगलको पहिलो जेनेरेटिभ एआईको आगमनलाई प्रतिनिधित्व गर्दछ जसले सिर्जना गर्दछ स्वचालित रूपमा उत्पन्न नेटिभ ध्वनि भएका भिडियोहरू। अहिलेसम्म, ओपनएआईको सोरा जस्ता अन्य प्रतिस्पर्धी मोडेलहरू यस सन्दर्भमा पछाडि परेका छन्, जसले गर्दा उत्पादन प्रक्रियामा नै सिङ्क्रोनाइज्ड अडियो थप्न सकिएको छैन। गुगलले साँच्चै भिन्न प्रस्ताव राखेको छ: भिडियोहरू सहित परिवेश ध्वनि, संवाद, र ध्वनि प्रभावहरू पनि पूर्णतया कृत्रिम तर यथार्थपरक, सबै प्रयोगकर्ताद्वारा प्रदान गरिएको विवरणमा आधारित। उदाहरणका लागि, तपाईंले "ट्राफिक र मानिसहरू कुरा गरिरहेको शहरी दृश्य" माग्न सक्नुहुन्छ र तपाईंले ठ्याक्कै त्यस्तै पाउनुहुनेछ, सामान्य आवाज र पात्रहरूको लिप-सिंकिङको साथ।
यसले Veo 3 लाई AI को रूपमा राख्छ जुन जटिल संकेतहरूलाई राम्रोसँग बुझ्छ र तिनीहरूलाई कार्यमा अनुवाद गर्छ। श्रव्यदृश्य। तपाईंले कुन पात्रहरू चाहनुहुन्छ, उनीहरूले के भन्नुपर्छ, र निश्चित वातावरण प्राप्त गर्न वातावरण कस्तो हुनुपर्छ भनेर पनि विस्तृत रूपमा बताउन सक्नुहुन्छ। दुई मिनेटसम्म लामो (Veo 4 मोडेलबाट प्राप्त) ४K भिडियोहरू सिर्जना गर्ने यो क्षमतालाई अब यथार्थवादको तहले बलियो बनाइएको छ जसले एआई-निर्मित फिक्शनलाई सिनेमाई मापदण्डको नजिक ल्याउँछ।
साथै, Veo ३ ले तपाईंलाई तुरुन्तै नतिजा परिमार्जन गर्न अनुमति दिन्छ।: वस्तुहरू थप्नुहोस् वा हटाउनुहोस्, फ्रेमिङ परिवर्तन गर्नुहोस् (ठाडोबाट तेर्सो र उल्टो), र आउटपेन्टिङ प्रविधिहरू प्रयोग गरेर दृश्य क्षेत्र विस्तार गर्नुहोस्। धेरै सटीक क्यामेरा नियन्त्रणहरू (रोटेशन, जुम, ट्र्याकिङ) सँग संयुक्त, परिणाम उपभोक्ता एआईमा पहिले कहिल्यै नदेखिएको अडियोभिजुअल कथामा नियन्त्रणको स्तर हो।
पहुँच सहज बनाउन, गुगलले यो मोडेललाई यसमा एकीकृत गरेको छ जेमिनी एप (पहिले बार्ड), साथै नयाँ प्लेटफर्ममा प्रवाह (जसको बारेमा हामी पछि कुरा गर्नेछौं) र व्यावसायिक उपकरणहरू जस्तै भर्टेक्स एआई.
उन्नत विवरणहरू: लिप-सिंक्रोनाइजिंग देखि अन-द-फ्लाई सम्पादन सम्म
जेनेरेटिभ भिडियो एआईको लागि एउटा ठूलो चुनौती भनेको प्राप्त गर्नु थियो संवादहरूमा प्राकृतिक र विश्वस्त ओठको तालमेल थियो।। भिडियो कुराकानीहरूलाई विश्वसनीय र तरल बनाउँछ, जसले गर्दा ओठको चाललाई उत्पन्न अडियोसँग पूर्ण रूपमा मेल खाने प्रविधि समावेश गरेर Veo 3 ले एक फड्को मार्छ। यसले यथार्थवादको धारणालाई मात्र सुधार गर्दैन, तर शिक्षा, श्रव्यदृश्य र विज्ञापनमा नयाँ प्रयोगहरूको ढोका पनि खोल्छ।
साथै, गुगलको एआई प्रारम्भिक पुस्तामा मात्र सीमित छैन: प्रयोगकर्तालाई दृश्यमा जुम इन गर्न, अभिमुखीकरण परिवर्तन गर्न, र दृश्य तत्वहरूलाई उनीहरूको प्राथमिकता अनुसार समायोजन गर्न अनुमति दिन्छ, सबै पाठ्य विवरणको साथ। यस तरिकाले, तपाईंले क्लोज-अप शटलाई पानोरामिक दृश्यमा रूपान्तरण गर्न सक्नुहुन्छ, ठाडोबाट तेर्सो मोडमा स्विच गर्न सक्नुहुन्छ, वा स्क्र्याचबाट सुरु नगरीकनै नयाँ वस्तुहरू समावेश गर्न सक्नुहुन्छ। तपाईं अनावश्यक तत्वहरू पनि हटाउन सक्नुहुन्छ, जुन अनुकूलन सामग्रीको द्रुत उत्पादनमा अत्यन्त उपयोगी छ।
छवि ४: एआईको साथ छवि उत्पादनमा क्रान्ति
Veo ३ को समानान्तरमा, गुगलले प्रस्तुत गरेको छ 4 छवि, कृत्रिम बुद्धिमत्ता प्रयोग गरेर छविहरू उत्पन्न गर्ने यसको नयाँ मोडेल। यस संस्करणको मुख्य आकर्षण प्रभावशाली छ विवरण र प्रतिक्रिया गतिमा गुणस्तरमा फड्को मार्नुहोस्। पहिले एआई राम्रो बनावट (पानीका थोपा, जनावरको फर, जटिल प्रतिबिम्ब) पुनरुत्पादन जस्ता पक्षहरूमा कमजोर थियो, तर अब छवि ४ ले वास्तविक सेटिङ र अमूर्त रचना दुवैमा व्यावसायिक फोटोग्राफीलाई प्रतिस्पर्धा गर्ने छविहरू सिर्जना गर्दछ।
अर्को ठूलो फाइदा भनेको उत्पादन गति: छवि ४ सम्म छ यसको पूर्ववर्ती भन्दा १० गुणा छिटो, पहिले नै उन्नत छवि ३। यसले धेरै चुस्त कार्यप्रवाहहरूको लागि अनुमति दिन्छ, तत्काल ग्राफिक डिजाइन वा सामाजिक सञ्जालको लागि टुक्राहरूको उत्पादन जस्ता तत्काल आवश्यकता पर्ने परियोजनाहरूमा पनि रचनात्मकतालाई सहज बनाउँछ।
प्राविधिक गुणस्तरको कुरा गर्दा, छवि ४ ले २K सम्मको रिजोल्युसनमा छविहरू सिर्जना गर्दछ।, तिनीहरूलाई उच्च-परिभाषा मुद्रण र ठूलो स्तरको प्रस्तुतीकरणको लागि उपयुक्त बनाउँछ। यसले वर्गदेखि पानोरामिक ढाँचासम्म विभिन्न पक्ष अनुपातहरूमा रेन्डरिङलाई पनि समर्थन गर्दछ, जसले पोस्टकार्डदेखि पोस्टरसम्म सबै कुरा सिर्जना गर्न पूर्ण बहुमुखी प्रतिभा प्रदान गर्दछ।
विशेष गरी सान्दर्भिक विवरण यो हो कि हिज्जे र टाइपोग्राफीमा उल्लेखनीय सुधारएआईले अब छविहरू भित्र सही रूपमा पाठ इम्बेड गर्न सक्छ, जसले गर्दा तपाईंलाई कार्ड, निमन्त्रणा, पोस्टर, र कमिक्स पनि पढ्न सकिने, राम्रोसँग ढाँचा गरिएको पाठको साथ डिजाइन गर्न अनुमति दिन्छ। यसले अघिल्ला जेनेरेटिभ मोडेलहरूले अझै पनि प्रस्तुत गरेका मुख्य चुनौतीहरू मध्ये एकलाई हटाउँछ, जुन प्रायः इम्बेडेड टेक्स्ट लेख्दा त्रुटिहरू हुन्थे।
गुगल इकोसिस्टम र उपलब्धतामा एकीकरण
दुई मोडेलहरू, म ३ र छवि ४ देख्छु।, तिनीहरू पृथक उपकरणहरूको रूपमा काम गर्दैनन्, बरु गुगल इकोसिस्टममा एकीकृत छन्। प्रयोगकर्ताहरूले तिनीहरूलाई सिधै जेमिनी एप र फ्लोबाट पहुँच गर्न सक्छन्, तर तिनीहरू यसमा एकीकृत पनि देखिन्छन् डक्स, स्लाइड, भिड र अन्य कार्यक्षेत्र उपकरणहरू जस्ता प्लेटफर्महरू। यसले विद्यार्थी, सिर्जनाकर्ता र पेशेवरहरूलाई गुगल वातावरणबाट बाहिर ननिस्की आफ्नो दैनिक परियोजनाहरूमा सिधै आफ्नो दृश्य र श्रव्यदृश्य सामग्री ल्याउन अनुमति दिन्छ।
यद्यपि, यो पहिलो चरणमा उपलब्धता सीमित छ। Veo 3 जेमिनी भित्र बिटामा उपलब्ध छ। गुगल एआई अल्ट्रा सदस्यता भएका अमेरिकी प्रयोगकर्ताहरूका लागि मात्र, जबकि छवि ४ पहिले नै सबै समर्थित क्षेत्रहरूको लागि जेमिनी र अन्य गुगल उपकरणहरूमा रोल आउट गरिएको छ। तिनीहरू व्हिस्क र जस्ता विशेष अनुप्रयोगहरूमा पनि देखा पर्छन् भर्टेक्स एआई, व्यावसायिक प्रयोग र अनुकूलित उत्पादनहरूको विकासको लागि डिजाइन गरिएको।
इमेजेन ४ बाट उत्पन्न हुने सबै सामग्रीमा a हुन्छ SynthID भनिने डिजिटल वाटरमार्क। यो चिन्हले SynthID डिटेक्टर उपकरण प्रयोग गरेर AI मार्फत छवि सिर्जना गरिएको हो कि होइन भनेर पहिचान गर्न सजिलो बनाउँछ, जसले गर्दा सामग्रीको प्रामाणिकता महत्त्वपूर्ण हुने वातावरणमा पारदर्शिता र विश्वासको तह थपिन्छ।
फ्लो: चलचित्र उपकरण जसले Veo, Imagen र Gemini को उत्कृष्टलाई एकताबद्ध गर्दछ
प्रम्प्ट-आधारित जेनेरेसन मोडेलहरूसँगै, गुगलले फ्लो सुरु गरेको छ, जुन भिडियो सिर्जना र सम्पादन उपकरण हो जुन Veo 3, Image 4, र Gemini बाट अधिकतम फाइदा लिन डिजाइन गरिएको हो। फ्लोले VideoFX (गुगल ल्याब्स प्रयोग) को अघिल्लो अनुभवमा निर्माण गर्छ र यसलाई धेरै अगाडि लैजान्छ, जसले प्रयोगकर्ताहरूलाई अनुमति दिन्छ भिडियो क्लिपहरू उत्पादन गर्ने, दृश्यहरू सम्पादन गर्ने, क्यामेरा चालहरू नियन्त्रण गर्ने र सम्पत्तिहरू व्यवस्थापन गर्ने सरल र शक्तिशाली तरिकाले।
यसको उन्नत सुविधाहरू मध्ये, फ्लोले तपाईंलाई क्यामेराको चाल र दृष्टिकोण नियन्त्रण गर्न अनुमति दिन्छ, अवस्थित दृश्यहरू विस्तार गर्नुहोस्, दृश्यबिल्डर प्रणाली प्रयोग गरेर नयाँ शटहरू थप्नुहोस्, र एकल इन्टरफेसबाट ग्राफिक र ध्वनि स्रोतहरू व्यवस्थापन गर्नुहोस्। सम्पूर्ण प्रक्रिया एआई द्वारा निर्देशित छ, जसले गर्दा सम्पादन नगर्ने विशेषज्ञहरूको लागि पनि सिक्ने समय न्यूनतम हुन्छ।
साथै, फ्लोमा एउटा सामाजिक घटक छ जसले तपाईंलाई AI मार्फत सिर्जना गरिएको सामग्री साझा गर्न र पत्ता लगाउन आमन्त्रित गर्दछ।। उदाहरणका लागि, फ्लो टिभीको साथ, प्रयोगकर्ताहरूले अन्य सिर्जनाकर्ताहरूद्वारा सिर्जना गरिएका भिडियोहरू अन्वेषण गर्न, प्रेरणा पाउन र प्रविधि र रचनात्मकता एकअर्कासँग जोडिएको गतिशील समुदायमा भाग लिन सक्छन्।
म कसरी Veo 3 र Imagen 4 पहुँच गर्न सक्छु? अहिलेको लागि, अमेरिकामा मात्र
यी अत्याधुनिक प्रविधिहरूमा पहुँच चरणबद्ध योजनाहरूमा व्यवस्थित गरिएको छ। गुगल एआई अल्ट्रा यो सबैभन्दा विशेष सदस्यता हो, जुन ती व्यक्तिहरूका लागि लक्षित छ जो नवीनतम समाचारहरू र सबैभन्दा उन्नत मोडेलमा पहुँच गर्न पहिलो हुन चाहन्छन्। मिथुन, साथै Veo 3, Flow, Whisk, नोटबुक एलएम, गुगल इकोसिस्टममा एकीकृत जेमिनी, क्रोममा जेमिनी, युट्युब प्रिमियम र २ टिबी क्लाउड भण्डारण.
मुल्य, अहिलेको लागी, यो प्रति महिना $२४९.९९ छ, यद्यपि त्यहाँ परिचयात्मक छुटहरू छन्। हाल संयुक्त राज्य अमेरिकाका प्रयोगकर्ताहरूले मात्र यसको लागि साइन अप गर्न सक्छन्, तर अन्तर्राष्ट्रिय विस्तारको योजना चाँडै नै छ।.
कम्पनीहरू र पेशेवरहरूले निम्न मार्फत Veo 3 को फाइदा लिन सक्छन्: भर्टेक्स एआई, जसले तिनीहरूलाई अनुमति दिन्छ तपाईंको कर्पोरेट कार्यप्रवाहमा भिडियो र अडियो जेनेरेसन एकीकृत गर्नुहोस्, उत्पादन विकास वा उन्नत मार्केटिङ अभियानहरू। रचनात्मक र उत्साही प्रयोगकर्ताहरूले गुगलको एआई इकोसिस्टमको प्रो र बेसिक योजनाहरूमा इमेजेन ४ र फ्लोका केही सुविधाहरू पहुँच गर्न सक्छन्।
गुगलले पनि एउटा डिजाइन गरेको छ सहयोगी पारिस्थितिक प्रणाली, जहाँ मोडेलहरूमा भएका सुधारहरू यसको सबै उत्पादकता र सिर्जना उपकरणहरूमा द्रुत रूपमा विस्तार हुन्छन्, जसले गर्दा तपाईंलाई अतिरिक्त प्रयास बिना नै नवीनतम विकासहरूमा सधैं पहुँच हुन्छ भन्ने कुरा सुनिश्चित हुन्छ।
प्रतिस्पर्धाको तुलनामा Veo 3 किन अगाडि छलाङ मारेको छ?
Veo 3 को आगमन सम्म, बजारमा रहेका धेरैजसो AI भिडियो जेनेरेटरहरू (जस्तै Runway, Luma AI वा Pika Labs) ले केवल थप्न अनुमति दिन्थे बाह्य अडियो पुस्ता पछि। तिनीहरूले एउटै टुक्रा भित्र सिङ्क्रोनाइज्ड नेटिभ ध्वनिहरू सिर्जना गर्न सकेनन्, जसले पूर्ण स्वचालित परिणामहरू खोज्नेहरूका लागि समस्या खडा गर्यो। Veo ३ ले त्यो चुनौती समाधान गर्छ र गुगललाई अग्रणी बनाउँछ अडियोभिजुअल एआईको दौडमा, सोरा बाइ ओपनएआई जस्ता प्रस्तावहरू भन्दा पनि अगाडि, जसले भिडियोहरूको प्रारम्भिक पुस्तामा अडियो एकीकृत गर्न सफल भएको छैन।
दृश्य गुणस्तरको सन्दर्भमा, बनावट, प्रकाश, र शैली प्रजनन शुद्धतामा छवि ४ द्वारा प्राप्त विवरणहरूले हालको छवि एआई मापदण्डहरू भन्दा बढी छ।। छविहरू भित्रै राम्रोसँग लेखिएको पाठ र जटिल ग्राफिक तत्वहरू उत्पन्न गर्ने क्षमताले कलात्मक सिर्जनादेखि व्यावसायिक ग्राफिक डिजाइनसम्म, मनोरञ्जनात्मक र शैक्षिक अनुप्रयोगहरू सहित प्रयोगको सम्भावनाहरू बढाउँछ।
संयुक्त क्षमताहरू: असीमित वास्तविक रचनात्मकता
गुगलको दृष्टिकोणको भिन्नता तत्व यसका मोडेलहरू एकअर्कासँग कसरी संयोजन हुन्छन् भन्ने कुरामा निहित छ। फ्लो र जेमिनीको कारणले गर्दा Veo ३ र Imagen ४ ले सँगै काम गर्न सक्छन्।, रचनात्मक प्रवाहहरूलाई सक्षम पार्दै जहाँ तपाईं स्थिर छविबाट सुरु गर्न सक्नुहुन्छ, यसलाई एनिमेटेड दृश्यमा रूपान्तरण गर्न सक्नुहुन्छ, अडियो थप्न सक्नुहुन्छ, र व्यावसायिक भिडियो सिर्जना गर्न यसलाई फाइन-ट्यून गर्न सक्नुहुन्छ। यो क्रस-प्लेटफर्म एकीकरणले गुगललाई विद्यार्थीहरू, रचनात्मक पेशेवरहरू, विज्ञापन एजेन्सीहरू, वा नयाँ दृश्य क्षेत्रहरू सजिलै र प्रभावकारी रूपमा अन्वेषण गर्न चाहने जो कोहीको लागि आदर्श साझेदार बनाउँछ।
इकोसिस्टममा लिरिया २ जस्ता अन्य प्रविधिहरू पनि समावेश छन्, जुन निम्नका लागि डिजाइन गरिएको हो: अनुकूली संगीत पुस्ता जसले भिडियोहरूको संक्रमण र भावनाहरूलाई बुद्धिमानी र सुसंगत तरिकाले साथ दिन्छ। यसले चक्र पूरा गर्छ र ध्वनि बैंक वा बाह्य सामग्रीको सहारा बिना नै स्टुडियो-गुणस्तरका टुक्राहरूको उत्पादनको लागि अनुमति दिन्छ।
विकासकर्ताहरू र व्यवसायहरूका लागि, एपीआई र सामग्री व्यवस्थापन उपकरणहरूले यी समाधानहरूलाई अन्तिम उत्पादनहरू, अनुकूलित सेवाहरू, एपहरू र डिजिटल प्लेटफर्महरूमा एकीकृत गर्न सजिलो बनाउँछन्, जसले शिक्षा, सञ्चार, स्वास्थ्य सेवा र मनोरञ्जन जस्ता विविध क्षेत्रहरूमा नवीनतालाई बढावा दिन्छ।
गुगल को रूपमा अवस्थित छ रचनात्मक कृत्रिम बुद्धिमत्तामा बेन्चमार्क, पहिले विज्ञान कथा जस्तो लाग्ने सम्भावनाहरू खोल्दै। को संयोजन नियन्त्रण, यथार्थवाद र अनुकूलन एकीकृत पारिस्थितिक प्रणालीमा, यसले दृश्य, अडियो र ग्राफिक सामग्री उत्पादन गर्नको लागि नयाँ मानक सेट गर्दछ, जसको विभिन्न क्षेत्रहरूमा र सिर्जनाकर्ताहरूले आफ्ना विचारहरू उत्पादन गर्ने र साझा गर्ने तरिकामा ठूलो सम्भावित प्रभाव पर्दछ।
म एक टेक्नोलोजी उत्साही हुँ जसले आफ्नो "गीक" रुचिहरूलाई पेशामा परिणत गरेको छ। मैले मेरो जीवनको 10 भन्दा बढी वर्ष अत्याधुनिक प्रविधिको प्रयोग गरेर र शुद्ध जिज्ञासाका सबै प्रकारका कार्यक्रमहरूसँग टिंकरिङ गर्दै बिताएको छु। अब मैले कम्प्युटर प्रविधि र भिडियो गेमहरूमा विशेषज्ञता हासिल गरेको छु। यो किनभने 5 वर्ष भन्दा बढी समय देखि मैले टेक्नोलोजी र भिडियो गेमहरूमा विभिन्न वेबसाइटहरूको लागि लेख्दै आएको छु, सबैले बुझ्न सक्ने भाषामा तपाईंलाई आवश्यक जानकारी दिन खोज्ने लेखहरू सिर्जना गर्दैछु।
यदि तपाइँसँग कुनै प्रश्नहरू छन् भने, मेरो ज्ञान विन्डोज अपरेटिङ सिस्टम र मोबाइल फोनहरूको लागि एन्ड्रोइडसँग सम्बन्धित सबै कुराबाट दायरा हो। र मेरो प्रतिबद्धता तपाईंप्रति छ, म सधैं केही मिनेटहरू खर्च गर्न र तपाईंलाई यस इन्टरनेट संसारमा हुन सक्ने कुनै पनि प्रश्नहरूको समाधान गर्न मद्दत गर्न तयार छु।




