म तस्बिर ३ र तस्बिर ४ देख्छु: गुगलले यसरी एआई मार्फत छवि र भिडियो सिर्जनामा ​​क्रान्तिकारी परिवर्तन ल्याइरहेको छ।

अन्तिम अपडेट: 23/05/2025

  • Veo 3 ले तपाईंलाई साधारण पाठबाट यथार्थपरक अडियो र संवाद भएका भिडियोहरू उत्पन्न गर्न अनुमति दिन्छ।
  • छवि ४ ले AI मा अभूतपूर्व विवरण, पाठ र गुणस्तर, २K सम्म र धेरै ढाँचाहरू सहितका छविहरू प्राप्त गर्दछ।
  • दुबै मोडेलहरू पहिले नै जेमिनी, फ्लो र गुगल वर्कस्पेस उपकरणहरू जस्ता एपहरूमा एकीकृत छन्।
छवि ४ म ३-४ देख्छु

कृत्रिम बुद्धिमत्ताले विशाल प्रगति गरिरहेको छ। यदि कुनै कम्पनी छ जसले यस क्षेत्रमा गति कायम राख्छ भने, त्यो निस्सन्देह, गुगल। उनको लामो समयदेखि प्रतिक्षा गरिएको गुगल I/O २०२५ को वार्षिक कार्यक्रम, कम्पनी दुईवटा प्रगति प्रस्तुत गरेर सामग्री निर्माणमा फेरि एक पटक क्रान्तिकारी परिवर्तन ल्याएको छ जसले हामीले छवि र भिडियोहरू उत्पादन गर्ने तरिका परिवर्तन गर्ने वाचा गर्दछ: जेनेरेटिभ मोडेलहरू म ३ र छवि ४ देख्छु।। दुबैले अत्याधुनिक र अप्रत्याशित आविष्कारहरूको श्रृंखला ल्याउँछन् जसले जेनेरेटिभ एआईका विशेषज्ञ र प्रयोगकर्ता दुवैलाई सास फेर्न बाध्य बनाएको छ।

बाट परिवेश ध्वनि र संवादहरू सहितको भिडियोहरूको उत्पादन पूर्ण रूपमा यथार्थवादी, जाँदैछ परम्परागत तस्बिरबाट छुट्याउन लगभग असम्भव विवरण भएका तस्बिरहरू, कार्यालय उपकरणहरू र रचनात्मक प्लेटफर्महरूमा निर्बाध एकीकरणको लागि, यी मोडेलहरूले दृश्य र अडियोमा लागू गरिएको कृत्रिम बुद्धिमत्ताबाट हामीले के आशा गर्न सक्छौं भन्ने कुरामा पहिले र पछि चिन्ह लगाउँछन्। Veo 3 र Imagen 4 ले वास्तवमा के गर्न सक्छ हेरौं, अब कुरा गरौं।

Veo ३ के हो: यथार्थपरक अडियोको साथ एआई-उत्पन्न भिडियोको नयाँ युग

Veo 3 यो केवल अर्को अपडेट मात्र होइन; गुगलको पहिलो जेनेरेटिभ एआईको आगमनलाई प्रतिनिधित्व गर्दछ जसले सिर्जना गर्दछ स्वचालित रूपमा उत्पन्न नेटिभ ध्वनि भएका भिडियोहरू। अहिलेसम्म, ओपनएआईको सोरा जस्ता अन्य प्रतिस्पर्धी मोडेलहरू यस सन्दर्भमा पछाडि परेका छन्, जसले गर्दा उत्पादन प्रक्रियामा नै सिङ्क्रोनाइज्ड अडियो थप्न सकिएको छैन। गुगलले साँच्चै भिन्न प्रस्ताव राखेको छ: भिडियोहरू सहित परिवेश ध्वनि, संवाद, र ध्वनि प्रभावहरू पनि पूर्णतया कृत्रिम तर यथार्थपरक, सबै प्रयोगकर्ताद्वारा प्रदान गरिएको विवरणमा आधारित। उदाहरणका लागि, तपाईंले "ट्राफिक र मानिसहरू कुरा गरिरहेको शहरी दृश्य" माग्न सक्नुहुन्छ र तपाईंले ठ्याक्कै त्यस्तै पाउनुहुनेछ, सामान्य आवाज र पात्रहरूको लिप-सिंकिङको साथ।

यसले Veo 3 लाई AI को रूपमा राख्छ जुन जटिल संकेतहरूलाई राम्रोसँग बुझ्छ र तिनीहरूलाई कार्यमा अनुवाद गर्छ। श्रव्यदृश्य। तपाईंले कुन पात्रहरू चाहनुहुन्छ, उनीहरूले के भन्नुपर्छ, र निश्चित वातावरण प्राप्त गर्न वातावरण कस्तो हुनुपर्छ भनेर पनि विस्तृत रूपमा बताउन सक्नुहुन्छ। दुई मिनेटसम्म लामो (Veo 4 मोडेलबाट प्राप्त) ४K भिडियोहरू सिर्जना गर्ने यो क्षमतालाई अब यथार्थवादको तहले बलियो बनाइएको छ जसले एआई-निर्मित फिक्शनलाई सिनेमाई मापदण्डको नजिक ल्याउँछ।

साथै, Veo ३ ले तपाईंलाई तुरुन्तै नतिजा परिमार्जन गर्न अनुमति दिन्छ।: वस्तुहरू थप्नुहोस् वा हटाउनुहोस्, फ्रेमिङ परिवर्तन गर्नुहोस् (ठाडोबाट तेर्सो र उल्टो), र आउटपेन्टिङ प्रविधिहरू प्रयोग गरेर दृश्य क्षेत्र विस्तार गर्नुहोस्। धेरै सटीक क्यामेरा नियन्त्रणहरू (रोटेशन, जुम, ट्र्याकिङ) सँग संयुक्त, परिणाम उपभोक्ता एआईमा पहिले कहिल्यै नदेखिएको अडियोभिजुअल कथामा नियन्त्रणको स्तर हो।

पहुँच सहज बनाउन, गुगलले यो मोडेललाई यसमा एकीकृत गरेको छ जेमिनी एप (पहिले बार्ड), साथै नयाँ प्लेटफर्ममा प्रवाह (जसको बारेमा हामी पछि कुरा गर्नेछौं) र व्यावसायिक उपकरणहरू जस्तै भर्टेक्स एआई.

सम्मान 400
सम्बन्धित लेख:
गुगलले अनर स्मार्टफोनका लागि आफ्नो नयाँ एआई-संचालित भिडियो सिर्जना उपकरण अनावरण गरेको छ।

उन्नत विवरणहरू: लिप-सिंक्रोनाइजिंग देखि अन-द-फ्लाई सम्पादन सम्म

जेनेरेटिभ भिडियो एआईको लागि एउटा ठूलो चुनौती भनेको प्राप्त गर्नु थियो संवादहरूमा प्राकृतिक र विश्वस्त ओठको तालमेल थियो।। भिडियो कुराकानीहरूलाई विश्वसनीय र तरल बनाउँछ, जसले गर्दा ओठको चाललाई उत्पन्न अडियोसँग पूर्ण रूपमा मेल खाने प्रविधि समावेश गरेर Veo 3 ले एक फड्को मार्छ। यसले यथार्थवादको धारणालाई मात्र सुधार गर्दैन, तर शिक्षा, श्रव्यदृश्य र विज्ञापनमा नयाँ प्रयोगहरूको ढोका पनि खोल्छ।

विशेष सामग्री - यहाँ क्लिक गर्नुहोस्  गुगलमा अज्ञात समीक्षा कसरी लेख्ने

साथै, गुगलको एआई प्रारम्भिक पुस्तामा मात्र सीमित छैन: प्रयोगकर्तालाई दृश्यमा जुम इन गर्न, अभिमुखीकरण परिवर्तन गर्न, र दृश्य तत्वहरूलाई उनीहरूको प्राथमिकता अनुसार समायोजन गर्न अनुमति दिन्छ, सबै पाठ्य विवरणको साथ। यस तरिकाले, तपाईंले क्लोज-अप शटलाई पानोरामिक दृश्यमा रूपान्तरण गर्न सक्नुहुन्छ, ठाडोबाट तेर्सो मोडमा स्विच गर्न सक्नुहुन्छ, वा स्क्र्याचबाट सुरु नगरीकनै नयाँ वस्तुहरू समावेश गर्न सक्नुहुन्छ। तपाईं अनावश्यक तत्वहरू पनि हटाउन सक्नुहुन्छ, जुन अनुकूलन सामग्रीको द्रुत उत्पादनमा अत्यन्त उपयोगी छ।

छवि ४: एआईको साथ छवि उत्पादनमा क्रान्ति

तस्बिर ४ र म गुगलबाट ३ देख्छु।

Veo ३ को समानान्तरमा, गुगलले प्रस्तुत गरेको छ 4 छवि, कृत्रिम बुद्धिमत्ता प्रयोग गरेर छविहरू उत्पन्न गर्ने यसको नयाँ मोडेल। यस संस्करणको मुख्य आकर्षण प्रभावशाली छ विवरण र प्रतिक्रिया गतिमा गुणस्तरमा फड्को मार्नुहोस्। पहिले एआई राम्रो बनावट (पानीका थोपा, जनावरको फर, जटिल प्रतिबिम्ब) पुनरुत्पादन जस्ता पक्षहरूमा कमजोर थियो, तर अब छवि ४ ले वास्तविक सेटिङ र अमूर्त रचना दुवैमा व्यावसायिक फोटोग्राफीलाई प्रतिस्पर्धा गर्ने छविहरू सिर्जना गर्दछ।

अर्को ठूलो फाइदा भनेको उत्पादन गति: छवि ४ सम्म छ यसको पूर्ववर्ती भन्दा १० गुणा छिटो, पहिले नै उन्नत छवि ३। यसले धेरै चुस्त कार्यप्रवाहहरूको लागि अनुमति दिन्छ, तत्काल ग्राफिक डिजाइन वा सामाजिक सञ्जालको लागि टुक्राहरूको उत्पादन जस्ता तत्काल आवश्यकता पर्ने परियोजनाहरूमा पनि रचनात्मकतालाई सहज बनाउँछ।

प्राविधिक गुणस्तरको कुरा गर्दा, छवि ४ ले २K सम्मको रिजोल्युसनमा छविहरू सिर्जना गर्दछ।, तिनीहरूलाई उच्च-परिभाषा मुद्रण र ठूलो स्तरको प्रस्तुतीकरणको लागि उपयुक्त बनाउँछ। यसले वर्गदेखि पानोरामिक ढाँचासम्म विभिन्न पक्ष अनुपातहरूमा रेन्डरिङलाई पनि समर्थन गर्दछ, जसले पोस्टकार्डदेखि पोस्टरसम्म सबै कुरा सिर्जना गर्न पूर्ण बहुमुखी प्रतिभा प्रदान गर्दछ।

विशेष गरी सान्दर्भिक विवरण यो हो कि हिज्जे र टाइपोग्राफीमा उल्लेखनीय सुधारएआईले अब छविहरू भित्र सही रूपमा पाठ इम्बेड गर्न सक्छ, जसले गर्दा तपाईंलाई कार्ड, निमन्त्रणा, पोस्टर, र कमिक्स पनि पढ्न सकिने, राम्रोसँग ढाँचा गरिएको पाठको साथ डिजाइन गर्न अनुमति दिन्छ। यसले अघिल्ला जेनेरेटिभ मोडेलहरूले अझै पनि प्रस्तुत गरेका मुख्य चुनौतीहरू मध्ये एकलाई हटाउँछ, जुन प्रायः इम्बेडेड टेक्स्ट लेख्दा त्रुटिहरू हुन्थे।

गुगल इकोसिस्टम र उपलब्धतामा एकीकरण

दुई मोडेलहरू, म ३ र छवि ४ देख्छु।, तिनीहरू पृथक उपकरणहरूको रूपमा काम गर्दैनन्, बरु गुगल इकोसिस्टममा एकीकृत छन्। प्रयोगकर्ताहरूले तिनीहरूलाई सिधै जेमिनी एप र फ्लोबाट पहुँच गर्न सक्छन्, तर तिनीहरू यसमा एकीकृत पनि देखिन्छन् डक्स, स्लाइड, भिड र अन्य कार्यक्षेत्र उपकरणहरू जस्ता प्लेटफर्महरू। यसले विद्यार्थी, सिर्जनाकर्ता र पेशेवरहरूलाई गुगल वातावरणबाट बाहिर ननिस्की आफ्नो दैनिक परियोजनाहरूमा सिधै आफ्नो दृश्य र श्रव्यदृश्य सामग्री ल्याउन अनुमति दिन्छ।

विशेष सामग्री - यहाँ क्लिक गर्नुहोस्  गुगल अर्थ भिडियो कसरी रेकर्ड गर्ने

यद्यपि, यो पहिलो चरणमा उपलब्धता सीमित छ। Veo 3 जेमिनी भित्र बिटामा उपलब्ध छ। गुगल एआई अल्ट्रा सदस्यता भएका अमेरिकी प्रयोगकर्ताहरूका लागि मात्र, जबकि छवि ४ पहिले नै सबै समर्थित क्षेत्रहरूको लागि जेमिनी र अन्य गुगल उपकरणहरूमा रोल आउट गरिएको छ। तिनीहरू व्हिस्क र जस्ता विशेष अनुप्रयोगहरूमा पनि देखा पर्छन् भर्टेक्स एआई, व्यावसायिक प्रयोग र अनुकूलित उत्पादनहरूको विकासको लागि डिजाइन गरिएको।

इमेजेन ४ बाट उत्पन्न हुने सबै सामग्रीमा a हुन्छ SynthID भनिने डिजिटल वाटरमार्क। यो चिन्हले SynthID डिटेक्टर उपकरण प्रयोग गरेर AI मार्फत छवि सिर्जना गरिएको हो कि होइन भनेर पहिचान गर्न सजिलो बनाउँछ, जसले गर्दा सामग्रीको प्रामाणिकता महत्त्वपूर्ण हुने वातावरणमा पारदर्शिता र विश्वासको तह थपिन्छ।

फ्लो: चलचित्र उपकरण जसले Veo, Imagen र Gemini को उत्कृष्टलाई एकताबद्ध गर्दछ

प्रम्प्ट-आधारित जेनेरेसन मोडेलहरूसँगै, गुगलले फ्लो सुरु गरेको छ, जुन भिडियो सिर्जना र सम्पादन उपकरण हो जुन Veo 3, Image 4, र Gemini बाट अधिकतम फाइदा लिन डिजाइन गरिएको हो। फ्लोले VideoFX (गुगल ल्याब्स प्रयोग) को अघिल्लो अनुभवमा निर्माण गर्छ र यसलाई धेरै अगाडि लैजान्छ, जसले प्रयोगकर्ताहरूलाई अनुमति दिन्छ भिडियो क्लिपहरू उत्पादन गर्ने, दृश्यहरू सम्पादन गर्ने, क्यामेरा चालहरू नियन्त्रण गर्ने र सम्पत्तिहरू व्यवस्थापन गर्ने सरल र शक्तिशाली तरिकाले।

यसको उन्नत सुविधाहरू मध्ये, फ्लोले तपाईंलाई क्यामेराको चाल र दृष्टिकोण नियन्त्रण गर्न अनुमति दिन्छ, अवस्थित दृश्यहरू विस्तार गर्नुहोस्, दृश्यबिल्डर प्रणाली प्रयोग गरेर नयाँ शटहरू थप्नुहोस्, र एकल इन्टरफेसबाट ग्राफिक र ध्वनि स्रोतहरू व्यवस्थापन गर्नुहोस्। सम्पूर्ण प्रक्रिया एआई द्वारा निर्देशित छ, जसले गर्दा सम्पादन नगर्ने विशेषज्ञहरूको लागि पनि सिक्ने समय न्यूनतम हुन्छ।

साथै, फ्लोमा एउटा सामाजिक घटक छ जसले तपाईंलाई AI मार्फत सिर्जना गरिएको सामग्री साझा गर्न र पत्ता लगाउन आमन्त्रित गर्दछ।। उदाहरणका लागि, फ्लो टिभीको साथ, प्रयोगकर्ताहरूले अन्य सिर्जनाकर्ताहरूद्वारा सिर्जना गरिएका भिडियोहरू अन्वेषण गर्न, प्रेरणा पाउन र प्रविधि र रचनात्मकता एकअर्कासँग जोडिएको गतिशील समुदायमा भाग लिन सक्छन्।

म कसरी Veo 3 र Imagen 4 पहुँच गर्न सक्छु? अहिलेको लागि, अमेरिकामा मात्र

गुगल एआई अल्ट्रा

यी अत्याधुनिक प्रविधिहरूमा पहुँच चरणबद्ध योजनाहरूमा व्यवस्थित गरिएको छ। गुगल एआई अल्ट्रा यो सबैभन्दा विशेष सदस्यता हो, जुन ती व्यक्तिहरूका लागि लक्षित छ जो नवीनतम समाचारहरू र सबैभन्दा उन्नत मोडेलमा पहुँच गर्न पहिलो हुन चाहन्छन्। मिथुन, साथै Veo 3, Flow, Whisk, नोटबुक एलएम, गुगल इकोसिस्टममा एकीकृत जेमिनी, क्रोममा जेमिनी, युट्युब प्रिमियम र २ टिबी क्लाउड भण्डारण.

मुल्य, अहिलेको लागी, यो प्रति महिना $२४९.९९ छ, यद्यपि त्यहाँ परिचयात्मक छुटहरू छन्। हाल संयुक्त राज्य अमेरिकाका प्रयोगकर्ताहरूले मात्र यसको लागि साइन अप गर्न सक्छन्, तर अन्तर्राष्ट्रिय विस्तारको योजना चाँडै नै छ।.

कम्पनीहरू र पेशेवरहरूले निम्न मार्फत Veo 3 को फाइदा लिन सक्छन्: भर्टेक्स एआई, जसले तिनीहरूलाई अनुमति दिन्छ तपाईंको कर्पोरेट कार्यप्रवाहमा भिडियो र अडियो जेनेरेसन एकीकृत गर्नुहोस्, उत्पादन विकास वा उन्नत मार्केटिङ अभियानहरू। रचनात्मक र उत्साही प्रयोगकर्ताहरूले गुगलको एआई इकोसिस्टमको प्रो र बेसिक योजनाहरूमा इमेजेन ४ र फ्लोका केही सुविधाहरू पहुँच गर्न सक्छन्।

विशेष सामग्री - यहाँ क्लिक गर्नुहोस्  आईफोनमा गुगल फोटोहरू कसरी बन्द गर्ने

गुगलले पनि एउटा डिजाइन गरेको छ सहयोगी पारिस्थितिक प्रणाली, जहाँ मोडेलहरूमा भएका सुधारहरू यसको सबै उत्पादकता र सिर्जना उपकरणहरूमा द्रुत रूपमा विस्तार हुन्छन्, जसले गर्दा तपाईंलाई अतिरिक्त प्रयास बिना नै नवीनतम विकासहरूमा सधैं पहुँच हुन्छ भन्ने कुरा सुनिश्चित हुन्छ।

प्रतिस्पर्धाको तुलनामा Veo 3 किन अगाडि छलाङ मारेको छ?

Veo 3 को आगमन सम्म, बजारमा रहेका धेरैजसो AI भिडियो जेनेरेटरहरू (जस्तै Runway, Luma AI वा Pika Labs) ले केवल थप्न अनुमति दिन्थे बाह्य अडियो पुस्ता पछि। तिनीहरूले एउटै टुक्रा भित्र सिङ्क्रोनाइज्ड नेटिभ ध्वनिहरू सिर्जना गर्न सकेनन्, जसले पूर्ण स्वचालित परिणामहरू खोज्नेहरूका लागि समस्या खडा गर्‍यो। Veo ३ ले त्यो चुनौती समाधान गर्छ र गुगललाई अग्रणी बनाउँछ अडियोभिजुअल एआईको दौडमा, सोरा बाइ ओपनएआई जस्ता प्रस्तावहरू भन्दा पनि अगाडि, जसले भिडियोहरूको प्रारम्भिक पुस्तामा अडियो एकीकृत गर्न सफल भएको छैन।

दृश्य गुणस्तरको सन्दर्भमा, बनावट, प्रकाश, र शैली प्रजनन शुद्धतामा छवि ४ द्वारा प्राप्त विवरणहरूले हालको छवि एआई मापदण्डहरू भन्दा बढी छ।। छविहरू भित्रै राम्रोसँग लेखिएको पाठ र जटिल ग्राफिक तत्वहरू उत्पन्न गर्ने क्षमताले कलात्मक सिर्जनादेखि व्यावसायिक ग्राफिक डिजाइनसम्म, मनोरञ्जनात्मक र शैक्षिक अनुप्रयोगहरू सहित प्रयोगको सम्भावनाहरू बढाउँछ।

संयुक्त क्षमताहरू: असीमित वास्तविक रचनात्मकता

4 छवि

गुगलको दृष्टिकोणको भिन्नता तत्व यसका मोडेलहरू एकअर्कासँग कसरी संयोजन हुन्छन् भन्ने कुरामा निहित छ। फ्लो र जेमिनीको कारणले गर्दा Veo ३ र Imagen ४ ले सँगै काम गर्न सक्छन्।, रचनात्मक प्रवाहहरूलाई सक्षम पार्दै जहाँ तपाईं स्थिर छविबाट सुरु गर्न सक्नुहुन्छ, यसलाई एनिमेटेड दृश्यमा रूपान्तरण गर्न सक्नुहुन्छ, अडियो थप्न सक्नुहुन्छ, र व्यावसायिक भिडियो सिर्जना गर्न यसलाई फाइन-ट्यून गर्न सक्नुहुन्छ। यो क्रस-प्लेटफर्म एकीकरणले गुगललाई विद्यार्थीहरू, रचनात्मक पेशेवरहरू, विज्ञापन एजेन्सीहरू, वा नयाँ दृश्य क्षेत्रहरू सजिलै र प्रभावकारी रूपमा अन्वेषण गर्न चाहने जो कोहीको लागि आदर्श साझेदार बनाउँछ।

इकोसिस्टममा लिरिया २ जस्ता अन्य प्रविधिहरू पनि समावेश छन्, जुन निम्नका लागि डिजाइन गरिएको हो: अनुकूली संगीत पुस्ता जसले भिडियोहरूको संक्रमण र भावनाहरूलाई बुद्धिमानी र सुसंगत तरिकाले साथ दिन्छ। यसले चक्र पूरा गर्छ र ध्वनि बैंक वा बाह्य सामग्रीको सहारा बिना नै स्टुडियो-गुणस्तरका टुक्राहरूको उत्पादनको लागि अनुमति दिन्छ।

विकासकर्ताहरू र व्यवसायहरूका लागि, एपीआई र सामग्री व्यवस्थापन उपकरणहरूले यी समाधानहरूलाई अन्तिम उत्पादनहरू, अनुकूलित सेवाहरू, एपहरू र डिजिटल प्लेटफर्महरूमा एकीकृत गर्न सजिलो बनाउँछन्, जसले शिक्षा, सञ्चार, स्वास्थ्य सेवा र मनोरञ्जन जस्ता विविध क्षेत्रहरूमा नवीनतालाई बढावा दिन्छ।

गुगल को रूपमा अवस्थित छ रचनात्मक कृत्रिम बुद्धिमत्तामा बेन्चमार्क, पहिले विज्ञान कथा जस्तो लाग्ने सम्भावनाहरू खोल्दै। को संयोजन नियन्त्रण, यथार्थवाद र अनुकूलन एकीकृत पारिस्थितिक प्रणालीमा, यसले दृश्य, अडियो र ग्राफिक सामग्री उत्पादन गर्नको लागि नयाँ मानक सेट गर्दछ, जसको विभिन्न क्षेत्रहरूमा र सिर्जनाकर्ताहरूले आफ्ना विचारहरू उत्पादन गर्ने र साझा गर्ने तरिकामा ठूलो सम्भावित प्रभाव पर्दछ।

नोटबुकएलएम एन्ड्रोइड-१
सम्बन्धित लेख:
NotebookLM अब एन्ड्रोइडमा उपलब्ध छ: यो सबै गुगलको एआई एपको बारेमा हो जसले तपाईंको नोटहरू सिर्जना गर्न, सारांशित गर्न र सुन्न मद्दत गर्दछ।