NVIDIA Fugatto: ध्वनि के भविष्य को बदलने के लिए अभिनव AI

आखिरी अपडेट: 25/11/2024

एनवीडिया फुगाट्टो-1

NVIDIA की बदौलत कृत्रिम बुद्धिमत्ता की दुनिया ने फिर से एक प्रभावशाली छलांग लगाई है, जिसे फुगाट्टो ने प्रस्तुत किया है, एक अवंत-गार्डे मॉडल जो ध्वनियों के उत्पन्न होने और परिवर्तित होने के तरीके में क्रांतिकारी बदलाव लाने का वादा करता है। यह टूल पेश करने के लिए डिज़ाइन किया गया है संगीत, वीडियो गेम और विज्ञापन जैसे क्षेत्रों में उन्नत समाधान. स्क्रैच से ऑडियो को बदलने और बनाने की अद्वितीय क्षमताओं के साथ, फुगाटो का लक्ष्य एक सच्चा तकनीकी रत्न बनना है।

फुगाट्टो नाम की उत्पत्ति शास्त्रीय संगीत शब्दों से हुई है, एक फ्यूग्यू की जटिलता और चालाकी को उजागर करता है, लेकिन आधुनिक ध्वनि वातावरण पर लागू होता है। अगर आपने कभी कल्पना की है एक साधारण विवरण से एक गीत बनाएं या किसी मौजूदा ध्वनि को पूरी तरह से नए में बदल दें, यह AI ऐसा करने में सक्षम है।

एक मशीन जो नवीनता और परिशुद्धता को जोड़ती है

NVIDIA Fugatto टेक्स्ट से ऑडियो उत्पन्न करने की अपनी क्षमता के लिए जाना जाता है. जैज़ लय के साथ एक उदास पियानो धुन से लेकर एक तूफ़ान तक जो पक्षियों के चहचहाने के साथ भोर में बदल जाता है - संभावनाएँ व्यावहारिक रूप से असीमित हैं। इसकी अनुमान तकनीक, जिसे कंपोज़ेबलएआरटी कहा जाता है, आपको अनुमति देती है पहले से सीखे गए आदेशों को मर्ज करें अद्वितीय, कस्टम ध्वनियाँ बनाने के लिए जो मूल प्रशिक्षण डेटा तक सीमित नहीं हैं।

विशेष सामग्री - यहां क्लिक करें  कौन सा स्थानीय AI मामूली पीसी पर बेहतर प्रदर्शन करता है: एलएम स्टूडियो बनाम ओलामा

इसकी एक और क्रांतिकारी विशेषता मौजूदा ऑडियो का संशोधन है. इसका अर्थ क्या है? एक ध्वनि फ़ाइल लोड करने और उसके उच्चारण या भावनात्मक स्वर को बदलने में सक्षम होने की कल्पना करें, या एक गिटार की धुन लें और इसे सेलो टुकड़े में बदल दें। एक प्रदर्शन में तो ये संभव भी था पियानो की पंक्ति को इस प्रकार बदलें कि यह किसी मानव स्वर में गाए जाने जैसा लगे. अनुप्रयोगों में मूवी प्रभाव बनाने से लेकर उन्नत शैक्षिक उपकरण तक शामिल हैं।

उत्पादन में फुगाट्टो का उपयोग करना

रचनात्मक उद्योग में फुगाट्टो की क्षमता

फुगाटो का उद्देश्य संगीत, सिनेमा या वीडियो गेम जैसे रचनात्मक क्षेत्रों में क्रांति लाना है। NVIDIA में एप्लाइड डीप लर्निंग रिसर्च के उपाध्यक्ष ब्रायन कैटनज़ारो ने इस पर प्रकाश डाला "जेनरेटिव एआई संगीत और ध्वनि डिज़ाइन को मौलिक रूप से बदलने के लिए नियत है". क्रिएटर्स ही नहीं कर पाएंगे नियमित कार्यों को स्वचालित करें, लेकिन पूरी तरह से नई और अनुकूली ध्वनियों के साथ भी प्रयोग करें।

उदाहरण के लिए, गेम डेवलपर जनरेट करने के लिए फुगाट्टो का उपयोग कर सकते हैं गतिशील प्रभाव जो वास्तविक समय में परिवर्तनों पर प्रतिक्रिया करते हैं खेल के भीतर. इसी तरह, संगीतकार और निर्माता भी ऐसा कर सकते हैं प्रोटोटाइप गाने जल्दी से, महंगे उपकरण या लंबे सत्र की आवश्यकता के बिना व्यवस्था और वेरिएंट जोड़ना।

विशेष सामग्री - यहां क्लिक करें  द वेलवेट सनडाउन: स्पॉटिफाई पर असली बैंड या एआई-निर्मित संगीत घटना?

प्रशिक्षण और नैतिक चुनौतियों के पीछे क्या है?

NVIDIA के अनुसार, यह मॉडल रहा है 32 एच100 एक्सेलेरेटर के साथ डीजीएक्स सर्वर का उपयोग करके ओपन सोर्स डेटा पर प्रशिक्षित किया गया और कुल 2.500 बिलियन मापदंडों का प्रसंस्करण। हालाँकि, यह सब अच्छी खबर नहीं है। कंपनी ने इसके संकेत दिये हैं फुगाट्टो के सार्वजनिक कार्यान्वयन पर अभी भी बहस चल रही है, क्योंकि नैतिक चिंताएँ एक महत्वपूर्ण बाधा हैं।

जेनेरेटिव तकनीक के संभावित दुरुपयोग के डर से, जैसे नकली सामग्री बनाना, गलत सूचना के लिए आवाजों में हेरफेर करना, या कॉपीराइट उल्लंघन ने एनवीआईडीआईए को सतर्क रुख अपनाने के लिए प्रेरित किया है। हालाँकि फ़ुगाटो खुले डेटासेट का उपयोग करता है, लेकिन यह स्पष्ट नहीं है कि क्या यह ऐसी सामग्री उत्पन्न कर सकता है बौद्धिक संपदा अधिकारों का उल्लंघन करना या मौजूदा कलाकारों की आवाज़ या संगीत को खतरनाक तरीके से पुन: पेश करना.

फुगाटो के भविष्य पर एक नजर

यह मॉडल जेनेरेटिव एआई की दुनिया में कोई अलग मामला नहीं है। Google या मेटा जैसी कंपनियों ने भी समान प्रौद्योगिकियां विकसित की हैं, हालांकि अलग-अलग दृष्टिकोण के साथ। उदाहरण के लिए, Google ने MusicLM पेश किया, जो एक ऐसी प्रणाली है जो पाठ से संगीत उत्पन्न करने में सक्षम है, लेकिन साहित्यिक चोरी से संबंधित कानूनी समस्याओं के कारण इसे सार्वजनिक नहीं करने का निर्णय लिया गया।

विशेष सामग्री - यहां क्लिक करें  ओपनएआई ने गूगल जेमिनी 3 के प्रयासों का जवाब देने के लिए GPT-5.2 को गति दी

चुनौतियों के बावजूद, फुगाटो दर्शाता है कि कृत्रिम बुद्धिमत्ता का रुझान किस ओर इशारा करता है बहुकार्यात्मक उपकरण. जबकि पहले विशिष्ट कार्यों के लिए कई मॉडलों की आवश्यकता होती थी, अब एक एकल प्रणाली की आवश्यकता हो सकती है एकाधिक ऑपरेशन निष्पादित करें, संगीत को संश्लेषित करने से लेकर अनुकूलन की अभूतपूर्व डिग्री के साथ ऑडियो को बदलने तक।

हालाँकि इसके बाज़ार में लॉन्च की अभी भी कोई निश्चित तारीख नहीं है, लेकिन फ़ुगाटो एक बेंचमार्क के रूप में उभर रहा है कि जेनेरिक एआई प्रौद्योगिकियाँ क्या हासिल कर सकती हैं। खेल से लेकर संगीत तक रचनात्मक उद्योगों को इस मॉडल में एक सहयोगी मिलेगा जो न केवल तकनीकी प्रयासों को कम करेगा, बल्कि कलात्मक संभावनाओं की अभूतपूर्व चौड़ाई के द्वार भी खोलेगा।