- जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओ गुगलच्या एआय सह व्हॉइस संभाषणांची नैसर्गिकता, अचूकता आणि तरलता सुधारते.
- हे मॉडेल बाह्य फंक्शन्सना कॉल्स सुधारते, जटिल सूचनांचे चांगल्या प्रकारे पालन करते आणि दीर्घ संवादांमध्ये संदर्भ अधिक चांगल्या प्रकारे राखते.
- यात रिअल-टाइम व्हॉइस-टू-व्हॉइस भाषांतर समाविष्ट आहे, ज्यामध्ये ७० हून अधिक भाषा आणि २००० भाषांतर जोड्यांसाठी समर्थन आहे, जे स्वर आणि लय जपते.
- ते आधीच गुगल एआय स्टुडिओ, व्हर्टेक्स एआय, जेमिनी लाईव्ह आणि सर्च लाईव्हमध्ये एकत्रित केले आहे आणि गुगल आणि तृतीय-पक्ष उत्पादनांमध्ये तैनात केले जात आहे.
गुगलने त्यांच्या कृत्रिम बुद्धिमत्ता परिसंस्थेच्या उत्क्रांतीत आणखी एक पाऊल टाकले आहे ज्यामध्ये एक प्रमुख अपडेट आहे जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओहे मॉडेल रिअल टाइममध्ये ऑडिओ समजून घेण्यासाठी आणि जनरेट करण्यासाठी डिझाइन केलेले आहे. हे तंत्रज्ञान व्हॉइस इंटरॅक्शन अधिक प्रभावी बनवण्यासाठी सज्ज आहे. मानवी संवादाच्या जवळदैनंदिन जीवनात आणि व्यावसायिक वातावरणातही.
सहाय्यकाच्या प्रतिसादांना "आवाज देणे" आणि इतर पर्यायांशी तुलना करण्यापासून दूर व्हॉइस एआय तुलनाहे मॉडेल यासाठी डिझाइन केले आहे नैसर्गिक, कार्यात्मक आणि संदर्भात्मक संवाद टिकवून ठेवण्यासाठी, संभाषणाचा प्रवाह खंडित न करता अतिरिक्त माहिती कधी मिळवायची याबद्दल निर्णय घेणे आणि जटिल सूचनांचे व्यवस्थापन करणेयासह, गुगल त्यांच्या एआय सेवांशी संवाद साधण्याचे प्राथमिक माध्यम म्हणून आवाजाची वचनबद्धता दृढ करते.
जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओ म्हणजे काय आणि ते कुठे वापरले जात आहे?
जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओ ही गुगलच्या नेटिव्ह ऑडिओ मॉडेलची नवीनतम आवृत्ती आहे, जी सक्षम आहे ऐका, समजून घ्या आणि आवाजाने प्रतिसाद द्या रिअल टाइममध्ये. केवळ स्पीच सिंथेसिसवर लक्ष केंद्रित करणाऱ्या मागील सिस्टीमच्या विपरीत, हे इंजिन ऑडिओसह एकाच वेळी इनपुट आणि आउटपुट म्हणून काम करण्यासाठी डिझाइन केलेले आहे, ज्यामुळे ते संभाषण सहाय्यकांसाठी विशेषतः योग्य बनते.
कंपनीने आधीच ही आवृत्ती तिच्या अनेक प्रमुख प्लॅटफॉर्ममध्ये समाविष्ट केली आहे: गुगल एआय स्टुडिओ, व्हर्टेक्स एआय, जेमिनी लाईव्ह आणि सर्च लाईव्हयाचा अर्थ असा की विकासक आणि कंपन्या दोघेही बांधकाम सुरू करू शकतात प्रगत व्हॉइस एजंट्स त्याच तंत्रज्ञानावर जे गुगलच्या नवीनतम संभाषणात्मक एआय अनुभवांना सामर्थ्य देते.
प्रत्यक्षात, वापरकर्त्यांना अनुभवांमध्ये हे बदल लक्षात येतील जसे की मिथुन लाइव्ह (सहाय्यकासह व्हॉइस संभाषण मोड) किंवा मध्ये थेट शोधा गुगल अॅपच्या एआय मोडमध्ये, जिथे बोललेले प्रतिसाद आवाज करतात अधिक अर्थपूर्ण, स्पष्ट आणि चांगले संदर्भितशिवाय, तुम्ही असिस्टंटला संभाषणाची गती नैसर्गिकरित्या समायोजित करून अधिक हळू बोलण्यास सांगू शकता.
गुगलच्या पलीकडे, या क्षमता तृतीय पक्षांना उपलब्ध करून देण्यात आल्या आहेत व्हर्टेक्स एआय आणि जेमिनी एपीआयजेणेकरून इतर कंपन्या तयार करू शकतील स्वयंरोजगार एजंट व्हॉइस, व्हर्च्युअल रिसेप्शनिस्ट किंवा सहाय्य साधने ज्यांच्याकडे आवाजाची परिष्काराची पातळी समान आहे.
अधिक अचूक बाह्य कार्ये आणि चांगले-रेट केलेले मॉडेल

जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओने ज्या क्षेत्रात सर्वात जास्त प्रगती केली आहे त्यापैकी एक म्हणजे त्याची क्षमता बाह्य फंक्शन्स कॉल करासोप्या भाषेत सांगायचे तर, निर्णय घेण्याच्या बाबतीत हे मॉडेल आता अधिक विश्वासार्ह झाले आहे. जेव्हा तुम्हाला रिअल-टाइम सेवा किंवा डेटाचा सल्ला घ्यावा लागतोउदाहरणार्थ, अपडेट केलेली माहिती पुनर्प्राप्त करण्यासाठी, ऑर्डरची स्थिती तपासण्यासाठी किंवा स्वयंचलित प्रक्रिया सुरू करण्यासाठी.
गुगलने असे नमूद केले आहे की या अतिरिक्त अचूकतेमुळे कृती सुरू करताना कमी चुका होतात, ज्यामुळे सहाय्यक कमी पडतो किंवा अकाली कृती करतो अशा विचित्र परिस्थिती कमी होतात. ही प्रणाली सक्षम आहे ऑडिओ प्रतिसादात पुनर्प्राप्त डेटा घाला. वापरकर्त्याला संभाषणात अचानक कोणताही कट जाणवल्याशिवाय.
या प्रगतीचे मोजमाप करण्यासाठी, कंपनीने मॉडेलला अशा चाचण्या दिल्या आहेत जसे की कॉम्प्लेक्सफंकबेंच ऑडिओ, एक मूल्यांकन खंडपीठ जे मर्यादांसह बहु-स्तरीय कार्यांवर लक्ष केंद्रित करते. या परिस्थितीत, जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओने सुमारे एक साध्य केले आहे जटिल कार्ये अंमलात आणण्यात ७१.५% यश दर, या प्रकारच्या वापरात मागील पुनरावृत्ती आणि इतर स्पर्धात्मक मॉडेल्सपेक्षा ते वर ठेवून.
ही कामगिरी विशेषतः अशा संदर्भात प्रासंगिक आहे जिथे अत्याधुनिक स्वयंचलित कार्यप्रवाह आवश्यक आहेत, जसे की कॉल सेंटर, तांत्रिक सहाय्य किंवा व्यवहार प्रक्रिया (उदाहरणार्थ, आर्थिक किंवा प्रशासकीय कामे) जिथे प्रत्येक पायरी मागील पायरीवर अवलंबून असते आणि चुकांना फारशी जागा नसते.
चांगले सूचना ट्रॅकिंग आणि अधिक सुसंगत संभाषण धागे
अपडेटचा आणखी एक फोकस मॉडेल कसा आहे यावर आहे सूचनांचा अर्थ लावा आणि त्यांचा आदर करा जे त्याला अंतिम वापरकर्ते आणि विकासक दोघांकडून मिळते. गुगलने जारी केलेल्या आकडेवारीनुसार, सूचनांचे पालन दर ८४% वरून घसरला आहे ९०% चिकटपणायाचा अर्थ असा की असे प्रतिसाद जे प्रत्यक्षात मागितलेल्या उत्तरांशी अधिक सुसंगत आहेत.
जिथे आवश्यक आहे तिथे ही झेप महत्त्वाची आहे. जटिल सूचना, अनेक पायऱ्या किंवा अनेक अटीउदाहरणार्थ, विशिष्ट शैलीत स्पष्टीकरण मागताना, विशिष्ट वेळेच्या मर्यादांसह सारांश मागताना किंवा अनेक जोडलेल्या निर्णयांवर अवलंबून असलेला कार्यप्रवाह सेट करताना.
याच्याशी संबंधित, जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओने क्षमता प्राप्त केली आहे मागील संदेशांचा संदर्भ मिळवाबहु-वळणाच्या संभाषणांमध्ये, मॉडेल काय सांगितले गेले आहे, वापरकर्त्याने सादर केलेले बारकावे आणि संपूर्ण संवादात केलेल्या दुरुस्त्या चांगल्या प्रकारे लक्षात ठेवते.
संभाषणात्मक स्मरणशक्तीतील या सुधारणेमुळे तीच माहिती वारंवार सांगण्याची गरज कमी होते आणि परस्परसंवाद अधिक प्रभावी होण्यास मदत होते. नितळ आणि कमी निराशाजनकप्रत्येक उत्तराने सुरुवात करण्याऐवजी, ज्या व्यक्तीने विषय सोडून दिला होता तिथूनच तो विषय पुन्हा सुरू केला तरच हा अनुभव अधिक जवळचा असतो.
वास्तविक जगातील वापराची प्रकरणे: ई-कॉमर्सपासून ते वित्तीय सेवांपर्यंत
अंतर्गत मेट्रिक्सच्या पलीकडे, जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओचा व्यावहारिक परिणाम स्पष्ट करण्यासाठी गुगल ग्राहकांच्या उदाहरणांवर अवलंबून आहे. ई-कॉमर्स क्षेत्रात, शॉपिफायने या क्षमता त्यांच्या असिस्टंटमध्ये समाविष्ट केल्या आहेत. साथ देणारा मित्र किंवा सेवक", जे किरकोळ विक्रेत्यांना त्यांचे स्टोअर व्यवस्थापित करण्यास आणि व्यवसायाबद्दलच्या शंका दूर करण्यास मदत करते.
कंपनीच्या मते, बरेच वापरकर्ते ते हे देखील विसरतात की ते एका एआयशी बोलत आहेत. काही मिनिटांच्या संभाषणानंतर, वापरकर्त्याने दीर्घ चौकशीनंतर बॉटचे आभारही मानले. या प्रकारच्या प्रतिक्रियेवरून असे दिसून येते की नैसर्गिकता आणि स्वरातील प्रगतीमुळे तंत्रज्ञान सूक्ष्मपणे मागे पडत आहे.
आर्थिक क्षेत्रात, प्रदाता युनायटेड होलसेल मॉर्टगेज (UWM) गृहकर्जाशी संबंधित प्रक्रिया व्यवस्थापित करण्यासाठी कंपनीने हे मॉडेल त्यांच्या "मिया" असिस्टंटमध्ये एकत्रित केले आहे. जेमिनी २.५ आणि इतर अंतर्गत प्रणालींच्या संयोजनासह, कंपनीचा दावा आहे की १४,००० हून अधिक कर्जे प्रक्रिया केली त्याच्या भागीदारांसाठी, अचूकता आणि नियामक अनुपालन आवश्यक असलेल्या स्वयंचलित परस्परसंवादांवर अवलंबून राहणे.
त्यांच्या बाजूने, स्टार्टअप न्यूओ.एआय ते व्हर्टेक्स एआय द्वारे जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओ वापरते जे त्याच्या व्हर्च्युअल रिसेप्शनिस्टहे व्हॉइस असिस्टंट गोंगाटाच्या वातावरणातही मुख्य वक्त्याला ओळखण्यास, संभाषणादरम्यान भाषा बदलण्यास आणि भावनिक बारकाव्यांसह एक नैसर्गिक आवाज नोंदणीजे ग्राहक सेवेत महत्त्वाचे आहे.
रिअल-टाइम व्हॉइस-टू-व्हॉइस भाषांतर: अधिक भाषा आणि अधिक बारकावे
या आवृत्तीतील सर्वात उल्लेखनीय भर म्हणजे लाइव्ह व्हॉइस-टू-व्हॉइस भाषांतरसुरुवातीला गुगल ट्रान्सलेट अॅपमध्ये एकत्रित केलेले, जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओ केवळ ऑडिओला मजकुरात रूपांतरित करणे किंवा खंडित भाषांतरे ऑफर करण्यापलीकडे जाते, ज्यामुळे अधिक तल्लीन करणारा अनुभव मिळतो. एकाच वेळी अनुवाद मानवी अर्थ लावण्याच्या जवळ.
ही प्रणाली खालील मोडमध्ये काम करू शकते: सतत ऐकणेयामुळे वापरकर्त्याला हेडफोन्स लावता येतात आणि त्यांच्या आजूबाजूला काय घडत आहे ते त्यांच्या भाषेत भाषांतरित करता येते, प्रत्येक वाक्यासाठी विराम देण्याची किंवा बटणे दाबण्याची गरज न पडता. प्रवास करताना, आंतरराष्ट्रीय बैठकांना उपस्थित राहताना किंवा अनेक भाषांचा समावेश असलेल्या कार्यक्रमांमध्ये हा पर्याय उपयुक्त ठरू शकतो.
परिस्थितींचा देखील विचार केला गेला आहे द्वि-मार्गी संभाषणउदाहरणार्थ, जर एक व्यक्ती इंग्रजीत आणि दुसरी हिंदीत बोलत असेल, तर हेडफोन्स रिअल टाइममध्ये इंग्रजी भाषांतर वाजवतात, तर पहिली व्यक्ती बोलणे संपवताच फोन हिंदी भाषांतर वाजवतो. कोण बोलत आहे यावर अवलंबून सिस्टम स्वयंचलितपणे आउटपुट भाषा बदलते, वापरकर्त्याला वळणांमध्ये सेटिंग्ज बदलण्याची आवश्यकता नसते.
या फंक्शनच्या सर्वात संबंधित तपशीलांपैकी एक म्हणजे त्याची क्षमता मूळ स्वर, लय आणि स्वर जपा स्पीकरकडून. यामुळे भाषांतरे कमी रोबोटिक आणि बोलणाऱ्या व्यक्तीच्या आवाजाच्या शैलीच्या जवळ येतात, ज्यामुळे ते समजणे सोपे होते आणि अनुभव अधिक नैसर्गिक होतो.
भाषा समर्थन, स्वयंचलित शोध आणि आवाज फिल्टरिंग
भाषिक व्याप्तीच्या बाबतीत, जेमिनी २.५-आधारित व्हॉइस ट्रान्सलेशन यासाठी समर्थन देते ७० हून अधिक भाषा आणि सुमारे २००० भाषांतर जोड्यामॉडेलचे जागतिक ज्ञान त्याच्या बहुभाषिक आणि स्थानिक ऑडिओ क्षमतांसह एकत्रित करून, ते विविध प्रकारच्या भाषा संयोजनांना कव्हर करू शकते, ज्यामध्ये इतर साधनांद्वारे नेहमीच प्राधान्य दिले जात नाही अशा अनेक भाषांचा समावेश आहे.
सिस्टम व्यवस्थापित करू शकते बहुभाषिक नोंद एकाच सत्रात, वापरकर्त्याला प्रत्येक वेळी भाषा बदलताना सेटिंग्ज मॅन्युअली समायोजित करण्याची आवश्यकता नसताना ते एकाच वेळी एकापेक्षा जास्त भाषा समजते. हे वैशिष्ट्य विशेषतः अशा संभाषणांमध्ये उपयुक्त आहे जिथे अनेक भाषा नैसर्गिकरित्या मिसळल्या जातात.
धन्यवाद बोलल्या जाणाऱ्या भाषेचा स्वयंचलित शोधवापरकर्त्याला त्यांचा संवादक कोणत्या भाषेत संवाद साधत आहे हे आधीच माहित असण्याची गरज नाही: मॉडेल भाषा ओळखते आणि लगेच भाषांतर करण्यास सुरुवात करते, घर्षण आणि मध्यवर्ती पावले कमी करते.
जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओमध्ये यासाठी यंत्रणा देखील समाविष्ट आहेत आवाजाविरुद्ध मजबूतीते मुख्य आवाजाला प्राधान्य देण्यासाठी काही सभोवतालच्या ध्वनी फिल्टर करण्यास सक्षम आहे, ज्यामुळे गर्दीच्या रस्त्यांवर, मोकळ्या जागांवर किंवा पार्श्वसंगीत असलेल्या ठिकाणी अधिक आरामदायी संभाषण करता येते.
युरोपसाठी उपलब्धता, तैनाती आणि संभावना
या मॉडेलवर आधारित लाईव्ह व्हॉइस भाषांतर सध्या उपलब्ध आहे गुगल ट्रान्सलेट अॅपमधील बीटा टप्पा युनायटेड स्टेट्स, मेक्सिको आणि भारत सारख्या बाजारपेठांमधील अँड्रॉइड डिव्हाइसेससाठी. गुगलने पुष्टी केली आहे की ही सेवा हळूहळू अधिक प्रदेश आणि प्लॅटफॉर्मइतर मोबाइल सिस्टमसह.
समांतरपणे, जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओचे एकत्रीकरण मिथुन लाइव्ह आणि सर्च लाइव्ह युनायटेड स्टेट्समधून सुरुवात करून, हे अँड्रॉइड आणि आयओएसवरील गुगल अॅपच्या वापरकर्त्यांसाठी आणले जात आहे. ही वैशिष्ट्ये परिपक्व होत असताना आणि प्रारंभिक चाचणी आणि अनुकूलन टप्प्यातून जात असताना, ती इतर प्रदेशांमध्ये देखील येण्याची अपेक्षा आहे. अधिक देश, कदाचित युरोपियन बाजारपेठांसह, जिथे भाषांतर आणि व्हॉइस असिस्टंटची मागणी विशेषतः जास्त आहे.
गुगलने हा आवाज आणि भाषांतर अनुभव इतर उत्पादनांमध्ये समाविष्ट करण्याचा आपला हेतू देखील जाहीर केला आहे, ज्यामध्ये जेमिनी एपीआययेत्या काही महिन्यांत आणि वर्षांमध्ये, यामुळे पर्यटन, लॉजिस्टिक्स, शिक्षण आणि सार्वजनिक प्रशासन यासारख्या क्षेत्रातील युरोपियन कंपन्यांना त्यांच्या स्वतःच्या सेवांमध्ये या क्षमता थेट एकत्रित करण्याची दारे उघडतील.
विकासकांना सक्षम करण्यासाठी व्यापक धोरणाचा भाग म्हणून कंपनी ही नवीन वैशिष्ट्ये सादर करत आहे नैसर्गिक आवाजाने संभाषणात्मक घटक तयार करा आतापासून, जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओ आणि २.५ फ्लॅश आणि प्रो कुटुंबातील इतर मॉडेल्सचा फायदा घेत अधिक नियंत्रित व्हॉइस जनरेशन (टोन, हेतू, वेग इ. समायोजित करणे) आणि फ्रेम्स जसे की एजंटिक एआय फाउंडेशन.
या सुधारणांसह, गुगल या कल्पनेला बळकटी देते की कृत्रिम बुद्धिमत्तेसह संवाद साधण्याचे मुख्य माध्यम म्हणजे आवाज: ग्राहकांचे कॉल हाताळणाऱ्या आणि जटिल ऑपरेशन्सवर प्रक्रिया करणाऱ्या सहाय्यकांपासून ते एकाच वेळी भाषांतर प्रणालींपर्यंत जे भाषा सामायिक करत नाहीत अशा लोकांमध्ये संवाद साधण्यास मदत करतात. जेमिनी २.५ फ्लॅश नेटिव्ह ऑडिओ या प्रयत्नाच्या केंद्रस्थानी आहे, जो आवाजाचे आकलन आणि अभिव्यक्ती दोन्ही सुधारतो. युरोप आणि इतर बाजारपेठांमध्ये पूर्ण तैनातीची वाट पाहत असताना, दैनंदिन जीवनात तंत्रज्ञान अधिक उपयुक्त आणि कमी घुसखोर बनवण्यासाठी.
मी एक तंत्रज्ञान उत्साही आहे ज्याने त्याच्या "गीक" आवडींना व्यवसायात बदलले आहे. मी माझ्या आयुष्यातील 10 वर्षांहून अधिक काळ अत्याधुनिक तंत्रज्ञानाचा वापर करून आणि सर्व प्रकारच्या कार्यक्रमांना निव्वळ उत्सुकतेपोटी घालवले आहे. आता मी कॉम्प्युटर टेक्नॉलॉजी आणि व्हिडिओ गेम्समध्ये स्पेशलायझेशन केले आहे. याचे कारण असे की, मी 5 वर्षांहून अधिक काळ तंत्रज्ञान आणि व्हिडिओ गेमवरील विविध वेबसाइट्ससाठी लिहित आहे, प्रत्येकाला समजेल अशा भाषेत तुम्हाला आवश्यक असलेली माहिती देण्यासाठी लेख तयार करत आहे.
तुम्हाला काही प्रश्न असल्यास, माझे ज्ञान विंडोज ऑपरेटिंग सिस्टीम तसेच मोबाइल फोनसाठी अँड्रॉइडशी संबंधित सर्व गोष्टींपासून आहे. आणि माझी वचनबद्धता तुमच्याशी आहे, मी नेहमी काही मिनिटे घालवण्यास तयार आहे आणि या इंटरनेटच्या जगात तुम्हाला पडणाऱ्या कोणत्याही प्रश्नांचे निराकरण करण्यात मदत करण्यास तयार आहे.
