- एसएएम 3 लाखों अवधारणाओं की शब्दावली के साथ पाठ और दृश्य उदाहरणों द्वारा निर्देशित छवि और वीडियो विभाजन का परिचय देता है।
- एसएएम 3डी आपको खुले मॉडलों का उपयोग करके एक ही छवि से 3डी में वस्तुओं, दृश्यों और मानव शरीर का पुनर्निर्माण करने की अनुमति देता है।
- सेगमेंट एनीथिंग प्लेग्राउंड में व्यावहारिक और रचनात्मक टेम्पलेट्स के साथ तकनीकी ज्ञान के बिना भी मॉडलों का परीक्षण किया जा सकता है।
- मेटा भार, चेकपॉइंट और नए मानक जारी करता है ताकि यूरोप और शेष विश्व के डेवलपर्स और शोधकर्ता इन क्षमताओं को अपनी परियोजनाओं में एकीकृत कर सकें।
मेटा ने अपनी प्रतिबद्धता में एक और कदम उठाया है कंप्यूटर विज़न पर लागू कृत्रिम बुद्धिमत्ता साथ सैम 3 और सैम 3डी का प्रक्षेपण, दो मॉडल जो सेगमेंट एनीथिंग परिवार का विस्तार करते हैं और जो उनका लक्ष्य फ़ोटो और वीडियो के साथ काम करने के हमारे तरीके को बदलना हैप्रयोगशाला प्रयोग से कहीं आगे, कंपनी चाहती है कि इन उपकरणों का उपयोग तकनीकी पृष्ठभूमि के बिना पेशेवरों और उपयोगकर्ताओं दोनों द्वारा किया जाए।
इस नई पीढ़ी के साथ, मेटा ध्यान केंद्रित कर रहा है वस्तु पहचान और विभाजन में सुधार और लाने में त्रि-आयामी पुनर्निर्माण को अधिक व्यापक दर्शकों तक पहुँचानास्पेन और शेष यूरोप में ई-कॉमर्स के लिए वीडियो संपादन से लेकर उत्पाद विज़ुअलाइज़ेशन तक, कंपनी एक ऐसे परिदृश्य की कल्पना करती है जिसमें आप जो करना चाहते हैं, उसे शब्दों में बता देना ही AI के लिए अधिकांश भारी काम करने के लिए पर्याप्त है।.
पिछले संस्करणों की तुलना में SAM 3 क्या प्रदान करता है?
SAM 3 को प्रत्यक्ष विकास के रूप में तैनात किया गया है मेटा द्वारा 2023 और 2024 में प्रस्तुत किए गए विभाजन मॉडल, जिन्हें SAM 1 और SAM 2 के रूप में जाना जाता है। उन शुरुआती संस्करणों में यह पहचानने पर ध्यान केंद्रित किया गया था कि कौन से पिक्सेल प्रत्येक ऑब्जेक्ट से संबंधित हैं, मुख्य रूप से डॉट्स, बॉक्स या मास्क जैसे दृश्य संकेतों का उपयोग करते हुए, और SAM 2 के मामले में, लगभग वास्तविक समय में वीडियो में वस्तुओं का अनुसरण किया जाता है।
अब मुख्य नया विकास यह है कि SAM 3 समझता है समृद्ध और सटीक पाठ संकेतसिर्फ़ सामान्य लेबल नहीं। जहाँ पहले "कार" या "बस" जैसे सरल शब्दों का इस्तेमाल होता था, वहीं नया मॉडल कहीं ज़्यादा विशिष्ट विवरणों पर प्रतिक्रिया देने में सक्षम है, उदाहरण के लिए "पीली स्कूल बस" या "दोहरी पार्किंग वाली लाल कार"।
व्यवहार में, इसका मतलब यह है कि कुछ इस तरह लिखना पर्याप्त है “लाल बेसबॉल टोपी” ताकि सिस्टम किसी छवि या वीडियो में उस विवरण से मेल खाने वाले सभी तत्वों का पता लगा सके और उन्हें अलग कर सके। शब्दों के साथ परिष्कृत करने की यह क्षमता विशेष रूप से उपयोगी है पेशेवर संपादन संदर्भ, विज्ञापन या सामग्री विश्लेषण, जहां आपको अक्सर बहुत विशिष्ट विवरणों को देखना पड़ता है।
इसके अलावा, SAM 3 को एकीकृत करने के लिए डिज़ाइन किया गया है बड़े बहुविध भाषा मॉडलइससे आप सरल वाक्यांशों से आगे जाकर जटिल निर्देशों का उपयोग कर सकते हैं, जैसे: “लोग बैठे हैं लेकिन लाल टोपी नहीं पहने हैं” या "पैदल यात्री जो कैमरे की ओर देख रहे हैं लेकिन उनके पास बैकपैक नहीं है।" इस प्रकार के निर्देश में ऐसी शर्तें और बहिष्करण शामिल होते हैं जिन्हें हाल तक कंप्यूटर विज़न टूल में अनुवाद करना मुश्किल था।
SAM 3 मॉडल का प्रदर्शन और पैमाना

मेटा कम दिखाई देने वाले लेकिन महत्वपूर्ण हिस्से को भी उजागर करना चाहता था: तकनीकी प्रदर्शन और ज्ञान पैमाने मॉडल का। कंपनी के आंकड़ों के अनुसार, SAM 3, H200 GPU का उपयोग करके लगभग 30 मिलीसेकंड में एक सौ से अधिक पहचानी गई वस्तुओं वाली एक छवि को संसाधित करने में सक्षम है, जो कि मांगलिक वर्कफ़्लो के लिए आवश्यक गति के बहुत करीब है।
वीडियो के मामले में, फर्म आश्वासन देती है कि सिस्टम प्रदर्शन बनाए रखेगा वस्तुतः वास्तविक समय में लगभग पांच एक साथ वस्तुओं के साथ काम करते समय, यह चलती सामग्री को ट्रैक करने और विभाजित करने के लिए व्यवहार्य बनाता है, छोटे सोशल मीडिया क्लिप से लेकर अधिक महत्वाकांक्षी उत्पादन परियोजनाओं तक।
इस व्यवहार को प्राप्त करने के लिए, मेटा ने 100 से अधिक लोगों के साथ एक प्रशिक्षण आधार बनाया है। 4 मिलियन अद्वितीय अवधारणाएँबड़ी मात्रा में डेटा को लेबल करने में मदद करने के लिए एआई मॉडल के साथ मानव एनोटेटर्स को संयोजित करते हुए, मैनुअल और स्वचालित निरीक्षण का यह मिश्रण सटीकता और पैमाने को संतुलित करने का लक्ष्य रखता है - यह सुनिश्चित करने के लिए महत्वपूर्ण है कि मॉडल यूरोपीय, लैटिन अमेरिकी और अन्य बाजार संदर्भों में विविध इनपुट के लिए अच्छी तरह से प्रतिक्रिया दे।
कंपनी ने SAM 3 को इस नाम से तैयार किया है खंड कुछ भी संग्रहएआई की दृश्य समझ को बढ़ाने के लिए डिज़ाइन किए गए मॉडलों, बेंचमार्क और संसाधनों का एक समूह। इस लॉन्च के साथ "ओपन वोकैबुलरी" सेगमेंटेशन के लिए एक नया बेंचमार्क भी है, जो इस बात को मापने पर केंद्रित है कि सिस्टम प्राकृतिक भाषा में व्यक्त लगभग किसी भी अवधारणा को किस हद तक समझ सकता है।
संपादन, वाइब्स और अन्य मेटा टूल्स के साथ एकीकरण

तकनीकी घटक से परे, मेटा ने पहले ही शुरू कर दिया है SAM 3 को विशिष्ट उत्पादों में एकीकृत करें जो रोजमर्रा के उपयोग के लिए हैं। पहले गंतव्यों में से एक होगा संपादन, उनका वीडियो निर्माण और संपादन अनुप्रयोग, जहां विचार यह है कि उपयोगकर्ता एक सरल पाठ विवरण के साथ विशिष्ट लोगों या वस्तुओं का चयन कर सकता है और फुटेज के केवल उन हिस्सों पर प्रभाव, फिल्टर या परिवर्तन लागू कर सकता है।
एकीकरण के लिए एक और रास्ता मिलेगा मेटा एआई ऐप और मेटा.एआई प्लेटफ़ॉर्म के भीतर वाइब्सइस वातावरण में, टेक्स्ट सेगमेंटेशन को जनरेटिव टूल्स के साथ जोड़ा जाएगा, जिससे नए संपादन और रचनात्मक अनुभव तैयार किए जा सकेंगे, जैसे कि कस्टम बैकग्राउंड, मोशन इफेक्ट्स, या सोशल नेटवर्क के लिए डिज़ाइन किए गए चुनिंदा फोटो संशोधन, जो स्पेन और यूरोप के बाकी हिस्सों में बहुत लोकप्रिय हैं।
कंपनी का प्रस्ताव है कि ये क्षमताएं केवल व्यावसायिक अध्ययन तक ही सीमित न रहें, बल्कि... स्वतंत्र रचनाकार, छोटी एजेंसियां, और उन्नत उपयोगकर्ता जो रोज़ाना विज़ुअल कंटेंट के साथ काम करते हैं। प्राकृतिक भाषा में विवरण लिखकर दृश्यों को विभाजित करने की क्षमता, मैनुअल मास्क और लेयर्स पर आधारित पारंपरिक टूल्स की तुलना में सीखने की प्रक्रिया को कम करती है।
साथ ही, मेटा बाहरी डेवलपर्स के प्रति एक खुला दृष्टिकोण रखता है, जो यह सुझाव देता है कि तीसरे पक्ष के आवेदन - संपादन उपकरणों से लेकर खुदरा या सुरक्षा में वीडियो विश्लेषण के समाधान तक - SAM 3 पर भरोसा किया जा सकता है, जब तक कि कंपनी की उपयोग नीतियों का सम्मान किया जाता है।
सैम 3डी: एकल छवि से त्रि-आयामी पुनर्निर्माण

दूसरी बड़ी खबर यह है सैम 3डीएक प्रणाली जिसे प्रदर्शन करने के लिए डिज़ाइन किया गया है त्रि-आयामी पुनर्निर्माण 2D इमेज से शुरुआत। अलग-अलग कोणों से कई तस्वीरें लेने की बजाय, इस मॉडल का उद्देश्य एक ही तस्वीर से एक विश्वसनीय 3D प्रस्तुति तैयार करना है, जो उन लोगों के लिए खास तौर पर दिलचस्प है जिनके पास विशेष स्कैनिंग उपकरण या वर्कफ़्लो नहीं हैं।
SAM 3D में दो ओपन-सोर्स मॉडल शामिल हैं जिनके अलग-अलग कार्य हैं: SAM 3D ऑब्जेक्ट्सवस्तुओं और दृश्यों के पुनर्निर्माण पर ध्यान केंद्रित किया, और सैम 3डी बॉडी, मानव आकृति और शरीर का अनुमान लगाने के लिए तैयार। यह पृथक्करण इस प्रणाली को उत्पाद कैटलॉग से लेकर स्वास्थ्य या खेल अनुप्रयोगों तक, बहुत अलग-अलग उपयोग के मामलों में अनुकूलित करने की अनुमति देता है।
मेटा के अनुसार, SAM 3D ऑब्जेक्ट्स एक चिह्नित करता है AI-निर्देशित 3D पुनर्निर्माण में नया प्रदर्शन मानकप्रमुख गुणवत्ता मानकों में पिछली विधियों को आसानी से पीछे छोड़ दिया गया है। परिणामों का अधिक गहन मूल्यांकन करने के लिए, कंपनी ने कलाकारों के साथ मिलकर SAM 3D आर्टिस्ट ऑब्जेक्ट्स तैयार किए हैं, जो एक ऐसा डेटासेट है जिसे विशेष रूप से विभिन्न प्रकार की छवियों और वस्तुओं के पुनर्निर्माण की विश्वसनीयता और विवरण का आकलन करने के लिए डिज़ाइन किया गया है।
यह प्रगति निम्नलिखित क्षेत्रों में व्यावहारिक अनुप्रयोगों के द्वार खोलती है: रोबोटिक्स, विज्ञान, खेल चिकित्सा, या डिजिटल रचनात्मकताउदाहरण के लिए, रोबोटिक्स में यह प्रणालियों को उन वस्तुओं के आयतन को बेहतर ढंग से समझने में मदद कर सकता है जिनके साथ वे अंतःक्रिया करते हैं; चिकित्सा या खेल अनुसंधान में, यह शरीर की मुद्रा और गति का विश्लेषण करने में मदद कर सकता है; और रचनात्मक डिजाइन में, यह एनीमेशन, वीडियो गेम या इमर्सिव अनुभवों के लिए 3D मॉडल बनाने के आधार के रूप में कार्य करता है।
पहले से ही दिखाई देने वाले पहले व्यावसायिक अनुप्रयोगों में से एक फ़ंक्शन है "कमरे में देखें" de फेसबुक मार्केटप्लेसइससे आप किसी फ़र्नीचर या सजावटी वस्तु को खरीदने से पहले उसकी वास्तविक कमरे में उसकी झलक देख सकते हैं। SAM 3D के साथ, मेटा इन प्रकार के अनुभवों को परिपूर्ण बनाने का प्रयास करता हैयह यूरोपीय ई-कॉमर्स के लिए अत्यधिक प्रासंगिक है, जहां अपेक्षाओं की पूर्ति न होने के कारण उत्पादों को वापस करने से लागत में वृद्धि होती है।
सेगमेंट एनीथिंग प्लेग्राउंड: प्रयोग करने का वातावरण

जनता को बिना कुछ इंस्टॉल किए इन क्षमताओं का परीक्षण करने की अनुमति देने के लिए, मेटा ने सक्षम किया है खंड कुछ भी खेल का मैदानयह एक वेब प्लेटफ़ॉर्म है जो आपको सीधे अपने ब्राउज़र से चित्र या वीडियो अपलोड करने और SAM 3 और SAM 3D के साथ प्रयोग करने की सुविधा देता है। इसका उद्देश्य यह है कि विज़ुअल AI में रुचि रखने वाला कोई भी व्यक्ति बिना किसी प्रोग्रामिंग ज्ञान के भी इसकी संभावनाओं का पता लगा सकता है।
SAM 3 के मामले में, प्लेग्राउंड वस्तुओं को विभाजित करने की अनुमति देता है छोटे वाक्यांश या विस्तृत निर्देशपाठ और, यदि वांछित हो, तो दृश्य उदाहरणों का संयोजन। इससे सामान्य कार्य सरल हो जाते हैं, जैसे लोगों, कारों, जानवरों या दृश्य के विशिष्ट तत्वों का चयन करना और उन पर विशिष्ट क्रियाएँ लागू करना, सौंदर्य प्रभावों से लेकर धुंधलापन या पृष्ठभूमि बदलने तक।
SAM 3D के साथ काम करते समय, प्लेटफ़ॉर्म इसे संभव बनाता है नए दृष्टिकोण से दृश्यों का अन्वेषण करेंवस्तुओं को पुनर्व्यवस्थित करें, त्रि-आयामी प्रभाव लागू करें, या वैकल्पिक दृश्य उत्पन्न करें। डिज़ाइन, विज्ञापन या 3D सामग्री में काम करने वालों के लिए, यह शुरुआत से ही जटिल तकनीकी उपकरणों का उपयोग किए बिना विचारों को प्रोटोटाइप करने का एक त्वरित तरीका प्रदान करता है।
खेल के मैदान में भी एक श्रृंखला शामिल है उपयोग के लिए तैयार टेम्पलेट ये सुविधाएँ विशिष्ट कार्यों के लिए डिज़ाइन की गई हैं। इनमें गोपनीयता के लिए चेहरों या लाइसेंस प्लेटों को पिक्सेल करने जैसे व्यावहारिक विकल्प, और वीडियो में रुचि के क्षेत्रों पर मोशन ट्रेल्स, चुनिंदा हाइलाइट्स या स्पॉटलाइट जैसे विज़ुअल प्रभाव शामिल हैं। इस प्रकार के फ़ंक्शन स्पेन में डिजिटल मीडिया और कंटेंट क्रिएटर्स के वर्कफ़्लो के लिए विशेष रूप से उपयुक्त हो सकते हैं, जहाँ लघु वीडियो और सोशल मीडिया कंटेंट का निर्माण निरंतर होता रहता है।
डेवलपर्स और शोधकर्ताओं के लिए खुले संसाधन

मेटा ने अन्य एआई रिलीज में जो रणनीति अपनाई है, उसके अनुरूप कंपनी ने इसका एक महत्वपूर्ण हिस्सा जारी करने का निर्णय लिया है। SAM 3 और SAM 3D से जुड़े तकनीकी संसाधनप्रथमतः, मॉडल भार, खुले शब्दावली विभाजन पर केन्द्रित एक नया मानक, तथा इसके विकास का विवरण देने वाला एक तकनीकी दस्तावेज सार्वजनिक किया गया है।
SAM 3D के मामले में, निम्नलिखित उपलब्ध हैं: मॉडल चेकपॉइंट, अनुमान कोड और एक मूल्यांकन डेटासेट अगली पीढ़ी। इस डेटासेट में छवियों और वस्तुओं की एक बड़ी विविधता शामिल है, जिसका उद्देश्य पारंपरिक 3D संदर्भ बिंदुओं से आगे जाकर, अधिक यथार्थवाद और जटिलता प्रदान करना है, जो कंप्यूटर विज़न और ग्राफ़िक्स में काम करने वाले यूरोपीय अनुसंधान समूहों के लिए बहुत उपयोगी हो सकता है।
मेटा ने रोबोफ्लो जैसे एनोटेशन प्लेटफॉर्म के साथ सहयोग की भी घोषणा की है, जिसका लक्ष्य डेवलपर्स और कंपनियों को सक्षम बनाना है अपना डेटा दर्ज करें और SAM 3 समायोजित करें विशिष्ट आवश्यकताओं के लिए। इससे क्षेत्र-विशिष्ट समाधानों के द्वार खुलते हैं, औद्योगिक निरीक्षण से लेकर शहरी यातायात विश्लेषण तक, जिसमें सांस्कृतिक विरासत परियोजनाएँ भी शामिल हैं, जहाँ वास्तुशिल्प या कलात्मक तत्वों को सटीक रूप से वर्गीकृत करना महत्वपूर्ण है।
अपेक्षाकृत खुले दृष्टिकोण का चयन करके, कंपनी यह सुनिश्चित करना चाहती है कि डेवलपर पारिस्थितिकी तंत्र, विश्वविद्यालयों और स्टार्टअप्स -जिसमें स्पेन और शेष यूरोप में कार्यरत कंपनियां भी शामिल हैं - इन प्रौद्योगिकियों के साथ प्रयोग कर सकती हैं, उन्हें अपने उत्पादों में एकीकृत कर सकती हैं और अंततः, ऐसे उपयोग मामलों में योगदान कर सकती हैं जो मेटा द्वारा आंतरिक रूप से विकसित किए जा सकने वाले मामलों से आगे जा सकते हैं।
एसएएम 3 और एसएएम 3डी के साथ, मेटा का लक्ष्य एक मजबूत करना है अधिक लचीला और सुलभ विज़ुअल AI प्लेटफ़ॉर्मजहाँ एकल छवि से टेक्स्ट-निर्देशित विभाजन और 3D पुनर्निर्माण अब केवल उच्च-विशिष्ट टीमों के लिए आरक्षित क्षमताएँ नहीं रह गई हैं। इसका संभावित प्रभाव रोज़मर्रा के वीडियो संपादन से लेकर विज्ञान, उद्योग और ई-कॉमर्स के उन्नत अनुप्रयोगों तक फैला हुआ है, ऐसे संदर्भ में जहाँ भाषा, कंप्यूटर विज़न और रचनात्मकता का संयोजन केवल एक तकनीकी वादा नहीं, बल्कि एक मानक कार्य उपकरण बनता जा रहा है।
मैं एक प्रौद्योगिकी उत्साही हूं जिसने अपनी "गीक" रुचियों को एक पेशे में बदल दिया है। मैंने अपने जीवन के 10 से अधिक वर्ष अत्याधुनिक तकनीक का उपयोग करने और शुद्ध जिज्ञासा से सभी प्रकार के कार्यक्रमों के साथ छेड़छाड़ करने में बिताए हैं। अब मैंने कंप्यूटर प्रौद्योगिकी और वीडियो गेम में विशेषज्ञता हासिल कर ली है। ऐसा इसलिए है क्योंकि 5 वर्षों से अधिक समय से मैं प्रौद्योगिकी और वीडियो गेम पर विभिन्न वेबसाइटों के लिए लिख रहा हूं, ऐसे लेख बना रहा हूं जो आपको ऐसी भाषा में आवश्यक जानकारी देने का प्रयास करते हैं जो हर किसी के लिए समझ में आती है।
यदि आपके कोई प्रश्न हैं, तो मेरी जानकारी विंडोज ऑपरेटिंग सिस्टम के साथ-साथ मोबाइल फोन के लिए एंड्रॉइड से संबंधित हर चीज तक है। और मेरी प्रतिबद्धता आपके प्रति है, मैं हमेशा कुछ मिनट बिताने और इस इंटरनेट की दुनिया में आपके किसी भी प्रश्न को हल करने में आपकी मदद करने को तैयार हूं।