मेटा सादर करते SAM 3 आणि SAM 3D: व्हिज्युअल एआयची एक नवीन पिढी

शेवटचे अद्यतनः 27/11/2025

  • SAM 3 मध्ये मजकूर आणि दृश्य उदाहरणांद्वारे निर्देशित प्रतिमा आणि व्हिडिओ विभाजन सादर केले आहे, ज्यामध्ये लाखो संकल्पनांचा शब्दसंग्रह आहे.
  • SAM 3D तुम्हाला ओपन मॉडेल्स वापरून एकाच प्रतिमेतून 3D मध्ये वस्तू, दृश्ये आणि मानवी शरीरे पुनर्बांधणी करण्याची परवानगी देते.
  • व्यावहारिक आणि सर्जनशील टेम्पलेट्ससह, सेगमेंट एनिथिंग प्लेग्राउंडमध्ये तांत्रिक ज्ञानाशिवाय मॉडेल्सची चाचणी घेतली जाऊ शकते.
  • युरोप आणि उर्वरित जगातील विकासक आणि संशोधकांना त्यांच्या प्रकल्पांमध्ये या क्षमता एकत्रित करता याव्यात यासाठी मेटा वजने, तपासणी बिंदू आणि नवीन बेंचमार्क जारी करते.
सॅम 3D

मेटाने त्याच्या वचनबद्धतेत आणखी एक पाऊल उचलले आहे संगणकाच्या दृष्टीवर कृत्रिम बुद्धिमत्ता लागू केली जाते सह SAM 3 आणि SAM 3D चे लाँचिंग, सेगमेंट एनिथिंग फॅमिलीचा विस्तार करणारे दोन मॉडेल आणि ते फोटो आणि व्हिडिओंसह आपण कसे काम करतो ते बदलण्याचे त्यांचे उद्दिष्ट आहे.ही साधने केवळ प्रयोगशाळेतील प्रयोग राहण्यापेक्षा, तांत्रिक पार्श्वभूमी नसलेल्या व्यावसायिकांनी आणि वापरकर्त्यांनी वापरावीत अशी कंपनीची इच्छा आहे.

या नवीन पिढीसह, मेटा यावर लक्ष केंद्रित करत आहे ऑब्जेक्ट डिटेक्शन आणि सेग्मेंटेशन सुधारा आणि आणताना अधिक व्यापक प्रेक्षकांसाठी त्रिमितीय पुनर्बांधणीस्पेन आणि उर्वरित युरोपमध्ये ई-कॉमर्ससाठी व्हिडिओ एडिटिंगपासून ते उत्पादन व्हिज्युअलायझेशनपर्यंत, कंपनी अशा परिस्थितीची कल्पना करते ज्यामध्ये तुम्हाला काय करायचे आहे याचे फक्त शब्दात वर्णन करणे एआयला बहुतेक जड काम करण्यासाठी पुरेसे आहे..

मागील आवृत्त्यांच्या तुलनेत SAM 3 काय ऑफर करते?

SAM 3 हे थेट उत्क्रांती म्हणून स्थित आहे २०२३ आणि २०२४ मध्ये मेटाने सादर केलेल्या सेगमेंटेशन मॉडेल्सपैकी, ज्यांना SAM १ आणि SAM २ म्हणून ओळखले जाते. त्या सुरुवातीच्या आवृत्त्यांमध्ये प्रत्येक ऑब्जेक्टचे कोणते पिक्सेल आहेत हे ओळखण्यावर लक्ष केंद्रित केले गेले, प्रामुख्याने डॉट्स, बॉक्स किंवा मास्क सारख्या दृश्य संकेतांचा वापर केला गेला आणि SAM २ च्या बाबतीत, जवळजवळ रिअल टाइममध्ये व्हिडिओमध्ये ऑब्जेक्ट्सचे अनुसरण केले गेले.

आताची महत्त्वाची नवीन घडामोड म्हणजे SAM 3 ला समजते की समृद्ध आणि अचूक मजकूर सूचनाफक्त सामान्य लेबल्सच नाही. "कार" किंवा "बस" सारखे साधे शब्द पूर्वी वापरले जात होते, परंतु नवीन मॉडेल अधिक विशिष्ट वर्णनांना प्रतिसाद देण्यास सक्षम आहे, उदाहरणार्थ "पिवळी स्कूल बस" किंवा "लाल कार डबल-पार्क केलेली".

प्रत्यक्षात, याचा अर्थ असा की असे काहीतरी लिहिणे पुरेसे आहे "लाल बेसबॉल कॅप" जेणेकरून सिस्टम प्रतिमा किंवा व्हिडिओमध्ये त्या वर्णनाशी जुळणारे सर्व घटक शोधू शकेल आणि वेगळे करू शकेल. शब्दांसह परिष्कृत करण्याची ही क्षमता विशेषतः उपयुक्त आहे व्यावसायिक संपादन संदर्भ, जाहिराती किंवा सामग्री विश्लेषण, जिथे तुम्हाला अनेकदा अतिशय विशिष्ट तपशीलांकडे लक्ष द्यावे लागते.

शिवाय, SAM 3 ची रचना अशा प्रकारे केली गेली आहे की मोठे बहुआयामी भाषा मॉडेलहे तुम्हाला साध्या वाक्यांशांच्या पलीकडे जाऊन जटिल सूचना वापरण्यास अनुमती देते जसे की: "लोक बसले आहेत पण लाल टोपी घातलेली नाहीत" किंवा "कॅमेऱ्याकडे पाहणारे पण बॅकपॅकशिवाय पादचारी." या प्रकारच्या सूचनांमध्ये अशा परिस्थिती आणि अपवादांचा समावेश आहे ज्यांचे अलीकडेपर्यंत संगणक दृष्टी साधनात रूपांतर करणे कठीण होते.

विशेष सामग्री - येथे क्लिक करा  NVIDIA बोन्साय डायओरामा: अवास्तविक इंजिनमध्ये DLSS 4, पाथ ट्रेसिंग आणि RTX मेगा भूमिती प्रदर्शित करणारा डेमो

SAM 3 मॉडेलची कामगिरी आणि स्केल

SAM 3 मेटा मॉडेल

मेटाला कमी दृश्यमान पण महत्त्वाचा भाग देखील हायलाइट करायचा होता: द तांत्रिक कामगिरी आणि ज्ञान स्केल कंपनीच्या माहितीनुसार, SAM 3 हे H200 GPU वापरून सुमारे 30 मिलिसेकंदात शंभराहून अधिक शोधलेल्या वस्तूंसह एकाच प्रतिमेवर प्रक्रिया करण्यास सक्षम आहे, जो मागणी असलेल्या वर्कफ्लोसाठी आवश्यक असलेल्या वेगाच्या अगदी जवळ आहे.

व्हिडिओच्या बाबतीत, फर्म खात्री देते की सिस्टम कार्यक्षमता राखते प्रत्यक्षात रिअल टाइममध्ये एकाच वेळी पाच वस्तूंसह काम करताना, लहान सोशल मीडिया क्लिपपासून ते अधिक महत्त्वाकांक्षी उत्पादन प्रकल्पांपर्यंत, हलत्या सामग्रीचा मागोवा घेणे आणि विभागणे शक्य करते.

हे वर्तन साध्य करण्यासाठी, मेटाने पेक्षा जास्त प्रशिक्षण केंद्र तयार केले आहे ४० लाख अद्वितीय संकल्पनामोठ्या प्रमाणात डेटा लेबल करण्यास मदत करण्यासाठी एआय मॉडेल्ससह मानवी भाष्यकारांचे संयोजन करून, मॅन्युअल आणि ऑटोमेटेड देखरेखीचे हे मिश्रण अचूकता आणि स्केल संतुलित करण्याचे उद्दिष्ट ठेवते - हे मॉडेल युरोपियन, लॅटिन अमेरिकन आणि इतर बाजार संदर्भांमधील विविध इनपुटला चांगला प्रतिसाद देते याची खात्री करण्यासाठी महत्त्वाचे आहे.

कंपनी तिच्या नावाच्या आत SAM 3 तयार करते सेगमेंट एनिथिंग कलेक्शनएआयच्या दृश्यमान समजुतीचा विस्तार करण्यासाठी डिझाइन केलेले मॉडेल्स, बेंचमार्क आणि संसाधनांचे एक कुटुंब. लाँचिंगसह "ओपन व्होकॅब्युलरी" सेगमेंटेशनसाठी एक नवीन बेंचमार्क आहे, जो नैसर्गिक भाषेत व्यक्त केलेली जवळजवळ कोणतीही संकल्पना सिस्टम किती प्रमाणात समजू शकते हे मोजण्यावर केंद्रित आहे.

एडिट्स, व्हायब्स आणि इतर मेटा टूल्ससह एकत्रीकरण

मेटा एडिटसह 4K व्हिडिओ एडिट करा

तांत्रिक घटकाच्या पलीकडे, मेटाने आधीच सुरुवात केली आहे विशिष्ट उत्पादनांमध्ये SAM 3 एकत्रित करणे जे दैनंदिन वापरासाठी आहेत. पहिल्या गंतव्यस्थानांपैकी एक म्हणजे संपादने, त्यांचा व्हिडिओ निर्मिती आणि संपादन अनुप्रयोग, जिथे कल्पना अशी आहे की वापरकर्ता साध्या मजकूर वर्णनासह विशिष्ट लोक किंवा वस्तू निवडू शकतो आणि फुटेजच्या त्या भागांवरच प्रभाव, फिल्टर किंवा बदल लागू करू शकतो.

एकात्मतेसाठी आणखी एक मार्ग सापडेल मेटा एआय अॅप आणि meta.ai प्लॅटफॉर्ममध्ये, व्हायब्सया वातावरणात, मजकूर विभाजन जनरेटिव्ह टूल्ससह एकत्रित केले जाईल जेणेकरून नवीन संपादन आणि सर्जनशील अनुभव तयार केले जातील, जसे की कस्टम पार्श्वभूमी, मोशन इफेक्ट्स किंवा स्पेन आणि उर्वरित युरोपमध्ये खूप लोकप्रिय असलेल्या सोशल नेटवर्क्ससाठी डिझाइन केलेले निवडक फोटो बदल.

कंपनीचा प्रस्ताव असा आहे की या क्षमता केवळ व्यावसायिक अभ्यासापुरत्या मर्यादित राहू नयेत, तर त्या... पर्यंत पोहोचाव्यात. स्वतंत्र निर्माते, लहान एजन्सी आणि प्रगत वापरकर्ते जे दररोज दृश्य सामग्रीसह काम करतात. नैसर्गिक भाषेत वर्णन लिहून दृश्यांचे विभाजन करण्याची क्षमता मॅन्युअल मास्क आणि थरांवर आधारित पारंपारिक साधनांच्या तुलनेत शिकण्याची वक्र कमी करते.

त्याच वेळी, मेटा बाह्य विकासकांबद्दल खुले दृष्टिकोन राखते, असे सुचवते की तृतीय पक्ष अनुप्रयोग - संपादन साधनांपासून ते किरकोळ विक्री किंवा सुरक्षिततेमध्ये व्हिडिओ विश्लेषणासाठी उपायांपर्यंत - जोपर्यंत कंपनीच्या वापर धोरणांचे पालन केले जाते तोपर्यंत ते SAM 3 वर अवलंबून राहू शकतात.

विशेष सामग्री - येथे क्लिक करा  परवानगीशिवाय ऑटो-स्टार्ट होणारे प्रोग्राम काढून टाकण्यासाठी ऑटोरन्स कसे वापरावे

SAM 3D: एकाच प्रतिमेतून त्रिमितीय पुनर्बांधणी

SAM 3D कसे कार्य करते

दुसरी मोठी बातमी म्हणजे सॅम 3Dकामगिरी करण्यासाठी डिझाइन केलेली प्रणाली त्रिमितीय पुनर्रचना 2D प्रतिमांपासून सुरुवात. वेगवेगळ्या कोनातून अनेक कॅप्चरची आवश्यकता नसून, मॉडेलचे उद्दिष्ट एकाच फोटोमधून एक विश्वासार्ह 3D प्रतिनिधित्व निर्माण करणे आहे, जे विशेषतः ज्यांच्याकडे विशेष स्कॅनिंग उपकरणे किंवा वर्कफ्लो नाहीत त्यांच्यासाठी मनोरंजक आहे.

SAM 3D मध्ये दोन ओपन-सोर्स मॉडेल्स आहेत ज्यांची कार्ये वेगळी आहेत: SAM 3D ऑब्जेक्ट्सवस्तू आणि दृश्यांच्या पुनर्बांधणीवर लक्ष केंद्रित केले, आणि सॅम 3D बॉडी, मानवी आकार आणि शरीराचा अंदाज घेण्यासाठी सज्ज. हे पृथक्करण प्रणालीला उत्पादन कॅटलॉगपासून आरोग्य किंवा क्रीडा अनुप्रयोगांपर्यंत, अगदी वेगवेगळ्या वापराच्या प्रकरणांमध्ये अनुकूलित करण्याची परवानगी देते.

मेटाच्या मते, SAM 3D ऑब्जेक्ट्स एक चिन्हांकित करते एआय-मार्गदर्शित 3D पुनर्बांधणीमध्ये नवीन कामगिरी बेंचमार्कप्रमुख गुणवत्ता मेट्रिक्समध्ये मागील पद्धतींना सहजपणे मागे टाकणे. निकालांचे अधिक काटेकोरपणे मूल्यांकन करण्यासाठी, कंपनीने कलाकारांसोबत काम करून SAM 3D आर्टिस्ट ऑब्जेक्ट्स तयार केले आहेत, जो विशेषतः विविध प्रकारच्या प्रतिमा आणि वस्तूंमधील पुनर्बांधणीची निष्ठा आणि तपशील मूल्यांकन करण्यासाठी डिझाइन केलेला डेटासेट आहे.

या प्रगतीमुळे अशा क्षेत्रात व्यावहारिक अनुप्रयोगांचे दरवाजे उघडतात जसे की रोबोटिक्स, विज्ञान, क्रीडा औषध किंवा डिजिटल सर्जनशीलताउदाहरणार्थ, रोबोटिक्समध्ये ते सिस्टीमना त्यांच्याशी संवाद साधणाऱ्या वस्तूंचे आकारमान चांगल्या प्रकारे समजून घेण्यास मदत करू शकते; वैद्यकीय किंवा क्रीडा संशोधनात, ते शरीराची स्थिती आणि हालचाल यांचे विश्लेषण करण्यास मदत करू शकते; आणि सर्जनशील डिझाइनमध्ये, ते अॅनिमेशन, व्हिडिओ गेम किंवा इमर्सिव्ह अनुभवांसाठी 3D मॉडेल तयार करण्यासाठी आधार म्हणून काम करते.

आधीच दिसणाऱ्या पहिल्या व्यावसायिक अनुप्रयोगांपैकी एक म्हणजे फंक्शन "खोलीत पहा" de फेसबुक मार्केटप्लेसजे तुम्हाला फर्निचर किंवा सजावटीची वस्तू खरेदी करण्यापूर्वी खऱ्या खोलीत कशी दिसेल याची कल्पना करण्यास अनुमती देते. SAM 3D सह, मेटा या प्रकारचे अनुभव परिपूर्ण करण्याचा प्रयत्न करते., युरोपियन ई-कॉमर्ससाठी अत्यंत संबंधित आहे, जिथे अपेक्षा पूर्ण न झाल्यामुळे उत्पादने परत करणे ही वाढती किंमत दर्शवते.

SAM 3D वापरून लोक आणि वस्तू 3D मॉडेलमध्ये कसे रूपांतरित करायचे
संबंधित लेख:
मेटा च्या SAM 3 आणि SAM 3D सह लोक आणि वस्तू 3D मध्ये रूपांतरित करा

सेगमेंट काहीही खेळाचे मैदान: प्रयोग करण्यासाठी एक वातावरण

सेगमेंट एनिथिंग प्लेग्राउंड

लोकांना काहीही स्थापित न करता या क्षमतांची चाचणी घेता यावी म्हणून, मेटाने सक्षम केले आहे सेगमेंट एनिथिंग प्लेग्राउंडहे एक वेब प्लॅटफॉर्म आहे जे तुम्हाला तुमच्या ब्राउझरवरून थेट प्रतिमा किंवा व्हिडिओ अपलोड करण्याची आणि SAM 3 आणि SAM 3D वापरून प्रयोग करण्याची परवानगी देते. व्हिज्युअल AI बद्दल उत्सुक असलेले कोणीही प्रोग्रामिंग ज्ञानाशिवाय काय शक्य आहे ते एक्सप्लोर करू शकेल अशी कल्पना आहे.

SAM 3 च्या बाबतीत, प्लेग्राउंड वापरून वस्तूंचे विभाजन करण्याची परवानगी देतो लहान वाक्ये किंवा तपशीलवार सूचनामजकूर आणि इच्छित असल्यास, दृश्य उदाहरणे एकत्र करणे. हे सामान्य कार्ये जसे की लोक, कार, प्राणी किंवा दृश्याचे विशिष्ट घटक निवडणे आणि त्यांच्यावर विशिष्ट क्रिया लागू करणे, सौंदर्यात्मक प्रभावांपासून ते अस्पष्टता किंवा पार्श्वभूमी बदलण्यापर्यंत सोपे करते.

विशेष सामग्री - येथे क्लिक करा  उत्क्रांती ऑप्टिमायझेशन अल्गोरिदम म्हणजे काय?

SAM 3D सोबत काम करताना, प्लॅटफॉर्म हे शक्य करते नवीन दृष्टिकोनातून दृश्ये एक्सप्लोर करावस्तूंची पुनर्रचना करा, त्रिमितीय प्रभाव लागू करा किंवा पर्यायी दृश्ये निर्माण करा. डिझाइन, जाहिराती किंवा 3D सामग्रीमध्ये काम करणाऱ्यांसाठी, सुरुवातीपासूनच जटिल तांत्रिक साधनांचा वापर न करता कल्पनांचे प्रोटोटाइप करण्याचा एक जलद मार्ग प्रदान करते.

खेळाच्या मैदानात एक मालिका देखील समाविष्ट आहे टेम्पलेट्स वापरण्यासाठी तयार ही वैशिष्ट्ये अतिशय विशिष्ट कामांसाठी सज्ज आहेत. त्यामध्ये गोपनीयतेच्या कारणास्तव चेहरे किंवा लायसन्स प्लेट्स पिक्सेलेटिंग करणे आणि व्हिडिओमध्ये स्वारस्य असलेल्या क्षेत्रांवर मोशन ट्रेल्स, निवडक हायलाइट्स किंवा स्पॉटलाइट्ससारखे दृश्यमान प्रभाव समाविष्ट आहेत. स्पेनमधील डिजिटल मीडिया आणि सामग्री निर्मात्यांच्या वर्कफ्लोसाठी या प्रकारची कार्ये विशेषतः चांगली असू शकतात, जिथे लघु व्हिडिओ आणि सोशल मीडिया सामग्रीचे उत्पादन सतत चालू असते.

विकासक आणि संशोधकांसाठी खुली संसाधने

SAM 3D मेटा उदाहरणे

मेटाने इतर एआय रिलीझमध्ये अवलंबलेल्या धोरणानुसार, कंपनीने महत्त्वपूर्ण भाग रिलीज करण्याचा निर्णय घेतला आहे SAM 3 आणि SAM 3D शी संबंधित तांत्रिक संसाधनेपहिल्यासाठी, मॉडेल वेट्स, खुल्या शब्दसंग्रह विभाजनावर लक्ष केंद्रित करणारा एक नवीन बेंचमार्क आणि त्याच्या विकासाचे तपशीलवार तांत्रिक दस्तऐवज सार्वजनिक केले गेले आहेत.

SAM 3D च्या बाबतीत, खालील गोष्टी उपलब्ध आहेत: मॉडेल चेकपॉइंट्स, अनुमान कोड आणि मूल्यांकन डेटासेट पुढील पिढी. या डेटासेटमध्ये पारंपारिक 3D संदर्भ बिंदूंच्या पलीकडे जाऊन अधिक वास्तववाद आणि जटिलता प्रदान करणाऱ्या प्रतिमा आणि वस्तूंची लक्षणीय विविधता समाविष्ट आहे, जी संगणक दृष्टी आणि ग्राफिक्समध्ये काम करणाऱ्या युरोपियन संशोधन गटांसाठी खूप उपयुक्त ठरू शकते.

मेटाने रोबोफ्लो सारख्या अ‍ॅनोटेशन प्लॅटफॉर्मसह सहयोगाची घोषणा देखील केली आहे, ज्याचा उद्देश विकासक आणि कंपन्यांना सक्षम करणे आहे तुमचा स्वतःचा डेटा एंटर करा आणि SAM 3 समायोजित करा. विशिष्ट गरजांसाठी. यामुळे औद्योगिक तपासणीपासून ते शहरी वाहतूक विश्लेषणापर्यंत, सांस्कृतिक वारसा प्रकल्पांसह, क्षेत्र-विशिष्ट उपायांसाठी दरवाजे उघडतात जिथे वास्तुशिल्प किंवा कलात्मक घटकांचे अचूक विभाजन करणे महत्वाचे आहे.

तुलनेने खुल्या दृष्टिकोनाचा पर्याय निवडून, कंपनी हे सुनिश्चित करण्याचा प्रयत्न करते की विकासक परिसंस्था, विद्यापीठे आणि स्टार्टअप्स - स्पेन आणि उर्वरित युरोपमध्ये कार्यरत असलेल्यांसह - या तंत्रज्ञानाचा प्रयोग करू शकतात, त्यांना त्यांच्या स्वतःच्या उत्पादनांमध्ये समाकलित करू शकतात आणि शेवटी, मेटा अंतर्गत विकसित करू शकणाऱ्या तंत्रज्ञानाच्या पलीकडे जाणाऱ्या वापराच्या प्रकरणांमध्ये योगदान देऊ शकतात.

SAM 3 आणि SAM 3D सह, Meta चे उद्दिष्ट एकत्रित करणे आहे अधिक लवचिक आणि सुलभ व्हिज्युअल एआय प्लॅटफॉर्मजिथे एकाच प्रतिमेतून मजकूर-मार्गदर्शित विभाजन आणि 3D पुनर्बांधणी ही आता अत्यंत विशेष टीमसाठी राखीव क्षमता नाहीत. भाषा, संगणक दृष्टी आणि सर्जनशीलता यांचे संयोजन केवळ तांत्रिक आश्वासन नसून एक मानक कार्यरत साधन बनत असताना, संभाव्य परिणाम दररोजच्या व्हिडिओ संपादनापासून ते विज्ञान, उद्योग आणि ई-कॉमर्समधील प्रगत अनुप्रयोगांपर्यंत पसरतो.