Meta წარმოგიდგენთ SAM 3-ს და SAM 3D-ს: ვიზუალური ხელოვნური ინტელექტის ახალი თაობა

Ბოლო განახლება: 27/11/2025

  • SAM 3 წარმოგიდგენთ სურათებისა და ვიდეოების სეგმენტაციას, რომელიც ხელმძღვანელობს ტექსტითა და ვიზუალური მაგალითებით და მილიონობით კონცეფციის ლექსიკით.
  • SAM 3D საშუალებას გაძლევთ, ღია მოდელების გამოყენებით, ერთი გამოსახულებიდან 3D-ში აღადგინოთ ობიექტები, სცენები და ადამიანის სხეულები.
  • მოდელების ტესტირება შესაძლებელია ტექნიკური ცოდნის გარეშე Segment Anything Playground-ში, პრაქტიკული და კრეატიული შაბლონების გამოყენებით.
  • Meta აქვეყნებს წონებს, საკონტროლო წერტილებს და ახალ საორიენტაციო ნიშნულებს, რათა ევროპასა და მსოფლიოს დანარჩენ ნაწილში დეველოპერებმა და მკვლევარებმა შეძლონ ამ შესაძლებლობების ინტეგრირება თავიანთ პროექტებში.
სემ 3D

„მეტამ“ კიდევ ერთი ნაბიჯი გადადგა თავისი ვალდებულებისკენ სწრაფვისკენ. ხელოვნური ინტელექტი, რომელიც გამოიყენება კომპიუტერულ ხედვაში ერთად SAM 3-ისა და SAM 3D-ის გაშვება, ორი მოდელი, რომელიც აფართოებს სეგმენტის Anything ოჯახს და რომელიც მათი მიზანია შეცვალონ ფოტოებისა და ვიდეოების დამუშავების ჩვენი მეთოდიკომპანიას არ სურს, რომ ეს ინსტრუმენტები ლაბორატორიულ ექსპერიმენტად დარჩეს და პირიქით, სურს, რომ ეს ინსტრუმენტები გამოიყენონ როგორც პროფესიონალებმა, ასევე ტექნიკური ცოდნის არმქონე მომხმარებლებმა.

ამ ახალი თაობით, მეტა ყურადღებას ამახვილებს ობიექტების ამოცნობისა და სეგმენტაციის გაუმჯობესება და იმის მოტანაში, რომ სამგანზომილებიანი რეკონსტრუქცია გაცილებით ფართო აუდიტორიისთვისვიდეომონტაჟიდან დაწყებული ესპანეთსა და ევროპის დანარჩენ ნაწილში ელექტრონული კომერციისთვის პროდუქტის ვიზუალიზაციით დამთავრებული, კომპანია წარმოიდგენს სცენარს, რომელშიც ხელოვნური ინტელექტისთვის მძიმე სამუშაოს უმეტესი ნაწილის შესასრულებლად საკმარისია მხოლოდ სიტყვებით აღწეროთ, თუ რისი გაკეთება გსურთ..

რას გვთავაზობს SAM 3 წინა ვერსიებთან შედარებით?

SAM 3 პოზიციონირებულია, როგორც პირდაპირი ევოლუცია მეტას მიერ 2023 და 2024 წლებში წარმოდგენილი სეგმენტაციის მოდელები, რომლებიც ცნობილია როგორც SAM 1 და SAM 2. ეს ადრეული ვერსიები ფოკუსირებული იყო თითოეული ობიექტის პიქსელების იდენტიფიცირებაზე, ძირითადად ვიზუალური მინიშნებების, როგორიცაა წერტილები, უჯრები ან ნიღბები, გამოყენებით და SAM 2-ის შემთხვევაში, ობიექტების ვიდეოში თითქმის რეალურ დროში თვალყურის დევნებაზე.

ახლა მთავარი ახალი მოვლენა ის არის, რომ SAM 3-ს ესმის მდიდარი და ზუსტი ტექსტური მინიშნებებიარა მხოლოდ ზოგადი ეტიკეტები. მაშინ, როდესაც ადრე ისეთი მარტივი ტერმინები გამოიყენებოდა, როგორიცაა „მანქანა“ ან „ავტობუსი“, ახალ მოდელს შეუძლია გაცილებით სპეციფიკური აღწერილობების რეაგირება, მაგალითად, „ყვითელი სასკოლო ავტობუსი“ ან „ორმაგად გაჩერებული წითელი მანქანა“.

პრაქტიკაში, ეს ნიშნავს, რომ საკმარისია ისეთი რამის დაწერა, როგორიცაა „წითელი ბეისბოლის ქუდი“ რათა სისტემამ შეძლოს სურათში ან ვიდეოში ამ აღწერილობის შესაბამისი ყველა ელემენტის პოვნა და გამოყოფა. სიტყვებით დახვეწის ეს შესაძლებლობა განსაკუთრებით სასარგებლოა პროფესიონალური რედაქტირების კონტექსტები, რეკლამა ან კონტენტ ანალიზი, სადაც ხშირად ძალიან კონკრეტული დეტალების გათვალისწინება გიწევთ.

გარდა ამისა, SAM 3 შექმნილია ინტეგრაციისთვის დიდი მულტიმოდალური ენის მოდელებიეს საშუალებას გაძლევთ გასცდეთ მარტივ ფრაზებს და გამოიყენოთ ისეთი რთული ინსტრუქციები, როგორიცაა: „ხალხი ზის, მაგრამ წითელი ქუდი არ აცვია“ ან „ფეხით მოსიარულეები, რომლებიც კამერას უყურებენ, მაგრამ ზურგჩანთის გარეშე“. ამ ტიპის ინსტრუქცია აერთიანებს პირობებსა და გამონაკლისებს, რომელთა კომპიუტერული ხედვის ინსტრუმენტად გადატანა ცოტა ხნის წინ რთული იყო.

ექსკლუზიური შინაარსი - დააწკაპუნეთ აქ  როგორ გამოვიყენოთ Copilot Vision on Edge: მახასიათებლები და რჩევები

SAM 3 მოდელის მუშაობა და მასშტაბი

SAM 3 მეტა მოდელი

მეტას ასევე სურდა ნაკლებად თვალსაჩინო, მაგრამ მნიშვნელოვანი ნაწილის ხაზგასმა: ტექნიკური შესრულება და ცოდნის მასშტაბი მოდელის. კომპანიის მონაცემების თანახმად, SAM 3-ს შეუძლია H200 გრაფიკული პროცესორის გამოყენებით დაახლოებით 30 მილიწამში დაამუშაოს ასზე მეტი აღმოჩენილი ობიექტის შემცველი ერთი გამოსახულება, რაც ძალიან ახლოსაა იმ სიჩქარესთან, რაც საჭიროა მომთხოვნი სამუშაო პროცესებისთვის.

ვიდეოს შემთხვევაში, ფირმა ირწმუნება, რომ სისტემა ინარჩუნებს მუშაობას ვირტუალურად რეალურ დროში როდესაც ერთდროულად ხუთ ობიექტთან მუშაობთ, რაც მას შესაფერისს ხდის მოძრავი კონტენტის თვალყურის დევნებისა და სეგმენტაციისთვის, სოციალური მედიის მოკლე კლიპებიდან დაწყებული უფრო ამბიციური საწარმოო პროექტებით დამთავრებული.

ამ ქცევის მისაღწევად, მეტამ შექმნა სასწავლო ბაზა, რომელშიც მეტია 4 მილიონი უნიკალური კონცეფციადიდი მოცულობის მონაცემების მარკირებისთვის ადამიან ანოტატორებთან ხელოვნური ინტელექტის მოდელების შერწყმით, ხელით და ავტომატურად ზედამხედველობის ეს ნაზავი სიზუსტისა და მასშტაბის დაბალანსებას ისახავს მიზნად, რაც მნიშვნელოვანია იმის უზრუნველსაყოფად, რომ მოდელი კარგად რეაგირებს მრავალფეროვან შეყვანაზე ევროპის, ლათინური ამერიკის და სხვა ბაზრების კონტექსტებში.

კომპანია SAM 3-ს იმ ფარგლებში აყალიბებს, რასაც ის უწოდებს ნებისმიერი კოლექციის სეგმენტირებამოდელების, საორიენტაციო მაჩვენებლებისა და რესურსების ოჯახი, რომელიც შექმნილია ხელოვნური ინტელექტის ვიზუალური გაგების გასაფართოებლად. გაშვებას თან ახლავს „ღია ლექსიკის“ სეგმენტაციის ახალი საორიენტაციო მაჩვენებელი, რომელიც ფოკუსირებულია იმის გაზომვაზე, თუ რამდენად შეუძლია სისტემას ბუნებრივი ენით გამოხატული თითქმის ნებისმიერი კონცეფციის გაგება.

ინტეგრაცია Edits-თან, Vibes-თან და სხვა Meta ინსტრუმენტებთან

4K ვიდეოების რედაქტირება Meta Edits-ის გამოყენებით

ტექნიკური კომპონენტის მიღმა, მეტამ უკვე დაიწყო SAM 3-ის ინტეგრირება კონკრეტულ პროდუქტებში რომლებიც განკუთვნილია ყოველდღიური გამოყენებისთვის. ერთ-ერთი პირველი დანიშნულების ადგილი იქნება Edits, მათი ვიდეოების შექმნისა და რედაქტირების აპლიკაცია, სადაც იდეა იმაში მდგომარეობს, რომ მომხმარებელს შეუძლია აირჩიოს კონკრეტული ადამიანები ან ობიექტები მარტივი ტექსტური აღწერით და გამოიყენოს ეფექტები, ფილტრები ან ცვლილებები მხოლოდ კადრის ამ ნაწილებზე.

ინტეგრაციის კიდევ ერთი გზა მოიძებნება Vibes, Meta AI აპლიკაციისა და meta.ai პლატფორმის ფარგლებშიამ გარემოში, ტექსტის სეგმენტაცია გაერთიანდება გენერაციულ ინსტრუმენტებთან ახალი რედაქტირებისა და შემოქმედებითი გამოცდილების შესაქმნელად, როგორიცაა მორგებული ფონი, მოძრაობის ეფექტები ან შერჩევითი ფოტო მოდიფიკაციები, რომლებიც შექმნილია სოციალური ქსელებისთვის, რომლებიც ძალიან პოპულარულია ესპანეთსა და დანარჩენ ევროპაში.

კომპანიის წინადადებაა, რომ ეს შესაძლებლობები არ შემოიფარგლოს მხოლოდ პროფესიული სწავლებით, არამედ მოიცვას... დამოუკიდებელი შემქმნელები, მცირე სააგენტოები და გამოცდილი მომხმარებლები რომლებიც ყოველდღიურად მუშაობენ ვიზუალურ კონტენტთან. სცენების სეგმენტირების შესაძლებლობა ბუნებრივ ენაზე აღწერილობების დაწერით ამცირებს სწავლის მრუდს ხელით ნიღბებსა და ფენებზე დაფუძნებულ ტრადიციულ ინსტრუმენტებთან შედარებით.

ამავდროულად, Meta ინარჩუნებს ღია მიდგომას გარე დეველოპერების მიმართ და ვარაუდობს, რომ მესამე მხარის განაცხადების - რედაქტირების ხელსაწყოებიდან დაწყებული საცალო ვაჭრობისა თუ უსაფრთხოების სფეროში ვიდეო ანალიტიკის გადაწყვეტილებებით დამთავრებული - შეგიძლიათ დაეყრდნოთ SAM 3-ს, თუ კომპანიის გამოყენების პოლიტიკა დაცული იქნება.

ექსკლუზიური შინაარსი - დააწკაპუნეთ აქ  შედარება: Windows 11 vs Linux Mint ძველ კომპიუტერებზე

SAM 3D: სამგანზომილებიანი რეკონსტრუქცია ერთი გამოსახულებიდან

როგორ მუშაობს SAM 3D

სხვა დიდი სიახლეა სემ 3Dსისტემა, რომელიც შექმნილია შესასრულებლად სამგანზომილებიანი რეკონსტრუქციები 2D სურათებიდან დაწყებული. სხვადასხვა კუთხიდან რამდენიმე გადაღების ნაცვლად, მოდელის მიზანია ერთი ფოტოდან საიმედო 3D გამოსახულების გენერირება, რაც განსაკუთრებით საინტერესოა მათთვის, ვისაც არ აქვს სპეციალიზებული სკანირების აღჭურვილობა ან სამუშაო პროცესები.

SAM 3D შედგება ორი ღია კოდის მოდელისგან განსხვავებული ფუნქციებით: SAM 3D ობიექტებიფოკუსირებული იყო ობიექტებისა და სცენების რეკონსტრუქციაზე და SAM 3D Body, რომელიც ადამიანის ფორმისა და სხეულის შეფასებაზეა ორიენტირებული. ეს გამიჯვნა საშუალებას აძლევს სისტემას მოერგოს ძალიან განსხვავებულ გამოყენების შემთხვევებს, პროდუქტის კატალოგებიდან დაწყებული ჯანმრთელობისა და სპორტული აპლიკაციებით დამთავრებული.

მეტას თქმით, SAM 3D Objects აღნიშნავს ხელოვნური ინტელექტით მართულ 3D რეკონსტრუქციაში ახალი შესრულების საორიენტაციო მაჩვენებელიძირითადი ხარისხის მეტრიკის თვალსაზრისით, წინა მეთოდებს ადვილად აჭარბებს. შედეგების უფრო ზუსტი შეფასებისთვის, კომპანიამ მხატვრებთან ერთად შექმნა SAM 3D Artist Objects, მონაცემთა ნაკრები, რომელიც სპეციალურად შექმნილია სხვადასხვა სურათებისა და ობიექტების რეკონსტრუქციების სიზუსტისა და დეტალების შესაფასებლად.

ეს წინსვლა პრაქტიკული გამოყენების კარს ხსნის ისეთ სფეროებში, როგორიცაა რობოტიკა, მეცნიერება, სპორტული მედიცინა ან ციფრული კრეატიულობამაგალითად, რობოტიკაში მას შეუძლია დაეხმაროს სისტემებს უკეთ გაიგონ იმ ობიექტების მოცულობა, რომლებთანაც ისინი ურთიერთქმედებენ; სამედიცინო ან სპორტულ კვლევებში მას შეუძლია დაეხმაროს სხეულის პოზისა და მოძრაობის ანალიზს; ხოლო კრეატიულ დიზაინში ის საფუძველს წარმოადგენს ანიმაციისთვის, ვიდეო თამაშებისთვის ან ინტერაქტიული გამოცდილებისთვის 3D მოდელების გენერირებისთვის.

ერთ-ერთი პირველი კომერციული აპლიკაცია, რომელიც უკვე ჩანს, არის ფუნქცია „ხედი ოთახში“ de Facebook ბაზარირაც საშუალებას გაძლევთ, ყიდვამდე ვიზუალურად წარმოიდგინოთ, თუ როგორ გამოიყურება ავეჯის ან დეკორატიული ნივთის ნივთი რეალურ ოთახში. SAM 3D-ის საშუალებით, მეტა ცდილობს ამ ტიპის გამოცდილების დახვეწას, რაც უაღრესად აქტუალურია ევროპული ელექტრონული კომერციისთვის, სადაც პროდუქციის დაბრუნება მოლოდინების შეუსრულებლობის გამო მზარდ ხარჯებს წარმოადგენს.

როგორ გადავაქციოთ ადამიანები და ობიექტები 3D მოდელებად SAM 3D-ის გამოყენებით
დაკავშირებული სტატია:
გადააკეთეთ ადამიანები და საგნები 3D-ში Meta-ს SAM 3-ისა და SAM 3D-ის გამოყენებით

Segment Anything Playground: გარემო ექსპერიმენტებისთვის

სეგმენტის ნებისმიერი სათამაშო მოედანი

იმისათვის, რომ საზოგადოებამ შეძლოს ამ შესაძლებლობების ტესტირება არაფრის ინსტალაციის გარეშე, Meta-მ ჩართო სეგმენტის ნებისმიერი სათამაშო მოედანიეს არის ვებ პლატფორმა, რომელიც საშუალებას გაძლევთ ატვირთოთ სურათები ან ვიდეოები და ექსპერიმენტები ჩაატაროთ SAM 3-სა და SAM 3D-თან პირდაპირ თქვენი ბრაუზერიდან. იდეა იმაში მდგომარეობს, რომ ნებისმიერს, ვისაც აინტერესებს ვიზუალური ხელოვნური ინტელექტი, შეუძლია შეისწავლოს შესაძლებლობები პროგრამირების ცოდნის გარეშე.

SAM 3-ის შემთხვევაში, Playground საშუალებას იძლევა ობიექტების სეგმენტირება მოკლე ფრაზები ან დეტალური ინსტრუქციებიტექსტისა და, სურვილის შემთხვევაში, ვიზუალური მაგალითების გაერთიანება. ეს ამარტივებს ისეთ საერთო დავალებებს, როგორიცაა ადამიანების, მანქანების, ცხოველების ან სცენის კონკრეტული ელემენტების შერჩევა და მათზე კონკრეტული მოქმედებების გამოყენება, ესთეტიკური ეფექტებიდან დაწყებული, ფონის დაბინდვით ან ჩანაცვლებით დამთავრებული.

ექსკლუზიური შინაარსი - დააწკაპუნეთ აქ  როგორ გამოვიყენოთ Microsoft Designer თქვენი შემოქმედებითი პროექტების გასაუმჯობესებლად

SAM 3D-თან მუშაობისას, პლატფორმა შესაძლებელს ხდის გამოიკვლიეთ სცენები ახალი პერსპექტივიდანობიექტების გადალაგება, სამგანზომილებიანი ეფექტების გამოყენება ან ალტერნატიული ხედების გენერირება. მათთვის, ვინც დიზაინში, რეკლამაში ან 3D კონტენტში მუშაობს, ის იდეების პროტოტიპის შექმნის სწრაფ გზას სთავაზობს თავიდანვე რთული ტექნიკური ინსტრუმენტების გამოყენების გარეშე.

სათამაშო მოედანი ასევე მოიცავს სერიას მზა შაბლონები ეს ფუნქციები ძალიან სპეციფიკური ამოცანებისთვისაა განკუთვნილი. ისინი მოიცავს პრაქტიკულ ვარიანტებს, როგორიცაა სახეების ან სანომრე ნიშნების პიქსელიზაცია კონფიდენციალურობის მიზნით და ვიზუალურ ეფექტებს, როგორიცაა მოძრაობის კვალი, შერჩევითი მონიშნული ადგილები ან პროჟექტორები ვიდეოში საინტერესო ადგილებზე. ამ ტიპის ფუნქციები განსაკუთრებით კარგად შეიძლება მოერგოს ციფრული მედიისა და კონტენტის შემქმნელების სამუშაო პროცესებს ესპანეთში, სადაც მოკლე ვიდეოებისა და სოციალური მედიის კონტენტის წარმოება მუდმივია.

ღია რესურსები დეველოპერებისა და მკვლევარებისთვის

SAM 3D მეტა მაგალითები

Meta-ს მიერ ხელოვნური ინტელექტის სხვა რელიზებში გამოყენებული სტრატეგიის შესაბამისად, კომპანიამ გადაწყვიტა გამოუშვას მნიშვნელოვანი ნაწილი. SAM 3-თან და SAM 3D-თან დაკავშირებული ტექნიკური რესურსებიპირველ რიგში, საჯარო გახდა მოდელის წონები, ღია ლექსიკის სეგმენტაციაზე ორიენტირებული ახალი საორიენტაციო მაჩვენებელი და მისი შემუშავების დეტალური აღწერის ტექნიკური დოკუმენტი.

SAM 3D-ის შემთხვევაში, ხელმისაწვდომია შემდეგი: მოდელის საკონტროლო წერტილები, დასკვნის კოდი და შეფასების მონაცემთა ნაკრები ახალი თაობა. ეს მონაცემთა ნაკრები მოიცავს სურათებისა და ობიექტების მნიშვნელოვან მრავალფეროვნებას, რომლის მიზანია ტრადიციული 3D საცნობარო წერტილების მიღმა გასვლა, უფრო მეტი რეალიზმისა და სირთულის უზრუნველყოფა, რაც შეიძლება ძალიან სასარგებლო იყოს კომპიუტერული ხედვისა და გრაფიკის სფეროში მომუშავე ევროპული კვლევითი ჯგუფებისთვის.

მეტამ ასევე გამოაცხადა თანამშრომლობა ანოტაციის პლატფორმებთან, როგორიცაა Roboflow, რომლის მიზანია დეველოპერებსა და კომპანიებს საშუალება მისცეს შეიყვანეთ თქვენი მონაცემები და შეცვალეთ SAM 3 კონკრეტულ საჭიროებებზე. ეს კარს ხსნის სექტორული გადაწყვეტილებებისკენ, სამრეწველო შემოწმებიდან დაწყებული ურბანული საგზაო მოძრაობის ანალიზით დამთავრებული, მათ შორის კულტურული მემკვიდრეობის პროექტებით, სადაც მნიშვნელოვანია არქიტექტურული ან მხატვრული ელემენტების ზუსტი სეგმენტაცია.

შედარებით ღია მიდგომის არჩევით, კომპანია ცდილობს უზრუნველყოს, რომ დეველოპერის ეკოსისტემა, უნივერსიტეტები და სტარტაპები - მათ შორის ესპანეთსა და ევროპის დანარჩენ ნაწილში მოქმედ კომპანიებს - შეუძლიათ ექსპერიმენტები ჩაატარონ ამ ტექნოლოგიებთან, ინტეგრირება მოახდინონ საკუთარ პროდუქტებში და, საბოლოო ჯამში, წვლილი შეიტანონ ისეთ გამოყენების შემთხვევებში, რომლებიც სცილდება იმ შემთხვევებს, რომელთა შიდა შემუშავებაც Meta-ს შეუძლია.

SAM 3-ისა და SAM 3D-ის მეშვეობით, Meta-ს მიზანია გააერთიანოს უფრო მოქნილი და ხელმისაწვდომი ვიზუალური ხელოვნური ინტელექტის პლატფორმასადაც ტექსტით მართვადი სეგმენტაცია და ერთი გამოსახულებიდან 3D რეკონსტრუქცია აღარ წარმოადგენს მხოლოდ მაღალ სპეციალიზებული გუნდებისთვის განკუთვნილ შესაძლებლობებს. პოტენციური ზეგავლენა ვრცელდება ყოველდღიური ვიდეო რედაქტირებიდან მეცნიერებაში, მრეწველობასა და ელექტრონულ კომერციაში მოწინავე აპლიკაციებამდე, იმ კონტექსტში, სადაც ენის, კომპიუტერული ხედვისა და კრეატიულობის კომბინაცია სტანდარტულ სამუშაო ინსტრუმენტად იქცევა და არა მხოლოდ ტექნოლოგიურ დაპირებად.