- SAM 3 memperkenalkan pembahagian imej dan video berpandukan teks dan contoh visual, dengan perbendaharaan kata berjuta-juta konsep.
- SAM 3D membolehkan anda membina semula objek, pemandangan dan badan manusia dalam 3D daripada satu imej, menggunakan model terbuka.
- Model boleh diuji tanpa pengetahuan teknikal dalam Segmen Anything Playground, dengan templat praktikal dan kreatif.
- Meta mengeluarkan pemberat, pusat pemeriksaan dan penanda aras baharu supaya pembangun dan penyelidik di Eropah dan seluruh dunia boleh menyepadukan keupayaan ini ke dalam projek mereka.
Meta telah mengambil satu lagi langkah dalam komitmennya kepada kecerdasan buatan yang digunakan untuk penglihatan komputer dengan pelancaran SAM 3 dan SAM 3D, dua model yang mengembangkan keluarga Segmen Anything dan itu Mereka bertujuan untuk mengubah cara kami bekerja dengan foto dan videoJauh daripada kekal sebagai percubaan makmal, syarikat itu mahu alatan ini digunakan oleh kedua-dua profesional dan pengguna tanpa latar belakang teknikal.
Dengan generasi baharu ini, Meta memberi tumpuan meningkatkan pengesanan dan pembahagian objek dan dalam membawa pembinaan semula tiga dimensi kepada khalayak yang lebih luasDaripada penyuntingan video kepada visualisasi produk untuk e-dagang di Sepanyol dan seluruh Eropah, syarikat membayangkan senario di mana Hanya menerangkan perkara yang anda mahu lakukan dalam perkataan sudah cukup untuk AI melakukan kebanyakan kerja angkat berat..
Apakah yang ditawarkan SAM 3 berbanding versi sebelumnya?
SAM 3 diletakkan sebagai evolusi langsung daripada model segmentasi yang Meta bentangkan pada tahun 2023 dan 2024, dikenali sebagai SAM 1 dan SAM 2. Versi awal tersebut memfokuskan pada mengenal pasti piksel yang dimiliki oleh setiap objek, terutamanya menggunakan isyarat visual seperti titik, kotak atau topeng dan dalam kes SAM 2, mengikuti objek sepanjang video hampir dalam masa nyata.
Perkembangan baharu yang penting sekarang ialah SAM 3 faham gesaan teks yang kaya dan tepatbukan sekadar label umum. Sedangkan sebelum istilah mudah seperti "kereta" atau "bas" digunakan, model baharu ini mampu menjawab huraian yang lebih spesifik, contohnya "bas sekolah kuning" atau "kereta merah diparkir dua kali".
Dalam amalan, ini bermakna cukup untuk menulis sesuatu seperti itu “topi besbol merah” supaya sistem boleh mencari dan mengasingkan semua elemen yang sesuai dengan penerangan tersebut dalam imej atau video. Keupayaan untuk memperhalusi dengan perkataan ini amat berguna dalam konteks penyuntingan profesional, pengiklanan atau analisis kandungan, di mana anda sering perlu melihat butiran yang sangat khusus.
Tambahan pula, SAM 3 telah direka bentuk untuk disepadukan dengan model bahasa multimodal yang besarIni membolehkan anda melangkaui frasa mudah dan menggunakan arahan yang rumit seperti: “Orang yang duduk tetapi tidak memakai topi merah” atau "pejalan kaki yang melihat kamera tetapi tanpa beg galas." Arahan jenis ini menggabungkan syarat dan pengecualian yang sehingga baru-baru ini sukar untuk diterjemahkan ke dalam alat penglihatan komputer.
Prestasi dan skala model SAM 3

Meta juga ingin menyerlahkan bahagian yang kurang kelihatan tetapi penting: bahagian prestasi teknikal dan skala pengetahuan daripada model tersebut. Menurut data syarikat, SAM 3 mampu memproses satu imej dengan lebih daripada seratus objek yang dikesan dalam kira-kira 30 milisaat menggunakan GPU H200, kelajuan yang sangat hampir dengan apa yang diperlukan untuk aliran kerja yang menuntut.
Dalam kes video, firma itu memberi jaminan bahawa sistem mengekalkan prestasi secara maya dalam masa nyata apabila bekerja dengan sekitar lima objek serentak, menjadikannya berdaya maju untuk menjejak dan membahagikan kandungan bergerak, daripada klip media sosial pendek kepada projek pengeluaran yang lebih bercita-cita tinggi.
Untuk mencapai tingkah laku ini, Meta telah membina pangkalan latihan dengan lebih daripada 4 juta konsep unikMenggabungkan anotor manusia dengan model AI untuk membantu melabelkan volum data yang besar, gabungan pengawasan manual dan automatik ini bertujuan untuk mengimbangi ketepatan dan skala—kunci untuk memastikan model bertindak balas dengan baik kepada pelbagai input dalam konteks Eropah, Amerika Latin dan pasaran lain.
Syarikat membingkai SAM 3 dalam apa yang dipanggilnya Segmenkan Apa-apa KoleksiSekumpulan model, penanda aras dan sumber yang direka untuk mengembangkan pemahaman visual AI. Pelancaran ini disertakan dengan penanda aras baharu untuk segmentasi "perbendaharaan kata terbuka", yang memfokuskan pada mengukur sejauh mana sistem boleh memahami hampir semua konsep yang dinyatakan dalam bahasa semula jadi.
Penyepaduan dengan Suntingan, Getaran dan alatan Meta yang lain

Di luar komponen teknikal, Meta telah pun mula melakukannya mengintegrasikan SAM 3 ke dalam produk tertentu yang bertujuan untuk kegunaan harian. Salah satu destinasi pertama ialah Edit, aplikasi penciptaan dan penyuntingan video mereka, di mana ideanya ialah pengguna boleh memilih orang atau objek tertentu dengan penerangan teks ringkas dan menggunakan kesan, penapis atau perubahan hanya pada bahagian rakaman tersebut.
Satu lagi jalan untuk penyepaduan akan ditemui di Vibes, dalam apl Meta AI dan platform meta.aiDalam persekitaran ini, pembahagian teks akan digabungkan dengan alat generatif untuk mencipta pengalaman pengeditan dan kreatif baharu, seperti latar belakang tersuai, kesan gerakan atau pengubahsuaian foto terpilih yang direka untuk rangkaian sosial yang sangat popular di Sepanyol dan seluruh Eropah.
Cadangan syarikat adalah supaya keupayaan ini tidak terhad kepada pengajian profesional, sebaliknya mencapai... pencipta bebas, agensi kecil dan pengguna lanjutan yang bekerja setiap hari dengan kandungan visual. Keupayaan untuk membahagikan adegan dengan menulis huraian dalam bahasa semula jadi mengurangkan keluk pembelajaran berbanding alat tradisional berdasarkan topeng dan lapisan manual.
Pada masa yang sama, Meta mengekalkan pendekatan terbuka terhadap pembangun luar, mencadangkannya aplikasi pihak ketiga -daripada alat penyuntingan kepada penyelesaian untuk analitik video dalam runcit atau keselamatan- boleh bergantung pada SAM 3 selagi dasar penggunaan syarikat dipatuhi.
SAM 3D: Pembinaan semula tiga dimensi daripada satu imej

Berita besar yang lain ialah SAM 3Dsistem yang direka untuk melaksanakan pembinaan semula tiga dimensi bermula daripada imej 2D. Daripada memerlukan berbilang tangkapan dari sudut yang berbeza, model ini bertujuan untuk menjana perwakilan 3D yang boleh dipercayai daripada satu foto, sesuatu yang menarik terutamanya bagi mereka yang tidak mempunyai peralatan pengimbasan atau aliran kerja khusus.
SAM 3D terdiri daripada dua model sumber terbuka dengan fungsi yang berbeza: Objek 3D SAMtertumpu pada membina semula objek dan adegan, dan Badan 3D SAM, menjurus ke arah menganggar bentuk dan badan manusia. Pemisahan ini membolehkan sistem disesuaikan dengan kes penggunaan yang sangat berbeza, daripada katalog produk kepada aplikasi kesihatan atau sukan.
Menurut Meta, Objek SAM 3D menandakan a Penanda aras prestasi baharu dalam pembinaan semula 3D berpandukan AIdengan mudah mengatasi kaedah sebelumnya dalam metrik kualiti utama. Untuk menilai keputusan dengan lebih teliti, syarikat itu telah bekerjasama dengan artis untuk mencipta Objek Artis SAM 3D, set data yang direka khusus untuk menilai kesetiaan dan perincian pembinaan semula merentas pelbagai jenis imej dan objek.
Kemajuan ini membuka pintu kepada aplikasi praktikal dalam bidang seperti robotik, sains, perubatan sukan atau kreativiti digitalContohnya, dalam robotik ia boleh membantu sistem lebih memahami isipadu objek yang berinteraksi dengannya; dalam penyelidikan perubatan atau sukan, ia boleh membantu menganalisis postur dan pergerakan badan; dan dalam reka bentuk kreatif, ia berfungsi sebagai asas untuk menjana model 3D untuk animasi, permainan video atau pengalaman yang mengasyikkan.
Salah satu aplikasi komersial pertama yang sudah boleh dilihat ialah fungsinya "Pandangan dalam Bilik" de Facebook Marketplaceyang membolehkan anda memvisualisasikan bagaimana sekeping perabot atau objek hiasan akan kelihatan di dalam bilik sebenar sebelum membelinya. Dengan SAM 3D, Meta berusaha untuk menyempurnakan jenis pengalaman ini, sangat relevan untuk e-dagang Eropah, di mana mengembalikan produk disebabkan jangkaan yang tidak tercapai mewakili kos yang semakin meningkat.
Segmen Anything Playground: persekitaran untuk bereksperimen

Untuk membolehkan orang ramai menguji keupayaan ini tanpa memasang apa-apa, Meta telah mendayakan Segmen Apa-apa sahaja Taman PermainanIa merupakan platform web yang membolehkan anda memuat naik imej atau video dan mencuba SAM 3 dan SAM 3D terus daripada penyemak imbas anda. Ideanya ialah sesiapa yang ingin tahu tentang AI visual boleh meneroka perkara yang mungkin tanpa pengetahuan pengaturcaraan.
Dalam kes SAM 3, Taman Permainan membenarkan membahagikan objek menggunakan frasa pendek atau arahan terperinciMenggabungkan teks dan, jika dikehendaki, contoh visual. Ini memudahkan tugas biasa seperti memilih orang, kereta, haiwan atau elemen khusus adegan dan menggunakan tindakan khusus kepada mereka, daripada kesan estetik kepada kabur atau penggantian latar belakang.
Apabila bekerja dengan SAM 3D, platform membolehkannya Terokai adegan dari perspektif baharususun semula objek, gunakan kesan tiga dimensi atau jana pandangan alternatif. Bagi mereka yang bekerja dalam reka bentuk, pengiklanan atau kandungan 3D, ia menawarkan cara cepat untuk membuat prototaip idea tanpa perlu menggunakan alat teknikal yang rumit dari awal lagi.
Taman Permainan juga termasuk satu siri sedia untuk menggunakan templat Ciri-ciri ini ditujukan kepada tugas yang sangat khusus. Ia termasuk pilihan praktikal seperti muka pixelating atau plat lesen atas sebab privasi dan kesan visual seperti jejak gerakan, sorotan terpilih atau lampu sorot pada kawasan yang menarik dalam video. Jenis fungsi ini boleh menjadi sangat sesuai untuk aliran kerja media digital dan pencipta kandungan di Sepanyol, di mana penghasilan video pendek dan kandungan media sosial adalah berterusan.
Sumber terbuka untuk pembangun dan penyelidik

Selaras dengan strategi yang telah diikuti oleh Meta dalam keluaran AI lain, syarikat telah memutuskan untuk mengeluarkan sebahagian besar daripada sumber teknikal yang dikaitkan dengan SAM 3 dan SAM 3DUntuk yang pertama, pemberat model, penanda aras baharu yang memfokuskan pada pembahagian perbendaharaan kata terbuka, dan dokumen teknikal yang memperincikan perkembangannya telah didedahkan kepada umum.
Dalam kes SAM 3D, yang berikut tersedia: pusat pemeriksaan model, kod inferens dan set data penilaian generasi akan datang. Set data ini termasuk pelbagai jenis imej dan objek yang bertujuan untuk melangkaui titik rujukan 3D tradisional, memberikan realisme dan kerumitan yang lebih besar, sesuatu yang boleh menjadi sangat berguna untuk kumpulan penyelidikan Eropah yang bekerja dalam penglihatan dan grafik komputer.
Meta juga telah mengumumkan kerjasama dengan platform anotasi seperti Roboflow, dengan matlamat untuk membolehkan pembangun dan syarikat Masukkan data anda sendiri dan laraskan SAM 3 kepada keperluan khusus. Ini membuka pintu kepada penyelesaian khusus sektor, daripada pemeriksaan industri kepada analisis lalu lintas bandar, termasuk projek warisan budaya yang penting untuk membahagikan elemen seni bina atau artistik dengan tepat.
Dengan memilih pendekatan yang agak terbuka, syarikat berusaha untuk memastikan bahawa ekosistem pemaju, universiti dan syarikat permulaan -termasuk yang beroperasi di Sepanyol dan seluruh Eropah- boleh bereksperimen dengan teknologi ini, mengintegrasikannya ke dalam produk mereka sendiri dan, akhirnya, menyumbang kes penggunaan yang melangkaui yang Meta boleh bangunkan secara dalaman.
Dengan SAM 3 dan SAM 3D, Meta bertujuan untuk menyatukan a platform AI visual yang lebih fleksibel dan mudah diaksesdi mana segmentasi berpandukan teks dan pembinaan semula 3D daripada satu imej tidak lagi keupayaan dikhaskan untuk pasukan yang sangat khusus. Impak yang berpotensi meluas daripada penyuntingan video setiap hari kepada aplikasi lanjutan dalam sains, industri dan e-dagang, dalam konteks di mana gabungan bahasa, penglihatan komputer dan kreativiti menjadi alat kerja standard dan bukan sekadar janji teknologi.
Saya seorang peminat teknologi yang telah menjadikan minat "geek"nya sebagai satu profesion. Saya telah menghabiskan lebih daripada 10 tahun hidup saya menggunakan teknologi canggih dan bermain-main dengan semua jenis program kerana rasa ingin tahu yang tulen. Sekarang saya mempunyai pakar dalam teknologi komputer dan permainan video. Ini kerana selama lebih daripada 5 tahun saya telah menulis untuk pelbagai laman web mengenai teknologi dan permainan video, mencipta artikel yang bertujuan untuk memberi anda maklumat yang anda perlukan dalam bahasa yang boleh difahami oleh semua orang.
Jika anda mempunyai sebarang soalan, pengetahuan saya merangkumi semua perkara yang berkaitan dengan sistem pengendalian Windows serta Android untuk telefon mudah alih. Dan komitmen saya adalah kepada anda, saya sentiasa bersedia untuk meluangkan masa beberapa minit dan membantu anda menyelesaikan sebarang soalan yang mungkin anda ada dalam dunia internet ini.