- SAM 3 memperkenalkan segmentasi gambar dan video yang dipandu oleh teks dan contoh visual, dengan kosakata jutaan konsep.
- SAM 3D memungkinkan Anda merekonstruksi objek, pemandangan, dan tubuh manusia dalam 3D dari satu gambar, menggunakan model terbuka.
- Model dapat diuji tanpa pengetahuan teknis di Segment Anything Playground, dengan templat yang praktis dan kreatif.
- Meta merilis bobot, titik pemeriksaan, dan tolok ukur baru sehingga pengembang dan peneliti di Eropa dan seluruh dunia dapat mengintegrasikan kemampuan ini ke dalam proyek mereka.
Meta telah mengambil langkah lain dalam komitmennya untuk kecerdasan buatan diterapkan pada visi komputer dengan peluncuran SAM 3 dan SAM 3D, dua model yang memperluas keluarga Segment Anything dan itu Mereka bertujuan untuk mengubah cara kita bekerja dengan foto dan videoJauh dari sekadar eksperimen laboratorium, perusahaan ingin peralatan ini digunakan oleh para profesional dan pengguna tanpa latar belakang teknis.
Dengan generasi baru ini, Meta berfokus pada meningkatkan deteksi dan segmentasi objek dan dalam membawa rekonstruksi tiga dimensi untuk khalayak yang lebih luasDari pengeditan video hingga visualisasi produk untuk e-commerce di Spanyol dan seluruh Eropa, perusahaan membayangkan skenario di mana Sekadar mendeskripsikan apa yang ingin Anda lakukan dengan kata-kata sudah cukup bagi AI untuk melakukan sebagian besar pekerjaan berat..
Apa yang ditawarkan SAM 3 dibandingkan dengan versi sebelumnya?
SAM 3 diposisikan sebagai evolusi langsung dari model segmentasi yang diperkenalkan Meta pada tahun 2023 dan 2024, yang dikenal sebagai SAM 1 dan SAM 2. Versi-versi awal tersebut berfokus pada identifikasi piksel milik setiap objek, terutama menggunakan isyarat visual seperti titik, kotak, atau topeng, dan dalam kasus SAM 2, mengikuti objek di sepanjang video hampir secara real-time.
Perkembangan baru yang penting saat ini adalah SAM 3 memahami petunjuk teks yang kaya dan tepatbukan sekadar label umum. Padahal sebelumnya istilah sederhana seperti "mobil" atau "bus" digunakan, model baru ini mampu merespons deskripsi yang jauh lebih spesifik, misalnya "bus sekolah kuning" atau "mobil merah parkir ganda".
Dalam praktiknya, ini berarti cukup dengan menulis sesuatu seperti “topi baseball merah” sehingga sistem dapat menemukan dan memisahkan semua elemen yang sesuai dengan deskripsi tersebut dalam gambar atau video. Kemampuan untuk menyempurnakan dengan kata-kata ini sangat berguna dalam konteks penyuntingan profesional, periklanan atau analisis konten, di mana Anda sering kali harus melihat detail yang sangat spesifik.
Selain itu, SAM 3 telah dirancang untuk terintegrasi dengan model bahasa multimodal besarHal ini memungkinkan Anda untuk melampaui frasa sederhana dan menggunakan instruksi yang rumit seperti: “Orang-orang duduk tapi tidak memakai topi merah” atau "pejalan kaki yang melihat kamera tetapi tanpa ransel." Jenis instruksi ini menggabungkan kondisi dan pengecualian yang hingga saat ini sulit diterjemahkan ke dalam alat visi komputer.
Performa dan skala model SAM 3

Meta juga ingin menyoroti bagian yang kurang terlihat namun penting: kinerja teknis dan skala pengetahuan Menurut data perusahaan, SAM 3 mampu memproses satu gambar dengan lebih dari seratus objek terdeteksi dalam waktu sekitar 30 milidetik menggunakan GPU H200, kecepatan yang sangat mendekati kecepatan yang dibutuhkan untuk alur kerja yang menuntut.
Dalam kasus video, perusahaan memastikan bahwa sistem mempertahankan kinerja secara virtual dalam waktu nyata saat bekerja dengan sekitar lima objek secara bersamaan, membuatnya layak untuk melacak dan mengelompokkan konten yang bergerak, dari klip media sosial pendek hingga proyek produksi yang lebih ambisius.
Untuk mencapai perilaku ini, Meta telah membangun basis pelatihan dengan lebih dari 4 juta konsep unikDengan menggabungkan anotator manusia dengan model AI untuk membantu memberi label pada sejumlah besar data, perpaduan pengawasan manual dan otomatis ini bertujuan untuk menyeimbangkan akurasi dan skala—kunci untuk memastikan model merespons dengan baik berbagai masukan dalam konteks pasar Eropa, Amerika Latin, dan lainnya.
Perusahaan membingkai SAM 3 dalam apa yang disebutnya Koleksi Segmen Apa SajaSerangkaian model, tolok ukur, dan sumber daya yang dirancang untuk memperluas pemahaman visual AI. Peluncuran ini disertai dengan tolok ukur baru untuk segmentasi "kosakata terbuka", yang berfokus pada pengukuran sejauh mana sistem dapat memahami hampir semua konsep yang diungkapkan dalam bahasa alami.
Integrasi dengan Edit, Vibes, dan alat Meta lainnya

Di luar komponen teknis, Meta sudah mulai mengintegrasikan SAM 3 ke dalam produk tertentu yang ditujukan untuk penggunaan sehari-hari. Salah satu tujuan pertama adalah Edits, aplikasi pembuatan dan penyuntingan video mereka, yang idenya adalah pengguna dapat memilih orang atau objek tertentu dengan deskripsi teks sederhana dan menerapkan efek, filter, atau perubahan hanya pada bagian rekaman tersebut.
Jalan lain untuk integrasi akan ditemukan di Getaran, dalam aplikasi Meta AI dan platform meta.aiDalam lingkungan ini, segmentasi teks akan digabungkan dengan alat generatif untuk menciptakan pengalaman pengeditan dan kreatif baru, seperti latar belakang khusus, efek gerakan, atau modifikasi foto selektif yang dirancang untuk jejaring sosial yang sangat populer di Spanyol dan seluruh Eropa.
Usulan perusahaan adalah agar kemampuan ini tidak dibatasi pada studi profesional saja, tetapi menjangkau... pembuat konten independen, agensi kecil, dan pengguna tingkat lanjut yang bekerja setiap hari dengan konten visual. Kemampuan untuk melakukan segmentasi adegan dengan menulis deskripsi dalam bahasa alami mengurangi kurva pembelajaran dibandingkan dengan alat tradisional yang berbasis masker dan lapisan manual.
Pada saat yang sama, Meta mempertahankan pendekatan terbuka terhadap pengembang eksternal, menyarankan bahwa aplikasi pihak ketiga -dari alat pengeditan hingga solusi untuk analisis video di ritel atau keamanan- dapat mengandalkan SAM 3 selama kebijakan penggunaan perusahaan dipatuhi.
SAM 3D: Rekonstruksi tiga dimensi dari satu gambar

Berita besar lainnya adalah SAM 3Dsistem yang dirancang untuk melakukan rekonstruksi tiga dimensi Dimulai dari gambar 2D. Alih-alih membutuhkan beberapa tangkapan dari berbagai sudut, model ini bertujuan untuk menghasilkan representasi 3D yang andal dari satu foto, sesuatu yang sangat menarik bagi mereka yang tidak memiliki peralatan pemindaian atau alur kerja khusus.
SAM 3D terdiri dari dua model sumber terbuka dengan fungsi yang berbeda: Objek 3D SAMberfokus pada rekonstruksi objek dan pemandangan, dan Tubuh SAM 3D, yang ditujukan untuk memperkirakan bentuk dan tubuh manusia. Pemisahan ini memungkinkan sistem untuk diadaptasi ke berbagai kasus penggunaan, mulai dari katalog produk hingga aplikasi kesehatan atau olahraga.
Menurut Meta, SAM 3D Objects menandai Tolok ukur kinerja baru dalam rekonstruksi 3D yang dipandu AIDengan mudah melampaui metode sebelumnya dalam metrik kualitas utama. Untuk mengevaluasi hasilnya secara lebih ketat, perusahaan telah bekerja sama dengan para seniman untuk menciptakan SAM 3D Artist Objects, sebuah kumpulan data yang dirancang khusus untuk menilai fidelitas dan detail rekonstruksi pada beragam gambar dan objek.
Kemajuan ini membuka pintu bagi penerapan praktis di bidang-bidang seperti robotika, sains, kedokteran olahraga, atau kreativitas digitalMisalnya, dalam robotika, hal ini dapat membantu sistem lebih memahami volume objek yang berinteraksi dengannya; dalam penelitian medis atau olahraga, hal ini dapat membantu menganalisis postur dan gerakan tubuh; dan dalam desain kreatif, hal ini berfungsi sebagai dasar untuk menghasilkan model 3D untuk animasi, permainan video, atau pengalaman mendalam.
Salah satu aplikasi komersial pertama yang sudah terlihat adalah fungsi "Pemandangan di Kamar" de Marketplace Facebookyang memungkinkan Anda memvisualisasikan tampilan furnitur atau benda dekoratif di ruangan nyata sebelum membelinya. Dengan SAM 3D, Meta berusaha untuk menyempurnakan jenis pengalaman ini, sangat relevan untuk e-commerce Eropa, di mana pengembalian produk akibat ekspektasi yang tidak terpenuhi menimbulkan peningkatan biaya.
Segment Anything Playground: lingkungan untuk bereksperimen

Untuk memungkinkan publik menguji kemampuan ini tanpa menginstal apa pun, Meta telah mengaktifkan Segmen Apa Saja PlaygroundIni adalah platform web yang memungkinkan Anda mengunggah gambar atau video dan bereksperimen dengan SAM 3 dan SAM 3D langsung dari peramban Anda. Idenya adalah agar siapa pun yang penasaran dengan AI visual dapat menjelajahi berbagai kemungkinan tanpa perlu pengetahuan pemrograman.
Dalam kasus SAM 3, Playground memungkinkan segmentasi objek menggunakan frasa pendek atau instruksi terperinciMenggabungkan teks dan, jika diinginkan, contoh visual. Ini menyederhanakan tugas-tugas umum seperti memilih orang, mobil, hewan, atau elemen tertentu dalam suatu adegan dan menerapkan tindakan tertentu pada elemen-elemen tersebut, mulai dari efek estetika hingga pengaburan atau penggantian latar belakang.
Saat bekerja dengan SAM 3D, platform memungkinkannya Jelajahi pemandangan dari perspektif baruAtur ulang objek, terapkan efek tiga dimensi, atau buat tampilan alternatif. Bagi mereka yang berkecimpung di bidang desain, periklanan, atau konten 3D, aplikasi ini menawarkan cara cepat untuk membuat prototipe ide tanpa harus menggunakan alat teknis yang rumit sejak awal.
Taman bermain ini juga mencakup serangkaian template siap pakai Fitur-fitur ini ditujukan untuk tugas-tugas yang sangat spesifik. Fitur-fitur ini mencakup opsi praktis seperti membuat piksel wajah atau pelat nomor untuk alasan privasi, dan efek visual seperti jejak gerakan, sorotan selektif, atau sorotan pada area yang menarik dalam video. Fungsi-fungsi seperti ini sangat cocok untuk alur kerja media digital dan kreator konten di Spanyol, yang produksi video pendek dan konten media sosialnya dilakukan secara konsisten.
Sumber daya terbuka untuk pengembang dan peneliti

Sejalan dengan strategi yang telah diikuti Meta dalam rilis AI lainnya, perusahaan telah memutuskan untuk merilis sebagian besar sumber daya teknis yang terkait dengan SAM 3 dan SAM 3DUntuk yang pertama, bobot model, tolok ukur baru yang difokuskan pada segmentasi kosakata terbuka, dan dokumen teknis yang merinci pengembangannya telah dipublikasikan.
Dalam kasus SAM 3D, berikut ini tersedia: titik pemeriksaan model, kode inferensi, dan kumpulan data evaluasi Generasi berikutnya. Dataset ini mencakup beragam gambar dan objek yang bertujuan melampaui titik referensi 3D tradisional, memberikan realisme dan kompleksitas yang lebih tinggi, sesuatu yang dapat sangat berguna bagi kelompok riset Eropa yang bergerak di bidang visi komputer dan grafis.
Meta juga telah mengumumkan kolaborasi dengan platform anotasi seperti Roboflow, dengan tujuan memungkinkan pengembang dan perusahaan untuk Masukkan data Anda sendiri dan sesuaikan SAM 3 Hal ini membuka peluang bagi solusi yang spesifik untuk sektor tertentu, mulai dari inspeksi industri hingga analisis lalu lintas perkotaan, termasuk proyek warisan budaya yang membutuhkan segmentasi elemen arsitektur atau artistik yang akurat.
Dengan memilih pendekatan yang relatif terbuka, perusahaan berusaha memastikan bahwa ekosistem pengembang, universitas dan perusahaan rintisan -termasuk yang beroperasi di Spanyol dan seluruh Eropa- dapat bereksperimen dengan teknologi ini, mengintegrasikannya ke dalam produk mereka sendiri dan, pada akhirnya, menyumbangkan kasus penggunaan yang melampaui apa yang dapat dikembangkan Meta secara internal.
Dengan SAM 3 dan SAM 3D, Meta bertujuan untuk mengkonsolidasikan platform AI visual yang lebih fleksibel dan mudah diaksesdi mana segmentasi berbasis teks dan rekonstruksi 3D dari satu gambar tidak lagi menjadi kemampuan yang hanya diperuntukkan bagi tim yang sangat terspesialisasi. Dampak potensialnya meluas dari pengeditan video sehari-hari hingga aplikasi tingkat lanjut dalam sains, industri, dan e-commerce, dalam konteks di mana kombinasi bahasa, visi komputer, dan kreativitas menjadi alat kerja standar, bukan sekadar janji teknologi.
Saya seorang penggila teknologi yang telah mengubah minat "geek"-nya menjadi sebuah profesi. Saya telah menghabiskan lebih dari 10 tahun hidup saya menggunakan teknologi mutakhir dan mengutak-atik semua jenis program hanya karena rasa ingin tahu. Sekarang saya memiliki spesialisasi dalam teknologi komputer dan video game. Hal ini karena selama lebih dari 5 tahun saya telah menulis untuk berbagai website tentang teknologi dan video game, membuat artikel yang berupaya memberikan informasi yang Anda butuhkan dalam bahasa yang dapat dimengerti oleh semua orang.
Jika Anda memiliki pertanyaan, pengetahuan saya berkisar dari segala sesuatu yang berhubungan dengan sistem operasi Windows serta Android untuk ponsel. Dan komitmen saya adalah kepada Anda, saya selalu bersedia meluangkan beberapa menit dan membantu Anda menyelesaikan pertanyaan apa pun yang mungkin Anda miliki di dunia internet ini.