Meta SAM 3 ve SAM 3D: yeni nesil görsel yapay zeka

SAM 3, milyonlarca kavramdan oluşan bir söz dağarcığıyla, metin ve görsel örneklerle yönlendirilen görüntü ve video segmentasyonunu tanıtmaktadır.
SAM 3D, açık modeller kullanarak tek bir görüntüden nesneleri, sahneleri ve insan vücudunu 3 boyutlu olarak yeniden oluşturmanıza olanak tanır.
Segment Anything Playground'da, pratik ve yaratıcı şablonlarla teknik bilgiye ihtiyaç duymadan modeller test edilebilir.
Meta, Avrupa ve dünyanın geri kalanındaki geliştiricilerin ve araştırmacıların bu yetenekleri projelerine entegre edebilmeleri için ağırlıklar, kontrol noktaları ve yeni kıyaslamalar yayınlıyor.

Meta, taahhütlerinde bir adım daha attı bilgisayar görüşüne uygulanan yapay zeka ile SAM 3 ve SAM 3D'nin lansmanıSegment Anything ailesini genişleten iki model ve Fotoğraf ve videolarla çalışma şeklimizi değiştirmeyi amaçlıyorlarŞirket, bu araçların bir laboratuvar deneyi olarak kalmasını değil, hem profesyoneller hem de teknik altyapısı olmayan kullanıcılar tarafından kullanılmasını istiyor.

Bu yeni nesille Meta, şu konulara odaklanıyor: nesne algılama ve segmentasyonunu iyileştirin ve getirirken üç boyutlu yeniden yapılandırmayı çok daha geniş bir kitleye ulaştırmakŞirket, İspanya ve Avrupa'nın geri kalanındaki e-ticaret için video düzenlemeden ürün görselleştirmeye kadar bir senaryo öngörüyor Yapmak istediğiniz şeyi kelimelerle anlatmanız, yapay zekanın işin büyük kısmını halletmesi için yeterlidir..

SAM 3 önceki versiyonlara göre neler sunuyor?

SAM 3 doğrudan evrim olarak konumlandırılmıştır Meta'nın 2023 ve 2024'te sunduğu segmentasyon modelleri SAM 1 ve SAM 2 olarak bilinir. Bu erken sürümler, esas olarak noktalar, kutular veya maskeler gibi görsel ipuçlarını kullanarak hangi piksellerin hangi nesneye ait olduğunu belirlemeye odaklanmıştı ve SAM 2 durumunda, nesneleri neredeyse gerçek zamanlı olarak bir video boyunca takip ediyordu.

Şimdiki en önemli yeni gelişme, SAM 3'ün şunu anlamasıdır: zengin ve kesin metin istemleriSadece genel etiketler değil. Daha önce "araba" veya "otobüs" gibi basit terimler kullanılırken, yeni model çok daha spesifik tanımlara, örneğin "sarı okul otobüsü" veya "çift park edilmiş kırmızı araba" gibi ifadelere yanıt verebiliyor.

Pratikte bu, aşağıdaki gibi bir şey yazmanın yeterli olduğu anlamına gelir: "kırmızı beyzbol şapkası" Böylece sistem, bir görüntü veya videoda bu tanıma uyan tüm öğeleri bulup ayırabilir. Kelimelerle ayrıntılandırma yeteneği, özellikle şu durumlarda faydalıdır: profesyonel düzenleme bağlamları, reklam veya içerik analizi gibi, çoğu zaman çok özel ayrıntılara bakmanız gerekir.

Ayrıca, SAM 3, aşağıdakilerle entegre olacak şekilde tasarlanmıştır: büyük çok modlu dil modelleriBu, basit ifadelerin ötesine geçip şu gibi karmaşık talimatları kullanmanıza olanak tanır: “Oturan ama kırmızı şapka takmayan insanlar” veya "sırt çantası olmadan kameraya bakan yayalar". Bu tür bir talimat, yakın zamana kadar bir bilgisayar görüş aracına dönüştürülmesi zor olan koşulları ve hariç tutmaları birleştirir.

Özel içerik - Buraya Tıklayın Cep telefonunuzla belgeleri taramak için en iyi uygulamalar

SAM 3 modelinin performansı ve ölçeği

SAM 3 meta modeli

Meta ayrıca daha az görünür ama önemli olan kısmı da vurgulamak istedi: teknik performans ve bilgi ölçeği Modelin. Şirket verilerine göre SAM 3, H200 GPU kullanarak yüzlerce tespit edilen nesnenin bulunduğu tek bir görüntüyü yaklaşık 30 milisaniyede işleyebiliyor; bu hız, zorlu iş akışları için ihtiyaç duyulan hıza oldukça yakın.

Video durumunda firma sistemin performansını koruduğunu garanti ediyor neredeyse gerçek zamanlı olarak Beş civarında eş zamanlı nesneyle çalışırken, kısa sosyal medya kliplerinden daha iddialı prodüksiyon projelerine kadar hareketli içeriklerin izlenmesi ve segmentasyonu için uygun hale geliyor.

Bu davranışı elde etmek için Meta, 100'den fazla eğitim içeren bir eğitim tabanı oluşturdu. 4 milyon benzersiz konseptBüyük miktarda veriyi etiketlemeye yardımcı olmak için insan ek açıklamacıları yapay zeka modelleriyle birleştiren bu manuel ve otomatik denetim karışımı, modelin Avrupa, Latin Amerika ve diğer pazar bağlamlarında çeşitli girdilere iyi yanıt vermesini sağlamanın anahtarı olan doğruluk ve ölçek arasında denge kurmayı hedefliyor.

Şirket, SAM 3'ü kendi adlandırdığı çerçeveye oturtuyor Segment Anything KoleksiyonuYapay zekanın görsel anlayışını genişletmek için tasarlanmış bir model, kıyaslama ve kaynak ailesi. Lansmana, sistemin doğal dilde ifade edilen hemen hemen her kavramı ne ölçüde anlayabildiğini ölçmeye odaklanan "açık sözlük" segmentasyonu için yeni bir kıyaslama eşlik ediyor.

Düzenlemeler, Vibes ve diğer Meta araçlarıyla entegrasyon

Meta Düzenlemelerle 4K videoları düzenleyin

Teknik bileşenin ötesinde, Meta zaten başladı SAM 3'ü belirli ürünlere entegre edin günlük kullanıma yönelik olanlar. İlk duraklardan biri Edits olacak, video oluşturma ve düzenleme uygulamasıdır; burada amaç, kullanıcının basit bir metin açıklamasıyla belirli kişileri veya nesneleri seçebilmesi ve yalnızca görüntülerin belirli kısımlarına efektler, filtreler veya değişiklikler uygulayabilmesidir.

Entegrasyon için başka bir yol da şu şekilde bulunacaktır: Meta AI uygulaması ve meta.ai platformu içindeki VibesBu ortamda, metin segmentasyonu, İspanya ve Avrupa'nın geri kalanında çok popüler olan sosyal ağlar için tasarlanmış özel arka planlar, hareket efektleri veya seçici fotoğraf değişiklikleri gibi yeni düzenleme ve yaratıcı deneyimler yaratmak için üretken araçlarla birleştirilecek.

Şirketin önerisi, bu yeteneklerin sadece mesleki çalışmalarla sınırlı olmaması, daha çok... bağımsız içerik oluşturucular, küçük ajanslar ve ileri düzey kullanıcılar Günlük olarak görsel içeriklerle çalışanlar için idealdir. Doğal dilde açıklamalar yazarak sahneleri segmentlere ayırma yeteneği, manuel maskeler ve katmanlara dayalı geleneksel araçlara kıyasla öğrenme eğrisini azaltır.

Aynı zamanda Meta, harici geliştiricilere karşı açık bir yaklaşım sürdürüyor ve bu da şunu öneriyor: üçüncü taraf uygulamaları - Perakendeden güvenliğe kadar video analitiği çözümlerinden düzenleme araçlarına kadar her alanda, şirketin kullanım politikalarına uyulduğu sürece SAM 3'e güvenebilirsiniz.

Özel içerik - Buraya Tıklayın Alibaba yapay zekalı akıllı gözlük yarışına giriyor: İşte Quark yapay zeka gözlükleri

SAM 3D: Tek bir görüntüden üç boyutlu yeniden yapılandırma

SAM 3D nasıl çalışır?

Diğer büyük haber ise SAM 3Dperformans gösterecek şekilde tasarlanmış bir sistem üç boyutlu yeniden yapılandırmalar 2 boyutlu görüntülerden başlayarak. Farklı açılardan birden fazla çekime ihtiyaç duymak yerine, model tek bir fotoğraftan güvenilir bir 3 boyutlu görüntü oluşturmayı hedefliyor; bu da özellikle özel tarama ekipmanı veya iş akışı olmayanlar için ilgi çekici bir özellik.

SAM 3D, farklı işlevlere sahip iki açık kaynaklı modelden oluşur: SAM 3D Nesnelerinesneleri ve sahneleri yeniden yapılandırmaya odaklandı ve SAM 3D Gövdeİnsan şeklini ve vücudunu tahmin etmeye yöneliktir. Bu ayrım, sistemin ürün kataloglarından sağlık veya spor uygulamalarına kadar çok farklı kullanım durumlarına uyarlanabilmesini sağlar.

Meta'ya göre SAM 3D Nesneleri, Yapay zeka destekli 3B yeniden yapılandırmada yeni performans ölçütüTemel kalite ölçütlerinde önceki yöntemleri kolayca geride bıraktı. Sonuçları daha titiz bir şekilde değerlendirmek için şirket, sanatçılarla birlikte çalışarak, çok çeşitli görüntü ve nesnelerdeki yeniden yapılandırmaların doğruluğunu ve ayrıntısını değerlendirmek üzere özel olarak tasarlanmış bir veri seti olan SAM 3D Artist Objects'i oluşturdu.

Bu gelişme, aşağıdaki gibi alanlarda pratik uygulamaların kapısını açıyor: robotik, bilim, spor hekimliği veya dijital yaratıcılıkÖrneğin, robotikte sistemlerin etkileşimde bulundukları nesnelerin hacmini daha iyi anlamalarına yardımcı olabilir; tıbbi veya spor araştırmalarında vücut duruşunu ve hareketini analiz etmeye yardımcı olabilir; yaratıcı tasarımda ise animasyon, video oyunları veya sürükleyici deneyimler için 3B modeller üretmenin temelini oluşturur.

Zaten görülebilen ilk ticari uygulamalardan biri de fonksiyondur "Odada Görünüm" de Facebook PazaryeriSAM 3D ile bir mobilya parçasının veya dekoratif objenin satın almadan önce gerçek bir odada nasıl görüneceğini görselleştirmenize olanak tanır. Meta bu tür deneyimleri mükemmelleştirmeyi amaçlıyorBeklentilerin karşılanmaması nedeniyle ürünlerin iade edilmesinin giderek artan bir maliyet oluşturduğu Avrupa e-ticareti için oldukça önemlidir.

SAM 3D ile insanları ve nesneleri 3B modellere nasıl dönüştürebilirsiniz?

İlgili makale:

Meta'nın SAM 3 ve SAM 3D'si ile insanları ve nesneleri 3B'ye dönüştürün

Segment Anything Playground: Deneyler için bir ortam

Segment Anything Oyun Alanı

Halkın bu yetenekleri hiçbir şey yüklemeden test etmesine olanak sağlamak için Meta, Segment Anything Oyun AlanıTarayıcınız üzerinden doğrudan resim veya video yükleyip SAM 3 ve SAM 3D ile denemeler yapmanıza olanak tanıyan bir web platformudur. Buradaki fikir, görsel yapay zekaya meraklı herkesin herhangi bir programlama bilgisi olmadan neler yapabileceğini keşfedebilmesidir.

SAM 3 durumunda, Oyun Alanı nesneleri kullanarak bölümlere ayırmaya olanak tanır kısa ifadeler veya ayrıntılı talimatlarMetin ve istenirse görsel örneklerin birleştirilmesi. Bu, insanları, arabaları, hayvanları veya sahnenin belirli öğelerini seçip bunlara estetik efektlerden bulanıklaştırmaya veya arka plan değiştirmeye kadar belirli eylemler uygulamak gibi yaygın görevleri basitleştirir.

Özel içerik - Buraya Tıklayın IQ Testi: Lite Sürümünü kullanarak IQ'mu nasıl öğrenebilirim?

SAM 3D ile çalışırken platform bunu mümkün kılar Sahneleri yeni perspektiflerden keşfedinNesneleri yeniden düzenleyin, üç boyutlu efektler uygulayın veya alternatif görünümler oluşturun. Tasarım, reklam veya 3B içerik alanında çalışanlar için, başlangıçta karmaşık teknik araçlar kullanmak zorunda kalmadan fikirlerin prototipini oluşturmanın hızlı bir yolunu sunar.

Oyun Alanı ayrıca bir dizi Kullanıma hazır şablonlar Bu özellikler, çok özel görevlere yöneliktir. Gizlilik nedeniyle yüzleri veya plakaları pikselleştirmek gibi pratik seçenekler ve videodaki ilgi çekici alanlara hareket izleri, seçici vurgular veya spot ışıkları gibi görsel efektler içerir. Bu tür işlevler, kısa videoların ve sosyal medya içeriklerinin sürekli üretildiği İspanya'daki dijital medya ve içerik üreticilerinin iş akışları için özellikle uygun olabilir.

Geliştiriciler ve araştırmacılar için açık kaynaklar

SAM 3D Meta Örnekleri

Meta'nın diğer AI sürümlerinde izlediği strateji doğrultusunda şirket, önemli bir kısmını yayınlamaya karar verdi. SAM 3 ve SAM 3D ile ilişkili teknik kaynaklarİlk olarak, model ağırlıkları, açık sözlük segmentasyonuna odaklanan yeni bir kıyaslama ölçütü ve gelişimini ayrıntılarıyla anlatan teknik bir doküman kamuoyuna açıklandı.

SAM 3D durumunda şunlar mevcuttur: model kontrol noktaları, çıkarım kodu ve bir değerlendirme veri kümesi Gelecek nesil. Bu veri seti, geleneksel 3B referans noktalarının ötesine geçmeyi hedefleyen, daha fazla gerçekçilik ve karmaşıklık sağlayan, bilgisayarlı görüş ve grafik alanında çalışan Avrupa araştırma grupları için oldukça faydalı olabilecek, önemli çeşitlilikte görüntü ve nesne içeriyor.

Meta ayrıca geliştiricilerin ve şirketlerin daha iyi bir şekilde yorum yapabilmelerini sağlamak amacıyla Roboflow gibi açıklama platformlarıyla iş birliklerini duyurdu. Kendi verilerinizi girin ve SAM 3'ü ayarlayın Belirli ihtiyaçlara göre. Bu, endüstriyel denetimden kentsel trafik analizine, mimari veya sanatsal unsurların doğru bir şekilde segmentlere ayrılmasının önemli olduğu kültürel miras projeleri de dahil olmak üzere sektöre özgü çözümlerin kapısını açar.

Şirket, nispeten açık bir yaklaşımı tercih ederek geliştirici ekosisteminin, üniversiteler ve yeni kurulan şirketler -İspanya ve Avrupa'nın geri kalanında faaliyet gösterenler de dahil olmak üzere- bu teknolojileri deneyebilir, bunları kendi ürünlerine entegre edebilir ve nihayetinde Meta'nın dahili olarak geliştirebileceği kullanım durumlarının ötesine geçen kullanım durumlarına katkıda bulunabilirler.

SAM 3 ve SAM 3D ile Meta, bir daha esnek ve erişilebilir görsel yapay zeka platformuMetin kılavuzlu segmentasyon ve tek bir görüntüden 3B yeniden yapılandırma artık yalnızca son derece uzmanlaşmış ekiplere özgü yetenekler değil. Potansiyel etki, günlük video düzenlemeden bilim, endüstri ve e-ticaretteki gelişmiş uygulamalara kadar uzanıyor; dil, bilgisayarlı görme ve yaratıcılığın birleşiminin yalnızca teknolojik bir vaat değil, standart bir çalışma aracı haline geldiği bir bağlamda.

Alberto Navarro

Ben "inek" merakını mesleğe dönüştürmüş bir teknoloji tutkunuyum. Hayatımın 10 yıldan fazlasını en son teknolojiyi kullanarak ve sırf merakımdan dolayı her türlü programı kurcalayarak geçirdim. Artık bilgisayar teknolojisi ve video oyunları konusunda uzmanlaştım. Bunun nedeni, 5 yılı aşkın bir süredir teknoloji ve video oyunlarıyla ilgili çeşitli web sitelerinde yazılar yazıyor olmam ve ihtiyacınız olan bilgileri herkesin anlayabileceği bir dilde size vermeye çalışan makaleler oluşturmamdır.

Sorularınız varsa bilgim Windows işletim sistemi ve cep telefonları için Android ile ilgili her şeyi kapsar. Ve size olan bağlılığımdır, her zaman birkaç dakikamı ayırmaya ve bu internet dünyasında aklınıza gelebilecek her türlü soruyu çözmenize yardımcı olmaya hazırım.