- Mga segment ng SAM 3 na may mga detalyadong text prompt at isinasama ang paningin at wika para sa higit na katumpakan.
- Ang SAM 3D ay nagre-reconstruct ng mga 3D na bagay at katawan mula sa isang larawan gamit ang mga bukas na mapagkukunan.
- Binibigyang-daan ka ng Playground na subukan ang segmentation at 3D nang walang teknikal na kaalaman o pag-install.
- Mga aplikasyon sa Mga Pag-edit, Marketplace at mga lugar tulad ng edukasyon, agham at palakasan.

¿Paano i-convert ang mga tao at bagay sa mga modelong 3D gamit ang SAM 3D? Malaki ang epekto ng artificial intelligence na inilapat sa mga visual, at ngayon, bilang karagdagan sa tumpak na pagputol ng mga bagay, posible i-convert ang isang larawan sa isang 3D na modelo Handa nang galugarin mula sa maraming anggulo. Ipinakilala ng Meta ang isang bagong henerasyon ng mga tool na nagtulay sa pag-edit, visual na pag-unawa sa mundo, at tatlong-dimensional na muling pagtatayo nang hindi nangangailangan ng mga advanced na kagamitan o kaalaman.
Pinag-uusapan natin ang tungkol sa SAM 3 at SAM 3D, dalawang modelo na dumarating upang pahusayin ang pagtuklas, pagsubaybay, at pagse-segment, at upang dalhin ang 3D na muling pagtatayo ng mga bagay at tao sa malawak na madla. Ang kanilang panukala ay nagsasangkot ng pag-unawa sa mga tagubilin sa teksto at mga visual na signal nang sabay-sabay, upang ang pagputol, pagbabago, at muling pagtatayo ng mga elemento ay kasingdali ng pag-type ng gusto natin o paggawa ng ilang pag-click.
Ano ang SAM 3 at SAM 3D at paano sila nagkakaiba?

Ang Meta's Segment Anything family ay lumalawak na may dalawang bagong karagdagan: SAM 3 at SAM 3D. Nakatuon ang una sa pagtukoy, pagsubaybay, at pagse-segment ng mga bagay sa mga larawan at video na may katumpakan sa susunod na henerasyon, habang ang huli Nagre-reconstruct ng 3D geometry at hitsura mula sa isang larawankabilang ang mga tao, hayop, o pang-araw-araw na produkto.
Ang pagkakaiba sa pagganap ay malinaw: SAM 3 ang humahawak sa "pag-unawa at paghihiwalay" ng visual na nilalaman, at ginagamit ng SAM 3D ang pag-unawa na iyon upang "lumikha" ng isang three-dimensional na volume. Sa pagpapares na ito, nagkakaroon ng workflow na dating nangangailangan ng kumplikadong software o mga espesyal na scanner mas naa-access at mas mabilis.
Higit pa rito, ang SAM 3 ay hindi limitado sa mga pangunahing visual prompt. Nagbibigay ito ng natural na language-guided segmentation na may kakayahang mag-interpret napaka tumpak na mga paglalarawanHindi na lang tungkol sa "kotse" o "bola" ang pinag-uusapan natin, kundi tungkol sa mga pariralang tulad ng "pulang baseball cap" para eksaktong mahanap ang mga elementong iyon sa isang eksena, kahit sa kabuuan ng isang video.
Samantala, ang SAM 3D ay may dalawang pantulong na lasa: SAM 3D Objects, na nakatuon sa mga bagay at eksenaat SAM 3D Body, sinanay upang tantyahin ang hugis at anyo ng tao. Binibigyang-daan ng espesyalisasyon na ito na masakop ang lahat mula sa mga consumer goods hanggang sa mga portrait at pose, na nagbubukas ng pinto sa malikhain, komersyal, at siyentipikong mga aplikasyon.
Paano nila nagagawang mag-segment at mag-reconstruct mula sa iisang larawan?
Ang susi ay nasa isang arkitektura na sinanay sa malalaking volume ng data upang magtatag ng mga direktang link sa pagitan ng mga salita at pixel. Naiintindihan ng modelo ang mga nakasulat na tagubilin at mga visual na signal (mga pag-click, tuldok, o mga kahon) nang sabay-sabay, upang isalin ang isang kahilingan sa mga partikular na lugar ng isang larawan o isang video frame.
Ang pag-unawa sa wikang ito ay higit pa sa mga tradisyonal na pangalan ng klase. Kakayanin ng SAM 3 ang mga kumplikadong tagubilin, pagbubukod, at mga nuances, na nagbibigay-daan sa mga query tulad ng "mga taong nakaupo na hindi nakasuot ng pulang sumbrero." Ang pagkakatugma na ito sa detalyadong text prompt Nilulutas nito ang isang makasaysayang limitasyon ng mga nakaraang modelo, na may posibilidad na malito ang mga butil-butil na konsepto.
Pagkatapos ay SAM 3D ay naglaro: simula sa isang imahe, ito ay bumubuo ng isang three-dimensional na modelo na nagbibigay-daan sa iyo upang tingnan ang bagay mula sa iba pang mga pananaw, muling ayusin ang eksena, o maglapat ng mga 3D effect. Sa pagsasagawa, isinasama ito sa nakaraang segmentation upang ihiwalay kung ano ang interes sa amin at, samakatuwid, Muling buuin sa 3D nang walang kumplikadong mga intermediate na hakbang.
Mga bagong feature kumpara sa mga nakaraang henerasyon
Binago ng SAM 1 at SAM 2 ang pagse-segment sa pamamagitan ng lubos na pag-asa sa mga visual na pahiwatig. Gayunpaman, nahirapan sila kapag hiniling na magbigay ng mahahabang interpretasyon o nuanced natural na mga tagubilin sa wika. Ang SAM 3 ay lumalampas sa hadlang na iyon sa pamamagitan ng pagsasama multimodal na pag-unawa na nag-uugnay sa teksto at pangitain nang mas direkta.
Sinasamahan ng Meta ang pag-unlad ng isang bagong benchmark ng bukas na segmentasyon ng bokabularyoIdinisenyo upang suriin ang pagse-segment na ginagabayan ng teksto sa mga totoong sitwasyon sa mundo, at kasama ang paglalathala ng mga timbang ng SAM 3. Sa ganitong paraan, masusukat at maihahambing ng mga mananaliksik at developer ang mga resulta sa pagitan ng mga pamamaraan.
Sa muling pagdidisenyo nito, ang SAM 3D Objects ay makabuluhang nagpapabuti sa mga nakaraang diskarte, ayon sa data na ibinahagi ng Meta, na naglalabas din ng mga checkpoint, inference code, at isang hanay ng pagsusuri. Sa tabi ng SAM 3D Body, ang kumpanya ay naglalabas SAM 3D Artist Objects, isang bagong dataset na ginawa kasama ng mga artist para masuri ang kalidad ng 3D sa iba't ibang uri ng mga larawan.
Mga real-world na application at mga kaso ng agarang paggamit
Isinasama ng Meta ang mga kakayahan na ito sa mga produkto nito. Sa "Mga Pag-edit," ang tool sa video nito para sa Instagram at Facebook, ginagamit na ang advanced na pagse-segment para maglapat ng mga epekto sa mga video. tiyak na tao o bagay nang hindi naaapektuhan ang natitirang bahagi ng larawan. Pinapadali nito ang mga pagbabago sa background, mga piling filter, o mga naka-target na pagbabago nang hindi sinasakripisyo ang kalidad.
Makikita rin natin ang mga feature na ito sa Vibes, sa loob ng Meta AI app, at sa meta.ai platform, na may mga bagong karanasan sa pag-edit at creative. Sa pamamagitan ng pagpayag sa mga kumplikadong tagubilin, maaaring ilarawan ng user kung ano ang gusto nilang baguhin, at tutugon ang system nang naaayon. ginagawang awtomatiko ang mga gawain sa post-production na dating matrabaho.
Sa komersiyo, namumukod-tangi ang "Tingnan sa Kwarto" ng Facebook Marketplace, na tumutulong sa mga user na makita kung ano ang magiging hitsura ng mga kasangkapan o lampara sa kanilang tahanan salamat sa awtomatikong nabuong mga modelong 3D. Binabawasan ng functionality na ito ang kawalan ng katiyakan at nagpapabuti ng desisyon sa pagbili, isang mahalagang punto kapag hindi natin pisikal na nakikita ang produkto.
Ang epekto ay umaabot sa robotics, science, edukasyon, at sports medicine. Ang 3D reconstruction mula sa mga simpleng larawan ay maaaring magpakain ng mga simulator, lumikha ng anatomical reference na mga modelo, at sumusuporta sa mga tool sa pagsusuri na dati nang nangangailangan ng espesyal na kagamitan. Ang lahat ng ito ay nagtataguyod mga bagong daloy ng trabaho sa pananaliksik at pagsasanay.
I-segment ang Anything Playground: subukan at gumawa nang walang friction

Upang gawing demokrasya ang pag-access, inilunsad ang Meta I-segment ang Anything PlaygroundIsang website kung saan maaaring mag-upload ng mga larawan o video ang sinuman at mag-eksperimento sa SAM 3 at SAM 3D. Ang interface nito ay nakapagpapaalaala sa "magic wand" ng mga klasikong editor, na may kalamangan na kaya natin isulat kung ano ang gusto nating piliin o pinuhin sa ilang mga pag-click.
Bilang karagdagan, nag-aalok ang Playground ng mga template na handa nang gamitin. Kabilang dito ang mga praktikal na opsyon tulad ng mga pixelate na mukha o mga plaka ng lisensyaat higit pang mga malikhaing epekto tulad ng mga motion trail o spotlight. Ginagawa nitong posible na makamit ang mga gawain sa proteksyon ng pagkakakilanlan o mga epekto na nakakaakit ng pansin sa ilang segundo.
Higit pa sa pagse-segment, maaaring tuklasin ng mga user ang mga eksena mula sa mga bagong pananaw, muling ayusin ang mga ito, o maglapat ng mga three-dimensional na effect gamit ang SAM 3D. Ang layunin ay para sa sinuman, na walang paunang kaalaman sa 3D o computer vision, na magawa ito. makamit ang mga katanggap-tanggap na resulta sa ilang minuto at walang pag-install ng anuman.
Mga modelo, bukas na mapagkukunan at pagsusuri
Naglabas ang Meta ng mga mapagkukunan upang matulungan ang komunidad na isulong ang estado ng sining. Para sa SAM 3, available ang mga sumusunod: mga timbang ng modelo kasama ang isang bukas na benchmark ng bokabularyo at isang teknikal na papel na nagdedetalye sa arkitektura at pagsasanay. Pinapadali nito ang reproducibility at patas na paghahambing.
Sa harap ng 3D, naglabas ang kumpanya ng mga control point, inference code, at isang next-generation assessment suite. Ang duality ng SAM 3D Objects at SAM 3D Body ay nagbibigay-daan para sa komprehensibong coverage. pangkalahatang mga bagay at ang katawan ng tao na may mga sukatan na inangkop sa bawat kaso, isang bagay na mahalaga upang masuri ang geometric at visual na katapatan.
Ang pakikipagtulungan sa mga artist upang lumikha ng SAM 3D Artist Objects ay nagpapakilala ng aesthetic at diversity na pamantayan sa pagsusuri, hindi lamang sa mga teknikal. Ito ay susi sa paggawa ng 3D reconstruction na kapaki-pakinabang sa malikhain at komersyal na kapaligirankung saan ang kalidad na nakikita ng mga tao ay gumagawa ng pagkakaiba.
Pagse-segment ng teksto: mga halimbawa at pakinabang
Sa SAM 3, maaari mong i-type ang "pulang baseball cap" at tutukuyin ng system ang lahat ng mga tugma sa isang larawan o sa kabuuan ng isang video. Ang katumpakan na ito ay nagbubukas ng pinto sa pag-edit ng mga daloy ng trabaho kung saan ang simpleng pag-type ng "pulang baseball cap" ay sapat na. maikli at malinaw na mga pangungusap upang paghiwalayin ang mga elemento at ilapat ang mga epekto o pagbabago sa kanila.
Ang pagiging tugma sa mga multimodal na modelo ng wika ay nagbibigay-daan para sa mas mahuhusay na tagubilin, kabilang ang mga pagbubukod o kundisyon ("mga taong nakaupo na walang suot na pulang cap"). Ang kakayahang umangkop na ito ay binabawasan ang mga oras ng trabaho at bumababa mga pagkakamali sa pagpili na dati nang naitama sa pamamagitan ng kamay.
Para sa mga team na gumagawa ng content sa sukat, pinapabilis ng text-driven na segmentation ang mga pipeline at ginagawang mas madali ang pag-standardize ng mga resulta. Sa marketing, halimbawa, ang pagkakapare-pareho ay maaaring mapanatili sa pamamagitan ng paglalapat ng mga filter sa isang pamilya ng produkto, isang bagay na iyon nagpapabuti ng oras at gastos ng produksyon.
Pag-edit ng social media at digital na pagkamalikhain
Ang pagsasama sa Edits ay nagdadala ng mga advanced na post-production na feature sa mga tagalikha ng Instagram at Facebook. Ang isang filter na dating nangangailangan ng mga kumplikadong mask ay maaari na ngayong ilapat gamit ang isang text command at ilang mga pag-click, habang pinapanatili ang mga gilid at pinong detalye matatag na frame sa pamamagitan ng frame.
Para sa mga maikling piraso, kung saan mahalaga ang iskedyul ng pag-publish, ginto ang automation na ito. Ang pagpapalit ng background ng isang clip, pag-highlight ng isang tao lang, o pagbabago ng isang partikular na bagay ay hindi na nangangailangan ng mga manual na daloy ng trabaho, at iyon nagpapademokrasiya ng mga epekto na dati ay eksklusibo sa mga propesyonal.
Samantala, pinapalawak ng Vibes at meta.ai ang hanay ng mga karanasan sa pag-edit at pagkamalikhain na batay sa wika. Sa pamamagitan ng kakayahang ilarawan nang detalyado kung ano ang gusto natin, ang paglukso mula sa ideya patungo sa resulta ay pinaikli, na isinasalin sa mas malikhaing pag-ulit sa mas kaunting oras.
Komersyo, agham at isport: higit sa entertainment
Ang "Tingnan sa Kwarto" sa Facebook Marketplace ay nagpapakita ng praktikal na halaga: ang pagkakita ng lampara o piraso ng muwebles sa iyong sala bago bumili ay nakakabawas sa mga babalik at nakakabuo ng tiwala. Sa likod nito ay isang pipeline na, simula sa mga imahe, ay bumubuo ng a 3D na modelo para sa visualization kontekstwal.
Sa agham at edukasyon, ang muling pagtatayo mula sa mga simpleng larawan ay binabawasan ang gastos sa paggawa ng mga materyales sa pagtuturo at makatotohanang mga simulator. Ang isang anatomical model na binuo ng AI ay maaaring gamitin bilang tool sa suporta sa mga silid-aralan o sa... pagsusuri ng biomekanikalpagpapabilis ng paghahanda ng nilalaman.
Sa sports medicine, ang pagsasama-sama ng pagsusuri sa komposisyon ng katawan sa pagbuo ng anyo ay nagbibigay ng mga tool para sa pag-aaral ng mga postura at paggalaw nang walang mamahaling kagamitan. Nagbubukas ito ng mga posibilidad para sa mas madalas na mga pagsusuri at malayuang pagsubaybay.
Pagkapribado, etika at mabubuting gawi
Ang kapangyarihan ng mga tool na ito ay nangangailangan ng responsibilidad. Ang pagmamanipula ng mga larawan ng mga tao nang walang kanilang pahintulot ay maaaring humantong sa mga legal at etikal na problema. Maipapayo na iwasan ang muling pagtatayo ng mga larawan. mga hindi pamilyar na mukhaHuwag magbahagi ng mga modelo nang walang pahintulot at huwag baguhin ang mga sensitibong eksena na maaaring magdulot ng kalituhan o pinsala.
Ang Meta ay nag-aanunsyo ng mga kontrol upang mabawasan ang maling paggamit, ngunit ang tunay na responsibilidad ay nakasalalay sa gumagamit ng teknolohiya. Maipapayo na i-verify ang pinagmulan ng mga larawan, protektahan ang personal na data, at tasahin ang konteksto bago mag-publish ng mga 3D na modelo na maaaring maglantad ng pribadong impormasyon.
Sa mga propesyonal na setting, ang pagtatatag ng mga patakaran sa pagsusuri at pagpapahintulot, at malinaw na pag-label ng content na binuo ng AI, ay nakakatulong sa responsableng paggamit. Nakakatulong ang pagsasanay sa koponan sa mga paksang ito maiwasan ang masasamang gawain mabilis na tumugon sa mga insidente.
Paano i-convert ang mga tao at bagay sa mga 3D na modelo gamit ang SAM 3D: Paano magsimula
Kung gusto mong mag-eksperimento kaagad, ang Anything Playground Segment ang gateway. Doon ka makakapag-upload ng larawan o video, i-type kung ano ang gusto mong piliin, at subukan ang mga opsyon sa 3D reconstruction sa loob ng isang simpleng interface. Para sa mga teknikal na profile, [magagamit ang mga karagdagang opsyon]. timbang, checkpoint at code na nagpapadali sa pasadyang pagsubok.
Ang mga mananaliksik, developer, at artist ay may ecosystem na kinabibilangan ng mga benchmark, mga dataset ng pagsusuri, at dokumentasyon. Ang layunin ay magtatag ng karaniwang batayan para sa pagsukat ng pag-unlad at pagpapabilis ng pag-aampon sa iba't ibang sektormula sa digital na pagkamalikhain hanggang sa robotics.
Ang pinaka-kagiliw-giliw na bagay ay ang hakbang na ito ay hindi nakalaan para sa mga espesyalista: ang curve ng pagkatuto ay umiikli, at ang mga tampok ay umaabot sa mga pang-araw-araw na app. Iminumungkahi ng lahat na ang pag-edit at 3D ay patuloy na isasama sa mga daloy ng trabaho kung saan natural na wika ang interface.
Sa SAM 3 at SAM 3D, ang Meta ay nagdadala ng text segmentation at single-image reconstruction sa mga creator at team sa lahat ng laki. Sa pagitan ng Playground, pagsasama sa Mga Pag-edit, bukas na mapagkukunan, at mga aplikasyon sa commerce, edukasyon, at sports, isang matatag na pundasyon ang nabubuo. bagong paraan ng pagtatrabaho sa mga larawan at volume na pinagsasama ang katumpakan, pagiging naa-access, at responsibilidad.
Mahilig sa teknolohiya mula pa noong bata pa siya. Gustung-gusto kong maging up to date sa sektor at, higit sa lahat, ipaalam ito. Iyon ang dahilan kung bakit ako ay nakatuon sa komunikasyon sa teknolohiya at mga website ng video game sa loob ng maraming taon na ngayon. Makikita mo akong nagsusulat tungkol sa Android, Windows, MacOS, iOS, Nintendo o anumang iba pang nauugnay na paksang naiisip.
