- SAM 3 esittelee tekstin ja visuaalisten esimerkkien ohjaaman kuvien ja videoiden segmentoinnin miljoonien käsitteiden sanaston avulla.
- SAM 3D:n avulla voit rekonstruoida esineitä, kohtauksia ja ihmiskehoja 3D-muodossa yhdestä kuvasta käyttämällä avoimia malleja.
- Malleja voi testata ilman teknistä tietämystä Segment Anything Playgroundissa käytännöllisten ja luovien mallien avulla.
- Meta julkaisee painotuksia, tarkistuspisteitä ja uusia vertailuarvoja, jotta kehittäjät ja tutkijat Euroopassa ja muualla maailmassa voivat integroida nämä ominaisuudet projekteihinsa.
Meta on ottanut jälleen askeleen sitoutumisessaan tekoäly sovellettuna konenäköön kanssa SAM 3:n ja SAM 3D:n julkaisu, kaksi mallia, jotka laajentavat Segment Anything -perhettä ja jotka He pyrkivät muuttamaan tapaamme työskennellä valokuvien ja videoiden kanssaYritys ei halua näiden työkalujen jäävän pelkäksi laboratoriokokeeksi, vaan tarjoaa niitä sekä ammattilaisille että käyttäjille ilman teknistä taustaa.
Tämän uuden sukupolven myötä Meta keskittyy parantaa kohteiden tunnistusta ja segmentointia ja tuodessaan kolmiulotteinen rekonstruktio paljon laajemmalle yleisölleVideoiden editoinnista tuotteiden visualisointiin verkkokaupassa Espanjassa ja muualla Euroopassa, yritys visioi skenaarion, jossa Pelkkä kuvaileminen sanoin, mitä haluat tehdä, riittää, jotta tekoäly hoitaa suurimman osan raskaasta työstä..
Mitä SAM 3 tarjoaa verrattuna aiempiin versioihin?
SAM 3 on sijoitettu suoraksi evoluutioksi Metan vuosina 2023 ja 2024 esittelemistä segmentointimalleista, jotka tunnetaan nimillä SAM 1 ja SAM 2. Nämä varhaiset versiot keskittyivät tunnistamaan, mitkä pikselit kuuluivat mihinkin objektiin, pääasiassa käyttämällä visuaalisia vihjeitä, kuten pisteitä, laatikoita tai maskeja, ja SAM 2:n tapauksessa seuraamalla objekteja videon läpi lähes reaaliajassa.
Keskeinen uusi kehitysaskel on nyt se, että SAM 3 ymmärtää rikkaita ja tarkkoja tekstikehotteitaei vain yleisiä nimikkeitä. Kun aiemmin käytettiin yksinkertaisia termejä, kuten "auto" tai "bussi", uusi malli pystyy vastaamaan paljon tarkempiin kuvauksiin, esimerkiksi "keltainen koulubussi" tai "punainen auto tuplapysäköitynä".
Käytännössä tämä tarkoittaa, että riittää kirjoittaa jotain tällaista "Punainen lippalakki" jotta järjestelmä voi paikantaa ja erottaa kaikki kuvaukseen sopivat elementit kuvasta tai videosta. Tämä sanoilla tarkentamisen kyky on erityisen hyödyllinen ammattimaiset editointiympäristöt, mainonta tai sisällönanalyysi, joissa usein on tarkasteltava hyvin erityisiä yksityiskohtia.
Lisäksi SAM 3 on suunniteltu integroitavaksi seuraavien kanssa: suuret multimodaaliset kielimallitNäin voit mennä yksinkertaisten lauseiden ulkopuolelle ja käyttää monimutkaisempia ohjeita, kuten: "Ihmiset istuvat, mutta eivät käytä punaista lippalakkia" tai ”jalankulkijat, jotka katsovat kameraan, mutta ilman reppua”. Tämän tyyppisessä ohjeessa yhdistyvät olosuhteet ja poissulkemiset, joita oli vielä äskettäin vaikea kääntää konenäkötyökaluksi.
SAM 3 -mallin suorituskyky ja mittakaava

Meta halusi myös korostaa vähemmän näkyvää mutta ratkaisevaa osaa: tekninen suorituskyky ja tietämysasteikko mallista. Yrityksen tietojen mukaan SAM 3 pystyy käsittelemään yhden kuvan, jossa on yli sata havaittua kohdetta, noin 30 millisekunnissa käyttäen H200-grafiikkasuoritinta, mikä on hyvin lähellä vaativien työnkulkujen edellyttämää nopeutta.
Videon tapauksessa yritys vakuuttaa, että järjestelmä säilyttää suorituskykynsä käytännössä reaaliajassa työskenneltäessä noin viiden samanaikaisen objektin kanssa, mikä tekee siitä käyttökelpoisen liikkuvan sisällön seurannassa ja segmentoinnissa lyhyistä sosiaalisen median klipeistä kunnianhimoisempiin tuotantoprojekteihin.
Tämän toiminnan saavuttamiseksi Meta on rakentanut koulutuspohjan, jossa on yli 4 miljoonaa ainutlaatuista konseptiaYhdistämällä ihmisannotaattoreita tekoälymalleihin suurten tietomäärien merkitsemiseksi, tämä manuaalisen ja automatisoidun valvonnan yhdistelmä pyrkii tasapainottamaan tarkkuutta ja skaalautuvuutta – mikä on avainasemassa sen varmistamisessa, että malli reagoi hyvin erilaisiin syötteisiin Euroopan, Latinalaisen Amerikan ja muiden markkinoiden konteksteissa.
Yritys määrittelee SAM 3:n niin sanottujen Segmentoi mitä tahansa -kokoelmaMallien, vertailuarvojen ja resurssien perhe, joka on suunniteltu laajentamaan tekoälyn visuaalista ymmärrystä. Julkaisun mukana tulee uusi vertailuarvo "avoimen sanaston" segmentoinnille, joka keskittyy mittaamaan sitä, missä määrin järjestelmä ymmärtää lähes mitä tahansa luonnollisella kielellä ilmaistua käsitettä.
Integrointi Edits-, Vibes- ja muiden Meta-työkalujen kanssa

Teknisen komponentin lisäksi Meta on jo alkanut integroi SAM 3 tiettyihin tuotteisiin jotka on tarkoitettu jokapäiväiseen käyttöön. Yksi ensimmäisistä kohteista on Muokkaa, heidän videoiden luonti- ja muokkaussovelluksensa, jossa ajatuksena on, että käyttäjä voi valita tiettyjä ihmisiä tai objekteja yksinkertaisella tekstikuvauksella ja käyttää tehosteita, suodattimia tai muutoksia vain kyseisiin osiin videomateriaalia.
Toinen integroitumisen tie löytyy mm. Vibes, Meta AI -sovelluksessa ja meta.ai-alustallaTässä ympäristössä tekstin segmentointi yhdistetään generatiivisiin työkaluihin uusien muokkaus- ja luovien kokemusten luomiseksi, kuten mukautettuja taustoja, liiketehosteita tai valikoivia valokuvien muokkausta, jotka on suunniteltu sosiaalisille verkostoille, jotka ovat erittäin suosittuja Espanjassa ja muualla Euroopassa.
Yrityksen ehdotus on, että näitä ominaisuuksia ei rajoiteta ammattiopintoihin, vaan ne ulottuvat... itsenäisille sisällöntuottajille, pienille toimistoille ja edistyneille käyttäjille jotka työskentelevät päivittäin visuaalisen sisällön parissa. Mahdollisuus segmentoida kohtauksia kirjoittamalla kuvauksia luonnollisella kielellä lyhentää oppimiskäyrää verrattuna perinteisiin työkaluihin, jotka perustuvat manuaalisiin maskeihin ja tasoihin.
Samaan aikaan Meta suhtautuu avoimesti ulkopuolisiin kehittäjiin, mikä viittaa siihen, että kolmannen osapuolen sovelluksia – editointityökaluista vähittäiskaupan tai turvallisuuden videoanalytiikkaratkaisuihin – voivat luottaa SAM 3:een, kunhan yrityksen käyttökäytäntöjä noudatetaan.
SAM 3D: Kolmiulotteinen rekonstruktio yhdestä kuvasta

Toinen iso uutinen on SAM 3Djärjestelmä, joka on suunniteltu toimimaan kolmiulotteiset rekonstruktiot alkaen 2D-kuvista. Useiden eri kulmista otettujen otosten sijaan malli pyrkii luomaan luotettavan 3D-esityksen yhdestä valokuvasta, mikä on erityisen mielenkiintoista niille, joilla ei ole erikoistuneita skannauslaitteita tai työnkulkuja.
SAM 3D koostuu kahdesta avoimen lähdekoodin mallista, joilla on erilliset toiminnot: SAM 3D -objektitkeskittyen esineiden ja kohtausten rekonstruointiin ja SAM 3D -runko, joka on suunnattu ihmisen muodon ja kehon arvioimiseen. Tämä erottelu mahdollistaa järjestelmän mukauttamisen hyvin erilaisiin käyttötapauksiin tuoteluetteloista terveys- tai urheilusovelluksiin.
Metan mukaan SAM 3D Objects merkitsee a Uusi suorituskyvyn vertailuarvo tekoälyohjatussa 3D-rekonstruktiossaylittäen helposti aiemmat menetelmät keskeisissä laatumittareissa. Tulosten tarkemman arvioinnin varmistamiseksi yritys on työskennellyt taiteilijoiden kanssa luodakseen SAM 3D Artist Objects -aineiston, joka on erityisesti suunniteltu arvioimaan rekonstruktioiden tarkkuutta ja yksityiskohtia monenlaisissa kuvissa ja objekteissa.
Tämä edistysaskel avaa oven käytännön sovelluksille mm. robotiikka, luonnontieteet, urheilulääketiede tai digitaalinen luovuusEsimerkiksi robotiikassa se voi auttaa järjestelmiä ymmärtämään paremmin niiden esineiden tilavuutta, joiden kanssa ne ovat vuorovaikutuksessa; lääketieteellisessä tai urheilututkimuksessa se voi auttaa analysoimaan kehon asentoa ja liikettä; ja luovassa suunnittelussa se toimii perustana 3D-mallien luomiselle animaatioita, videopelejä tai immersiivisiä kokemuksia varten.
Yksi ensimmäisistä jo näkyvistä kaupallisista sovelluksista on funktio "Näkymä huoneessa" de Facebook Marketplacejonka avulla voit visualisoida, miltä huonekalu tai koriste-esine näyttäisi todellisessa huoneessa ennen sen ostamista. SAM 3D:n avulla Meta pyrkii täydellistämään tällaisia kokemuksia, erittäin merkityksellinen eurooppalaiselle verkkokaupalle, jossa tuotteiden palauttaminen täyttymättömien odotusten vuoksi on yhä kustannuserä.
Segment Anything Playground: kokeiluympäristö

Jotta yleisö voi testata näitä ominaisuuksia asentamatta mitään, Meta on ottanut käyttöön Segmentoi mitä tahansa leikkikenttäSe on verkkoalusta, jonka avulla voit ladata kuvia tai videoita ja kokeilla SAM 3:a ja SAM 3D:tä suoraan selaimestasi. Ajatuksena on, että kuka tahansa visuaalisesta tekoälystä kiinnostunut voi tutkia, mitä on mahdollista ilman ohjelmointiosaamista.
SAM 3:n tapauksessa Playground mahdollistaa objektien segmentoinnin käyttämällä lyhyitä lauseita tai yksityiskohtaisia ohjeitaTekstin ja haluttaessa visuaalisten esimerkkien yhdistäminen. Tämä yksinkertaistaa yleisiä tehtäviä, kuten ihmisten, autojen, eläinten tai tiettyjen kohtauksen elementtien valitsemista ja niihin liittyvien toimintojen suorittamista esteettisistä tehosteista taustan sumentamiseen tai korvaamiseen.
SAM 3D:n kanssa työskenneltäessä alusta mahdollistaa Tutki kohtauksia uusista näkökulmistajärjestellä objekteja uudelleen, käyttää kolmiulotteisia tehosteita tai luoda vaihtoehtoisia näkymiä. Suunnittelun, mainonnan tai 3D-sisällön parissa työskenteleville se tarjoaa nopean tavan prototyyppien luomiseen ilman monimutkaisten teknisten työkalujen käyttöä alusta alkaen.
Leikkipuistoon kuuluu myös sarja käyttövalmiit mallit Nämä ominaisuudet on suunnattu hyvin spesifisiin tehtäviin. Niihin kuuluvat käytännölliset vaihtoehdot, kuten kasvojen tai rekisterikilpien pikselöinti yksityisyyssyistä, sekä visuaaliset tehosteet, kuten liikejäljet, valikoidut korostukset tai videon kiinnostavien alueiden kohdentaminen. Tällaiset toiminnot voivat sopia erityisen hyvin digitaalisen median ja sisällöntuottajien työnkulkuihin Espanjassa, jossa lyhyiden videoiden ja sosiaalisen median sisällön tuotanto on jatkuvaa.
Avoimet resurssit kehittäjille ja tutkijoille

Metan muissa tekoälyjulkaisuissa noudattaman strategian mukaisesti yritys on päättänyt julkaista merkittävän osan SAM 3:een ja SAM 3D:hen liittyvät tekniset resurssitEnsimmäisen osalta on julkaistu mallin painot, uusi avoimen sanaston segmentointiin keskittyvä vertailuarvo ja sen kehitystä kuvaava tekninen dokumentti.
SAM 3D:n tapauksessa käytettävissä on seuraavat: mallin tarkistuspisteet, päättelykoodi ja arviointiaineisto seuraavan sukupolven. Tämä aineisto sisältää huomattavan määrän kuvia ja objekteja, joiden tavoitteena on ylittää perinteiset 3D-referenssipisteet ja tarjota suurempaa realismia ja monimutkaisuutta, mikä voi olla erittäin hyödyllistä eurooppalaisille konenäön ja grafiikan parissa työskenteleville tutkimusryhmille.
Meta on myös ilmoittanut yhteistyöstä Roboflow'n kaltaisten merkintäalustojen kanssa tavoitteenaan mahdollistaa kehittäjille ja yrityksille Syötä omat tietosi ja säädä SAM 3:a erityistarpeisiin. Tämä avaa oven sektorikohtaisille ratkaisuille teollisuuden tarkastuksista kaupunkiliikenteen analysointiin, mukaan lukien kulttuuriperintöhankkeet, joissa on tärkeää segmentoida arkkitehtonisia tai taiteellisia elementtejä tarkasti.
Valitsemalla suhteellisen avoimen lähestymistavan yritys pyrkii varmistamaan, että kehittäjäekosysteemi, yliopistot ja startupit – mukaan lukien Espanjassa ja muualla Euroopassa toimivat – voivat kokeilla näitä teknologioita, integroida niitä omiin tuotteisiinsa ja lopulta tarjota käyttötapauksia, jotka menevät pidemmälle kuin mitä Meta voi kehittää itse.
SAM 3:n ja SAM 3D:n avulla Meta pyrkii vahvistamaan joustavampi ja helppokäyttöisempi visuaalinen tekoälyalustajossa tekstiohjattu segmentointi ja 3D-rekonstruktio yhdestä kuvasta eivät enää ole vain erikoistuneiden tiimien ominaisuuksia. Mahdollinen vaikutus ulottuu arkipäiväisestä videonmuokkauksesta edistyneisiin sovelluksiin tieteessä, teollisuudessa ja verkkokaupassa kontekstissa, jossa kielen, konenäön ja luovuuden yhdistelmästä on tulossa vakiotyöväline eikä vain teknologinen lupaus.
Olen teknologian harrastaja, joka on muuttanut "nörtti"-harrastuksensa ammatiksi. Olen käyttänyt yli 10 vuotta elämästäni uusinta teknologiaa käyttäen ja kaikenlaisten ohjelmien parissa puhtaasta uteliaisuudesta. Nyt olen erikoistunut tietotekniikkaan ja videopeleihin. Tämä johtuu siitä, että yli 5 vuoden ajan olen työskennellyt kirjoittaen useille teknologiaa ja videopelejä käsitteleville verkkosivustoille ja luonut artikkeleita, jotka pyrkivät antamaan sinulle tarvitsemaasi tietoa kielellä, jota kaikki ymmärtävät.
Jos sinulla on kysyttävää, tietoni ulottuu kaikesta Windows-käyttöjärjestelmään liittyvästä sekä matkapuhelimien Androidista. Ja sitoumukseni on sinulle, olen aina valmis käyttämään muutaman minuutin ja auttamaan sinua ratkaisemaan kaikki kysymyksesi, joita sinulla saattaa olla tässä Internet-maailmassa.