- SAM 3 kynnir mynd- og myndbandssegmenteringu með texta og sjónrænum dæmum, með orðaforða sem inniheldur milljónir hugtaka.
- SAM 3D gerir þér kleift að endurskapa hluti, senur og mannslíkamenn í þrívídd úr einni mynd með því að nota opna líkön.
- Hægt er að prófa líkön án tæknilegrar þekkingar í Segment Anything Playground, með hagnýtum og skapandi sniðmátum.
- Meta gefur út vigtir, eftirlitspunkta og ný viðmið svo að forritarar og vísindamenn í Evrópu og um allan heim geti samþætt þessa eiginleika í verkefni sín.
Meta hefur stigið enn eitt skrefið í skuldbindingu sinni við gervigreind notuð í tölvusjón með Kynning á SAM 3 og SAM 3D, tvær gerðir sem stækka Segment Anything fjölskylduna og það Þau stefna að því að breyta því hvernig við vinnum með ljósmyndir og myndböndFyrirtækið vill ekki að þessi verkfæri séu bara tilraun í rannsóknarstofu heldur að bæði fagfólk og notendur án tæknilegrar þekkingar geti notað þau.
Með þessari nýju kynslóð einbeitir Meta sér að bæta greiningu og skiptingu hluta og við að koma með þrívíddarendurgerð fyrir mun breiðari hópFrá myndvinnslu til vörusýnileika fyrir netverslun á Spáni og í öðrum Evrópulöndum, sér fyrirtækið fyrir sér atburðarás þar sem Að lýsa einfaldlega því sem þú vilt gera með orðum er nóg til að gervigreind geti gert mest af þunga verkinu..
Hvað býður SAM 3 upp á samanborið við fyrri útgáfur?
SAM 3 er staðsett sem bein þróun af segmenteringslíkönunum sem Meta kynnti árin 2023 og 2024, þekkt sem SAM 1 og SAM 2. Þessar fyrstu útgáfur einbeittu sér að því að bera kennsl á hvaða pixlar tilheyrðu hverjum hlut, aðallega með því að nota sjónrænar vísbendingar eins og punkta, kassa eða grímur, og í tilviki SAM 2, að fylgja hlutum í gegnum myndband nánast í rauntíma.
Lykilnýjungin núna er að SAM 3 skilur ríkar og nákvæmar textaleiðbeiningarekki bara almennar merkingar. Áður fyrr voru einföld hugtök eins og „bíll“ eða „rúta“ notuð en nýja gerðin getur brugðist við mun nákvæmari lýsingum, til dæmis „gulur skólabíll“ eða „rauður bíll tvístæðir“.
Í reynd þýðir þetta að það er nóg að skrifa eitthvað á þessa leið „rauð hafnaboltahúfa“ svo að kerfið geti fundið og aðskilið öll atriði sem passa við þá lýsingu innan myndar eða myndbands. Þessi möguleiki á að fínstilla með orðum er sérstaklega gagnlegur í fagleg ritstjórnarumhverfi, auglýsingar eða efnisgreiningar, þar sem oft þarf að skoða mjög nákvæmar upplýsingar.
Þar að auki hefur SAM 3 verið hannað til að samþætta við stór fjölþætt tungumálalíkönÞetta gerir þér kleift að fara lengra en einföld orðasambönd og nota flóknar leiðbeiningar eins og: „Fólk situr niður en er ekki með rauða húfu“ eða „gangandi vegfarendur sem horfa í myndavélina en eru án bakpoka.“ Þessi tegund leiðbeininga sameinar skilyrði og undantekningar sem þar til nýlega var erfitt að þýða yfir í tölvusjóntól.
Afköst og umfang SAM 3 líkansins

Meta vildi einnig draga fram þann sem er minna sýnilegur en mikilvægur: tæknileg afköst og þekkingarstig líkansins. Samkvæmt gögnum fyrirtækisins er SAM 3 fær um að vinna úr einni mynd með meira en hundrað greindum hlutum á um 30 millisekúndum með því að nota H200 GPU, sem er hraði mjög nálægt því sem þarf fyrir krefjandi vinnuflæði.
Í tilviki myndbandsins tryggir fyrirtækið að kerfið haldi áfram að skila afköstum. nánast í rauntíma þegar unnið er með um það bil fimm hluti samtímis, sem gerir það hagkvæmt að rekja og skipta efni á hreyfanlegt stig, allt frá stuttum myndskeiðum á samfélagsmiðlum til metnaðarfyllri framleiðsluverkefna.
Til að ná þessari hegðun hefur Meta byggt upp þjálfunargrunn með meira en 4 milljónir einstakra hugmyndaMeð því að sameina mannlega skýringarforrit og gervigreindarlíkön til að merkja mikið magn gagna, miðar þessi blanda af handvirku og sjálfvirku eftirliti að því að finna jafnvægi á milli nákvæmni og umfangs – sem er lykilatriði til að tryggja að líkanið bregðist vel við fjölbreyttum innsláttum í evrópskum, rómönsku Ameríku og öðrum markaðssamhengjum.
Fyrirtækið rammar SAM 3 inn innan þess sem það kallar Segment Anything safniðFjölskylda líkana, viðmiða og úrræða sem eru hönnuð til að auka sjónræna skilning gervigreindar. Útgáfunni fylgir nýr viðmiðunarpunktur fyrir „opið orðaforða“-segmenteringu, sem einbeitir sér að því að mæla í hvaða mæli kerfið getur skilið nánast hvaða hugtak sem er sem er tjáð á náttúrulegu máli.
Samþætting við Edits, Vibes og önnur Meta verkfæri

Fyrir utan tæknilega þáttinn hefur Meta þegar byrjað að samþætta SAM 3 í tilteknar vörur sem eru ætlaðar til daglegrar notkunar. Einn af fyrstu áfangastöðunum verður Breytingar, forrit þeirra til að búa til og klippa myndbönd, þar sem hugmyndin er sú að notandinn geti valið tiltekið fólk eða hluti með einfaldri textalýsingu og beitt áhrifum, síum eða breytingum aðeins á þá hluta myndefnisins.
Önnur leið til samþættingar verður fundin í Vibes, innan Meta AI appsins og meta.ai kerfisinsÍ þessu umhverfi verður textaskipting sameinuð myndunartólum til að skapa nýjar ritstjórnar- og skapandi upplifanir, svo sem sérsniðna bakgrunna, hreyfiáhrif eða sértækar myndbreytingar hannaðar fyrir samfélagsmiðla sem eru mjög vinsælir á Spáni og í öðrum Evrópulöndum.
Tillaga fyrirtækisins er að þessi hæfni takmarkist ekki við fagnám, heldur nái hún til... sjálfstæðir höfundar, litlar auglýsingastofur og lengra komnir notendur sem vinna daglega með sjónrænt efni. Möguleikinn á að skipta atriðum í sundur með því að skrifa lýsingar á náttúrulegu máli styttir námsferilinn samanborið við hefðbundin verkfæri sem byggja á handvirkum grímum og lögum.
Á sama tíma heldur Meta opnu nálgun gagnvart utanaðkomandi forriturum og bendir á að þriðja aðila umsóknir - frá klippitólum til lausna fyrir myndgreiningu í smásölu eða öryggismálum - geta treyst á SAM 3 svo lengi sem notkunarstefnu fyrirtækisins er fylgt.
SAM 3D: Þrívíddaruppbygging úr einni mynd

Hin stóru fréttirnar eru SAM 3Dkerfi sem er hannað til að framkvæma þrívíddarendurgerðir byrjað er á tvívíddarmyndum. Í stað þess að þurfa margar myndir úr mismunandi sjónarhornum, miðar líkanið að því að búa til áreiðanlega þrívíddarmynd úr einni ljósmynd, sem er sérstaklega áhugavert fyrir þá sem ekki hafa sérhæfðan skönnunarbúnað eða vinnuflæði.
SAM 3D samanstendur af tveimur opnum hugbúnaðarlíkönum með mismunandi virkni: SAM 3D hlutireinbeitti sér að því að endurskapa hluti og senur, og SAM 3D líkami, sem miðar að því að meta líkamsbyggingu og lögun manna. Þessi aðskilnaður gerir kleift að aðlaga kerfið að mjög mismunandi notkunartilfellum, allt frá vörulista til heilsu- eða íþróttaforrita.
Samkvæmt Meta markar SAM 3D Objects a Nýr afkastaviðmiðun í þrívíddarendurgerð með gervigreindsem skilar auðveldlega betri árangri en fyrri aðferðir hvað varðar lykilgæðamælikvarða. Til að meta niðurstöðurnar nákvæmar hefur fyrirtækið unnið með listamönnum að því að búa til SAM 3D Artist Objects, gagnasafn sem er sérstaklega hannað til að meta nákvæmni og smáatriði endurgerða á fjölbreyttum myndum og hlutum.
Þessi framþróun opnar dyrnar að hagnýtum notkunum á sviðum eins og vélfærafræði, vísindi, íþróttalækningar eða stafræn sköpunTil dæmis getur það í vélfærafræði hjálpað kerfum að skilja betur rúmmál hluta sem þau hafa samskipti við; í læknisfræðilegum eða íþróttarannsóknum gæti það hjálpað til við að greina líkamsstöðu og hreyfingar; og í skapandi hönnun þjónar það sem grunnur að því að búa til þrívíddarlíkön fyrir hreyfimyndir, tölvuleiki eða upplifun í upplifun.
Eitt af fyrstu viðskiptalegum forritum sem þegar eru sýnileg er virknin „Útsýni í herbergi“ de Facebook Marketplacesem gerir þér kleift að sjá fyrir þér hvernig húsgagn eða skrauthlutur myndi líta út í raunverulegu herbergi áður en þú kaupir hann. Með SAM 3D, Meta leitast við að fullkomna þess konar upplifanir, mjög mikilvægt fyrir evrópska netverslun, þar sem það að skila vörum vegna óuppfylltra væntinga felur í sér vaxandi kostnað.
Leikvöllur fyrir Segment Anything: umhverfi fyrir tilraunir

Til að leyfa almenningi að prófa þessa eiginleika án þess að setja neitt upp hefur Meta virkjað ... Leikvöllur fyrir hvað sem erÞetta er vefvettvangur sem gerir þér kleift að hlaða inn myndum eða myndböndum og gera tilraunir með SAM 3 og SAM 3D beint úr vafranum þínum. Hugmyndin er sú að hver sem er forvitinn um sjónræna gervigreind geti kannað hvað er mögulegt án nokkurrar forritunarþekkingar.
Í tilviki SAM 3 gerir leikvöllurinn kleift að skipta hlutum í sundur með því að nota stuttar setningar eða ítarlegar leiðbeiningarAð sameina texta og, ef þess er óskað, sjónræn dæmi. Þetta einfaldar algeng verkefni eins og að velja fólk, bíla, dýr eða tiltekna þætti í senunni og beita sérstökum aðgerðum á þau, allt frá fagurfræðilegum áhrifum til óskýrleika eða bakgrunnsbreytinga.
Þegar unnið er með SAM 3D gerir kerfið það mögulegt Skoðaðu senur frá nýjum sjónarhornumendurraða hlutum, beita þrívíddaráhrifum eða búa til mismunandi sýn. Fyrir þá sem vinna við hönnun, auglýsingar eða þrívíddarefni býður þetta upp á fljótlega leið til að frumgerða hugmyndir án þess að þurfa að nota flókin tæknileg verkfæri strax í upphafi.
Leikvöllurinn inniheldur einnig röð af tilbúin sniðmát Þessir eiginleikar eru sniðnir að mjög sértækum verkefnum. Þeir fela í sér hagnýta valkosti eins og að pixla andlit eða bílnúmer til að vernda friðhelgi einkalífsins, og sjónræn áhrif eins og hreyfimyndir, sértæka áherslur eða kastljós á áhugaverð svæði í myndbandinu. Þessar tegundir eiginleika geta hentað sérstaklega vel fyrir vinnuflæði stafrænna miðla og efnisframleiðenda á Spáni, þar sem framleiðsla stuttmyndbanda og efnis fyrir samfélagsmiðla er stöðug.
Opnar auðlindir fyrir forritara og vísindamenn

Í samræmi við stefnuna sem Meta hefur fylgt í öðrum útgáfum af gervigreind hefur fyrirtækið ákveðið að gefa út verulegan hluta af tæknilegar auðlindir tengdar SAM 3 og SAM 3DÍ fyrsta lagi hafa vigtir líkansins, nýtt viðmið sem einblínir á opna orðaforðaskiptingu og tæknilegt skjal sem lýsir þróun þess verið birt opinberlega.
Í tilviki SAM 3D er eftirfarandi í boði: líkanseftirlitspunktar, ályktunarkóði og matsgagnasett næsta kynslóð. Þetta gagnasafn inniheldur töluvert úrval af myndum og hlutum sem miðar að því að fara út fyrir hefðbundna þrívíddarviðmiðunarpunkta og veita meiri raunsæi og flækjustig, eitthvað sem getur verið mjög gagnlegt fyrir evrópska rannsóknarhópa sem vinna í tölvusjón og grafík.
Meta hefur einnig tilkynnt um samstarf við skýringarvettvanga eins og Roboflow, með það að markmiði að gera forriturum og fyrirtækjum kleift að ... Sláðu inn þín eigin gögn og aðlagaðu SAM 3 að sértækum þörfum. Þetta opnar dyrnar að lausnum sem eru sértækar fyrir hvern geira, allt frá iðnaðarskoðunum til greiningar á umferð í þéttbýli, þar á meðal verkefnum sem varða menningararf þar sem mikilvægt er að skipta nákvæmlega í sundur byggingarlistar- eða listræna þætti.
Með því að velja tiltölulega opna nálgun leitast fyrirtækið við að tryggja að vistkerfi forritara, háskólar og sprotafyrirtæki - þar á meðal þeir sem starfa á Spáni og í öðrum löndum Evrópu - geta gert tilraunir með þessa tækni, samþætt hana í sínar eigin vörur og að lokum lagt fram notkunartilvik sem fara lengra en þau sem Meta getur þróað innbyrðis.
Með SAM 3 og SAM 3D stefnir Meta að því að styrkja sveigjanlegri og aðgengilegri sjónræn gervigreindarpallurþar sem textastýrð segmentering og þrívíddaruppbygging úr einni mynd eru ekki lengur möguleiki sem er eingöngu ætlaður mjög sérhæfðum teymum. Möguleg áhrif ná frá daglegri myndvinnslu til háþróaðra forrita í vísindum, iðnaði og netverslun, í samhengi þar sem samsetning tungumáls, tölvusjónar og sköpunar er að verða staðlað vinnutæki og ekki bara tæknilegt loforð.
Ég er tækniáhugamaður sem hefur breytt "nörda" áhugamálum sínum í fag. Ég hef eytt meira en 10 árum af lífi mínu í að nota háþróaða tækni og fikta í alls kyns forritum af einskærri forvitni. Nú hef ég sérhæft mig í tölvutækni og tölvuleikjum. Þetta er vegna þess að í meira en 5 ár hef ég skrifað fyrir ýmsar vefsíður um tækni og tölvuleiki, búið til greinar sem leitast við að veita þér þær upplýsingar sem þú þarft á tungumáli sem er skiljanlegt fyrir alla.
Ef þú hefur einhverjar spurningar þá nær þekking mín frá öllu sem tengist Windows stýrikerfinu sem og Android fyrir farsíma. Og skuldbinding mín er til þín, ég er alltaf tilbúin að eyða nokkrum mínútum og hjálpa þér að leysa allar spurningar sem þú gætir haft í þessum internetheimi.