- SAM 3 prezanton segmentimin e imazheve dhe videove të udhëhequr nga shembuj tekstualë dhe vizualë, me një fjalor prej miliona konceptesh.
- SAM 3D ju lejon të rindërtoni objekte, skena dhe trupa njerëzorë në 3D nga një imazh i vetëm, duke përdorur modele të hapura.
- Modelet mund të testohen pa njohuri teknike në Segment Anything Playground, me shabllone praktikë dhe krijuese.
- Meta publikon pesha, pika kontrolli dhe standarde të reja në mënyrë që zhvilluesit dhe studiuesit në Evropë dhe në pjesën tjetër të botës të mund t'i integrojnë këto aftësi në projektet e tyre.
Meta ka ndërmarrë një hap tjetër në angazhimin e saj për të inteligjenca artificiale e aplikuar në shikimin kompjuterik con el lançimi i SAM 3 dhe SAM 3D, dy modele që zgjerojnë familjen Segment Anything dhe që Ata synojnë të ndryshojnë mënyrën se si punojmë me fotot dhe videotLarg nga të qenit një eksperiment laboratorik, kompania dëshiron që këto mjete të përdoren si nga profesionistët ashtu edhe nga përdoruesit pa një sfond teknik.
Me këtë brez të ri, Meta po përqendrohet në përmirëson zbulimin dhe segmentimin e objekteve dhe duke sjellë rindërtim tredimensional për një audiencë shumë më të gjerëNga montazhi i videove deri te vizualizimi i produkteve për tregtinë elektronike në Spanjë dhe pjesën tjetër të Evropës, kompania parashikon një skenar në të cilin Thjesht përshkrimi i asaj që doni të bëni me fjalë është i mjaftueshëm që IA të bëjë pjesën më të madhe të punës së rëndë..
Çfarë ofron SAM 3 në krahasim me versionet e mëparshme?
SAM 3 pozicionohet si evolucioni i drejtpërdrejtë të modeleve të segmentimit që Meta prezantoi në vitet 2023 dhe 2024, të njohura si SAM 1 dhe SAM 2. Ato versione të hershme u përqendruan në identifikimin e pikselëve që i përkisnin secilit objekt, kryesisht duke përdorur sinjale vizuale si pika, kuti ose maska, dhe në rastin e SAM 2, duke ndjekur objektet gjatë gjithë një videoje pothuajse në kohë reale.
Zhvillimi i ri kyç tani është se SAM 3 e kupton tekst i pasur dhe i saktëjo vetëm etiketa të përgjithshme. Ndërsa më parë përdoreshin terma të thjeshtë si "makinë" ose "autobus", modeli i ri është i aftë t'u përgjigjet përshkrimeve shumë më specifike, për shembull "autobus i verdhë shkollor" ose "makinë e kuqe e parkuar dy herë".
Në praktikë, kjo do të thotë se mjafton të shkruash diçka si "Kapelë bejsbolli e kuqe" në mënyrë që sistemi të mund të gjejë dhe ndajë të gjithë elementët që i përshtaten atij përshkrimi brenda një imazhi ose videoje. Kjo aftësi për të rafinuar me fjalë është veçanërisht e dobishme në kontekste profesionale të redaktimit, reklamim ose analizë përmbajtjeje, ku shpesh duhet të shikoni detaje shumë specifike.
Për më tepër, SAM 3 është projektuar për t'u integruar me modele të mëdha gjuhësore multimodaleKjo ju lejon të shkoni përtej frazave të thjeshta dhe të përdorni udhëzime komplekse si: “Njerëz të ulur, por pa veshur kapelë të kuqe” ose “këmbësorë që po shikojnë kamerën, por pa çantë shpine”. Ky lloj udhëzimi kombinon kushte dhe përjashtime që deri vonë ishin të vështira për t’u përkthyer në një mjet shikimi kompjuterik.
Performanca dhe shkalla e modelit SAM 3

Meta donte gjithashtu të nxirrte në pah pjesën më pak të dukshme, por thelbësore: performanca teknike dhe shkalla e njohurive të modelit. Sipas të dhënave të kompanisë, SAM 3 është i aftë të përpunojë një imazh të vetëm me më shumë se njëqind objekte të zbuluara në rreth 30 milisekonda duke përdorur një GPU H200, një shpejtësi shumë e afërt me atë që nevojitet për rrjedhat e punës me kërkesa të larta.
Në rastin e videos, firma siguron që sistemi ruan performancën. virtualisht në kohë reale kur punoni me rreth pesë objekte të njëkohshme, duke e bërë të zbatueshëm për gjurmimin dhe segmentimin e përmbajtjes në lëvizje, nga klipet e shkurtra të mediave sociale deri te projekte më ambicioze prodhimi.
Për të arritur këtë sjellje, Meta ka ndërtuar një bazë trajnimi me më shumë se 4 milionë koncepte unikeDuke kombinuar shënuesit njerëzorë me modelet e inteligjencës artificiale për të ndihmuar në etiketimin e vëllimeve të mëdha të të dhënave, kjo përzierje e mbikëqyrjes manuale dhe të automatizuar synon të balancojë saktësinë dhe shkallën - çelësi për të siguruar që modeli t'i përgjigjet mirë të dhënave të ndryshme në kontekstet evropiane, latino-amerikane dhe të tregjeve të tjera.
Kompania e përpunon SAM 3 brenda asaj që e quan Segmentoni Koleksionin e Çdo GjëjeNjë familje modelesh, standardesh dhe burimesh të dizajnuara për të zgjeruar kuptimin vizual të IA-së. Lansimi shoqërohet nga një standard i ri për segmentimin e "fjalorit të hapur", i fokusuar në matjen e shkallës në të cilën sistemi mund të kuptojë pothuajse çdo koncept të shprehur në gjuhën natyrore.
Integrimi me Edits, Vibes dhe mjete të tjera Meta

Përtej komponentit teknik, Meta tashmë ka filluar të integroni SAM 3 në produkte specifike që janë të destinuara për përdorim të përditshëm. Një nga destinacionet e para do të jetë Edits, aplikacioni i tyre për krijimin dhe redaktimin e videove, ku ideja është që përdoruesi mund të zgjedhë njerëz ose objekte specifike me një përshkrim të thjeshtë teksti dhe të aplikojë efekte, filtra ose ndryshime vetëm në ato pjesë të pamjeve filmike.
Një rrugë tjetër për integrim do të gjendet në Vibes, brenda aplikacionit Meta AI dhe platformës meta.aiNë këtë mjedis, segmentimi i tekstit do të kombinohet me mjete gjeneruese për të krijuar përvoja të reja redaktimi dhe krijuese, të tilla si sfonde të personalizuara, efekte lëvizjeje ose modifikime selektive të fotove të dizajnuara për rrjetet sociale që janë shumë të njohura në Spanjë dhe pjesën tjetër të Evropës.
Propozimi i kompanisë është që këto aftësi të mos kufizohen vetëm në studimet profesionale, por të arrijnë... krijues të pavarur, agjenci të vogla dhe përdorues të përparuar të cilët punojnë çdo ditë me përmbajtje vizuale. Mundësia për të segmentuar skenat duke shkruar përshkrime në gjuhën natyrore zvogëlon kurbën e të mësuarit krahasuar me mjetet tradicionale të bazuara në maska dhe shtresa manuale.
Në të njëjtën kohë, Meta mban një qasje të hapur ndaj zhvilluesve të jashtëm, duke sugjeruar që aplikacione të palëve të treta -nga mjetet e redaktimit te zgjidhjet për analizat e videove në shitjen me pakicë ose sigurinë- mund të mbështeten te SAM 3 për sa kohë që respektohen politikat e përdorimit të kompanisë.
SAM 3D: Rindërtim tre-dimensional nga një imazh i vetëm

Lajmi tjetër i madh është SAM 3Dnjë sistem i projektuar për të kryer rindërtime tre-dimensionale duke filluar nga imazhet 2D. Në vend që të ketë nevojë për kapje të shumëfishta nga kënde të ndryshme, modeli synon të gjenerojë një përfaqësim të besueshëm 3D nga një foto e vetme, diçka veçanërisht interesante për ata që nuk kanë pajisje të specializuara skanimi ose rrjedha pune.
SAM 3D përbëhet nga dy modele me burim të hapur me funksione të dallueshme: Objektet 3D të SAMu përqendrua në rindërtimin e objekteve dhe skenave, dhe Trupi SAM 3D, i orientuar drejt vlerësimit të formës dhe trupit të njeriut. Kjo ndarje lejon që sistemi të përshtatet me raste përdorimi shumë të ndryshme, nga katalogët e produkteve deri te aplikimet shëndetësore ose sportive.
Sipas Metës, SAM 3D Objects shënon një Standard i ri i performancës në rindërtimin 3D të udhëhequr nga inteligjenca artificialeduke tejkaluar lehtësisht metodat e mëparshme në metrikat kryesore të cilësisë. Për të vlerësuar më rigorozisht rezultatet, kompania ka punuar me artistë për të krijuar SAM 3D Artist Objects, një grup të dhënash i projektuar posaçërisht për të vlerësuar besnikërinë dhe detajet e rindërtimeve në një gamë të gjerë imazhesh dhe objektesh.
Ky përparim hap derën për zbatime praktike në fusha të tilla si robotikë, shkencë, mjekësi sportive ose kreativitet dixhitalPër shembull, në robotikë mund t’i ndihmojë sistemet të kuptojnë më mirë vëllimin e objekteve me të cilat bashkëveprojnë; në kërkimet mjekësore ose sportive, mund të ndihmojë në analizimin e qëndrimit dhe lëvizjes së trupit; dhe në dizajnin krijues, shërben si bazë për gjenerimin e modeleve 3D për animacion, videolojëra ose përvoja zhytëse.
Një nga aplikacionet e para komerciale që është tashmë e dukshme është funksioni “Pamje në dhomë” de Facebook Marketplaceqë ju lejon të vizualizoni se si do të dukej një mobilje ose objekt dekorativ në një dhomë reale përpara se ta blini. Me SAM 3D, Meta kërkon të përsosë këto lloje përvojash, shumë e rëndësishme për tregtinë elektronike evropiane, ku kthimi i produkteve për shkak të pritjeve të paplotësuara përfaqëson një kosto në rritje.
Segment Anything Playground: një mjedis për eksperimentim

Për t'i lejuar publikut të testojë këto aftësi pa instaluar asgjë, Meta ka mundësuar Segment Anything PlaygroundËshtë një platformë web që ju lejon të ngarkoni imazhe ose video dhe të eksperimentoni me SAM 3 dhe SAM 3D direkt nga shfletuesi juaj. Ideja është që kushdo që është kurioz për inteligjencën artificiale vizuale mund të eksplorojë atë që është e mundur pa asnjë njohuri programimi.
Në rastin e SAM 3, Playground lejon segmentimin e objekteve duke përdorur fraza të shkurtra ose udhëzime të hollësishmeKombinimi i tekstit dhe, nëse dëshirohet, shembujve vizualë. Kjo thjeshton detyrat e zakonshme siç janë zgjedhja e njerëzve, makinave, kafshëve ose elementëve specifikë të skenës dhe zbatimi i veprimeve specifike mbi to, nga efektet estetike deri te turbullimi ose zëvendësimi i sfondit.
Kur punoni me SAM 3D, platforma e bën të mundur Eksploroni skena nga perspektiva të rejarirregulloni objektet, aplikoni efekte tre-dimensionale ose gjeneroni pamje alternative. Për ata që punojnë në dizajn, reklamim ose përmbajtje 3D, ofron një mënyrë të shpejtë për të krijuar prototipa idesh pa pasur nevojë të përdorin mjete teknike komplekse që nga fillimi.
Këndi i lojërave përfshin gjithashtu një seri plantillas listas para usar Këto veçori janë të orientuara drejt detyrave shumë specifike. Ato përfshijnë opsione praktike si pikselizimi i fytyrave ose i targave për arsye privatësie, dhe efekte vizuale si gjurmë lëvizjeje, theksime selektive ose ndriçim në zonat me interes në video. Këto lloje funksionesh mund të jenë veçanërisht të përshtatshme për rrjedhat e punës së mediave dixhitale dhe krijuesve të përmbajtjes në Spanjë, ku prodhimi i videove të shkurtra dhe përmbajtjes së mediave sociale është i vazhdueshëm.
Burime të hapura për zhvilluesit dhe studiuesit

Në përputhje me strategjinë që Meta ka ndjekur në publikimet e tjera të IA-së, kompania ka vendosur të publikojë një pjesë të konsiderueshme të burime teknike të lidhura me SAM 3 dhe SAM 3DPër të parën, janë bërë publike peshat e modelit, një pikë referimi e re e fokusuar në segmentimin e fjalorit të hapur dhe një dokument teknik që detajon zhvillimin e tij.
Në rastin e SAM 3D, janë të disponueshme këto: pikat e kontrollit të modelit, kodi i përfundimit dhe një grup të dhënash vlerësimi gjenerata e ardhshme. Ky grup të dhënash përfshin një larmi të konsiderueshme imazhesh dhe objektesh që synojnë të shkojnë përtej pikave tradicionale të referencës 3D, duke ofruar realizëm dhe kompleksitet më të madh, diçka që mund të jetë shumë e dobishme për grupet kërkimore evropiane që punojnë në vizionin kompjuterik dhe grafikën.
Meta ka njoftuar gjithashtu bashkëpunime me platforma shënimesh si Roboflow, me qëllim që t'u mundësojë zhvilluesve dhe kompanive të Futni të dhënat tuaja dhe rregulloni SAM 3 për nevoja specifike. Kjo hap derën për zgjidhje specifike sektoriale, nga inspektimi industrial deri te analiza e trafikut urban, duke përfshirë projektet e trashëgimisë kulturore ku është e rëndësishme të segmentohen me saktësi elementët arkitektonikë ose artistikë.
Duke zgjedhur një qasje relativisht të hapur, kompania kërkon të sigurojë që ekosistemi i zhvilluesve, universitete dhe startup-e -duke përfshirë ata që operojnë në Spanjë dhe pjesën tjetër të Evropës- mund të eksperimentojnë me këto teknologji, t'i integrojnë ato në produktet e tyre dhe, në fund të fundit, të kontribuojnë në raste përdorimi që shkojnë përtej atyre që Meta mund të zhvillojë brenda kompanisë.
Me SAM 3 dhe SAM 3D, Meta synon të konsolidojë një platformë vizuale e inteligjencës artificiale më fleksibile dhe e arritshmeku segmentimi i udhëhequr nga teksti dhe rindërtimi 3D nga një imazh i vetëm nuk janë më aftësi të rezervuara për ekipet shumë të specializuara. Ndikimi i mundshëm shtrihet nga redaktimi i përditshëm i videove deri te aplikimet e përparuara në shkencë, industri dhe tregti elektronike, në një kontekst ku kombinimi i gjuhës, vizionit kompjuterik dhe kreativitetit po bëhet një mjet standard pune dhe jo vetëm një premtim teknologjik.
Unë jam një entuziast i teknologjisë që i kam kthyer në profesion interesat e tij "geek". Kam shpenzuar më shumë se 10 vjet të jetës sime duke përdorur teknologjinë më të fundit dhe duke punuar me të gjitha llojet e programeve nga kurioziteti i pastër. Tani jam specializuar në teknologjinë kompjuterike dhe videolojërat. Kjo sepse prej më shumë se 5 vitesh shkruaj për faqe të ndryshme interneti mbi teknologjinë dhe videolojërat, duke krijuar artikuj që kërkojnë t'ju japin informacionin që ju nevojitet në një gjuhë të kuptueshme nga të gjithë.
Nëse keni ndonjë pyetje, njohuritë e mia variojnë nga gjithçka që lidhet me sistemin operativ Windows si dhe Android për telefonat celularë. Dhe angazhimi im është për ju, unë jam gjithmonë i gatshëm të kaloj disa minuta dhe t'ju ndihmoj të zgjidhni çdo pyetje që mund të keni në këtë botë të internetit.