Meta-ն ներկայացնում է SAM 3-ը և SAM 3D-ն՝ տեսողական արհեստական ​​բանականության նոր սերունդ

Վերջին թարմացումը. 27/11/2025

  • SAM 3-ը ներկայացնում է պատկերի և տեսանյութի սեգմենտացիա՝ առաջնորդվելով տեքստային և տեսողական օրինակներով, միլիոնավոր հասկացություններից բաղկացած բառապաշարով։
  • SAM 3D-ն թույլ է տալիս վերակառուցել առարկաներ, տեսարաններ և մարդկային մարմիններ եռաչափ ֆորմատով՝ մեկ պատկերից՝ օգտագործելով բաց մոդելներ։
  • Մոդելները կարող են փորձարկվել Segment Anything Playground-ում՝ առանց տեխնիկական գիտելիքների, գործնական և ստեղծագործական ձևանմուշների միջոցով։
  • Meta-ն թողարկում է կշիռներ, ստուգիչ կետեր և նոր չափորոշիչներ, որպեսզի Եվրոպայի և աշխարհի մնացած մասի մշակողներն ու հետազոտողները կարողանան ինտեգրել այս հնարավորությունները իրենց նախագծերում։
ՍԱՄ 3D

«Մետա»-ն ևս մեկ քայլ է կատարել իր հանձնառության մեջ Արհեստական ​​բանականությունը կիրառվում է համակարգչային տեսողության մեջ հետ SAM 3-ի և SAM 3D-ի մեկնարկը, երկու մոդելներ, որոնք ընդլայնում են Segment Anything ընտանիքը և որոնք Նրանք նպատակ ունեն փոխել լուսանկարների և տեսանյութերի հետ մեր աշխատելու ձևըՀեռու մնալով լաբորատոր փորձ, ընկերությունը ցանկանում է, որ այս գործիքները օգտագործվեն և՛ մասնագետների, և՛ տեխնիկական կրթություն չունեցող օգտատերերի կողմից։

Այս նոր սերնդի հետ Մետան կենտրոնանում է բարելավել օբյեկտների հայտնաբերումը և բաժանումը և բերելով՝ եռաչափ վերակառուցում շատ ավելի լայն լսարանի համարԻսպանիայում և Եվրոպայի մնացած մասում էլեկտրոնային առևտրի համար տեսանյութերի մոնտաժից մինչև ապրանքի վիզուալիզացիա, ընկերությունը պատկերացնում է մի սցենար, որտեղ Պարզապես բառերով նկարագրելն այն, ինչ ուզում եք անել, բավարար է, որպեսզի արհեստական ​​բանականությունը կատարի ծանր աշխատանքի մեծ մասը։.

Ի՞նչ է առաջարկում SAM 3-ը նախորդ տարբերակների համեմատ։

SAM 3-ը դիրքավորվում է որպես ուղղակի էվոլյուցիա 2023 և 2024 թվականներին Meta-ի կողմից ներկայացված սեգմենտացիայի մոդելներից, որոնք հայտնի են որպես SAM 1 և SAM 2: Այդ վաղ տարբերակները կենտրոնացած էին յուրաքանչյուր օբյեկտին պատկանող պիքսելների նույնականացման վրա՝ հիմնականում օգտագործելով տեսողական ազդանշաններ, ինչպիսիք են կետերը, վանդակները կամ դիմակները, իսկ SAM 2-ի դեպքում՝ տեսանյութի ընթացքում օբյեկտներին գրեթե իրական ժամանակում հետևելու վրա:

Հիմնական նոր զարգացումն այժմ այն ​​է, որ SAM 3-ը հասկանում է հարուստ և ճշգրիտ տեքստային հուշումներոչ միայն ընդհանուր պիտակներ։ Մինչդեռ նախկինում օգտագործվում էին «մեքենա» կամ «ավտոբուս» նման պարզ տերմիններ, նոր մոդելը կարող է արձագանքել շատ ավելի կոնկրետ նկարագրությունների, օրինակ՝ «դեղին դպրոցական ավտոբուս» կամ «կարմիր մեքենա կրկնակի կայանված»։

Գործնականում սա նշանակում է, որ բավական է գրել նման բան «Կարմիր բեյսբոլի գլխարկ» որպեսզի համակարգը կարողանա գտնել և առանձնացնել պատկերի կամ տեսանյութի մեջ այդ նկարագրությանը համապատասխանող բոլոր տարրերը: Բառերով կատարելագործելու այս ունակությունը հատկապես օգտակար է մասնագիտական ​​​​խմբագրման համատեքստեր, գովազդ կամ բովանդակության վերլուծություն, որտեղ դուք հաճախ ստիպված եք դիտարկել շատ կոնկրետ մանրամասներ։

Ավելին, SAM 3-ը նախագծված է ինտեգրվելու համար մեծ բազմամոդալ լեզվական մոդելներՍա թույլ է տալիս ձեզ անցնել պարզ արտահայտություններից այն կողմ և օգտագործել բարդ հրահանգներ, ինչպիսիք են՝ «Մարդիկ նստած են, բայց կարմիր գլխարկ չեն կրում» կամ «հետիոտներ, ովքեր նայում են տեսախցիկին, բայց առանց մեջքի պայուսակի»։ Այս տեսակի հրահանգը համատեղում է պայմաններ և բացառություններ, որոնք մինչև վերջերս դժվար էր թարգմանել համակարգչային տեսողության գործիքի։

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Ինչպես օգտագործել Copilot Vision-ը Edge-ում. Առանձնահատկություններ և խորհուրդներ

SAM 3 մոդելի կատարողականը և մասշտաբը

SAM 3 մետա մոդել

Մետան նաև ցանկանում էր ընդգծել պակաս տեսանելի, բայց կարևորագույն մասը՝ տեխնիկական կատարողականություն և գիտելիքների մասշտաբ Մոդելի տվյալներով, SAM 3-ը կարող է մշակել մեկ պատկեր՝ հարյուրից ավելի հայտնաբերված օբյեկտներով, մոտ 30 միլիվայրկյանում՝ օգտագործելով H200 GPU, արագություն, որը շատ մոտ է այն արագությանը, որն անհրաժեշտ է պահանջկոտ աշխատանքային հոսքերի համար։

Տեսանյութի դեպքում ընկերությունը վստահեցնում է, որ համակարգը պահպանում է իր աշխատանքը։ գործնականում իրական ժամանակում երբ աշխատում եք միաժամանակյա մոտ հինգ օբյեկտների հետ, ինչը այն կենսունակ է դարձնում շարժվող բովանդակության հետևման և սեգմենտավորման համար՝ սկսած սոցիալական ցանցերի կարճ տեսահոլովակներից մինչև ավելի հավակնոտ արտադրական նախագծեր։

Այս վարքագծին հասնելու համար Մետան կառուցել է մարզումների բազա՝ ավելի քան 4 միլիոն եզակի հասկացություններՄեծ ծավալի տվյալների պիտակավորմանը նպաստելու համար մարդկային մեկնաբանողների և արհեստական ​​բանականության մոդելների համատեղումը ձեռքով և ավտոմատացված վերահսկողության այս համադրությունը նպատակ ունի հավասարակշռել ճշգրտությունը և մասշտաբը, ինչը կարևոր է ապահովելու համար, որ մոդելը լավ արձագանքի բազմազան մուտքային տվյալներին եվրոպական, լատինաամերիկյան և այլ շուկայական համատեքստերում։

Ընկերությունը SAM 3-ը կառուցում է իր անվան տակ Ցանկացած բանի հավաքածուի հատվածՄոդելների, չափորոշիչների և ռեսուրսների ընտանիք, որը նախատեսված է արհեստական ​​բանականության տեսողական ըմբռնումը ընդլայնելու համար: Գործարկմանը զուգընթաց նոր չափորոշիչ է սահմանվում «բաց բառապաշարի» սեգմենտացիայի համար, որը կենտրոնացած է այն բանի վրա, թե որքանով է համակարգը կարողանում հասկանալ բնական լեզվով արտահայտված գրեթե ցանկացած հասկացություն:

Ինտեգրացիա Edits-ի, Vibes-ի և այլ Meta գործիքների հետ

Խմբագրեք 4K տեսանյութեր Meta Edits-ի միջոցով

Տեխնիկական բաղադրիչից այն կողմ, Մետան արդեն սկսել է ինտեգրել SAM 3-ը որոշակի արտադրանքների մեջ որոնք նախատեսված են ամենօրյա օգտագործման համար։ Առաջին ուղղություններից մեկը կլինի Edits-ը, նրանց տեսանյութերի ստեղծման և խմբագրման հավելվածը, որտեղ գաղափարն այն է, որ օգտատերը կարող է ընտրել որոշակի մարդկանց կամ առարկաներ պարզ տեքստային նկարագրությամբ և կիրառել էֆեկտներ, ֆիլտրեր կամ փոփոխություններ միայն տեսանյութի այդ մասերի վրա։

Ինտեգրման մեկ այլ ուղի կգտնվի Vibes, Meta AI հավելվածի և meta.ai հարթակի շրջանակներումԱյս միջավայրում տեքստի սեգմենտավորումը կհամատեղվի գեներատիվ գործիքների հետ՝ ստեղծելու նոր խմբագրման և ստեղծագործական փորձառություններ, ինչպիսիք են՝ հատուկ ֆոնային պատկերները, շարժման էֆեկտները կամ ընտրովի լուսանկարների փոփոխությունները, որոնք նախատեսված են Իսպանիայում և մնացած Եվրոպայում շատ տարածված սոցիալական ցանցերի համար։

Ընկերության առաջարկն այն է, որ այս հնարավորությունները չսահմանափակվեն միայն մասնագիտական ​​ուսումնասիրություններով, այլ հասնեն... անկախ ստեղծողներ, փոքր գործակալություններ և առաջադեմ օգտատերեր ովքեր ամեն օր աշխատում են տեսողական բովանդակության հետ։ Բնական լեզվով նկարագրություններ գրելով՝ տեսարանները բաժանելու հնարավորությունը կրճատում է ուսուցման կորը՝ համեմատած ձեռքով դիմակների և շերտերի վրա հիմնված ավանդական գործիքների հետ։

Միևնույն ժամանակ, Մետան բաց մոտեցում է պահպանում արտաքին մշակողների նկատմամբ՝ ենթադրելով, որ երրորդ կողմի դիմումները -խմբագրման գործիքներից մինչև մանրածախ առևտրի կամ անվտանգության ոլորտում տեսանյութերի վերլուծության լուծումներ՝ կարող են հույսը դնել SAM 3-ի վրա, եթե պահպանվեն ընկերության օգտագործման քաղաքականությունը։

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Համեմատություն. Windows 11 vs Linux Mint հին համակարգիչների վրա

SAM 3D. Եռաչափ վերակառուցում մեկ պատկերից

Ինչպես է աշխատում SAM 3D-ն

Մյուս կարևոր նորությունն այն է, որ ՍԱՄ 3Dհամակարգ, որը նախատեսված է կատարելու համար եռաչափ վերակառուցումներ սկսած երկչափ պատկերներից։ Տարբեր անկյուններից բազմաթիվ լուսանկարների անհրաժեշտության փոխարեն, մոդելը նպատակ ունի մեկ լուսանկարից ստեղծել հուսալի եռաչափ պատկեր, ինչը հատկապես հետաքրքիր է նրանց համար, ովքեր չունեն մասնագիտացված սկանավորման սարքավորումներ կամ աշխատանքային հոսքեր։

SAM 3D-ն բաղկացած է երկու բաց կոդով մոդելներից՝ տարբեր գործառույթներով. SAM 3D օբյեկտներկենտրոնացած է առարկաների և տեսարանների վերակառուցման վրա, և SAM 3D մարմին, որը ուղղված է մարդու ձևի և մարմնի գնահատմանը: Այս տարանջատումը թույլ է տալիս համակարգին հարմարվել շատ տարբեր օգտագործման դեպքերի՝ սկսած ապրանքների կատալոգներից մինչև առողջապահական կամ սպորտային կիրառություններ:

Մետայի խոսքով, SAM 3D Objects-ը նշում է Արհեստական ​​բանականությամբ ուղղորդվող եռաչափ վերակառուցման նոր կատարողականի չափանիշհեշտությամբ գերազանցելով նախորդ մեթոդները որակի հիմնական չափանիշներով: Արդյունքներն ավելի խիստ գնահատելու համար ընկերությունը համագործակցել է նկարիչների հետ՝ ստեղծելու SAM 3D Artist Objects-ը, որը տվյալների հավաքածու է, որը հատուկ մշակված է պատկերների և առարկաների լայն տեսականիով վերակառուցումների ճշգրտությունն ու մանրամասները գնահատելու համար:

Այս առաջընթացը բացում է դռներ գործնական կիրառությունների համար այնպիսի ոլորտներում, ինչպիսիք են՝ ռոբոտաշինություն, գիտություն, սպորտային բժշկություն կամ թվային ստեղծագործականությունՕրինակ՝ ռոբոտաշինության մեջ այն կարող է օգնել համակարգերին ավելի լավ հասկանալ այն առարկաների ծավալը, որոնց հետ նրանք փոխազդում են. բժշկական կամ սպորտային հետազոտություններում այն ​​կարող է օգնել վերլուծել մարմնի կեցվածքը և շարժումը. իսկ ստեղծագործական դիզայնում այն ​​ծառայում է որպես հիմք անիմացիայի, տեսախաղերի կամ ընկղմվող փորձառությունների համար եռաչափ մոդելներ ստեղծելու համար։

Առաջին առևտրային կիրառություններից մեկը, որն արդեն տեսանելի է, ֆունկցիան է «Տեսարան սենյակում» de Facebook շուկաորը թույլ է տալիս պատկերացնել, թե ինչ տեսք կունենա կահույքի կամ դեկորատիվ առարկայի որևէ կտոր իրական սենյակում՝ նախքան այն գնելը: SAM 3D-ի միջոցով, Մետան ձգտում է կատարելագործել այս տեսակի փորձառությունները, որը խիստ արդիական է եվրոպական էլեկտրոնային առևտրի համար, որտեղ չկատարված սպասումների պատճառով ապրանքների վերադարձը ներկայացնում է աճող ծախս։

Ինչպես SAM 3D-ի միջոցով մարդկանց և առարկաները վերածել 3D մոդելների
Առնչվող հոդված.
Փոխակերպեք մարդկանց և առարկաները եռաչափի՝ օգտագործելով Meta-ի SAM 3-ը և SAM 3D-ն

Segment Anything Playground. միջավայր փորձարկումների համար

Segment Anything խաղահրապարակ

Հանրությանը այս հնարավորությունները փորձարկելու հնարավորություն տալու համար՝ առանց որևէ բան տեղադրելու, Meta-ն հնարավորություն է տվել Segment Anything խաղահրապարակԱյն վեբ հարթակ է, որը թույլ է տալիս վերբեռնել պատկերներ կամ տեսանյութեր և փորձարկել SAM 3-ը և SAM 3D-ը անմիջապես ձեր զննարկչից: Գաղափարն այն է, որ տեսողական արհեստական ​​բանականությամբ հետաքրքրվող յուրաքանչյուր ոք կարող է ուսումնասիրել հնարավորը՝ առանց որևէ ծրագրավորման գիտելիքների:

SAM 3-ի դեպքում, Playground-ը թույլ է տալիս սեգմենտավորել օբյեկտները՝ օգտագործելով կարճ արտահայտություններ կամ մանրամասն հրահանգներՏեքստի և, ցանկության դեպքում, տեսողական օրինակների համադրություն: Սա պարզեցնում է այնպիսի տարածված առաջադրանքներ, ինչպիսիք են մարդկանց, մեքենաների, կենդանիների կամ տեսարանի որոշակի տարրերի ընտրությունը և դրանց վրա որոշակի գործողություններ կիրառելը՝ սկսած գեղագիտական ​​էֆեկտներից մինչև մշուշոտում կամ ֆոնի փոխարինում:

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Ինչպես օգտագործել Microsoft Designer-ը ձեր ստեղծագործական նախագծերը բարելավելու համար

SAM 3D-ի հետ աշխատելիս հարթակը հնարավորություն է տալիս Ուսումնասիրեք տեսարանները նոր տեսանկյուններիցվերադասավորել առարկաները, կիրառել եռաչափ էֆեկտներ կամ ստեղծել այլընտրանքային տեսարաններ: Նրանց համար, ովքեր աշխատում են դիզայնի, գովազդի կամ եռաչափ բովանդակության ոլորտում, այն առաջարկում է գաղափարների նախատիպեր ստեղծելու արագ միջոց՝ առանց սկզբից բարդ տեխնիկական գործիքներ օգտագործելու անհրաժեշտության:

Խաղահրապարակը ներառում է նաև մի շարք պատրաստի օգտագործման ձևանմուշներ Այս գործառույթները նախատեսված են շատ կոնկրետ խնդիրների համար: Դրանք ներառում են գործնական տարբերակներ, ինչպիսիք են դեմքերի կամ համարանիշների պիքսելացումը գաղտնիության նկատառումներից ելնելով, և տեսողական էֆեկտներ, ինչպիսիք են շարժման հետքերը, ընտրովի լուսարձակները կամ լուսարձակները տեսանյութում հետաքրքրության առարկա հանդիսացող հատվածների վրա: Այս տեսակի գործառույթները կարող են հատկապես լավ համապատասխանել Իսպանիայում թվային մեդիայի և բովանդակության ստեղծողների աշխատանքային հոսքերին, որտեղ կարճ տեսանյութերի և սոցիալական մեդիայի բովանդակության արտադրությունը մշտական ​​է:

Բաց ռեսուրսներ մշակողների և հետազոտողների համար

SAM 3D մետա օրինակներ

Համաձայն Meta-ի կողմից արհեստական ​​ինտելեկտի այլ թողարկումներում որդեգրված ռազմավարության, ընկերությունը որոշել է թողարկել դրա զգալի մասը։ SAM 3-ի և SAM 3D-ի հետ կապված տեխնիկական ռեսուրսներԱռաջինի համար հրապարակվել են մոդելի կշիռները, բաց բառապաշարի սեգմենտացման վրա կենտրոնացած նոր չափանիշը և դրա մշակումը մանրամասնող տեխնիկական փաստաթուղթը։

SAM 3D-ի դեպքում հասանելի են հետևյալները. մոդելի ստուգիչ կետեր, եզրակացության կոդ և գնահատման տվյալների հավաքածու հաջորդ սերունդ։ Այս տվյալների հավաքածուն ներառում է պատկերների և առարկաների զգալի բազմազանություն, որը նպատակ ունի գերազանցել ավանդական եռաչափ հղման կետերը՝ ապահովելով ավելի մեծ ռեալիզմ և բարդություն, ինչը կարող է շատ օգտակար լինել համակարգչային տեսողության և գրաֆիկայի ոլորտում աշխատող եվրոպական հետազոտական ​​խմբերի համար։

Meta-ն նաև հայտարարել է Roboflow-ի նման ծանոթագրական հարթակների հետ համագործակցության մասին՝ նպատակ ունենալով մշակողներին և ընկերություններին հնարավորություն տալ Մուտքագրեք ձեր սեփական տվյալները և կարգավորեք SAM 3-ը կոնկրետ կարիքներին: Սա բացում է դռներ ոլորտային լուծումների համար՝ արդյունաբերական տեսչությունից մինչև քաղաքային երթևեկության վերլուծություն, ներառյալ մշակութային ժառանգության նախագծերը, որտեղ կարևոր է ճշգրիտ բաժանել ճարտարապետական ​​կամ գեղարվեստական ​​տարրերը:

Համեմատաբար բաց մոտեցում ընտրելով՝ ընկերությունը ձգտում է ապահովել, որ մշակողների էկոհամակարգը, համալսարաններ և ստարտափներ -ներառյալ Իսպանիայում և Եվրոպայի մնացած մասում գործողները՝ կարող են փորձարկել այս տեխնոլոգիաները, ինտեգրել դրանք իրենց սեփական արտադրանքներում և, ի վերջո, ներդրում ունենալ այնպիսի օգտագործման դեպքերի մեջ, որոնք գերազանցում են Meta-ի ներքին մշակման հնարավորությունները։

SAM 3-ի և SAM 3D-ի միջոցով Meta-ն նպատակ ունի համախմբել ավելի ճկուն և մատչելի տեսողական արհեստական ​​բանականության հարթակորտեղ տեքստային ուղղորդմամբ սեգմենտավորումը և մեկ պատկերից եռաչափ վերակառուցումը այլևս չեն սահմանափակվում միայն բարձր մասնագիտացված թիմերով։ Հնարավոր ազդեցությունը տարածվում է առօրյա տեսանյութերի խմբագրումից մինչև գիտության, արդյունաբերության և էլեկտրոնային առևտրի առաջադեմ կիրառություններ՝ այն համատեքստում, երբ լեզվի, համակարգչային տեսողության և ստեղծագործականության համադրությունը դառնում է ստանդարտ աշխատանքային գործիք, այլ ոչ թե պարզապես տեխնոլոգիական խոստում։