متا سم ۳ و سم سه‌بعدی: نسل جدیدی از هوش مصنوعی بصری

SAM 3 تقسیم‌بندی تصویر و ویدیو را با استفاده از مثال‌های متنی و بصری، با واژگانی از میلیون‌ها مفهوم، معرفی می‌کند.
SAM 3D به شما امکان می‌دهد اشیاء، صحنه‌ها و بدن انسان را به صورت سه‌بعدی از یک تصویر واحد و با استفاده از مدل‌های باز بازسازی کنید.
مدل‌ها را می‌توان بدون دانش فنی در Segment Anything Playground، با قالب‌های کاربردی و خلاقانه، آزمایش کرد.
متا وزن‌ها، نقاط بررسی و معیارهای جدیدی را منتشر می‌کند تا توسعه‌دهندگان و محققان در اروپا و سایر نقاط جهان بتوانند این قابلیت‌ها را در پروژه‌های خود ادغام کنند.

متا گام دیگری در تعهد خود برداشته است هوش مصنوعی به کار رفته در بینایی کامپیوتر با پرتاب SAM 3 و SAM 3D، دو مدل که خانواده Segment Anything را گسترش می‌دهند و اینکه هدف آنها تغییر نحوه کار ما با عکس‌ها و ویدیوها استاین شرکت می‌خواهد این ابزارها به جای اینکه در حد یک آزمایش آزمایشگاهی باقی بمانند، هم توسط متخصصان و هم توسط کاربران بدون پیش‌زمینه فنی مورد استفاده قرار گیرند.

با این نسل جدید، متا روی موارد زیر تمرکز می‌کند: بهبود تشخیص و قطعه‌بندی اشیا و در آوردن بازسازی سه‌بعدی برای مخاطبان بسیار گسترده‌تراز ویرایش ویدیو گرفته تا مصورسازی محصول برای تجارت الکترونیک در اسپانیا و بقیه اروپا، این شرکت سناریویی را پیش‌بینی می‌کند که در آن صرفاً توصیف کاری که می‌خواهید انجام دهید با کلمات کافی است تا هوش مصنوعی بخش عمده‌ای از کارهای سنگین را انجام دهد..

SAM 3 در مقایسه با نسخه‌های قبلی چه چیزی ارائه می‌دهد؟

SAM 3 به عنوان تکامل مستقیم قرار گرفته است از مدل‌های تقسیم‌بندی که متا در سال‌های ۲۰۲۳ و ۲۰۲۴ ارائه کرد و با نام‌های SAM 1 و SAM 2 شناخته می‌شوند. آن نسخه‌های اولیه بر شناسایی پیکسل‌های متعلق به هر شیء تمرکز داشتند، عمدتاً با استفاده از نشانه‌های بصری مانند نقاط، کادرها یا ماسک‌ها، و در مورد SAM 2، دنبال کردن اشیاء در طول یک ویدیو تقریباً به صورت بلادرنگ.

پیشرفت کلیدی جدید اکنون این است که SAM 3 می‌فهمد متن‌های غنی و دقیقنه فقط برچسب‌های کلی. در حالی که قبلاً از اصطلاحات ساده‌ای مانند «ماشین» یا «اتوبوس» استفاده می‌شد، مدل جدید قادر به پاسخگویی به توصیفات بسیار خاص‌تری است، به عنوان مثال «اتوبوس مدرسه زرد» یا «ماشین قرمز دوبله پارک شده».

در عمل، این بدان معناست که نوشتن چیزی شبیه به این کافی است «کلاه بیسبال قرمز» به طوری که سیستم بتواند تمام عناصری را که با آن توصیف در یک تصویر یا ویدیو مطابقت دارند، پیدا کرده و جدا کند. این توانایی اصلاح با کلمات به ویژه در موارد زیر مفید است: زمینه‌های ویرایش حرفه‌ای، تبلیغات یا تحلیل محتوا، که در آن اغلب باید جزئیات بسیار خاصی را بررسی کنید.

علاوه بر این، SAM 3 به گونه‌ای طراحی شده است که با ... ادغام شود. مدل‌های زبانی چندوجهی بزرگاین به شما امکان می‌دهد فراتر از عبارات ساده بروید و از دستورالعمل‌های پیچیده‌ای مانند موارد زیر استفاده کنید: «مردم نشسته‌اند اما کلاه قرمزی بر سر ندارند» یا «عابران پیاده‌ای که به دوربین نگاه می‌کنند اما کوله پشتی ندارند.» این نوع دستورالعمل، شرایط و استثنائاتی را ترکیب می‌کند که تا همین اواخر ترجمه آنها به یک ابزار بینایی کامپیوتر دشوار بود.

محتوای اختصاصی - اینجا را کلیک کنید یک پرونده غم انگیز و سوالات فراوان: ChatGPT با یک پرونده خودکشی روبرو است

عملکرد و مقیاس مدل SAM 3

متا مدل SAM 3

متا همچنین می‌خواست بخش کمتر دیده شده اما حیاتی را برجسته کند: عملکرد فنی و مقیاس دانش طبق داده‌های این شرکت، SAM 3 قادر است یک تصویر واحد با بیش از صد شیء شناسایی‌شده را در حدود ۳۰ میلی‌ثانیه با استفاده از پردازنده گرافیکی H200 پردازش کند، سرعتی بسیار نزدیک به آنچه برای گردش‌های کاری دشوار مورد نیاز است.

در مورد ویدیو، شرکت اطمینان می‌دهد که سیستم عملکرد خود را حفظ می‌کند. عملاً در زمان واقعی هنگام کار با حدود پنج شیء همزمان، این امر آن را برای ردیابی و تقسیم‌بندی محتوای متحرک، از کلیپ‌های کوتاه رسانه‌های اجتماعی گرفته تا پروژه‌های تولیدی بلندپروازانه‌تر، مناسب می‌سازد.

برای دستیابی به این رفتار، متا یک پایگاه آموزشی با بیش از ... ساخته است. ۴ میلیون مفهوم منحصر به فرداین ترکیب از نظارت دستی و خودکار، با ترکیب مفسران انسانی با مدل‌های هوش مصنوعی برای کمک به برچسب‌گذاری حجم زیادی از داده‌ها، با هدف ایجاد تعادل بین دقت و مقیاس انجام می‌شود - کلیدی برای اطمینان از اینکه مدل به ورودی‌های متنوع در زمینه‌های اروپایی، آمریکای لاتین و سایر بازارها به خوبی پاسخ می‌دهد.

این شرکت، SAM 3 را در چارچوب آنچه که آن را ... می‌نامد، قرار می‌دهد. مجموعه هر چیزی را قطعه بندی کنیدخانواده‌ای از مدل‌ها، معیارها و منابع که برای گسترش درک بصری هوش مصنوعی طراحی شده‌اند. این رونمایی با یک معیار جدید برای تقسیم‌بندی «واژگان باز» همراه است که بر اندازه‌گیری میزان توانایی سیستم در درک تقریباً هر مفهومی که به زبان طبیعی بیان می‌شود، تمرکز دارد.

ادغام با ویرایش‌ها، ویبره‌ها و سایر ابزارهای متا

ویرایش ویدیوهای 4K با Meta Edits

فراتر از مؤلفه فنی، متا از قبل شروع به کار کرده است ادغام SAM 3 در محصولات خاص که برای استفاده روزمره در نظر گرفته شده‌اند. یکی از اولین مقاصد، ویرایش‌ها خواهد بود.، برنامه ساخت و ویرایش ویدیوی آنها، که در آن ایده این است که کاربر می‌تواند افراد یا اشیاء خاصی را با یک توضیح متنی ساده انتخاب کند و جلوه‌ها، فیلترها یا تغییرات را فقط در آن قسمت‌های فیلم اعمال کند.

راه دیگری برای ادغام در ... یافت خواهد شد. وایبز، درون اپلیکیشن متا هوش مصنوعی و پلتفرم متا.ای‌آیدر این محیط، تقسیم‌بندی متن با ابزارهای تولیدی ترکیب خواهد شد تا ویرایش‌های جدید و تجربیات خلاقانه‌ای مانند پس‌زمینه‌های سفارشی، جلوه‌های حرکتی یا اصلاحات انتخابی عکس که برای شبکه‌های اجتماعی طراحی شده‌اند و در اسپانیا و بقیه اروپا بسیار محبوب هستند، ایجاد شود.

پیشنهاد شرکت این است که این قابلیت‌ها به مطالعات حرفه‌ای محدود نشود، بلکه به... سازندگان مستقل، آژانس‌های کوچک و کاربران پیشرفته که روزانه با محتوای بصری کار می‌کنند. توانایی بخش‌بندی صحنه‌ها با نوشتن توضیحات به زبان طبیعی، منحنی یادگیری را در مقایسه با ابزارهای سنتی مبتنی بر ماسک‌ها و لایه‌های دستی، کاهش می‌دهد.

در عین حال، متا رویکردی باز نسبت به توسعه‌دهندگان خارجی دارد و این نشان می‌دهد که برنامه های شخص ثالث از ابزارهای ویرایش گرفته تا راهکارهایی برای تجزیه و تحلیل ویدیو در خرده فروشی یا امنیت - تا زمانی که سیاست‌های استفاده شرکت رعایت شود، می‌توانند به SAM 3 اعتماد کنند.

محتوای اختصاصی - اینجا را کلیک کنید تبلیغات آزاردهنده بیشتر در یوتیوب؟ بله، «به لطف» هوش مصنوعی

SAM 3D: بازسازی سه‌بعدی از یک تصویر واحد

نحوه کار SAM 3D

خبر مهم دیگر این است که سم سه بعدیسیستمی که برای انجام وظایف طراحی شده است بازسازی‌های سه‌بعدی با شروع از تصاویر دوبعدی. به جای نیاز به چندین عکس از زوایای مختلف، این مدل قصد دارد یک نمایش سه‌بعدی قابل اعتماد از یک عکس واحد تولید کند، چیزی که به ویژه برای کسانی که تجهیزات اسکن تخصصی یا گردش کار ندارند، جالب است.

SAM 3D از دو مدل متن‌باز با عملکردهای متمایز تشکیل شده است: اشیاء سه‌بعدی SAMبر بازسازی اشیاء و صحنه‌ها تمرکز داشت، و بدنه سه بعدی SAM، با هدف تخمین شکل و بدن انسان. این تفکیک به سیستم اجازه می‌دهد تا با موارد استفاده بسیار متفاوتی، از کاتالوگ محصولات گرفته تا کاربردهای سلامت یا ورزشی، سازگار شود.

طبق گفته متا، SAM 3D Objects یک ... را نشان می‌دهد. معیار عملکرد جدید در بازسازی سه‌بعدی هدایت‌شده توسط هوش مصنوعیبه راحتی از روش‌های قبلی در معیارهای کلیدی کیفیت پیشی می‌گیرد. برای ارزیابی دقیق‌تر نتایج، این شرکت با هنرمندان همکاری کرده است تا SAM 3D Artist Objects را ایجاد کند، یک مجموعه داده که به طور خاص برای ارزیابی دقت و جزئیات بازسازی‌ها در طیف گسترده‌ای از تصاویر و اشیاء طراحی شده است.

این پیشرفت، دریچه‌ای به سوی کاربردهای عملی در حوزه‌هایی مانند رباتیک، علوم، پزشکی ورزشی یا خلاقیت دیجیتالبرای مثال، در رباتیک می‌تواند به سیستم‌ها کمک کند تا حجم اشیایی را که با آنها تعامل دارند، بهتر درک کنند؛ در تحقیقات پزشکی یا ورزشی، می‌تواند به تجزیه و تحلیل وضعیت بدن و حرکت کمک کند؛ و در طراحی خلاقانه، به عنوان مبنایی برای تولید مدل‌های سه‌بعدی برای انیمیشن، بازی‌های ویدیویی یا تجربیات فراگیر عمل می‌کند.

یکی از اولین کاربردهای تجاری که از قبل قابل مشاهده است، این تابع است «منظره در اتاق» de بازار فیس بوککه به شما امکان می‌دهد قبل از خرید یک قطعه مبلمان یا شیء تزئینی، آن را در یک اتاق واقعی تجسم کنید. با SAM 3D، متا به دنبال تکمیل این نوع تجربیات است، که برای تجارت الکترونیک اروپا بسیار مهم است، جایی که بازگشت محصولات به دلیل انتظارات برآورده نشده، هزینه فزاینده‌ای را نشان می‌دهد.

نحوه تبدیل افراد و اشیاء به مدل‌های سه‌بعدی با SAM 3D

مقاله مرتبط:

تبدیل افراد و اشیاء به تصاویر سه‌بعدی با نرم‌افزارهای SAM 3 و SAM 3D شرکت Meta

زمین بازی Segment Anything: محیطی برای آزمایش

زمین بازی را به چند قسمت تقسیم کنید

برای اینکه عموم مردم بتوانند این قابلیت‌ها را بدون نصب چیزی آزمایش کنند، متا این قابلیت را فعال کرده است زمین بازی را به چند قسمت تقسیم کنیداین یک پلتفرم وب است که به شما امکان می‌دهد تصاویر یا ویدیوها را آپلود کنید و مستقیماً از مرورگر خود با SAM 3 و SAM 3D آزمایش کنید. ایده این است که هر کسی که در مورد هوش مصنوعی بصری کنجکاو است، بتواند بدون هیچ دانش برنامه‌نویسی، امکانات موجود را بررسی کند.

در مورد SAM 3، Playground امکان قطعه‌بندی اشیاء با استفاده از عبارات کوتاه یا دستورالعمل‌های دقیقترکیب متن و در صورت تمایل، نمونه‌های بصری. این کار وظایف رایجی مانند انتخاب افراد، ماشین‌ها، حیوانات یا عناصر خاص صحنه و اعمال اقدامات خاص بر روی آنها، از جلوه‌های زیبایی‌شناختی گرفته تا تار کردن یا جایگزینی پس‌زمینه، را ساده می‌کند.

محتوای اختصاصی - اینجا را کلیک کنید گوگل مپس حالا مثل یک کمک‌خلبان واقعی صحبت می‌کند: Gemini فرمان را به دست می‌گیرد

هنگام کار با SAM 3D، این پلتفرم این امکان را فراهم می‌کند صحنه‌ها را از دیدگاه‌های جدید کاوش کنیداشیاء را دوباره مرتب کنید، جلوه‌های سه‌بعدی اعمال کنید یا نماهای جایگزین ایجاد کنید. برای کسانی که در طراحی، تبلیغات یا محتوای سه‌بعدی کار می‌کنند، این نرم‌افزار راهی سریع برای نمونه‌سازی اولیه ایده‌ها بدون نیاز به استفاده از ابزارهای فنی پیچیده از ابتدا ارائه می‌دهد.

زمین بازی همچنین شامل مجموعه‌ای از قالب های آماده استفاده این ویژگی‌ها برای کارهای بسیار خاص طراحی شده‌اند. این ویژگی‌ها شامل گزینه‌های کاربردی مانند پیکسلی کردن چهره یا پلاک خودرو به دلایل حفظ حریم خصوصی و جلوه‌های بصری مانند مسیرهای حرکتی، هایلایت‌های انتخابی یا نورافکن‌ها در قسمت‌های مورد علاقه در ویدیو می‌شوند. این نوع عملکردها می‌توانند به ویژه برای گردش کار رسانه‌های دیجیتال و تولیدکنندگان محتوا در اسپانیا، جایی که تولید ویدیوهای کوتاه و محتوای رسانه‌های اجتماعی به طور مداوم انجام می‌شود، مناسب باشند.

منابع آزاد برای توسعه‌دهندگان و محققان

نمونه‌های متای SAM 3D

در راستای استراتژی‌ای که متا در سایر نسخه‌های هوش مصنوعی دنبال کرده است، این شرکت تصمیم گرفته است بخش قابل توجهی از منابع فنی مرتبط با SAM 3 و SAM 3Dبرای مورد اول، وزن‌های مدل، یک معیار جدید با تمرکز بر تقسیم‌بندی واژگان باز، و یک سند فنی که جزئیات توسعه آن را شرح می‌دهد، منتشر شده است.

در مورد SAM 3D، موارد زیر موجود است: نقاط بررسی مدل، کد استنتاج و یک مجموعه داده ارزیابی نسل بعدی. این مجموعه داده‌ها شامل تنوع قابل توجهی از تصاویر و اشیاء است که هدف آن فراتر رفتن از نقاط مرجع سه‌بعدی سنتی است و واقع‌گرایی و پیچیدگی بیشتری را ارائه می‌دهد، چیزی که می‌تواند برای گروه‌های تحقیقاتی اروپایی که در زمینه بینایی کامپیوتر و گرافیک کار می‌کنند بسیار مفید باشد.

متا همچنین همکاری‌هایی را با پلتفرم‌های حاشیه‌نویسی مانند Roboflow اعلام کرده است، با هدف توانمندسازی توسعه‌دهندگان و شرکت‌ها برای داده‌های خود را وارد کنید و SAM 3 را تنظیم کنید به نیازهای خاص. این امر، دری را به سوی راه‌حل‌های خاص هر بخش، از بازرسی صنعتی گرفته تا تحلیل ترافیک شهری، از جمله پروژه‌های میراث فرهنگی که در آن‌ها بخش‌بندی دقیق عناصر معماری یا هنری مهم است، می‌گشاید.

با انتخاب یک رویکرد نسبتاً باز، این شرکت به دنبال اطمینان از این است که اکوسیستم توسعه‌دهندگان، دانشگاه‌ها و استارت‌آپ‌ها -از جمله آنهایی که در اسپانیا و بقیه اروپا فعالیت می‌کنند- می‌توانند این فناوری‌ها را آزمایش کنند، آنها را در محصولات خود ادغام کنند و در نهایت، موارد استفاده‌ای را ارائه دهند که فراتر از مواردی است که متا می‌تواند به صورت داخلی توسعه دهد.

با SAM 3 و SAM 3D، متا قصد دارد ... پلتفرم هوش مصنوعی بصری انعطاف‌پذیرتر و در دسترس‌ترجایی که تقسیم‌بندی هدایت‌شده توسط متن و بازسازی سه‌بعدی از یک تصویر واحد، دیگر قابلیت‌هایی مختص تیم‌های بسیار تخصصی نیستند. تأثیر بالقوه از ویرایش روزمره ویدیو تا کاربردهای پیشرفته در علم، صنعت و تجارت الکترونیک، در زمینه‌ای که ترکیب زبان، بینایی کامپیوتر و خلاقیت در حال تبدیل شدن به یک ابزار کاری استاندارد و نه فقط یک وعده فناوری است، گسترش می‌یابد.

آلبرتو ناوارو

من یک علاقه مند به فناوری هستم که علایق "گیک" خود را به یک حرفه تبدیل کرده ام. من بیش از 10 سال از زندگی خود را صرف استفاده از فناوری های پیشرفته و سرهم بندی کردن انواع برنامه ها از روی کنجکاوی کرده ام. اکنون در زمینه فناوری رایانه و بازی های ویدیویی تخصص دارم. این به این دلیل است که بیش از 5 سال است که برای وب سایت های مختلف در زمینه فناوری و بازی های ویدیویی می نویسم و مقالاتی را ایجاد می کنم که به دنبال ارائه اطلاعات مورد نیاز شما به زبانی قابل فهم برای همه هستند.

اگر سوالی دارید، دانش من از همه چیز مربوط به سیستم عامل ویندوز و همچنین اندروید برای تلفن های همراه است. و تعهد من به شماست، من همیشه حاضرم چند دقیقه وقت بگذارم و به شما کمک کنم تا هر سوالی را که ممکن است در این دنیای اینترنتی داشته باشید حل کنید.