- SAM 3 تقسیمبندی تصویر و ویدیو را با استفاده از مثالهای متنی و بصری، با واژگانی از میلیونها مفهوم، معرفی میکند.
- SAM 3D به شما امکان میدهد اشیاء، صحنهها و بدن انسان را به صورت سهبعدی از یک تصویر واحد و با استفاده از مدلهای باز بازسازی کنید.
- مدلها را میتوان بدون دانش فنی در Segment Anything Playground، با قالبهای کاربردی و خلاقانه، آزمایش کرد.
- متا وزنها، نقاط بررسی و معیارهای جدیدی را منتشر میکند تا توسعهدهندگان و محققان در اروپا و سایر نقاط جهان بتوانند این قابلیتها را در پروژههای خود ادغام کنند.
متا گام دیگری در تعهد خود برداشته است هوش مصنوعی به کار رفته در بینایی کامپیوتر با پرتاب SAM 3 و SAM 3D، دو مدل که خانواده Segment Anything را گسترش میدهند و اینکه هدف آنها تغییر نحوه کار ما با عکسها و ویدیوها استاین شرکت میخواهد این ابزارها به جای اینکه در حد یک آزمایش آزمایشگاهی باقی بمانند، هم توسط متخصصان و هم توسط کاربران بدون پیشزمینه فنی مورد استفاده قرار گیرند.
با این نسل جدید، متا روی موارد زیر تمرکز میکند: بهبود تشخیص و قطعهبندی اشیا و در آوردن بازسازی سهبعدی برای مخاطبان بسیار گستردهتراز ویرایش ویدیو گرفته تا مصورسازی محصول برای تجارت الکترونیک در اسپانیا و بقیه اروپا، این شرکت سناریویی را پیشبینی میکند که در آن صرفاً توصیف کاری که میخواهید انجام دهید با کلمات کافی است تا هوش مصنوعی بخش عمدهای از کارهای سنگین را انجام دهد..
SAM 3 در مقایسه با نسخههای قبلی چه چیزی ارائه میدهد؟
SAM 3 به عنوان تکامل مستقیم قرار گرفته است از مدلهای تقسیمبندی که متا در سالهای ۲۰۲۳ و ۲۰۲۴ ارائه کرد و با نامهای SAM 1 و SAM 2 شناخته میشوند. آن نسخههای اولیه بر شناسایی پیکسلهای متعلق به هر شیء تمرکز داشتند، عمدتاً با استفاده از نشانههای بصری مانند نقاط، کادرها یا ماسکها، و در مورد SAM 2، دنبال کردن اشیاء در طول یک ویدیو تقریباً به صورت بلادرنگ.
پیشرفت کلیدی جدید اکنون این است که SAM 3 میفهمد متنهای غنی و دقیقنه فقط برچسبهای کلی. در حالی که قبلاً از اصطلاحات سادهای مانند «ماشین» یا «اتوبوس» استفاده میشد، مدل جدید قادر به پاسخگویی به توصیفات بسیار خاصتری است، به عنوان مثال «اتوبوس مدرسه زرد» یا «ماشین قرمز دوبله پارک شده».
در عمل، این بدان معناست که نوشتن چیزی شبیه به این کافی است «کلاه بیسبال قرمز» به طوری که سیستم بتواند تمام عناصری را که با آن توصیف در یک تصویر یا ویدیو مطابقت دارند، پیدا کرده و جدا کند. این توانایی اصلاح با کلمات به ویژه در موارد زیر مفید است: زمینههای ویرایش حرفهای، تبلیغات یا تحلیل محتوا، که در آن اغلب باید جزئیات بسیار خاصی را بررسی کنید.
علاوه بر این، SAM 3 به گونهای طراحی شده است که با ... ادغام شود. مدلهای زبانی چندوجهی بزرگاین به شما امکان میدهد فراتر از عبارات ساده بروید و از دستورالعملهای پیچیدهای مانند موارد زیر استفاده کنید: «مردم نشستهاند اما کلاه قرمزی بر سر ندارند» یا «عابران پیادهای که به دوربین نگاه میکنند اما کوله پشتی ندارند.» این نوع دستورالعمل، شرایط و استثنائاتی را ترکیب میکند که تا همین اواخر ترجمه آنها به یک ابزار بینایی کامپیوتر دشوار بود.
عملکرد و مقیاس مدل SAM 3

متا همچنین میخواست بخش کمتر دیده شده اما حیاتی را برجسته کند: عملکرد فنی و مقیاس دانش طبق دادههای این شرکت، SAM 3 قادر است یک تصویر واحد با بیش از صد شیء شناساییشده را در حدود ۳۰ میلیثانیه با استفاده از پردازنده گرافیکی H200 پردازش کند، سرعتی بسیار نزدیک به آنچه برای گردشهای کاری دشوار مورد نیاز است.
در مورد ویدیو، شرکت اطمینان میدهد که سیستم عملکرد خود را حفظ میکند. عملاً در زمان واقعی هنگام کار با حدود پنج شیء همزمان، این امر آن را برای ردیابی و تقسیمبندی محتوای متحرک، از کلیپهای کوتاه رسانههای اجتماعی گرفته تا پروژههای تولیدی بلندپروازانهتر، مناسب میسازد.
برای دستیابی به این رفتار، متا یک پایگاه آموزشی با بیش از ... ساخته است. ۴ میلیون مفهوم منحصر به فرداین ترکیب از نظارت دستی و خودکار، با ترکیب مفسران انسانی با مدلهای هوش مصنوعی برای کمک به برچسبگذاری حجم زیادی از دادهها، با هدف ایجاد تعادل بین دقت و مقیاس انجام میشود - کلیدی برای اطمینان از اینکه مدل به ورودیهای متنوع در زمینههای اروپایی، آمریکای لاتین و سایر بازارها به خوبی پاسخ میدهد.
این شرکت، SAM 3 را در چارچوب آنچه که آن را ... مینامد، قرار میدهد. مجموعه هر چیزی را قطعه بندی کنیدخانوادهای از مدلها، معیارها و منابع که برای گسترش درک بصری هوش مصنوعی طراحی شدهاند. این رونمایی با یک معیار جدید برای تقسیمبندی «واژگان باز» همراه است که بر اندازهگیری میزان توانایی سیستم در درک تقریباً هر مفهومی که به زبان طبیعی بیان میشود، تمرکز دارد.
ادغام با ویرایشها، ویبرهها و سایر ابزارهای متا

فراتر از مؤلفه فنی، متا از قبل شروع به کار کرده است ادغام SAM 3 در محصولات خاص که برای استفاده روزمره در نظر گرفته شدهاند. یکی از اولین مقاصد، ویرایشها خواهد بود.، برنامه ساخت و ویرایش ویدیوی آنها، که در آن ایده این است که کاربر میتواند افراد یا اشیاء خاصی را با یک توضیح متنی ساده انتخاب کند و جلوهها، فیلترها یا تغییرات را فقط در آن قسمتهای فیلم اعمال کند.
راه دیگری برای ادغام در ... یافت خواهد شد. وایبز، درون اپلیکیشن متا هوش مصنوعی و پلتفرم متا.ایآیدر این محیط، تقسیمبندی متن با ابزارهای تولیدی ترکیب خواهد شد تا ویرایشهای جدید و تجربیات خلاقانهای مانند پسزمینههای سفارشی، جلوههای حرکتی یا اصلاحات انتخابی عکس که برای شبکههای اجتماعی طراحی شدهاند و در اسپانیا و بقیه اروپا بسیار محبوب هستند، ایجاد شود.
پیشنهاد شرکت این است که این قابلیتها به مطالعات حرفهای محدود نشود، بلکه به... سازندگان مستقل، آژانسهای کوچک و کاربران پیشرفته که روزانه با محتوای بصری کار میکنند. توانایی بخشبندی صحنهها با نوشتن توضیحات به زبان طبیعی، منحنی یادگیری را در مقایسه با ابزارهای سنتی مبتنی بر ماسکها و لایههای دستی، کاهش میدهد.
در عین حال، متا رویکردی باز نسبت به توسعهدهندگان خارجی دارد و این نشان میدهد که برنامه های شخص ثالث از ابزارهای ویرایش گرفته تا راهکارهایی برای تجزیه و تحلیل ویدیو در خرده فروشی یا امنیت - تا زمانی که سیاستهای استفاده شرکت رعایت شود، میتوانند به SAM 3 اعتماد کنند.
SAM 3D: بازسازی سهبعدی از یک تصویر واحد

خبر مهم دیگر این است که سم سه بعدیسیستمی که برای انجام وظایف طراحی شده است بازسازیهای سهبعدی با شروع از تصاویر دوبعدی. به جای نیاز به چندین عکس از زوایای مختلف، این مدل قصد دارد یک نمایش سهبعدی قابل اعتماد از یک عکس واحد تولید کند، چیزی که به ویژه برای کسانی که تجهیزات اسکن تخصصی یا گردش کار ندارند، جالب است.
SAM 3D از دو مدل متنباز با عملکردهای متمایز تشکیل شده است: اشیاء سهبعدی SAMبر بازسازی اشیاء و صحنهها تمرکز داشت، و بدنه سه بعدی SAM، با هدف تخمین شکل و بدن انسان. این تفکیک به سیستم اجازه میدهد تا با موارد استفاده بسیار متفاوتی، از کاتالوگ محصولات گرفته تا کاربردهای سلامت یا ورزشی، سازگار شود.
طبق گفته متا، SAM 3D Objects یک ... را نشان میدهد. معیار عملکرد جدید در بازسازی سهبعدی هدایتشده توسط هوش مصنوعیبه راحتی از روشهای قبلی در معیارهای کلیدی کیفیت پیشی میگیرد. برای ارزیابی دقیقتر نتایج، این شرکت با هنرمندان همکاری کرده است تا SAM 3D Artist Objects را ایجاد کند، یک مجموعه داده که به طور خاص برای ارزیابی دقت و جزئیات بازسازیها در طیف گستردهای از تصاویر و اشیاء طراحی شده است.
این پیشرفت، دریچهای به سوی کاربردهای عملی در حوزههایی مانند رباتیک، علوم، پزشکی ورزشی یا خلاقیت دیجیتالبرای مثال، در رباتیک میتواند به سیستمها کمک کند تا حجم اشیایی را که با آنها تعامل دارند، بهتر درک کنند؛ در تحقیقات پزشکی یا ورزشی، میتواند به تجزیه و تحلیل وضعیت بدن و حرکت کمک کند؛ و در طراحی خلاقانه، به عنوان مبنایی برای تولید مدلهای سهبعدی برای انیمیشن، بازیهای ویدیویی یا تجربیات فراگیر عمل میکند.
یکی از اولین کاربردهای تجاری که از قبل قابل مشاهده است، این تابع است «منظره در اتاق» de بازار فیس بوککه به شما امکان میدهد قبل از خرید یک قطعه مبلمان یا شیء تزئینی، آن را در یک اتاق واقعی تجسم کنید. با SAM 3D، متا به دنبال تکمیل این نوع تجربیات است، که برای تجارت الکترونیک اروپا بسیار مهم است، جایی که بازگشت محصولات به دلیل انتظارات برآورده نشده، هزینه فزایندهای را نشان میدهد.
زمین بازی Segment Anything: محیطی برای آزمایش

برای اینکه عموم مردم بتوانند این قابلیتها را بدون نصب چیزی آزمایش کنند، متا این قابلیت را فعال کرده است زمین بازی را به چند قسمت تقسیم کنیداین یک پلتفرم وب است که به شما امکان میدهد تصاویر یا ویدیوها را آپلود کنید و مستقیماً از مرورگر خود با SAM 3 و SAM 3D آزمایش کنید. ایده این است که هر کسی که در مورد هوش مصنوعی بصری کنجکاو است، بتواند بدون هیچ دانش برنامهنویسی، امکانات موجود را بررسی کند.
در مورد SAM 3، Playground امکان قطعهبندی اشیاء با استفاده از عبارات کوتاه یا دستورالعملهای دقیقترکیب متن و در صورت تمایل، نمونههای بصری. این کار وظایف رایجی مانند انتخاب افراد، ماشینها، حیوانات یا عناصر خاص صحنه و اعمال اقدامات خاص بر روی آنها، از جلوههای زیباییشناختی گرفته تا تار کردن یا جایگزینی پسزمینه، را ساده میکند.
هنگام کار با SAM 3D، این پلتفرم این امکان را فراهم میکند صحنهها را از دیدگاههای جدید کاوش کنیداشیاء را دوباره مرتب کنید، جلوههای سهبعدی اعمال کنید یا نماهای جایگزین ایجاد کنید. برای کسانی که در طراحی، تبلیغات یا محتوای سهبعدی کار میکنند، این نرمافزار راهی سریع برای نمونهسازی اولیه ایدهها بدون نیاز به استفاده از ابزارهای فنی پیچیده از ابتدا ارائه میدهد.
زمین بازی همچنین شامل مجموعهای از قالب های آماده استفاده این ویژگیها برای کارهای بسیار خاص طراحی شدهاند. این ویژگیها شامل گزینههای کاربردی مانند پیکسلی کردن چهره یا پلاک خودرو به دلایل حفظ حریم خصوصی و جلوههای بصری مانند مسیرهای حرکتی، هایلایتهای انتخابی یا نورافکنها در قسمتهای مورد علاقه در ویدیو میشوند. این نوع عملکردها میتوانند به ویژه برای گردش کار رسانههای دیجیتال و تولیدکنندگان محتوا در اسپانیا، جایی که تولید ویدیوهای کوتاه و محتوای رسانههای اجتماعی به طور مداوم انجام میشود، مناسب باشند.
منابع آزاد برای توسعهدهندگان و محققان

در راستای استراتژیای که متا در سایر نسخههای هوش مصنوعی دنبال کرده است، این شرکت تصمیم گرفته است بخش قابل توجهی از منابع فنی مرتبط با SAM 3 و SAM 3Dبرای مورد اول، وزنهای مدل، یک معیار جدید با تمرکز بر تقسیمبندی واژگان باز، و یک سند فنی که جزئیات توسعه آن را شرح میدهد، منتشر شده است.
در مورد SAM 3D، موارد زیر موجود است: نقاط بررسی مدل، کد استنتاج و یک مجموعه داده ارزیابی نسل بعدی. این مجموعه دادهها شامل تنوع قابل توجهی از تصاویر و اشیاء است که هدف آن فراتر رفتن از نقاط مرجع سهبعدی سنتی است و واقعگرایی و پیچیدگی بیشتری را ارائه میدهد، چیزی که میتواند برای گروههای تحقیقاتی اروپایی که در زمینه بینایی کامپیوتر و گرافیک کار میکنند بسیار مفید باشد.
متا همچنین همکاریهایی را با پلتفرمهای حاشیهنویسی مانند Roboflow اعلام کرده است، با هدف توانمندسازی توسعهدهندگان و شرکتها برای دادههای خود را وارد کنید و SAM 3 را تنظیم کنید به نیازهای خاص. این امر، دری را به سوی راهحلهای خاص هر بخش، از بازرسی صنعتی گرفته تا تحلیل ترافیک شهری، از جمله پروژههای میراث فرهنگی که در آنها بخشبندی دقیق عناصر معماری یا هنری مهم است، میگشاید.
با انتخاب یک رویکرد نسبتاً باز، این شرکت به دنبال اطمینان از این است که اکوسیستم توسعهدهندگان، دانشگاهها و استارتآپها -از جمله آنهایی که در اسپانیا و بقیه اروپا فعالیت میکنند- میتوانند این فناوریها را آزمایش کنند، آنها را در محصولات خود ادغام کنند و در نهایت، موارد استفادهای را ارائه دهند که فراتر از مواردی است که متا میتواند به صورت داخلی توسعه دهد.
با SAM 3 و SAM 3D، متا قصد دارد ... پلتفرم هوش مصنوعی بصری انعطافپذیرتر و در دسترسترجایی که تقسیمبندی هدایتشده توسط متن و بازسازی سهبعدی از یک تصویر واحد، دیگر قابلیتهایی مختص تیمهای بسیار تخصصی نیستند. تأثیر بالقوه از ویرایش روزمره ویدیو تا کاربردهای پیشرفته در علم، صنعت و تجارت الکترونیک، در زمینهای که ترکیب زبان، بینایی کامپیوتر و خلاقیت در حال تبدیل شدن به یک ابزار کاری استاندارد و نه فقط یک وعده فناوری است، گسترش مییابد.
من یک علاقه مند به فناوری هستم که علایق "گیک" خود را به یک حرفه تبدیل کرده ام. من بیش از 10 سال از زندگی خود را صرف استفاده از فناوری های پیشرفته و سرهم بندی کردن انواع برنامه ها از روی کنجکاوی کرده ام. اکنون در زمینه فناوری رایانه و بازی های ویدیویی تخصص دارم. این به این دلیل است که بیش از 5 سال است که برای وب سایت های مختلف در زمینه فناوری و بازی های ویدیویی می نویسم و مقالاتی را ایجاد می کنم که به دنبال ارائه اطلاعات مورد نیاز شما به زبانی قابل فهم برای همه هستند.
اگر سوالی دارید، دانش من از همه چیز مربوط به سیستم عامل ویندوز و همچنین اندروید برای تلفن های همراه است. و تعهد من به شماست، من همیشه حاضرم چند دقیقه وقت بگذارم و به شما کمک کنم تا هر سوالی را که ممکن است در این دنیای اینترنتی داشته باشید حل کنید.