- SAM 3 แนะนำการแบ่งส่วนภาพและวิดีโอโดยนำทางด้วยข้อความและตัวอย่างภาพ พร้อมด้วยคำศัพท์ที่มีแนวคิดนับล้านรายการ
- SAM 3D ช่วยให้คุณสร้างวัตถุ ฉาก และร่างกายมนุษย์ในรูปแบบ 3 มิติจากภาพเดียวโดยใช้โมเดลแบบเปิด
- สามารถทดสอบโมเดลได้โดยไม่ต้องมีความรู้ด้านเทคนิคใน Segment Anything Playground พร้อมด้วยเทมเพลตที่ใช้งานได้จริงและสร้างสรรค์
- Meta เปิดตัวน้ำหนัก จุดตรวจสอบ และเกณฑ์มาตรฐานใหม่เพื่อให้นักพัฒนาและนักวิจัยในยุโรปและส่วนอื่นๆ ของโลกสามารถรวมความสามารถเหล่านี้เข้าไว้ในโครงการของพวกเขาได้
Meta ได้ก้าวไปอีกขั้นในการมุ่งมั่น ปัญญาประดิษฐ์ที่นำมาใช้กับการมองเห็นด้วยคอมพิวเตอร์ ที่มีการ เปิดตัว SAM 3 และ SAM 3Dสองโมเดลที่ขยายกลุ่มผลิตภัณฑ์ Segment Anything และ พวกเขามุ่งมั่นที่จะเปลี่ยนวิธีการทำงานของเราด้วยภาพถ่ายและวิดีโอบริษัทนี้ไม่เพียงแต่ต้องการให้เครื่องมือเหล่านี้ใช้งานได้โดยทั้งผู้เชี่ยวชาญและผู้ใช้ที่ไม่มีพื้นฐานด้านเทคนิคเท่านั้น แต่ยังไม่ใช่เครื่องมือที่ใช้ในการทดลองในห้องปฏิบัติการอีกด้วย
สำหรับคนรุ่นใหม่นี้ Meta มุ่งเน้นไปที่ ปรับปรุงการตรวจจับและการแบ่งส่วนวัตถุ และในการนำ การสร้างภาพสามมิติให้เข้าถึงผู้ชมได้กว้างขวางยิ่งขึ้นจากการตัดต่อวิดีโอไปจนถึงการสร้างภาพผลิตภัณฑ์สำหรับอีคอมเมิร์ซในสเปนและส่วนอื่นๆ ของยุโรป บริษัทมองเห็นสถานการณ์ที่ เพียงแค่บรรยายสิ่งที่คุณต้องการทำเป็นคำพูดก็เพียงพอแล้วที่ AI จะทำส่วนใหญ่ของงานหนักๆ ได้.
SAM 3 มีอะไรให้เมื่อเทียบกับเวอร์ชันก่อนหน้าบ้าง?
SAM 3 ถูกวางตำแหน่งให้เป็นวิวัฒนาการโดยตรง ของโมเดลการแบ่งส่วนที่ Meta นำเสนอในปี 2023 และ 2024 ซึ่งเรียกว่า SAM 1 และ SAM 2 เวอร์ชันแรกๆ เหล่านี้มุ่งเน้นไปที่การระบุพิกเซลที่เป็นของแต่ละวัตถุ โดยใช้สัญลักษณ์ภาพ เช่น จุด กล่อง หรือมาสก์เป็นหลัก และในกรณีของ SAM 2 จะติดตามวัตถุตลอดทั้งวิดีโอเกือบจะแบบเรียลไทม์
การพัฒนาใหม่ที่สำคัญตอนนี้คือ SAM 3 เข้าใจ ข้อความแจ้งเตือนที่สมบูรณ์และแม่นยำไม่ใช่แค่ป้ายกำกับทั่วไป ก่อนหน้านี้มีการใช้คำง่ายๆ อย่าง "รถยนต์" หรือ "รถบัส" แต่โมเดลใหม่นี้สามารถตอบสนองต่อคำอธิบายที่เฉพาะเจาะจงมากขึ้นได้ เช่น "รถโรงเรียนสีเหลือง" หรือ "รถสีแดงจอดซ้อนคัน"
ในทางปฏิบัติก็เพียงแค่เขียนอะไรทำนองนี้ก็พอ “หมวกเบสบอลสีแดง” เพื่อให้ระบบสามารถค้นหาและแยกองค์ประกอบทั้งหมดที่ตรงกับคำอธิบายนั้นภายในภาพหรือวิดีโอ ความสามารถในการปรับแต่งด้วยคำนี้มีประโยชน์อย่างยิ่งใน บริบทการแก้ไขแบบมืออาชีพการโฆษณาหรือการวิเคราะห์เนื้อหา ซึ่งคุณมักจะต้องดูรายละเอียดที่เฉพาะเจาะจงมาก
นอกจากนี้ SAM 3 ยังได้รับการออกแบบให้บูรณาการกับ แบบจำลองภาษาหลายโหมดขนาดใหญ่วิธีนี้ช่วยให้คุณสามารถก้าวข้ามวลีง่ายๆ และใช้คำสั่งที่ซับซ้อน เช่น: “คนนั่งแต่ไม่สวมหมวกสีแดง” หรือ “คนเดินถนนที่มองกล้องแต่ไม่มีเป้สะพายหลัง” คำแนะนำประเภทนี้จะรวมเงื่อนไขและการยกเว้นเข้าด้วยกัน ซึ่งจนกระทั่งเมื่อไม่นานนี้ ยากที่จะแปลเป็นเครื่องมือคอมพิวเตอร์วิชันได้
ประสิทธิภาพและขนาดของโมเดล SAM 3

นอกจากนี้ Meta ยังต้องการเน้นย้ำส่วนที่มองไม่เห็นแต่สำคัญ: ประสิทธิภาพทางเทคนิคและระดับความรู้ ของโมเดล จากข้อมูลของบริษัท SAM 3 สามารถประมวลผลภาพเดียวที่มีวัตถุที่ตรวจพบได้มากกว่าหนึ่งร้อยชิ้นได้ภายในเวลาประมาณ 30 มิลลิวินาที โดยใช้ GPU H200 ซึ่งเป็นความเร็วที่ใกล้เคียงกับที่จำเป็นสำหรับเวิร์กโฟลว์ที่มีความต้องการสูง
ในกรณีของวิดีโอ บริษัทรับประกันว่าระบบจะรักษาประสิทธิภาพไว้ เสมือนจริงแบบเรียลไทม์ เมื่อทำงานกับวัตถุประมาณ 5 ชิ้นพร้อมกัน ทำให้สามารถติดตามและแบ่งส่วนเนื้อหาที่เคลื่อนไหวได้ ตั้งแต่คลิปโซเชียลมีเดียสั้นๆ ไปจนถึงโปรเจ็กต์การผลิตที่มีความทะเยอทะยานมากขึ้น
เพื่อให้บรรลุพฤติกรรมดังกล่าว Meta ได้สร้างฐานการฝึกอบรมที่มีมากกว่า แนวคิดเฉพาะ 4 ล้านแนวคิดการผสมผสานระหว่างผู้ให้คำอธิบายที่เป็นมนุษย์กับโมเดล AI เพื่อช่วยติดฉลากข้อมูลปริมาณมาก การผสมผสานระหว่างการกำกับดูแลแบบแมนนวลและอัตโนมัตินี้มีจุดมุ่งหมายเพื่อสร้างสมดุลระหว่างความแม่นยำและขนาด ซึ่งเป็นสิ่งสำคัญในการทำให้แน่ใจว่าโมเดลตอบสนองต่ออินพุตที่หลากหลายในบริบทของตลาดยุโรป ละตินอเมริกา และตลาดอื่นๆ ได้ดี
บริษัทกำหนดกรอบ SAM 3 ไว้ภายในสิ่งที่เรียกว่า คอลเลกชันเซ็กเมนต์อะไรก็ได้กลุ่มโมเดล เกณฑ์มาตรฐาน และทรัพยากรที่ออกแบบมาเพื่อขยายความเข้าใจด้านภาพของ AI การเปิดตัวนี้มาพร้อมกับเกณฑ์มาตรฐานใหม่สำหรับการแบ่งส่วน "คำศัพท์แบบเปิด" ซึ่งมุ่งเน้นไปที่การวัดระดับที่ระบบสามารถเข้าใจแนวคิดเกือบทุกแนวคิดที่แสดงในภาษาธรรมชาติ
การบูรณาการกับการแก้ไข Vibes และเครื่องมือ Meta อื่น ๆ

นอกเหนือจากส่วนประกอบทางเทคนิคแล้ว Meta ได้เริ่มดำเนินการแล้ว รวม SAM 3 เข้ากับผลิตภัณฑ์เฉพาะ ที่ออกแบบมาเพื่อการใช้งานในชีวิตประจำวัน จุดหมายปลายทางแรกๆ จะเป็นการแก้ไขแอปพลิเคชั่นสร้างและตัดต่อวิดีโอ โดยแนวคิดคือผู้ใช้สามารถเลือกบุคคลหรือวัตถุที่เจาะจงพร้อมคำอธิบายแบบข้อความธรรมดา และใช้เอฟเฟกต์ ฟิลเตอร์ หรือการเปลี่ยนแปลงเฉพาะกับส่วนของวิดีโอเท่านั้น
อีกหนึ่งช่องทางสำหรับการบูรณาการจะพบได้ใน Vibes ภายในแอป Meta AI และแพลตฟอร์ม meta.aiในสภาพแวดล้อมนี้ การแบ่งส่วนข้อความจะรวมเข้ากับเครื่องมือสร้างสรรค์เพื่อสร้างการแก้ไขและประสบการณ์สร้างสรรค์ใหม่ๆ เช่น พื้นหลังแบบกำหนดเอง เอฟเฟกต์การเคลื่อนไหว หรือการปรับแต่งภาพแบบเลือกเฉพาะที่ออกแบบมาสำหรับเครือข่ายโซเชียลซึ่งได้รับความนิยมอย่างมากในสเปนและส่วนอื่นๆ ของยุโรป
ข้อเสนอของบริษัทคือความสามารถเหล่านี้จะไม่ถูกจำกัดอยู่เพียงการศึกษาทางวิชาชีพเท่านั้น แต่ให้ครอบคลุมถึง... ผู้สร้างอิสระ หน่วยงานขนาดเล็ก และผู้ใช้ขั้นสูง ซึ่งทำงานกับเนื้อหาภาพทุกวัน ความสามารถในการแบ่งฉากโดยการเขียนคำอธิบายเป็นภาษาธรรมชาติช่วยลดขั้นตอนการเรียนรู้เมื่อเทียบกับเครื่องมือแบบดั้งเดิมที่ใช้มาสก์และเลเยอร์แบบแมนนวล
ในเวลาเดียวกัน Meta ยังคงรักษาแนวทางที่เปิดกว้างต่อนักพัฒนาภายนอก โดยแนะนำว่า แอปพลิเคชันบุคคลที่สาม -ตั้งแต่เครื่องมือตัดต่อไปจนถึงโซลูชันสำหรับการวิเคราะห์วิดีโอในร้านค้าปลีกหรือด้านความปลอดภัย- สามารถไว้วางใจ SAM 3 ได้ตราบเท่าที่ปฏิบัติตามนโยบายการใช้งานของบริษัท
SAM 3D: การสร้างภาพสามมิติจากภาพเดียว

ข่าวใหญ่ประการหนึ่งก็คือ แซม 3Dระบบที่ออกแบบมาเพื่อดำเนินการ การสร้างภาพสามมิติ โดยเริ่มต้นจากภาพ 2 มิติ แทนที่จะต้องถ่ายภาพหลายภาพจากมุมที่แตกต่างกัน โมเดลนี้มุ่งเป้าไปที่การสร้างภาพ 3 มิติที่เชื่อถือได้จากภาพถ่ายเพียงภาพเดียว ซึ่งน่าสนใจเป็นพิเศษสำหรับผู้ที่ไม่มีอุปกรณ์สแกนหรือเวิร์กโฟลว์เฉพาะทาง
SAM 3D ประกอบด้วยโมเดลโอเพ่นซอร์สสองโมเดลที่มีฟังก์ชันที่แตกต่างกัน: วัตถุ 3 มิติ SAMมุ่งเน้นการสร้างวัตถุและฉากขึ้นมาใหม่ SAM 3D Bodyมุ่งเน้นไปที่การประเมินรูปร่างและสรีระของมนุษย์ การแยกส่วนนี้ช่วยให้ระบบสามารถปรับใช้กับกรณีการใช้งานที่แตกต่างกันได้มาก ตั้งแต่แคตตาล็อกผลิตภัณฑ์ไปจนถึงแอปพลิเคชันด้านสุขภาพและกีฬา
ตามที่ Meta ระบุ SAM 3D Objects ถือเป็น มาตรฐานประสิทธิภาพใหม่ในการสร้างภาพ 3 มิติที่นำทางด้วย AIเหนือกว่าวิธีการก่อนหน้าในการวัดคุณภาพที่สำคัญได้อย่างง่ายดาย เพื่อประเมินผลลัพธ์อย่างเข้มงวดยิ่งขึ้น บริษัทได้ทำงานร่วมกับศิลปินเพื่อสร้าง SAM 3D Artist Objects ซึ่งเป็นชุดข้อมูลที่ออกแบบมาโดยเฉพาะเพื่อประเมินความเที่ยงตรงและรายละเอียดของการสร้างภาพใหม่ในภาพและวัตถุที่หลากหลาย
ความก้าวหน้าครั้งนี้เปิดประตูสู่การประยุกต์ใช้ในทางปฏิบัติในพื้นที่ต่างๆ เช่น หุ่นยนต์ วิทยาศาสตร์ เวชศาสตร์การกีฬา หรือความคิดสร้างสรรค์ทางดิจิทัลตัวอย่างเช่น ในด้านหุ่นยนต์ ระบบสามารถเข้าใจปริมาตรของวัตถุที่โต้ตอบด้วยได้ดีขึ้น ในการวิจัยทางการแพทย์หรือการกีฬา ระบบสามารถช่วยวิเคราะห์ท่าทางและการเคลื่อนไหวของร่างกาย และในการออกแบบเชิงสร้างสรรค์ ระบบสามารถทำหน้าที่เป็นพื้นฐานสำหรับการสร้างแบบจำลองสามมิติสำหรับแอนิเมชัน วิดีโอเกม หรือประสบการณ์ที่ดื่มด่ำ
หนึ่งในแอปพลิเคชันเชิงพาณิชย์แรกๆ ที่ปรากฏให้เห็นแล้วคือฟังก์ชัน "วิวในห้อง" de Facebook Marketplaceซึ่งช่วยให้คุณเห็นภาพว่าเฟอร์นิเจอร์หรือของตกแต่งชิ้นหนึ่งจะดูเป็นอย่างไรในห้องจริงก่อนตัดสินใจซื้อ ด้วย SAM 3D Meta มุ่งมั่นที่จะทำให้ประสบการณ์ประเภทนี้สมบูรณ์แบบซึ่งมีความเกี่ยวข้องอย่างมากกับอีคอมเมิร์ซในยุโรป ซึ่งการส่งคืนสินค้าเนื่องจากไม่เป็นไปตามความคาดหวังนั้นถือเป็นต้นทุนที่เพิ่มมากขึ้น
Segment Anything Playground: สภาพแวดล้อมสำหรับการทดลอง

เพื่อให้สาธารณชนสามารถทดสอบความสามารถเหล่านี้ได้โดยไม่ต้องติดตั้งอะไรเลย Meta จึงได้เปิดใช้งาน แบ่งส่วนสนามเด็กเล่นอะไรก็ได้เป็นแพลตฟอร์มเว็บที่ให้คุณอัปโหลดรูปภาพหรือวิดีโอ และทดลองใช้ SAM 3 และ SAM 3D ได้โดยตรงจากเบราว์เซอร์ แนวคิดคือใครก็ตามที่สนใจเกี่ยวกับ AI ด้านภาพสามารถสำรวจความเป็นไปได้ต่างๆ ได้โดยไม่ต้องมีความรู้ด้านการเขียนโปรแกรมใดๆ
ในกรณีของ SAM 3 Playground อนุญาตให้แบ่งส่วนวัตถุโดยใช้ วลีสั้นๆ หรือคำแนะนำโดยละเอียดการรวมข้อความและตัวอย่างภาพ (หากต้องการ) เข้าด้วยกัน ช่วยลดความยุ่งยากของงานทั่วไป เช่น การเลือกบุคคล รถยนต์ สัตว์ หรือองค์ประกอบเฉพาะของฉาก และกำหนดการกระทำเฉพาะให้กับองค์ประกอบเหล่านั้น ตั้งแต่เอฟเฟกต์ความงามไปจนถึงการเบลอหรือเปลี่ยนพื้นหลัง
เมื่อทำงานกับ SAM 3D แพลตฟอร์มจะทำให้เป็นไปได้ สำรวจฉากจากมุมมองใหม่จัดเรียงวัตถุใหม่ ใช้เอฟเฟกต์สามมิติ หรือสร้างมุมมองทางเลือก สำหรับผู้ที่ทำงานด้านการออกแบบ โฆษณา หรือคอนเทนต์ 3 มิติ แอปนี้มอบวิธีการสร้างต้นแบบไอเดียได้อย่างรวดเร็ว โดยไม่ต้องใช้เครื่องมือทางเทคนิคที่ซับซ้อนตั้งแต่เริ่มต้น
สนามเด็กเล่นยังรวมถึงชุดของ แม่แบบพร้อมใช้งาน ฟีเจอร์เหล่านี้ออกแบบมาเพื่องานเฉพาะทาง ซึ่งรวมถึงตัวเลือกที่ใช้งานได้จริง เช่น การทำภาพใบหน้าหรือป้ายทะเบียนแบบพิกเซลเพื่อความเป็นส่วนตัว และเอฟเฟกต์ภาพ เช่น ภาพเคลื่อนไหว ไฮไลต์เฉพาะจุด หรือสปอตไลท์บนจุดที่น่าสนใจในวิดีโอ ฟังก์ชันเหล่านี้เหมาะอย่างยิ่งสำหรับเวิร์กโฟลว์ของผู้สร้างสื่อดิจิทัลและคอนเทนต์ในสเปน ซึ่งการผลิตวิดีโอสั้นและคอนเทนต์บนโซเชียลมีเดียมีอย่างต่อเนื่อง
ทรัพยากรเปิดสำหรับนักพัฒนาและนักวิจัย

สอดคล้องกับกลยุทธ์ที่ Meta ใช้ในการเปิดตัว AI อื่นๆ บริษัทจึงตัดสินใจที่จะเปิดตัวส่วนสำคัญ ทรัพยากรทางเทคนิคที่เกี่ยวข้องกับ SAM 3 และ SAM 3Dสำหรับประการแรก น้ำหนักของโมเดล เกณฑ์มาตรฐานใหม่ที่เน้นการแบ่งส่วนคำศัพท์แบบเปิด และเอกสารทางเทคนิคที่ให้รายละเอียดเกี่ยวกับการพัฒนาโมเดลดังกล่าวได้รับการเปิดเผยต่อสาธารณะแล้ว
ในกรณีของ SAM 3D มีดังต่อไปนี้: จุดตรวจสอบแบบจำลอง รหัสอนุมาน และชุดข้อมูลการประเมิน รุ่นถัดไป ชุดข้อมูลนี้ประกอบด้วยภาพและวัตถุที่หลากหลาย ซึ่งมีเป้าหมายที่จะก้าวข้ามจุดอ้างอิง 3 มิติแบบเดิม เพิ่มความสมจริงและความซับซ้อนมากขึ้น ซึ่งจะเป็นประโยชน์อย่างมากสำหรับกลุ่มวิจัยในยุโรปที่ทำงานด้านคอมพิวเตอร์วิชันและกราฟิก
Meta ยังประกาศความร่วมมือกับแพลตฟอร์มคำอธิบายประกอบ เช่น Roboflow โดยมีเป้าหมายเพื่อเปิดโอกาสให้นักพัฒนาและบริษัทต่างๆ กรอกข้อมูลของตนเองและปรับ SAM 3 เพื่อตอบสนองความต้องการเฉพาะเจาะจง สิ่งนี้เปิดประตูสู่โซลูชันเฉพาะภาคส่วน ตั้งแต่การตรวจสอบอุตสาหกรรมไปจนถึงการวิเคราะห์การจราจรในเมือง รวมไปถึงโครงการมรดกทางวัฒนธรรมที่จำเป็นต้องแบ่งส่วนองค์ประกอบทางสถาปัตยกรรมหรือศิลปะอย่างแม่นยำ
โดยการเลือกใช้แนวทางที่เปิดกว้าง บริษัทพยายามที่จะให้แน่ใจว่าระบบนิเวศของนักพัฒนา มหาวิทยาลัยและสตาร์ทอัพ -รวมถึงผู้ที่ดำเนินการในสเปนและส่วนอื่นๆ ของยุโรป- สามารถทดลองเทคโนโลยีเหล่านี้ รวมเข้ากับผลิตภัณฑ์ของตนเอง และท้ายที่สุด สนับสนุนกรณีการใช้งานที่ก้าวข้ามขอบเขตที่ Meta สามารถพัฒนาภายในได้
ด้วย SAM 3 และ SAM 3D Meta มุ่งหวังที่จะรวม แพลตฟอร์ม AI ภาพที่ยืดหยุ่นและเข้าถึงได้มากขึ้นซึ่งการแบ่งส่วนข้อมูลด้วยข้อความนำทางและการสร้างภาพสามมิติจากภาพเดียวไม่ได้ถูกจำกัดไว้เฉพาะทีมงานเฉพาะทางอีกต่อไป ผลกระทบที่อาจเกิดขึ้นขยายจากการตัดต่อวิดีโอในชีวิตประจำวันไปจนถึงการประยุกต์ใช้ขั้นสูงในด้านวิทยาศาสตร์ อุตสาหกรรม และอีคอมเมิร์ซ ในบริบทที่การผสมผสานระหว่างภาษา คอมพิวเตอร์วิทัศน์ และความคิดสร้างสรรค์กำลังกลายเป็นเครื่องมือมาตรฐานในการทำงาน ไม่ใช่แค่คำมั่นสัญญาทางเทคโนโลยี
ฉันเป็นผู้ชื่นชอบเทคโนโลยีที่เปลี่ยนความสนใจ "เกินบรรยาย" ของเขาให้กลายเป็นอาชีพ ฉันใช้เวลามากกว่า 10 ปีในชีวิตไปกับเทคโนโลยีล้ำสมัยและปรับแต่งโปรแกรมทุกประเภทด้วยความอยากรู้อยากเห็น ตอนนี้ฉันมีความเชี่ยวชาญในด้านเทคโนโลยีคอมพิวเตอร์และวิดีโอเกม เนื่องจากเป็นเวลากว่า 5 ปีแล้วที่ฉันเขียนให้กับเว็บไซต์ต่างๆ เกี่ยวกับเทคโนโลยีและวิดีโอเกม โดยสร้างบทความที่พยายามให้ข้อมูลที่คุณต้องการในภาษาที่ทุกคนเข้าใจได้
หากคุณมีคำถามใดๆ ความรู้ของฉันมีตั้งแต่ทุกอย่างที่เกี่ยวข้องกับระบบปฏิบัติการ Windows รวมถึง Android สำหรับโทรศัพท์มือถือ และความมุ่งมั่นของฉันคือคุณ ฉันยินดีสละเวลาสักครู่เสมอและช่วยคุณแก้ไขคำถามใดๆ ที่คุณอาจมีในโลกอินเทอร์เน็ตนี้