Meta公司推出SAM 3和SAM 3D:新一代視覺人工智慧

最後更新: 27/11/2025

  • SAM 3 引入了由文字和視覺範例指導的圖像和視訊分割,詞彙表包含數百萬個概念。
  • SAM 3D 可讓您使用開放式模型,從單一影像重建 3D 物件、場景和人體。
  • 在 Segment Anything Playground 中,無需技術知識即可測試模型,並提供實用且富有創意的範本。
  • Meta 發布權重、檢查點和新的基準,以便歐洲和世界其他地區的開發人員和研究人員可以將這些功能整合到他們的專案中。
SAM 3D

Meta 在其承諾方面又邁出了一步 人工智慧在電腦視覺的應用SAM 3 和 SAM 3D 的發射這兩款車型擴展了 Segment Anything 系列產品線,並且 他們的目標是改變我們處理照片和影片的方式該公司不希望這些工具僅僅停留在實驗室實驗階段,而是希望專業人士和非技術背景的使用者都能使用這些工具。

Meta 的新一代產品正專注於… 改進目標檢測和分割 並帶來 三維重建技術已推廣至更廣泛的受眾。從影片剪輯到面向西班牙和歐洲其他地區電子商務的產品視覺化,該公司設想了一個場景: 你只要用文字描述你想做的事情,人工智慧就能完成大部分繁重的工作。.

與先前的版本相比,SAM 3 有哪些新功能?

SAM 3 定位為直接進化型 Meta 在 2023 年和 2024 年提出的分割模型分別稱為 SAM 1 和 SAM 2。這些早期版本主要著重於識別哪些像素屬於每個對象,主要使用點、框或遮罩等視覺線索,而 SAM 2 則幾乎即時追蹤視訊中的物件。

現在的關鍵新進展是 SAM 3 能夠理解 豐富而精確的文字提示不僅僅是通用標籤。以前只能使用“汽車”或“公共汽車”等簡單詞語,而新模型能夠響應更具體的描述,例如“黃色校車”或“紅色汽車雙排停車”。

實際上,這意味著只需寫出類似這樣的內容: “紅色棒球帽” 這樣,系統就能在影像或影片中定位並分離出所有符合該描述的元素。這種利用文字進行精細化描述的能力在以下情況下尤其有用: 專業編輯環境例如廣告或內容分析,在這些領域,你經常需要注意非常具體的細節。

此外,SAM 3 的設計旨在與…集成 大型多模態語言模型這使您可以超越簡單的短語,使用複雜的指令,例如: “坐著但沒戴紅帽子的人” 或「看著攝影機但沒有背背包的行人」。這類指令結合了各種條件和排除項,而這些條件和排除項直到最近都很難轉化為電腦視覺工具所能辨識的指標。

獨家內容 - 點擊這裡  如何在 Edge 上使用 Copilot Vision:功能與技巧

SAM 3 模型的性能與規模

SAM 3 元模型

Meta也想強調一個不太顯眼但至關重要的部分: 技術性能和知識規模 根據該公司的數據,SAM 3 使用 H200 GPU 處理包含一百多個偵測到的物件的影像,耗時約 30 毫秒,這速度非常接近高要求工作流程所需的速度。

就視訊而言,該公司保證系統能夠保持效能。 幾乎是即時 能夠同時處理大約五個對象,使其能夠追蹤和分割移動內容,從短小的社交媒體片段到更雄心勃勃的製作項目。

為了實現這一目標,Meta 建構了一個擁有超過 1000 個訓練樣本的訓練基地。 4萬個獨特概念透過將人工標註員與人工智慧模型相結合來幫助標註大量數據,這種人工和自動監督相結合的方式旨在平衡準確性和規模——這是確保模型能夠很好地響應歐洲、拉丁美洲和其他市場環境中的各種輸入的關鍵。

該公司將 SAM 3 置於其所謂的框架內 任何內容系列這是一系列旨在擴展人工智慧視覺理解能力的模型、基準測試和資源。此次發布還附帶一項針對「開放詞彙」分割的新基準測試,該測試專注於衡量系統理解自然語言中幾乎所有概念的程度。

與 Edits、Vibes 和其他 Meta 工具集成

使用 Meta Edits 編輯 4K 視頻

除了技術層面之外,Meta 已經開始 把SAM 3整合到特定產品中 適用於日常使用。 第一批目的地之一是 Edits他們開發了一個影片創作和編輯應用程序,其理念是用戶可以選擇特定的人物或物體,並配以簡單的文字描述,然後僅對這些片段應用特效、濾鏡或更改。

另一種整合途徑將在… 在 Meta AI 應用和 meta.ai 平台中,Vibes 功能得以實現。在這種環境下,文字分割將與生成工具結合,創造新的編輯和創意體驗,例如自訂背景、動態效果或選擇性照片修改,這些體驗專為在西班牙和歐洲其他地區非常流行的社交網路而設計。

該公司提議,這些能力不應僅限於專業學習,而應擴展到… 獨立創作者、小型機構和高級用戶 對於每天處理視覺內容的使用者來說,透過編寫自然語言描述來分割場景的功能,相比基於手動蒙版和圖層的傳統工具,大大降低了學習難度。

同時,Meta 對外部開發者保持開放的態度,這表明 第三方申請 從編輯工具到零售或安防領域的視訊分析解決方案,只要遵守公司的使用政策,都可以依賴 SAM 3。

獨家內容 - 點擊這裡  比較:Windows 11 與 Linux Mint 在舊舊電腦上的運作狀況

SAM 3D:基於單幅圖像的三維重建

SAM 3D 的工作原理

另一個重大新聞是 SAM 3D一個旨在執行 三維重建 該模型從二維影像開始,無需從不同角度多次拍攝,即可從單張照片生成可靠的三維模型,這對於那些沒有專業掃描設備或工作流程的人來說尤其有吸引力。

SAM 3D 由兩個功能不同的開源模型組成: SAM 3D 物體專注於重建物件和場景,以及 SAM 3D人體模型此系統主要用於估算人體形狀和體型。這種分離使得該系統能夠適應各種不同的應用場景,從產品目錄到健康或運動應用。

根據 Meta 的說法,SAM 3D 物件標誌著 AI引導的3D重建新效能基準在關鍵品質指標方面輕鬆超越以往方法。為了更嚴格地評估結果,該公司與藝術家合作創建了 SAM 3D 藝術家物件資料集,該資料集專門用於評估各種圖像和物件的重建保真度和細節。

這項進展為在以下領域的實際應用打開了大門 機器人學、科學、運動醫學或數位創意例如,在機器人領域,它可以幫助系統更好地理解與其互動的物體的體積;在醫學或體育研究中,它可以幫助分析身體姿勢和運動;在創意設計中,它可以作為生成動畫、視頻遊戲或沉浸式體驗的 3D 模型的基礎。

首批已顯現的商業應用之一是該功能 “房間內視圖” de Facebook市場它能讓你在購買家具或裝飾品之前,先預覽它在真實房間中的效果。使用 SAM 3D, Meta致力於完善這類體驗。這對歐洲電子商務來說意義重大,因為因未滿足預期而退貨會造成越來越大的成本。

如何使用 SAM 3D 將人物和物件轉換為 3D 模型
相關文章:
使用 Meta 的 SAM 3 和 SAM 3D 將人物和物件轉換為 3D 模型。

分割萬物遊樂場:一個實驗環境

任何遊樂場

為了讓大眾無需安裝任何軟體即可測試這些功能,Meta 已啟用此功能。 任何遊樂場這是一個網路平台,允許用戶上傳圖片或視頻,並直接透過瀏覽器體驗 SAM 3 和 SAM 3D。其理念是,任何對視覺人工智慧感興趣的人都可以在無需任何程式設計知識的情況下探索其可能性。

對於 SAM 3,Playground 允許使用下列方式分割對象 簡短的短語或詳細的說明結合文字說明和(如果需要)視覺範例,可以簡化常見任務,例如選擇人物、汽車、動物或場景中的特定元素,並對其應用特定操作,包括美化效果、模糊處理或背景替換。

獨家內容 - 點擊這裡  如何使用 Microsoft Designer 改進您的創意項目

在使用 SAM 3D 時,該平台能夠實現這一點。 從全新視角探索場景重新排列物件、套用三維效果或產生不同的視圖。對於從事設計、廣告或 3D 內容工作的人員來說,它提供了一種快速創建原型的方法,而無需從一開始就使用複雜的工具。

遊樂場還包括一系列 即用型模板 這些功能針對特定任務而設計。它們包括一些實用選項,例如出於隱私考慮對人臉或車牌進行像素化處理,以及一些視覺特效,例如運動軌跡、選擇性高光或影片中感興趣區域的聚光燈效果。這些功能尤其適合西班牙數位媒體和內容創作者的工作流程,因為在西班牙,短影片和社群媒體內容的製作非常普遍。

開發者和研究人員的開放資源

SAM 3D 元範例

與 Meta 在其他 AI 版本中採取的策略一致,該公司決定發布很大一部分功能。 與 SAM 3 和 SAM 3D 相關的技術資源首先,模型權重、專注於開放詞彙分割的新基準以及詳細介紹其開發的技術文件均已公開。

對於 SAM 3D,以下功能可用: 模型檢查點、推理代碼和評估資料集 下一代資料集。此資料集包含種類繁多的圖像和物體,旨在超越傳統的3D參考點,提供更高的真實感和複雜性,這對於從事電腦視覺和圖形學研究的歐洲研究團隊來說非常有用。

Meta也宣布與Roboflow等標註平台合作,旨在協助開發者與公司達成以下目標: 輸入您自己的資料並調整 SAM 3 滿足特定需求。這為特定領域的解決方案打開了大門,從工業檢測到城市交通分析,包括文化遺產項目,在這些項目中,精確分割建築或藝術元素至關重要。

透過相對開放的方式,該公司力求確保開發者生態系統的永續發展。 大學和新創公司 ——包括在西班牙和歐洲其他地區運營的公司——可以嘗試這些技術,將它們整合到自己的產品中,並最終貢獻出 Meta 內部無法開發的用例。

Meta公司希望透過SAM 3和SAM 3D來鞏固其市場地位。 更靈活、更容易使用的視覺人工智慧平台如今,基於文字引導的圖像分割和單幅圖像的三維重建不再是高度專業化團隊的專屬技能。其潛在影響範圍廣泛,從日常影片編輯到科學、工業和電子商務等領域的先進應用,語言、電腦視覺和創造力的結合正逐漸成為一種標準工作工具,而不再只是技術願景。