Meta公司推出SAM 3和SAM 3D:新一代视觉人工智能

最后更新: 27/11/2025

  • SAM 3 引入了由文本和视觉示例指导的图像和视频分割,词汇表包含数百万个概念。
  • SAM 3D 允许您使用开放模型,从单个图像中重建 3D 物体、场景和人体。
  • 在 Segment Anything Playground 中,无需技术知识即可测试模型,并提供实用且富有创意的模板。
  • Meta 发布权重、检查点和新的基准,以便欧洲和世界其他地区的开发人员和研究人员可以将这些功能集成到他们的项目中。
SAM 3D

Meta 在其承诺方面又迈出了一步 人工智能在计算机视觉中的应用SAM 3 和 SAM 3D 的发射这两款车型扩展了 Segment Anything 系列产品线,并且 他们的目标是改变我们处理照片和视频的方式该公司不希望这些工具仅仅停留在实验室实验阶段,而是希望专业人士和非技术背景的用户都能使用这些工具。

Meta 的新一代产品正专注于…… 改进目标检测和分割 并带来 三维重建技术已推广至更广泛的受众。从视频剪辑到面向西班牙和欧洲其他地区电子商务的产品可视化,该公司设想了一种场景: 你只需用文字描述你想做的事情,人工智能就能完成大部分繁重的工作。.

与之前的版本相比,SAM 3 有哪些新功能?

SAM 3 定位为直接进化型 Meta 在 2023 年和 2024 年提出的分割模型分别被称为 SAM 1 和 SAM 2。这些早期版本主要侧重于识别哪些像素属于每个对象,主要使用点、框或掩码等视觉线索,而 SAM 2 则几乎实时地跟踪视频中的对象。

现在的关键新进展是 SAM 3 能够理解 丰富而精确的文本提示不仅仅是通用标签。以前只能使用“汽车”或“公共汽车”等简单词语,而新模型能够响应更具体的描述,例如“黄色校车”或“红色汽车双排停车”。

实际上,这意味着只需写出类似这样的内容即可: “红色棒球帽” 这样,系统就能在图像或视频中定位并分离出所有符合该描述的元素。这种利用文字进行精细化描述的能力在以下情况下尤其有用: 专业编辑环境例如广告或内容分析,在这些领域,你经常需要关注非常具体的细节。

此外,SAM 3 的设计旨在与……集成 大型多模态语言模型这使您可以超越简单的短语,使用复杂的指令,例如: “坐着但没戴红帽子的人” 或者“看着摄像头但没有背背包的行人”。这类指令结合了各种条件和排除项,而这些条件和排除项直到最近都很难转化为计算机视觉工具能够识别的指标。

独家内容 - 点击这里  如何在 Edge 上使用 Copilot Vision:功能和技巧

SAM 3 模型的性能和规模

SAM 3 元模型

Meta还想强调一个不太显眼但至关重要的部分: 技术性能和知识规模 根据该公司的数据,SAM 3 使用 H200 GPU 处理包含一百多个检测到的对象的图像,耗时约 30 毫秒,这一速度非常接近高要求工作流程所需的速度。

就视频而言,该公司保证系统能够保持性能。 几乎实时 能够同时处理大约五个对象,使其能够跟踪和分割移动内容,从短小的社交媒体片段到更雄心勃勃的制作项目。

为了实现这一目标,Meta 构建了一个拥有超过 1000 个训练样本的训练基地。 4万个独特概念通过将人工标注员与人工智能模型相结合来帮助标注大量数据,这种人工和自动监督相结合的方式旨在平衡准确性和规模——这是确保模型能够很好地响应欧洲、拉丁美洲和其他市场环境中的各种输入的关键。

该公司将 SAM 3 置于其所谓的框架内 任何内容集合这是一系列旨在扩展人工智能视觉理解能力的模型、基准测试和资源。此次发布还附带一项针对“开放词汇”分割的新基准测试,该测试专注于衡量系统理解自然语言中几乎所有概念的程度。

与 Edits、Vibes 和其他 Meta 工具集成

使用 Meta Edits 编辑 4K 视频

除了技术层面之外,Meta 已经开始 把SAM 3集成到特定产品中 适用于日常使用。 首批目的地之一是 Edits他们开发了一款视频创作和编辑应用程序,其理念是用户可以选择特定的人物或物体,并配以简单的文字描述,然后仅对这些片段应用特效、滤镜或更改。

另一种整合途径将在…… 在 Meta AI 应用和 meta.ai 平台中,Vibes 功能得以实现。在这种环境下,文本分割将与生成工具相结合,创造新的编辑和创意体验,例如自定义背景、动态效果或选择性照片修改,这些体验专为在西班牙和欧洲其他地区非常流行的社交网络而设计。

该公司提议,这些能力不应仅限于专业学习,而应扩展到…… 独立创作者、小型机构和高级用户 对于每天处理视觉内容的用户来说,通过编写自然语言描述来分割场景的功能,相比基于手动蒙版和图层的传统工具,大大降低了学习难度。

与此同时,Meta 对外部开发者保持开放的态度,这表明 第三方应用程序 从编辑工具到零售或安防领域的视频分析解决方案,只要遵守公司的使用政策,都可以依赖 SAM 3。

独家内容 - 点击这里  对比:Windows 11 与 Linux Mint 在老旧电脑上的运行情况

SAM 3D:基于单幅图​​像的三维重建

SAM 3D 的工作原理

另一个重大新闻是 SAM 3D一个旨在执行 三维重建 该模型从二维图像开始,无需从不同角度多次拍摄,即可从单张照片生成可靠的三维模型,这对于那些没有专业扫描设备或工作流程的人来说尤其有吸引力。

SAM 3D 由两个功能不同的开源模型组成: SAM 3D 物体专注于重建物体和场景,以及 SAM 3D人体模型该系统主要用于估算人体形状和体型。这种分离使得该系统能够适应各种不同的应用场景,从产品目录到健康或运动应用。

根据 Meta 的说法,SAM 3D 对象标志着 AI引导的3D重建新性能基准在关键质量指标方面轻松超越以往方法。为了更严格地评估结果,该公司与艺术家合作创建了 SAM 3D 艺术家对象数据集,该数据集专门用于评估各种图像和对象的重建保真度和细节。

这一进展为在以下领域的实际应用打开了大门 机器人学、科学、运动医学或数字创意例如,在机器人领域,它可以帮助系统更好地理解与其交互的物体的体积;在医学或体育研究中,它可以帮助分析身体姿势和运动;在创意设计中,它可以作为生成动画、视频游戏或沉浸式体验的 3D 模型的基础。

首批已显现的商业应用之一是该功能 “房间内视图” de Facebook市场它能让你在购买家具或装饰品之前,先预览它在真实房间中的效果。借助 SAM 3D, Meta致力于完善这类体验。这对于欧洲电子商务来说意义重大,因为因未满足预期而退货会造成越来越大的成本。

如何使用 SAM 3D 将人物和物体转换为 3D 模型
相关文章:
使用 Meta 的 SAM 3 和 SAM 3D 将人物和物体转换为 3D 模型。

分割万物游乐场:一个实验环境

任何游乐场

为了让公众无需安装任何软件即可测试这些功能,Meta 已启用此功能。 任何游乐场这是一个网络平台,允许用户上传图片或视频,并直接通过浏览器体验 SAM 3 和 SAM 3D。其理念是,任何对视觉人工智能感兴趣的人都可以在无需任何编程知识的情况下探索其可能性。

对于 SAM 3,Playground 允许使用以下方式分割对象 简短的短语或详细的说明结合文字说明和(如果需要)视觉示例,可以简化常见任务,例如选择人物、汽车、动物或场景中的特定元素,并对其应用特定操作,包括美化效果、模糊处理或背景替换。

独家内容 - 点击这里  如何使用 Microsoft Designer 改进您的创意项目

在使用 SAM 3D 时,该平台能够实现这一点。 从全新视角探索场景重新排列对象、应用三维效果或生成不同的视图。对于从事设计、广告或 3D 内容工作的人员来说,它提供了一种快速创建原型的方法,而无需从一开始就使用复杂的技术工具。

游乐场还包括一系列 即用型模板 这些功能针对特定任务而设计。它们包括一些实用选项,例如出于隐私考虑对人脸或车牌进行像素化处理,以及一些视觉特效,例如运动轨迹、选择性高光或视频中感兴趣区域的聚光灯效果。这些功能尤其适合西班牙数字媒体和内容创作者的工作流程,因为在西班牙,短视频和社交媒体内容的制作非常普遍。

面向开发者和研究人员的开放资源

SAM 3D 元示例

与 Meta 在其他 AI 版本中采取的策略一致,该公司决定发布很大一部分功能。 与 SAM 3 和 SAM 3D 相关的技术资源首先,模型权重、专注于开放词汇分割的新基准以及详细介绍其开发的技术文档均已公开。

对于 SAM 3D,以下功能可用: 模型检查点、推理代码和评估数据集 下一代数据集。该数据集包含种类繁多的图像和物体,旨在超越传统的3D参考点,提供更高的真实感和复杂性,这对于从事计算机视觉和图形学研究的欧洲研究团队来说非常有用。

Meta还宣布与Roboflow等标注平台开展合作,旨在帮助开发者和公司实现以下目标: 输入您自己的数据并调整 SAM 3 满足特定需求。这为特定领域的解决方案打开了大门,从工业检测到城市交通分析,包括文化遗产项目,在这些项目中,精确分割建筑或艺术元素至关重要。

通过采取相对开放的方式,该公司力求确保开发者生态系统的可持续发展。 大学和创业公司 ——包括在西班牙和欧洲其他地区运营的公司——可以尝试这些技术,将它们集成到自己的产品中,并最终贡献出 Meta 内部无法开发的用例。

Meta公司希望通过SAM 3和SAM 3D来巩固其市场地位。 更灵活、更易于使用的视觉人工智能平台如今,基于文本引导的图像分割和单幅图像的三维重建不再是高度专业化团队的专属技能。其潜在影响范围广泛,从日常视频编辑到科学、工业和电子商务等领域的先进应用,语言、计算机视觉和创造力的结合正逐渐成为一种标准工​​作工具,而不再仅仅是技术愿景。