- SAM 3 は詳細なテキスト プロンプトでセグメント化し、視覚と言語を統合して精度を高めます。
- SAM 3D は、オープン リソースを使用して単一の画像から 3D オブジェクトとボディを再構築します。
- Playground を使用すると、技術的な知識やインストールがなくても、セグメンテーションと 3D をテストできます。
- 編集、マーケットプレイス、教育、科学、スポーツなどの分野での応用。

¿SAM 3D を使用して人物や物体を 3D モデルに変換するにはどうすればよいでしょうか? 映像に応用された人工知能は大きな影響を与えており、今では物体を正確に切り取るだけでなく、 単一の画像を3Dモデルに変換する 多角的な視点から探索する準備は万端。Metaは、高度な機器や知識を必要とせずに、編集、視覚的な世界の理解、そして3次元の再構築を橋渡しする新世代のツールを導入しました。
SAM 3とSAM 3Dについてお話します。これらは検出、追跡、セグメンテーションを改善し、 物体と人物の3D再構築 幅広いユーザー層に。彼らの提案は、テキスト指示と視覚信号を同時に理解することで、要素の切り取り、変形、再構築を、必要な文字を入力したり、数回クリックしたりするのと同じくらい簡単に行えるようにすることです。
SAM 3 と SAM 3D とは何ですか? どう違うのですか?

MetaのSegment Anythingファミリーに、SAM 3とSAM 3Dという2つの新製品が加わり、さらに充実しました。前者は写真や動画内の物体を次世代の精度で識別、追跡、分割することに特化しており、後者は 単一の画像から3Dジオメトリと外観を再構築します人、動物、日用品などが含まれます。
機能の違いは明らかです。SAM 3は視覚コンテンツの「理解と分離」を担い、SAM 3Dはその理解に基づいて3次元ボリュームを「作成」します。この組み合わせにより、これまで複雑なソフトウェアや専用のスキャナーを必要としていたワークフローが、 はるかにアクセスしやすく、より速い.
さらに、SAM 3は基本的な視覚的なプロンプトに限定されません。自然言語によるセグメンテーションを提供し、 非常に正確な説明私たちは、もはや「車」や「ボール」について話すのではなく、「赤い野球帽」のようなフレーズを使って、ビデオ全体にわたってシーン内のそれらの要素を正確に見つけます。
一方、SAM 3Dには2つの相補的な種類があります。SAM 3Dオブジェクトは、 オブジェクトとシーンSAM 3D Bodyは、人間の形状と体型を推定するようにトレーニングされています。この特化により、消費財から肖像画やポーズまであらゆるものをカバーし、クリエイティブ、商業、科学分野への応用の可能性を広げます。
どのようにして単一の画像からセグメント化と再構築を行うのでしょうか?
鍵となるのは、大量のデータで訓練され、単語とピクセルを直接結び付けるアーキテクチャです。このモデルは、書かれた指示と視覚的な信号(クリック、ドット、ボックスなど)を同時に理解するため、 リクエストを特定の領域に翻訳する 写真またはビデオフレームの。
この言語の理解は、従来のクラス名を超えています。SAM 3は複雑な命令、除外、ニュアンスを扱うことができ、「赤い帽子をかぶっていない人が座っている」といったクエリも実行できます。 詳細なテキストプロンプト これは、細かい概念を混乱させる傾向があった以前のモデルの歴史的な制限を解決します。
ここでSAM 3Dの出番です。画像から3次元モデルを生成し、オブジェクトを別の視点から観察したり、シーンを再構成したり、3D効果を適用したりすることができます。実際には、SAM 3Dは以前のセグメンテーションと統合して、関心のある部分を分離し、 複雑な中間ステップなしで3Dで再構築.
以前の世代と比較した新機能
SAM 1とSAM 2は、視覚的な手がかりに大きく依存することでセグメンテーションに革命をもたらしました。しかし、長文の解釈やニュアンスのある自然言語による指示の提供には苦労しました。SAM 3は、以下の機能を組み込むことでこの障壁を打破しました。 多面的な理解 テキストと視覚をより直接的に結び付けます。
Metaは、新しいベンチマークの進歩に伴い、 オープン語彙セグメンテーションテキストガイドによるセグメンテーションを実世界のシナリオで評価するために設計されており、SAM 3の重みが公開されています。これにより、研究者や開発者は、手法間の結果を厳密に測定・比較することができます。
Metaが公開したデータによると、SAM 3D Objectsは再設計により、従来のアプローチを大幅に改善しており、チェックポイント、推論コード、評価セットもリリースされている。SAM 3D Bodyに加えて、同社は SAM 3Dアーティストオブジェクトさまざまな画像の 3D 品質を評価するためにアーティストと共同で作成された新しいデータセットです。
現実世界のアプリケーションと即時のユースケース
Metaはこれらの機能を自社製品に統合しています。InstagramとFacebook向けの動画ツール「Edits」では、高度なセグメンテーション機能を利用して動画にエフェクトを適用しています。 特定の人や物 画像の残りの部分に影響を与えることなく、背景の変更、選択フィルター、またはターゲットを絞った変形を画質を損なうことなく行うことができます。
これらの機能は、Vibes、Meta AIアプリ、そしてmeta.aiプラットフォームにも搭載され、新しい編集・クリエイティブ体験を提供します。複雑な指示を可能にすることで、ユーザーは変更したい内容を説明でき、システムはそれに応じて反応します。 ポストプロダクションタスクを自動化 それはかつては面倒な作業でした。
コマース分野では、Facebook Marketplaceの「View in Room」が際立っており、自動生成された3Dモデルにより、家具やランプが自宅にどう見えるかをユーザーが視覚的に確認できる。この機能は、不確実性を軽減し、 購入決定を改善する製品を物理的に見ることができない場合に重要なポイントです。
その影響はロボット工学、科学、教育、スポーツ医学にまで及んでいます。シンプルな写真から3D再構成することで、シミュレーターにデータを入力したり、解剖学的参照モデルを作成したり、これまでは特殊な機器を必要としていた分析ツールをサポートしたりすることができます。これらすべてが、 新しいワークフロー 研究と研修において。
セグメント化のあらゆるプレイグラウンド: 摩擦なくテストと作成

アクセスを民主化するために、Metaは セグメント化のあらゆる遊び場誰でも画像や動画をアップロードして、SAM 3とSAM 3Dを試すことができるウェブサイトです。インターフェースは従来のエディターの「魔法の杖」を彷彿とさせ、 選択したいものを書きます または数回クリックするだけで絞り込むことができます。
さらに、プレイグラウンドにはすぐに使えるテンプレートが用意されており、次のような実用的なオプションが含まれています。 顔やナンバープレートをピクセル化するモーショントレイルやスポットライトといった、よりクリエイティブなエフェクトも追加可能です。これにより、個人情報保護や目を引く効果を数秒で実現できます。
SAM 3Dでは、セグメンテーションだけでなく、シーンを新たな視点から探索したり、並べ替えたり、3D効果を適用したりすることも可能です。3Dやコンピュータービジョンの知識がなくても、誰でも使えるようにすることが目標です。 許容できる結果を達成する 数分で何もインストールせずに完了します。
モデル、オープンリソース、評価
Metaは、コミュニティが最先端の技術を発展させるのに役立つリソースを公開しました。SAM 3では、以下のリソースが利用可能です。 モデルの重み オープンな語彙ベンチマークと、アーキテクチャとトレーニングの詳細を説明した技術論文も併せて提供されます。これにより、再現性と公平な比較が容易になります。
3D分野では、コントロールポイント、推論コード、そして次世代の評価スイートをリリースしました。SAM 3D ObjectsとSAM 3D Bodyの二重性により、包括的なカバレッジを実現します。 一般的な物体と人体 それぞれのケースに適応した指標を備えており、幾何学的および視覚的な忠実度を評価するために不可欠です。
アーティストと共同でSAM 3Dアーティストオブジェクトを作成することで、技術的な基準だけでなく、美的基準や多様性の基準も評価に取り入れることができます。これが、3D再構築を実用化する鍵となります。 クリエイティブおよび商業環境人々が感じる品質が違いを生みます。
テキストセグメンテーション:例と利点
SAM 3では、「赤い野球帽」と入力するだけで、画像内または動画全体から一致する単語をすべて特定します。この精度により、「赤い野球帽」と入力するだけで編集ワークフローが実現します。 短く明確な文章 要素を分離し、それらに効果や変換を適用します。
マルチモーダル言語モデルとの互換性により、除外や条件(「赤い帽子をかぶっていない人が座っている」など)を含む、より豊富な指示が可能になります。この柔軟性により、手作業の時間が短縮され、 選択エラー 以前は手作業で修正されていました。
大規模なコンテンツ制作チームにとって、テキストドリブンなセグメンテーションはパイプラインを加速し、結果の標準化を容易にします。例えばマーケティングでは、製品ファミリーにフィルターを適用することで一貫性を維持できます。 時間とコストの改善 生産の。
ソーシャルメディア編集とデジタルクリエイティビティ
編集機能の統合により、InstagramやFacebookのクリエイターは高度なポストプロダクション機能を利用できるようになります。以前は複雑なマスクが必要だったフィルターが、テキストコマンドと数回のクリックで適用できるようになりました。 エッジと細かいディテール フレームごとに安定します。
公開スケジュールが重要な短い作品では、この自動化はまさに理想的です。クリップの背景を変更したり、人物だけをハイライトしたり、特定のオブジェクトを変形したりする際に、手動のワークフローは不要になり、 効果を民主化する これまでは専門家専用だったもの。
一方、Vibesとmeta.aiは、言語主導の編集と創造性によって、体験の幅を広げています。私たちが望むものを詳細に説明できるようになることで、アイデアから結果への飛躍が短縮され、それは次のようなことにつながります。 より創造的な反復 より短い時間で。
商業、科学、スポーツ:エンターテインメントを超えて
Facebookマーケットプレイスの「部屋で見る」機能は、その実用性を示す好例です。購入前にリビングルームでランプや家具を実際に見ることで、返品を減らし、信頼を築くことができます。その背後には、画像から始めて、顧客体験を生み出すパイプラインがあります。 視覚化のための3Dモデル 文脈的に。
科学と教育の分野では、シンプルな写真から再構成することで、教材やリアルなシミュレーターの作成コストを削減できます。AI生成の解剖モデルは、教室や教育現場での支援ツールとして活用できます。 生体力学的分析コンテンツ準備を加速します。
スポーツ医学では、体組成分析とフォーム再構成を組み合わせることで、高価な機器を使わずに姿勢や動作を研究できるツールが得られます。これにより、次のような可能性が開かれます。 より頻繁な評価 および遠隔監視。
プライバシー、倫理、そして優れた実践
これらのツールの威力には責任が伴います。本人の同意なく画像を操作することは、法的および倫理的な問題につながる可能性があります。画像の再構成は避けることが推奨されます。 見知らぬ顔許可なくモデルを共有したり、混乱や危害を引き起こす可能性のあるデリケートなシーンを変更したりしないでください。
Metaは悪用を軽減するための規制を発表していますが、最終的な責任は技術の利用者にあります。画像の出所を確認し、個人データを保護し、 文脈を評価する 個人情報が漏洩する可能性がある 3D モデルを公開する前に。
専門的な環境では、レビューと同意に関するポリシーを確立し、AI生成コンテンツに明確なラベルを付けることが、責任ある利用に貢献します。これらのトピックについてチームをトレーニングすることは、 悪い習慣を防ぐ すでにインシデントに迅速に対応しています。
SAM 3Dで人物や物体を3Dモデルに変換する方法:始め方
すぐに実験してみたい方は、「Anything Playground Segment」が入り口です。写真や動画をアップロードし、選択したいものを入力すると、シンプルなインターフェースで3D再構築オプションを試すことができます。技術的なプロファイルについては、[その他のオプションもご利用いただけます]。 重み、チェックポイント、コード カスタマイズされたテストを容易にします。
研究者、開発者、アーティストには、ベンチマーク、評価データセット、ドキュメントを含むエコシステムがあります。目標は、進捗状況を測定し、採用を加速するための共通の基盤を確立することです。 異なる部門デジタルクリエイティビティからロボット工学まで。
最も興味深いのは、この飛躍が専門家だけのものではないということです。学習曲線は短くなり、機能は日常的なアプリにも浸透しています。あらゆる状況から、編集と3Dは今後もワークフローに統合されていくことが予想されます。 自然言語はインターフェースである.
SAM 3とSAM 3Dにより、Metaはあらゆる規模のクリエイターやチームにテキストセグメンテーションと単一画像再構成機能を提供します。Playground、Editsへの統合、オープンリソース、そして商業、教育、スポーツ分野におけるアプリケーションによって、強固な基盤が構築されつつあります。 画像とボリュームを扱う新しい方法 正確性、アクセス性、責任を兼ね備えています。
幼い頃からテクノロジーに熱中。私はこの分野の最新情報を知ること、そして何よりもそれを伝えることが大好きです。だからこそ、私は長年テクノロジーとビデオゲームのウェブサイトでのコミュニケーションに専念してきました。 Android、Windows、MacOS、iOS、Nintendo、またはその他の思いついた関連トピックについて書いているのを見つけることができます。
