Meta SAM 3 및 SAM 3D: 차세대 시각 AI

SAM 3은 수백만 개의 개념으로 구성된 어휘를 사용하여 텍스트와 시각적 예시를 통해 이미지와 비디오 세분화를 소개합니다.
SAM 3D를 사용하면 열린 모델을 사용하여 단일 이미지에서 객체, 장면 및 인체를 3D로 재구성할 수 있습니다.
Segment Anything Playground에서는 실용적이고 창의적인 템플릿을 사용하여 기술적 지식 없이도 모델을 테스트할 수 있습니다.
Meta는 유럽과 전 세계의 개발자와 연구자들이 프로젝트에 이러한 기능을 통합할 수 있도록 가중치, 체크포인트, 새로운 벤치마크를 공개합니다.

Meta는 약속을 지키기 위해 또 다른 조치를 취했습니다. 컴퓨터 비전에 적용된 인공지능 ~와 함께 SAM 3 및 SAM 3D 출시Segment Anything 제품군을 확장하는 두 가지 모델이 있습니다. 그들은 우리가 사진과 비디오를 다루는 방식을 바꾸는 것을 목표로 합니다.이 회사는 이러한 도구를 실험실 실험에 그치지 않고 전문가와 기술적 배경이 없는 사용자 모두가 사용할 수 있기를 바랍니다.

이 새로운 세대를 통해 Meta는 다음에 중점을 두고 있습니다. 객체 감지 및 분할 개선 그리고 가져오는 데 있어서 훨씬 더 폭넓은 청중에게 3차원 재구성스페인과 유럽 전역의 전자상거래를 위한 비디오 편집부터 제품 시각화까지 회사는 다음과 같은 시나리오를 구상합니다. AI가 대부분의 힘든 작업을 대신 처리하도록 하려면 단순히 원하는 작업을 말로 설명하는 것만으로 충분합니다..

SAM 3는 이전 버전에 비해 어떤 점이 달라졌나요?

SAM 3은 직접적인 진화로 자리 잡았습니다. Meta가 2023년과 2024년에 제시한 SAM 1과 SAM 2로 알려진 세분화 모델 중 하나입니다. 이 초기 버전은 주로 점, 상자 또는 마스크와 같은 시각적 단서를 사용하여 각 객체에 속하는 픽셀을 식별하는 데 중점을 두었으며, SAM 2의 경우 거의 실시간으로 비디오 전체의 객체를 따라갔습니다.

이제 가장 중요한 새로운 개발 사항은 SAM 3가 다음을 이해한다는 것입니다. 풍부하고 정확한 텍스트 프롬프트일반적인 라벨뿐만 아니라, 이전에는 "자동차"나 "버스"와 같은 간단한 용어가 사용되었지만, 새로운 모델은 "노란색 스쿨버스"나 "빨간색 이중 주차 차량"과 같이 훨씬 더 구체적인 설명에도 대응할 수 있습니다.

실제로 이는 다음과 같이 작성하는 것으로 충분하다는 것을 의미합니다. "빨간 야구 모자" 시스템이 이미지나 비디오 내에서 해당 설명에 맞는 모든 요소를 찾아 분리할 수 있도록 합니다. 단어를 세분화하는 이러한 기능은 특히 전문적인 편집 컨텍스트광고나 콘텐츠 분석의 경우 매우 구체적인 세부 사항을 살펴봐야 하는 경우가 많습니다.

또한 SAM 3은 다음과 통합되도록 설계되었습니다. 대규모 멀티모달 언어 모델이를 통해 간단한 구문을 넘어 다음과 같은 복잡한 지침을 사용할 수 있습니다. “앉아 있지만 빨간 모자를 쓰지 않은 사람들” 또는 "카메라를 보고 있지만 배낭은 메지 않은 보행자"와 같은 의미입니다. 이러한 유형의 지침은 최근까지 컴퓨터 비전 도구로 변환하기 어려웠던 조건과 제외 사항을 결합합니다.

독점 콘텐츠 - 여기를 클릭하세요 모바일 폰으로 문서를 스캔하기 위한 최고의 앱

SAM 3 모델의 성능 및 규모

SAM 3 메타 모델

Meta는 또한 덜 눈에 띄지만 중요한 부분을 강조하고 싶었습니다. 기술적 성능 및 지식 규모 모델에 따르면, 회사 데이터에 따르면 SAM 3는 H200 GPU를 사용하여 100개 이상의 감지된 객체가 포함된 단일 이미지를 약 30밀리초 만에 처리할 수 있습니다. 이는 까다로운 워크플로에 필요한 속도에 매우 가깝습니다.

영상의 경우 회사는 시스템이 성능을 유지하도록 보장합니다. 사실상 실시간으로 약 5개의 객체를 동시에 작업할 때, 짧은 소셜 미디어 클립부터 보다 야심찬 제작 프로젝트까지 움직이는 콘텐츠를 추적하고 세분화하는 데 적합합니다.

이러한 동작을 달성하기 위해 Meta는 다음을 포함하는 교육 기반을 구축했습니다. 4만 개의 독특한 컨셉대량의 데이터에 레이블을 지정하는 데 도움이 되는 인간 주석자와 AI 모델을 결합하는 수동 및 자동 감독을 결합한 이 방식은 정확성과 규모의 균형을 맞추는 것을 목표로 합니다. 이는 모델이 유럽, 라틴 아메리카 및 기타 시장 환경에서 다양한 입력에 잘 대응할 수 있도록 하는 데 중요합니다.

이 회사는 SAM 3을 다음과 같이 정의합니다. 무엇이든 분할하기 컬렉션AI의 시각적 이해를 확장하도록 설계된 모델, 벤치마크 및 리소스 제품군입니다. 이번 출시와 함께 "개방형 어휘" 세분화를 위한 새로운 벤치마크가 추가되었는데, 이는 시스템이 자연어로 표현된 거의 모든 개념을 얼마나 이해할 수 있는지 측정하는 데 중점을 두고 있습니다.

편집, 분위기 및 기타 메타 도구와의 통합

메타 편집으로 4K 비디오 편집

기술적인 부분을 넘어 Meta는 이미 시작되었습니다. SAM 3를 특정 제품에 통합 일상적으로 사용하기 위한 것입니다. 첫 번째 목적지 중 하나는 편집이 될 것입니다.사용자가 간단한 텍스트 설명과 함께 특정 사람이나 사물을 선택하고 영상의 해당 부분에만 효과, 필터 또는 변경 사항을 적용할 수 있는 비디오 제작 및 편집 애플리케이션입니다.

통합을 위한 또 다른 길은 다음에서 찾을 수 있습니다. Meta AI 앱과 meta.ai 플랫폼 내의 Vibes이러한 환경에서는 텍스트 분할을 생성 도구와 결합하여 사용자 정의 배경, 모션 효과, 스페인과 유럽 전역에서 매우 인기 있는 소셜 네트워크에 맞춰 디자인된 선택적 사진 수정 등 새로운 편집 및 창의적 경험을 만들어낼 수 있습니다.

이 회사의 제안은 이러한 역량이 전문적인 연구에만 국한되지 않고, 오히려 ...에까지 도달한다는 것입니다. 독립 창작자, 소규모 기관 및 고급 사용자 시각적 콘텐츠를 매일 다루는 사람들에게 적합합니다. 자연어로 설명을 작성하여 장면을 세분화하는 기능은 수동 마스크와 레이어 기반 기존 도구에 비해 학습 곡선을 단축합니다.

동시에 Meta는 외부 개발자에 대해 개방적인 접근 방식을 유지하며 다음과 같이 제안합니다. 타사 애플리케이션 -소매 또는 보안 분야의 비디오 분석을 위한 편집 도구부터 솔루션까지- 회사의 사용 정책을 준수하는 한 SAM 3를 신뢰할 수 있습니다.

독점 콘텐츠 - 여기를 클릭하세요 알리바바, AI 스마트 안경 경쟁에 뛰어들다: 이것이 바로 알리바바의 Quark AI 안경이다

SAM 3D: 단일 이미지로부터 3차원 재구성

SAM 3D 작동 방식

또 다른 큰 뉴스는 다음과 같습니다. 샘 3D수행하도록 설계된 시스템 3차원 재구성 2D 이미지에서 시작합니다. 여러 각도에서 여러 장의 사진을 촬영하는 대신, 이 모델은 단일 사진에서 신뢰할 수 있는 3D 표현을 생성하는 것을 목표로 합니다. 이는 특수 스캐닝 장비나 워크플로가 없는 사람들에게 특히 흥미로운 기능입니다.

SAM 3D는 서로 다른 기능을 가진 두 개의 오픈 소스 모델로 구성되어 있습니다. SAM 3D 객체사물과 장면을 재구성하는 데 중점을 두었습니다. SAM 3D 바디인체의 형태와 신체를 추정하는 데 중점을 두고 있습니다. 이러한 분리를 통해 제품 카탈로그부터 건강 또는 스포츠 애플리케이션까지 매우 다양한 사용 사례에 맞게 시스템을 조정할 수 있습니다.

Meta에 따르면 SAM 3D Objects는 AI 기반 3D 재구성의 새로운 성능 벤치마크주요 품질 지표에서 기존 방식을 훨씬 능가합니다. 결과를 더욱 엄격하게 평가하기 위해 회사는 아티스트들과 협력하여 다양한 이미지와 객체의 복원 정확도와 디테일을 평가하도록 특별히 설계된 데이터 세트인 SAM 3D 아티스트 객체(SAM 3D Artist Objects)를 개발했습니다.

이러한 발전은 다음과 같은 분야에서 실제 응용 프로그램의 문을 열어줍니다. 로봇공학, 과학, 스포츠 의학 또는 디지털 창의성예를 들어, 로봇공학에서는 시스템이 상호작용하는 물체의 부피를 더 잘 이해하는 데 도움이 될 수 있습니다. 의학이나 스포츠 연구에서는 신체 자세와 움직임을 분석하는 데 도움이 될 수 있습니다. 그리고 창의적인 디자인에서는 애니메이션, 비디오 게임 또는 몰입형 경험을 위한 3D 모델을 생성하는 기반으로 활용됩니다.

이미 볼 수 있는 최초의 상업적 응용 프로그램 중 하나는 다음과 같은 기능입니다. "객실 보기" de Facebook Marketplace가구나 장식품을 구매하기 전에 실제 방에서 어떻게 보일지 미리 볼 수 있는 SAM 3D를 사용하면 Meta는 이러한 유형의 경험을 완벽하게 만들고자 노력합니다., 유럽 전자상거래와 매우 관련이 깊습니다. 기대에 부응하지 못해 제품을 반품하면 비용이 점점 더 많이 발생하기 때문입니다.

Segment Anything Playground: 실험을 위한 환경

무엇이든 세분화하세요 놀이터

대중이 아무것도 설치하지 않고도 이러한 기능을 테스트할 수 있도록 Meta는 다음을 활성화했습니다. 무엇이든 세분화하세요 놀이터이미지나 비디오를 업로드하고 브라우저에서 바로 SAM 3와 SAM 3D를 실험해 볼 수 있는 웹 플랫폼입니다. 시각적 AI에 관심 있는 사람이라면 누구나 프로그래밍 지식 없이도 다양한 가능성을 탐색할 수 있다는 것이 핵심입니다.

SAM 3의 경우 Playground를 사용하면 객체를 분할할 수 있습니다. 짧은 문구 또는 자세한 지침텍스트와 원하는 경우 시각적 예시를 결합합니다. 이를 통해 사람, 자동차, 동물 또는 장면의 특정 요소를 선택하고 미적 효과부터 흐림 효과 또는 배경 대체까지 특정 동작을 적용하는 등의 일반적인 작업이 간소화됩니다.

독점 콘텐츠 - 여기를 클릭하세요 The IQ Test: Lite Edition을 사용하여 내 IQ를 어떻게 알 수 있나요?

SAM 3D로 작업할 때 플랫폼을 사용하면 다음이 가능합니다. 새로운 관점에서 장면을 탐험하세요객체를 재배치하고, 3차원 효과를 적용하고, 다른 뷰를 생성할 수 있습니다. 디자인, 광고 또는 3D 콘텐츠 분야에서 일하는 사람들에게 복잡한 기술 도구를 처음부터 사용하지 않고도 아이디어를 빠르게 프로토타입으로 만들 수 있는 방법을 제공합니다.

놀이터에는 또한 일련의 바로 사용 가능한 템플릿 이러한 기능들은 매우 구체적인 작업에 맞춰져 있습니다. 개인 정보 보호를 위해 얼굴이나 차량 번호를 픽셀화하는 등의 실용적인 옵션과, 모션 트레일, 선택적 하이라이트, 영상 내 관심 영역에 스포트라이트를 비추는 등의 시각 효과를 제공합니다. 이러한 기능들은 짧은 영상과 소셜 미디어 콘텐츠 제작이 끊이지 않는 스페인의 디지털 미디어 및 콘텐츠 제작자의 워크플로에 특히 적합할 수 있습니다.

개발자와 연구자를 위한 오픈 리소스

SAM 3D 메타 예제

Meta가 다른 AI 릴리스에서 따랐던 전략에 따라 회사는 상당 부분을 릴리스하기로 결정했습니다. SAM 3 및 SAM 3D와 관련된 기술 리소스첫째, 모델 가중치, 개방형 어휘 세분화에 초점을 맞춘 새로운 벤치마크, 그리고 개발 과정을 자세히 설명하는 기술 문서가 공개되었습니다.

SAM 3D의 경우 다음이 가능합니다. 모델 체크포인트, 추론 코드 및 평가 데이터 세트 차세대. 이 데이터 세트에는 상당히 다양한 이미지와 객체가 포함되어 있으며, 기존의 3D 기준점을 넘어 더욱 사실적이고 복잡한 이미지를 제공합니다. 이는 컴퓨터 비전 및 그래픽 분야에서 연구하는 유럽 연구 그룹에게 매우 유용할 수 있습니다.

Meta는 또한 개발자와 회사가 다음을 수행할 수 있도록 하는 목표로 Roboflow와 같은 주석 플랫폼과의 협업을 발표했습니다. 자신의 데이터를 입력하고 SAM 3을 조정하세요 특정 요구에 맞춰 설계할 수 있습니다. 이를 통해 산업 검사부터 도시 교통 분석, 건축적 또는 예술적 요소를 정확하게 구분하는 것이 중요한 문화 유산 프로젝트까지, 분야별 맞춤형 솔루션을 제공할 수 있습니다.

회사는 비교적 개방적인 접근 방식을 선택함으로써 개발자 생태계를 보장하고자 합니다. 대학과 스타트업 (스페인과 유럽 전역에서 운영되는 기업 포함) 모든 기업은 이러한 기술을 실험하고, 자체 제품에 통합하고, 궁극적으로 Meta가 내부적으로 개발할 수 있는 범위를 넘어서는 사용 사례를 제공할 수 있습니다.

Meta는 SAM 3 및 SAM 3D를 통해 다음을 통합하는 것을 목표로 합니다. 더욱 유연하고 접근하기 쉬운 시각적 AI 플랫폼단일 이미지에서 텍스트 기반 분할과 3D 재구성이 더 이상 고도로 전문화된 팀만이 할 수 있는 일이 아닌, 그 잠재력은 일상적인 비디오 편집부터 과학, 산업, 전자상거래 분야의 고급 애플리케이션에 이르기까지 확장될 것입니다. 언어, 컴퓨터 비전, 그리고 창의성의 결합이 단순한 기술적 약속을 넘어 표준적인 작업 도구로 자리 잡고 있는 지금, 이러한 맥락에서 말입니다.

알베르토 나바로

나는 그의 "괴짜" 관심을 직업으로 바꾼 기술 열광자입니다. 나는 10년 넘게 최첨단 기술을 사용하고 순수한 호기심으로 온갖 프로그램을 만지작거리며 살아왔습니다. 이제 저는 컴퓨터 기술과 비디오 게임을 전공했습니다. 왜냐하면 저는 5년 넘게 기술 및 비디오 게임에 관한 다양한 웹사이트에 글을 쓰고 모든 사람이 이해할 수 있는 언어로 필요한 정보를 제공하려는 기사를 작성해 왔기 때문입니다.

질문이 있으시면 제가 알고 있는 지식은 Windows 운영 체제는 물론 휴대폰용 Android까지 다양합니다. 그리고 저는 여러분을 위한 헌신을 하고 있습니다. 저는 항상 몇 분씩만 시간을 내어 이 인터넷 세계에서 여러분이 가질 수 있는 모든 질문을 해결하도록 도와드릴 의향이 있습니다.