- 공격은 이미지 속에 숨겨진 보이지 않는 다중 모드 프롬프트를 사용하는데, 제미니에서 크기를 조정하면 경고 없이 실행됩니다.
- 벡터는 이미지 전처리(224x224/512x512)를 활용하고 Zapier와 같은 도구를 사용하여 데이터를 유출합니다.
- 최근접 이웃 알고리즘, 이중선형 알고리즘, 이중삼차 알고리즘은 취약하지만, Anamorpher 도구를 사용하면 이러한 알고리즘을 삽입할 수 있습니다.
- 전문가들은 민감한 작업을 수행하기 전에 축소, 입력 미리보기, 확인 요청을 피하는 것이 좋다고 조언합니다.

연구원 그룹은 침입 방법을 문서화했습니다. 이미지에 숨겨진 지침을 주입하여 개인 데이터를 훔치는 것이러한 파일이 Gemini와 같은 멀티모달 시스템에 업로드되면 자동 전처리를 통해 명령이 활성화되고 AI는 유효한 것처럼 명령을 따릅니다.
The Trail of Bits가 보도한 이 발견은 생산 환경에 영향을 미칩니다. Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant 또는 Genspark와 같은구글은 이것이 업계에 심각한 문제임을 인정했으며, 실제 환경에서 악용 사례는 아직 발견되지 않았습니다. 이 취약점은 모질라의 0Din 프로그램을 통해 비공개로 보고되었습니다.
이미지 스케일링 공격의 작동 방식

핵심은 사전 분석 단계에 있습니다. 많은 AI 파이프라인 이미지를 표준 해상도(224×224 또는 512×512)로 자동 조정합니다.실제로 이 모델은 원본 파일을 보지 못하고 축소된 버전만 보는데, 바로 그곳에서 악성 콘텐츠가 드러납니다.
공격자는 삽입합니다 보이지 않는 워터마크로 위장된 다중 모달 프롬프트사진의 어두운 영역에서 종종 발생합니다. 업스케일링 알고리즘이 실행되면 이러한 패턴이 나타나고, 모델은 이를 정상적인 명령으로 해석하여 원치 않는 동작을 유발할 수 있습니다.
통제된 테스트에서 연구자들은 Google 캘린더에서 데이터를 추출하여 외부 이메일로 보냅니다. 사용자 확인 없이. 또한 이러한 기술은 다음 제품군과 연결됩니다. 빠른 주입 공격 이미 Claude Code나 OpenAI Codex와 같은 에이전트 도구에서 입증됨 정보 유출 또는 자동화 작업 트리거 안전하지 않은 흐름을 악용합니다.
분포 벡터는 넓습니다. 웹사이트의 이미지, WhatsApp에서 공유된 밈 또는 피싱 캠페인 수 있었다 AI에게 콘텐츠 처리를 요청할 때 프롬프트를 활성화합니다.AI 파이프라인이 분석 전에 스케일링을 수행할 때 공격이 실현된다는 점을 강조하는 것이 중요합니다. 해당 단계를 거치지 않고 이미지를 보는 것은 공격을 트리거하지 않습니다.
따라서 위험은 AI가 연결된 도구에 액세스할 수 있는 흐름에 집중됩니다(예: 이메일 보내기, 일정 확인 또는 API 사용): 보호 장치가 없는 경우 사용자 개입 없이 보호 장치를 실행합니다.
취약한 알고리즘 및 도구가 관련됨

공격은 특정 알고리즘을 악용합니다. 고해상도 정보를 더 적은 픽셀로 압축 크기를 줄일 때는 최근접 이웃 보간법, 쌍선형 보간법, 쌍삼차 보간법을 사용합니다. 각 보간법은 메시지 크기 조절 후에도 유지되도록 서로 다른 임베딩 기법을 요구합니다.
이러한 지침을 내장하기 위해 오픈 소스 도구가 사용되었습니다. 아나모퍼타겟 스케일링 알고리즘을 기반으로 이미지에 프롬프트를 주입하고 미묘한 패턴으로 숨기도록 설계되었습니다. AI의 이미지 전처리 과정을 통해 최종적으로 프롬프트가 드러납니다.
프롬프트가 공개되면 모델은 Zapier와 같은 통합을 활성화하세요 (또는 IFTTT와 유사한 서비스) 그리고 체인 액션: 데이터 수집, 이메일 전송 또는 제3자 서비스에 대한 연결 모두 겉보기에 정상적인 흐름 속에 있습니다.
간단히 말해서, 이것은 공급업체의 고립된 실패가 아니라 확장된 이미지를 처리하는 데 있어 구조적 약점이 있음 텍스트, 비전 및 도구를 결합하는 다중 모드 파이프라인 내에서.
완화 조치 및 모범 사례

연구자들은 다음을 권장합니다. 가능하면 다운스케일링을 피하세요 그리고 그 대신에, 한계 하중 치수. 확장이 필요한 경우 다음을 통합하는 것이 좋습니다. 모델이 실제로 볼 수 있는 내용 미리보기, 또한 CLI 도구 및 API에서도 사용 가능하며 다음과 같은 감지 도구를 사용합니다. 구글 신스ID.
설계 수준에서 가장 견고한 방어는 다음과 같습니다. 보안 패턴 및 체계적인 제어 메시지 주입 방지: 이미지에 포함된 콘텐츠는 시작할 수 없습니다. 명시적인 확인 없이 민감한 도구에 대한 호출 사용자.
운영 측면에서는 신중합니다. 출처를 알 수 없는 이미지를 Gemini에 업로드하지 마십시오. 그리고 어시스턴트나 앱에 부여된 권한(이메일, 캘린더, 자동화 등에 대한 접근 권한)을 신중하게 검토하세요. 이러한 장벽은 잠재적 영향을 크게 줄여줍니다.
기술 팀의 경우 다중 모드 전처리 감사, 작업 샌드박스 강화 등이 가치가 있습니다. 비정상적인 패턴에 대한 기록/경고 이미지 분석 후 도구 활성화. 이는 제품 수준의 방어를 보완합니다.
모든 것은 우리가 직면하고 있는 사실을 가리킨다 빠른 주입의 또 다른 변형 시각적 채널에 적용됩니다. 예방 조치, 입력 검증 및 의무적 확인을 통해 악용 가능성을 줄이고 사용자와 기업의 위험을 제한합니다.
연구는 다중 모드 모델의 맹점에 초점을 맞춥니다. 이미지 스케일링은 공격 벡터가 될 수 있습니다. 확인하지 않고 방치하면 입력이 사전 처리되는 방식을 이해하고, 권한을 제한하고, 중요한 작업을 수행하기 전에 확인을 요구하면 단순한 스냅샷과 데이터 게이트웨이의 차이가 생길 수 있습니다.
나는 그의 "괴짜" 관심을 직업으로 바꾼 기술 열광자입니다. 나는 10년 넘게 최첨단 기술을 사용하고 순수한 호기심으로 온갖 프로그램을 만지작거리며 살아왔습니다. 이제 저는 컴퓨터 기술과 비디오 게임을 전공했습니다. 왜냐하면 저는 5년 넘게 기술 및 비디오 게임에 관한 다양한 웹사이트에 글을 쓰고 모든 사람이 이해할 수 있는 언어로 필요한 정보를 제공하려는 기사를 작성해 왔기 때문입니다.
질문이 있으시면 제가 알고 있는 지식은 Windows 운영 체제는 물론 휴대폰용 Android까지 다양합니다. 그리고 저는 여러분을 위한 헌신을 하고 있습니다. 저는 항상 몇 분씩만 시간을 내어 이 인터넷 세계에서 여러분이 가질 수 있는 모든 질문을 해결하도록 도와드릴 의향이 있습니다.