- Атака скрывает невидимые многомодальные подсказки в изображениях, которые при масштабировании на Gemini выполняются без предупреждения.
- Вектор использует предварительную обработку изображений (224x224/512x512) и запускает такие инструменты, как Zapier, для извлечения данных.
- Алгоритмы ближайшего соседа, билинейные и бикубические алгоритмы уязвимы; инструмент Anamorpher позволяет внедрять их.
- Эксперты советуют избегать уменьшения масштаба, предварительного просмотра входных данных и требования подтверждения перед выполнением конфиденциальных действий.

Группа исследователей задокументировала метод проникновения, способный кража персональных данных путем внедрения скрытых инструкций в изображенияКогда эти файлы загружаются в мультимодальные системы, такие как Gemini, автоматическая предварительная обработка активирует команды, и ИИ следует им, как если бы они были допустимыми.
Открытие, о котором сообщило издание The Trail of Bits, оказывает влияние на производственные среды. такие как Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant или GensparkGoogle признала, что это серьёзная проблема для отрасли, однако пока нет свидетельств её эксплуатации в реальных условиях. Информация об уязвимости была получена в частном порядке через программу Mozilla 0Din.
Как работает атака масштабирования изображения

Ключевой момент — на этапе предварительного анализа: множество конвейеров ИИ Автоматически изменять размер изображений до стандартных разрешений (224×224 или 512×512)На практике модель видит не оригинальный файл, а его уменьшенную версию, и именно здесь обнаруживается вредоносный контент.
Вставка атакующих Мультимодальные подсказки, замаскированные невидимыми водяными знаками, часто в тёмных областях фотографии. При запуске алгоритмов масштабирования эти закономерности проявляются, и модель интерпретирует их как допустимые инструкции, что может привести к нежелательным действиям.
В контролируемых тестах исследователям удалось Извлечь данные из Google Календаря и отправить их на внешний адрес электронной почты без подтверждения пользователя. Кроме того, эти методы связаны с семейством быстрые инъекционные атаки уже продемонстрировано в агентных инструментах (таких как Claude Code или OpenAI Codex), способных извлечь информацию или запустить действия автоматизации эксплуатируя небезопасные потоки.
Вектор распространения широкий: изображение на веб-сайте, мем, опубликованный в WhatsApp или фишинговая кампания может Активируйте запрос при запросе ИИ на обработку контентаВажно подчеркнуть, что атака реализуется, когда конвейер ИИ выполняет масштабирование перед анализом; просмотр изображения без прохождения этого шага не приводит к ее запуску.
Таким образом, риск сосредоточен в потоках, где ИИ имеет доступ к подключенным инструментам (например, отправлять электронные письма, проверять календари или использовать API): если нет никаких мер безопасности, он выполнит их без вмешательства пользователя.
Уязвимые алгоритмы и инструменты

Атака использует то, как определенные алгоритмы сжимать информацию высокого разрешения в меньшее количество пикселей При уменьшении размера: интерполяция методом ближайшего соседа, билинейная интерполяция и бикубическая интерполяция. Каждый из них требует своего метода встраивания, чтобы сообщение сохранилось после изменения размера.
Для внедрения этих инструкций был использован инструмент с открытым исходным кодом. Анаморфер, разработанный для внедрения подсказок в изображения на основе алгоритма целевого масштабирования и их сокрытия в едва заметных узорах. Затем предварительная обработка изображений ИИ в конечном итоге выявляет их.
Как только подсказка будет раскрыта, модель может активировать интеграции, такие как Zapier (или услуги, аналогичные IFTTT) и цепочка действий: сбор данных, отправка электронных писем или подключение к сторонним службам, все в пределах, казалось бы, нормального течения.
Короче говоря, это не единичный сбой поставщика, а скорее структурная слабость при обработке масштабированных изображений в мультимодальных конвейерах, которые объединяют текст, визуализацию и инструменты.
Меры по смягчению последствий и передовая практика

Исследователи рекомендуют по возможности избегайте уменьшения масштаба и вместо этого предельные размеры нагрузки. При необходимости масштабирования рекомендуется включить предварительный просмотр того, что на самом деле увидит модель, а также в инструментах CLI и в API, и использовать инструменты обнаружения, такие как Синтетический идентификатор Google.
На уровне проектирования самая надежная защита достигается посредством модели безопасности и систематический контроль против внедрения сообщений: никакой контент, встроенный в изображение, не должен иметь возможности инициировать Вызовы конфиденциальных инструментов без явного подтверждения пользователь.
На операционном уровне разумно Избегайте загрузки изображений неизвестного происхождения в Gemini. и внимательно проверьте разрешения, предоставленные помощнику или приложениям (доступ к электронной почте, календарю, функциям автоматизации и т. д.). Эти ограничения значительно снижают потенциальное воздействие.
Для технических команд стоит провести аудит мультимодальной предварительной обработки, усилить «песочницу» действий и запись/оповещение об аномальных закономерностях Активация инструмента после анализа изображений. Это дополняет защиту на уровне продукта.
Все указывает на то, что мы сталкиваемся с другой вариант быстрой инъекции Применяется к визуальным каналам. Благодаря профилактическим мерам, проверке входных данных и обязательным подтверждениям, возможности эксплуатации сужаются, а риск для пользователей и компаний снижается.
Исследование сосредоточено на «слепых зонах» в мультимодальных моделях: Масштабирование изображения может стать вектором атаки Если не обращать внимания на то, что понимание того, как происходит предварительная обработка входных данных, ограничение прав доступа и требование подтверждений перед выполнением критических действий, может стать той разницей, которая отделяет простой снимок от шлюза к вашим данным.
Я энтузиаст технологий, который превратил свои «компьютерные» интересы в профессию. Я провел более 10 лет своей жизни, используя передовые технологии и возясь со всевозможными программами из чистого любопытства. Сейчас я специализируюсь на компьютерных технологиях и видеоиграх. Это потому, что более 5 лет я пишу статьи для различных сайтов, посвященных технологиям и видеоиграм, создавая статьи, которые стремятся дать вам необходимую информацию на понятном каждому языке.
Если у вас есть какие-либо вопросы, мои знания варьируются от всего, что связано с операционной системой Windows, а также Android для мобильных телефонов. И я предан вам, я всегда готов потратить несколько минут и помочь вам решить любые вопросы, которые могут у вас возникнуть в этом мире Интернета.