- Атака приховує невидимі мультимодальні підказки в зображеннях, які при масштабуванні на Gemini виконуються без попередження.
- Вектор використовує попередню обробку зображень (224x224/512x512) та запускає такі інструменти, як Zapier, для вилучення даних.
- Алгоритми найближчого сусіда, білінійні та бікубічні алгоритми є вразливими; інструмент Anamorpher дозволяє їх впроваджувати.
- Експерти радять уникати зменшення масштабу, попереднього перегляду введених даних та вимоги підтвердження перед виконанням конфіденційних дій.

Група дослідників задокументувала метод вторгнення, здатний крадіжка персональних даних шляхом вставки прихованих інструкцій у зображенняКоли ці файли завантажуються в мультимодальні системи, такі як Gemini, автоматична попередня обробка активує команди, і штучний інтелект виконує їх так, ніби вони є дійсними.
Відкриття, про яке повідомляє The Trail of Bits, впливає на виробниче середовище. такі як Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant або GensparkGoogle визнав, що це суттєва проблема для галузі, і поки що немає жодних доказів використання вразливості в реальних умовах. Про вразливість було повідомлено приватно через програму Mozilla 0Din.
Як працює атака масштабування зображення

Ключ криється на етапі попереднього аналізу: багато конвеєрів штучного інтелекту Автоматично змінювати розмір зображень до стандартної роздільної здатності (224×224 або 512×512)На практиці модель бачить не оригінальний файл, а зменшену версію, і саме там виявляється шкідливий контент.
Зловмисники вставляють Мультимодальні підказки, замасковані невидимими водяними знаками, часто в темних ділянках фотографії. Коли запускаються алгоритми масштабування, ці шаблони з'являються, і модель інтерпретує їх як законні інструкції, що може призвести до небажаних дій.
У контрольованих випробуваннях дослідникам вдалося Вилучення даних з Календаря Google та надсилання їх на зовнішню електронну адресу без підтвердження користувача. Крім того, ці методи пов’язані з сімейством швидкі ін'єкційні атаки вже продемонстровано в агентних інструментах (таких як Claude Code або OpenAI Codex), здатних вилучення інформації або запуск дій автоматизації використання незахищених потоків.
Вектор розподілу широкий: зображення на вебсайті, мем, поширений у WhatsApp, або фішингова кампанія міг Активуйте підказку, коли запитуєте ШІ на обробку контентуВажливо наголосити, що атака матеріалізується, коли конвеєр штучного інтелекту виконує масштабування перед аналізом; перегляд зображення без проходження цього кроку не запускає її.
Таким чином, ризик зосереджений у потоках, де ШІ має доступ до підключених інструментів (наприклад, надсилати електронні листи, перевіряти календарі або використовувати API): Якщо немає запобіжних заходів, вони будуть виконані без втручання користувача.
Вразливі алгоритми та інструменти, що використовуються

Атака використовує те, як певні алгоритми працюють стиснути інформацію високої роздільної здатності до меншої кількості пікселів при зменшенні розміру: інтерполяція найближчого сусіда, білінійна інтерполяція та бікубічна інтерполяція. Кожна з них вимагає різної техніки вбудовування, щоб повідомлення витримало зміну розміру.
Для вбудовування цих інструкцій було використано інструмент з відкритим кодом Анаморфер, призначений для введення підказок у зображення на основі алгоритму масштабування цілі та приховування їх у ледь помітних візерунках. Попередня обробка зображень штучним інтелектом потім зрештою їх виявляє.
Після того, як буде показано підказку, модель може активувати інтеграції, такі як Zapier (або сервіси, подібні до IFTTT) та ланцюгові діїзбір даних, надсилання електронних листів або підключення до сторонніх сервісів, все в, здавалося б, звичайному руслі.
Коротше кажучи, це не окремий випадок збою постачальника, а радше структурна слабкість в обробці масштабованих зображень у рамках мультимодальних конвеєрів, що поєднують текст, візуальне мислення та інструменти.
Заходи пом'якшення наслідків та належна практика

Дослідники рекомендують уникайте зменшення масштабу, коли це можливо і замість цього, граничні розміри навантаженняКоли необхідне масштабування, доцільно включити попередній перегляд того, що модель насправді побачить, а також в інструментах CLI та в API, а також використовувати інструменти виявлення, такі як Синтетичний ідентифікатор Google.
На рівні проектування найнадійніший захист забезпечується шаблони безпеки та систематичні засоби контролю проти впровадження повідомлень: жоден вміст, вбудований у зображення, не повинен мати можливості ініціювати Виклики до конфіденційних інструментів без явного підтвердження користувач.
На операційному рівні це доцільно Уникайте завантаження зображень невідомого походження до Gemini та уважно перегляньте дозволи, надані помічнику або програмам (доступ до електронної пошти, календаря, автоматизації тощо). Ці бар'єри значно зменшують потенційний вплив.
Для технічних команд варто провести аудит мультимодальної попередньої обробки, посилити «пісочницю» дій та запис/сповіщення про аномальні закономірності активація інструменту після аналізу зображень. Це доповнює захист на рівні продукту.
Все вказує на те, що ми стикаємося ще один варіант швидкої ін'єкції Застосовується до візуальних каналів. Завдяки превентивним заходам, перевірці вхідних даних та обов'язковим підтвердженням, межі використання звужуються, а ризик для користувачів та бізнесу обмежується.
Дослідження зосереджене на сліпій зоні в мультимодальних моделях: Масштабування зображення може стати вектором атаки Якщо не перевіряти, розуміння того, як відбувається попередня обробка вхідних даних, обмеження дозволів та вимога підтвердження перед критичними діями можуть мати вирішальне значення між простим знімком та шлюзом до ваших даних.
Я ентузіаст технологій, який перетворив свої "гікові" інтереси на професію. Я провів понад 10 років свого життя, користуючись передовими технологіями та возячись із усіма видами програм із чистої цікавості. Зараз я спеціалізуюся на комп’ютерних технологіях та відеоіграх. Це тому, що більше 5 років я писав для різних веб-сайтів про технології та відеоігри, створюючи статті, які прагнуть надати вам необхідну інформацію мовою, зрозумілою для всіх.
Якщо у вас є запитання, я знаю все, що стосується операційної системи Windows, а також Android для мобільних телефонів. І я зобов’язаний перед вами, я завжди готовий витратити кілька хвилин і допомогти вам вирішити будь-які запитання, які можуть виникнути в цьому світі Інтернету.