- Атака хавае нябачныя мультымадальныя падказкі ў выявах, якія пры маштабаванні на Gemini выконваюцца без папярэджання.
- Вектар выкарыстоўвае папярэднюю апрацоўку малюнкаў (224x224/512x512) і запускае такія інструменты, як Zapier, для выцягвання дадзеных.
- Алгарытмы бліжэйшага суседа, білінейныя і бікубічныя алгарытмы ўразлівыя; інструмент Anamorpher дазваляе іх укараняць.
- Эксперты раяць пазбягаць памяншэння маштабу, папярэдняга прагляду ўводу і патрабавання пацверджання перад выкананнем канфідэнцыйных дзеянняў.

Група даследчыкаў задакументавала метад узлому, здольны крадзеж персанальных дадзеных шляхам устаўкі схаваных інструкцый у выявыКалі гэтыя файлы загружаюцца ў мультымадальныя сістэмы, такія як Gemini, аўтаматычная папярэдняя апрацоўка актывуе каманды, і штучны інтэлект выконвае іх, як быццам яны дзейсныя.
Адкрыццё, пра якое паведамляе The Trail of Bits, уплывае на вытворчае асяроддзе. такія як Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant або GensparkGoogle прызнаў, што гэта сур'ёзная праблема для галіны, і пакуль няма доказаў выкарыстання ў рэальных умовах. Паведамленне пра ўразлівасць было паступіла ў прыватным парадку праз праграму Mozilla 0Din.
Як працуе атака маштабавання выявы

Ключ заключаецца ў этапе папярэдняга аналізу: мноства канвеераў штучнага інтэлекту Аўтаматычна змяняць памер малюнкаў да стандартнага дазволу (224×224 або 512×512)На практыцы мадэль бачыць не арыгінальны файл, а яго паменшаную версію, і менавіта там выяўляецца шкоднасны кантэнт.
Устаўка нападнікаў Мультымадальныя падказкі, замаскіраваныя нябачнымі вадзянымі знакамі, часта ў цёмных абласцях фота. Калі працуюць алгарытмы маштабавання, гэтыя заканамернасці з'яўляюцца, і мадэль інтэрпрэтуе іх як законныя інструкцыі, што можа прывесці да непажаданых дзеянняў.
У кантраляваных выпрабаваннях даследчыкам удалося Выманне дадзеных з Календара Google і адпраўка іх на знешні адрас электроннай пошты без пацверджання карыстальніка. Акрамя таго, гэтыя метады звязваюць з сямействам хуткія ін'екцыйныя атакі ужо прадэманстравана ў агентных інструментах (такіх як Claude Code або OpenAI Codex), здольных выманне інфармацыі або запуск дзеянняў аўтаматызацыі эксплуатацыя небяспечных патокаў.
Вектар размеркавання шырокі: выява на вэб-сайце, мем, якім падзяліліся ў WhatsApp, або фішынгавая кампанія можа Актывуйце падказку пры запыце штучнага інтэлекту апрацаваць кантэнтВажна падкрэсліць, што атака матэрыялізуецца, калі канвеер штучнага інтэлекту выконвае маштабаванне перад аналізам; прагляд выявы без выканання гэтага кроку не запускае яе.
Такім чынам, рызыка сканцэнтравана ў патоках, дзе штучны інтэлект мае доступ да падлучаных інструментаў (напрыклад, адпраўляць электронныя лісты, правяраць календары або выкарыстоўваць API): Калі няма ніякіх мер бяспекі, яны будуць выкананы без умяшання карыстальніка.
Уразлівыя алгарытмы і інструменты

Атака выкарыстоўвае тое, як працуюць пэўныя алгарытмы сціскаць інфармацыю высокага разрознення да меншай колькасці пікселяў пры памяншэнні памеру: інтэрпаляцыя бліжэйшага суседа, білінейная інтэрпаляцыя і бікубічная інтэрпаляцыя. Кожны з іх патрабуе рознай тэхнікі ўбудавання, каб паведамленне перажыло змяненне памеру.
Для ўбудавання гэтых інструкцый быў выкарыстаны інструмент з адкрытым зыходным кодам Анаморфер, прызначаны для ўстаўкі падказак у выявы на аснове алгарытму маштабавання мэты і іх хавання ў тонкія ўзоры. Папярэдняя апрацоўка выяваў штучным інтэлектам затым у рэшце рэшт іх выяўляе.
Пасля таго, як падказка будзе раскрыта, мадэль можа актываваць інтэграцыі, такія як Zapier (або паслугі, падобныя да IFTTT) і ланцуговыя дзеяннізбор дадзеных, адпраўка электронных лістоў або падключэнне да старонніх сэрвісаў, усё ў, здавалася б, звычайным рытме.
Карацей кажучы, гэта не асобны выпадак збою пастаўшчыка, а хутчэй структурная слабасць у апрацоўцы маштабаваных малюнкаў у межах мультымадальных канвеераў, якія спалучаюць тэкст, візуалізацыю і інструменты.
Меры па змякчэнні наступстваў і перадавы вопыт

Даследчыкі рэкамендуюць пазбягайце памяншэння маштабу, калі гэта магчыма і замест гэтага, памеры абмежавання нагрузкіКалі неабходна маштабаванне, рэкамендуецца ўключыць папярэдні прагляд таго, што мадэль насамрэч убачыць, а таксама ў інструментах CLI і ў API, а таксама выкарыстоўваць інструменты выяўлення, такія як Google SynthID.
На ўзроўні праектавання найбольш надзейная абарона — гэта шаблоны бяспекі і сістэматычны кантроль супраць увядзення паведамленняў: ніякі кантэнт, убудаваны ў выяву, не павінен мець магчымасці ініцыяваць Званкі да канфідэнцыйных інструментаў без відавочнага пацверджання карыстальнік.
На аперацыйным узроўні гэта разумна Пазбягайце загрузкі малюнкаў невядомага паходжання ў Gemini і ўважліва праглядзіце дазволы, прадастаўленыя памочніку або праграмам (доступ да электроннай пошты, календара, аўтаматызацыі і г.д.). Гэтыя бар'еры значна зніжаюць патэнцыйны ўплыў.
Для тэхнічных каманд варта правесці аўдыт шматмадальнай папярэдняй апрацоўкі, умацаваць пясочніцу дзеянняў і запіс/апавяшчэнне аб анамальных заканамернасцях актывацыя інструмента пасля аналізу малюнкаў. Гэта дапаўняе абарону на ўзроўні прадукту.
Усё сведчыць аб тым, што мы сутыкаемся яшчэ адзін варыянт хуткай ін'екцыі Ужываецца да візуальных каналаў. Дзякуючы прафілактычным мерам, праверцы ўводу і абавязковым пацвярджэнням, межы злоўжывання звужаюцца, а рызыка для карыстальнікаў і бізнесу абмяжоўваецца.
Даследаванне сканцэнтравана на сляпой зоне ў мультымадальных мадэлях: Маштабаванне выявы можа стаць вектарам атакі Калі не ўлічваць, разуменне таго, як адбываецца папярэдняя апрацоўка ўводу, абмежаванне дазволаў і патрабаванне пацверджанняў перад крытычнымі дзеяннямі могуць вырашыць, ці проста зрабіць здымак, ці патрапіць у браму да вашых дадзеных.
Я энтузіяст тэхналогій, які ператварыў свае інтарэсы "гікаў" у прафесію. Я правёў больш за 10 гадоў свайго жыцця, выкарыстоўваючы перадавыя тэхналогіі і важдаючыся з рознымі праграмамі з чыстай цікаўнасці. Цяпер я спецыялізаваўся на камп'ютарных тэхналогіях і відэагульнях. Гэта таму, што больш за 5 гадоў я працаваў для розных вэб-сайтаў, прысвечаных тэхналогіям і відэагульням, ствараючы артыкулы, якія імкнуцца даць вам неабходную інфармацыю на мове, зразумелай кожнаму.
Калі ў вас ёсць якія-небудзь пытанні, я ведаю ўсё, што звязана з аперацыйнай сістэмай Windows і Android для мабільных тэлефонаў. І я перад вамі абавязаны: я заўсёды гатовы выдаткаваць некалькі хвілін і дапамагчы вам вырашыць любыя пытанні, якія могуць узнікнуць у гэтым свеце Інтэрнэту.