- Attakk jaħbi prompts multimodali inviżibbli f'immaġini li, meta skalati fuq Gemini, jiġu eżegwiti mingħajr twissija.
- Il-vettur jisfrutta l-ipproċessar minn qabel tal-immaġni (224x224/512x512) u jattiva għodod bħal Zapier biex jesfiltra d-dejta.
- L-algoritmi tal-eqreb ġar, bilineari, u bikubiċi huma vulnerabbli; l-għodda Anamorpher tippermetti li jiġu injettati.
- L-esperti jagħtu parir biex jevitaw li jnaqqsu l-iskala, li jaraw minn qabel l-input, u li jitolbu konferma qabel ma jwettqu azzjonijiet sensittivi.

Grupp ta’ riċerkaturi ddokumenta metodu ta’ intrużjoni kapaċi li serq ta’ dejta personali billi tinjetta struzzjonijiet moħbija f’immaġnijietMeta dawk il-fajls jiġu mtella’ fuq sistemi multimodali bħal Gemini, l-ipproċessar awtomatiku minn qabel jattiva l-kmandi, u l-AI ssegwihom bħallikieku kienu validi.
L-iskoperta, irrappurtata minn The Trail of Bits, taffettwa l-ambjenti tal-produzzjoni. bħal Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant jew GensparkGoogle irrikonoxxiet li din hija sfida sinifikanti għall-industrija, mingħajr ebda evidenza ta' sfruttament f'ambjenti tad-dinja reali s'issa. Il-vulnerabbiltà ġiet irrappurtata privatament permezz tal-programm 0Din ta' Mozilla.
Kif jaħdem l-attakk tal-iskalar tal-immaġni

Iċ-ċavetta tinsab fil-pass ta' qabel l-analiżi: ħafna pipelines tal-AI Ibdel id-daqs tal-immaġini awtomatikament għal riżoluzzjonijiet standard (224×224 jew 512×512)Fil-prattika, il-mudell ma jarax il-fajl oriġinali, iżda pjuttost verżjoni mnaqqsa, u hemmhekk jiġi żvelat il-kontenut malizzjuż.
L-attakkanti jdaħħlu Suġġerimenti multimodali moħbija minn watermarks inviżibbli, ħafna drabi f'żoni mudlama tar-ritratt. Meta l-algoritmi tal-upscaling jaħdmu, dawn il-mudelli jitfaċċaw u l-mudell jinterpretahom bħala struzzjonijiet leġittimi, li jistgħu jwasslu għal azzjonijiet mhux mixtieqa.
Fi testijiet ikkontrollati, ir-riċerkaturi rnexxielhom Estrai d-dejta minn Google Calendar u ibgħatha lil email estern mingħajr konferma mill-utent. Barra minn hekk, dawn it-tekniki huma marbuta mal-familja ta' attakki ta' injezzjoni rapida diġà muri f'għodod aġentiċi (bħal Claude Code jew OpenAI Codex), kapaċi li tesfiltra informazzjoni jew tattiva azzjonijiet ta' awtomazzjoni l-isfruttament ta' flussi mhux siguri.
Il-vettur tad-distribuzzjoni huwa wiesa': immaġni fuq websajt, meme maqsuma fuq WhatsApp jew kampanja ta' phishing tista ' Attiva l-pront meta titlob lill-AI biex tipproċessa l-kontenutHuwa importanti li jiġi enfasizzat li l-attakk iseħħ meta l-pipeline tal-AI twettaq l-iskalar qabel l-analiżi; il-wiri tal-immaġni mingħajr ma tgħaddi minn dak il-pass ma jattivahx.
Għalhekk, ir-riskju huwa kkonċentrat fil-flussi fejn l-IA għandha aċċess għal għodod konnessi (eż., ibgħat emails, iċċekkja l-kalendarji jew uża l-APIs): Jekk ma jkunx hemm salvagwardji, se jesegwixxihom mingħajr l-intervent tal-utent.
Algoritmi u għodod vulnerabbli involuti

L-attakk jisfrutta kif ċerti algoritmi ikkompressa informazzjoni b'riżoluzzjoni għolja f'inqas pixels meta tnaqqas id-daqs: interpolazzjoni tal-eqreb ġar, interpolazzjoni bilineari, u interpolazzjoni bikubika. Kull waħda teħtieġ teknika ta' inkorporazzjoni differenti biex il-messaġġ jgħaddi mill-bidla fid-daqs.
Biex jiġu integrati dawn l-istruzzjonijiet intużat l-għodda open source Anamorfu, iddisinjat biex jinjetta prompts f'immaġini bbażati fuq l-algoritmu tal-iskalar tal-mira u jaħbihom f'mudelli sottili. L-ipproċessar minn qabel tal-immaġini tal-AI mbagħad fl-aħħar mill-aħħar jiżvelahom.
Ladarba l-pront jiġi żvelat, il-mudell jista' attiva integrazzjonijiet bħal Zapier (jew servizzi simili għal IFTTT) u azzjonijiet katina: ġbir ta' dejta, tibgħat emails jew konnessjonijiet ma' servizzi ta' partijiet terzi, kollox fi fluss apparentement normali.
Fil-qosor, dan mhuwiex falliment iżolat ta' fornitur, iżda pjuttost dgħufija strutturali fl-immaniġġjar ta' immaġnijiet skalati fi ħdan pipelines multimodali li jikkombinaw test, viżjoni, u għodod.
Miżuri ta' mitigazzjoni u prattiki tajbin

Ir-riċerkaturi jirrakkomandaw evita li tnaqqas l-iskala kull meta jkun possibbli u minflok, dimensjonijiet tat-tagħbija limituMeta jkun meħtieġ l-iskalar, huwa rakkomandabbli li jiġi inkorporat preview ta' dak li l-mudell fil-fatt se jara, ukoll fl-għodod tas-CLI u fl-API, u uża għodod ta' skoperta bħal Google SynthID.
Fil-livell tad-disinn, l-aktar difiża soda hija permezz ta' mudelli ta' sigurtà u kontrolli sistematiċi kontra l-injezzjoni tal-messaġġi: l-ebda kontenut inkorporat f'immaġni m'għandu jkun jista' jibda Sejħiet għal għodod sensittivi mingħajr konferma espliċita utent.
Fil-livell operattiv, huwa prudenti Evita li ttella' immaġnijiet ta' oriġini mhux magħrufa fuq Gemini u rrevedi bir-reqqa l-permessi mogħtija lill-assistent jew lill-apps (aċċess għall-email, kalendarju, awtomazzjonijiet, eċċ.). Dawn l-ostakli jnaqqsu b'mod sinifikanti l-impatt potenzjali.
Għat-timijiet tekniċi, ta' min jawditja l-ipproċessar minn qabel multimodali, it-tisħiħ tas-sandbox tal-azzjoni, u irreġistra/twissija dwar mudelli anomali attivazzjoni tal-għodda wara l-analiżi tal-immaġnijiet. Dan jikkumplimenta d-difiża fil-livell tal-prodott.
Kollox jindika l-fatt li qed niffaċċjaw varjant ieħor ta' injezzjoni rapida Applikat għal kanali viżwali. B'miżuri preventivi, verifika tal-input, u konfermi obbligatorji, il-marġni ta' sfruttament jitnaqqas u r-riskju jkun limitat għall-utenti u n-negozji.
Ir-riċerka tiffoka fuq punt dgħajjef fil-mudelli multimodali: L-iskalar tal-immaġni jista' jsir vettur ta' attakk Jekk ma jiġix ivverifikat, il-fehim ta' kif l-input jiġi pproċessat minn qabel, il-limitazzjoni tal-permessi, u r-rekwiżit ta' konfermi qabel azzjonijiet kritiċi jistgħu jagħmlu d-differenza bejn sempliċi snapshot u l-portal għad-dejta tiegħek.
Jien dilettant tat-teknoloġija li bidlet l-interessi "geek" tiegħu fi professjoni. Għamilt aktar minn 10 snin minn ħajti nuża teknoloġija avvanzata u nagħmel tbagħbis ma’ kull tip ta’ programmi għal kurżità pura. Issa speċjajtejt fit-teknoloġija tal-kompjuter u l-logħob tal-kompjuter. Dan għaliex ilni aktar minn 5 snin naħdem nikteb għal diversi websajts dwar teknoloġija u video games, noħloq artikli li jfittxu li jagħtuk l-informazzjoni li għandek bżonn b’lingwa li tinftiehem minn kulħadd.
Jekk għandek xi mistoqsijiet, l-għarfien tiegħi jvarja minn dak kollu relatat mas-sistema operattiva Windows kif ukoll Android għat-telefowns ċellulari. U l-impenn tiegħi huwa għalik, jien dejjem lest li nqatta' ftit minuti u ngħinek issolvi kwalunkwe mistoqsija li jista' jkollok f'din id-dinja tal-internet.