- Egy támadás láthatatlan multimodális promptokat rejt el a képekben, amelyek a Gemini rendszeren méretezve figyelmeztetés nélkül végrehajtódnak.
- A vektor képelőfeldolgozást (224x224/512x512) használ, és olyan eszközöket indít el, mint a Zapier, az adatok kinyeréséhez.
- A legközelebbi szomszéd, a bilineáris és a bikubikus algoritmusok sebezhetőek; az Anamorpher eszköz lehetővé teszi ezek befecskendezését.
- A szakértők azt javasolják, hogy kerüljék a kisebb méretezést, tekintsék meg a bemeneti adatokat előzetesen, és ne kérjenek megerősítést a bizalmas műveletek végrehajtása előtt.

Egy kutatócsoport dokumentált egy behatolási módszert, amely képes személyes adatok ellopása rejtett utasítások képekbe való beillesztésévelAmikor ezeket a fájlokat feltöltik multimodális rendszerekbe, mint például a Gemini, az automatikus előfeldolgozás aktiválja a parancsokat, és a mesterséges intelligencia úgy követi őket, mintha érvényesek lennének.
A The Trail of Bits által jelentett felfedezés a termelési környezeteket érinti. például a Gemini CLI, a Vertex AI Studio, a Gemini API, a Google Assistant vagy a GensparkA Google elismerte, hogy ez jelentős kihívást jelent az iparág számára, és eddig nem találtak bizonyítékot a valós környezetben történő kihasználásra. A sebezhetőséget magánúton jelentették a Mozilla 0Din programján keresztül.
Hogyan működik a képméretezési támadás

A kulcs az elemzés előtti lépésben rejlik: számos MI-folyamat Képek automatikus átméretezése standard felbontásra (224×224 vagy 512×512)A gyakorlatban a modell nem az eredeti fájlt látja, hanem egy kicsinyített verziót, és itt derül ki a rosszindulatú tartalom.
Támadók beszúrása Láthatatlan vízjelekkel álcázott multimodális promptok, gyakran a fotó sötét területein. Amikor a felskálázó algoritmusok futnak, ezek a minták megjelennek, és a modell jogos utasításokként értelmezi őket, ami nem kívánt műveletekhez vezethet.
Kontrollált tesztek során a kutatóknak sikerült Adatok kinyerése a Google Naptárból, és elküldése egy külső e-mail címre felhasználó megerősítése nélkül. Ezenkívül ezek a technikák a családhoz kapcsolódnak gyors injekciós támadások már bizonyították ágentikus eszközökben (mint például a Claude Code vagy az OpenAI Codex), amelyek képesek kiszűri az információkat, vagy automatizálási műveleteket indít el a bizonytalan áramlások kihasználása.
Az eloszlásvektor széles: egy kép egy weboldalon, egy WhatsAppon megosztott mém vagy egy adathalász kampány tudott Aktiválja a promptot, amikor a mesterséges intelligenciát a tartalom feldolgozására kériFontos hangsúlyozni, hogy a támadás akkor valósul meg, amikor az AI-folyamat az elemzés előtt elvégzi a skálázást; a kép megtekintése ezen lépés nélkül nem indítja el a támadást.
Ezért a kockázat azokban a folyamatokban koncentrálódik, ahol a mesterséges intelligencia hozzáfér a csatlakoztatott eszközökhöz (pl. e-maileket küldeni, naptárakat ellenőrizni vagy API-kat használni): Ha nincsenek biztosítékok, akkor felhasználói beavatkozás nélkül végrehajtja azokat.
Sebezhető algoritmusok és eszközök

A támadás kihasználja bizonyos algoritmusok működését. nagy felbontású információkat tömörít kevesebb pixelbe lekicsinyítéskor: legközelebbi szomszéd interpoláció, bilineáris interpoláció és bikubikus interpoláció. Mindegyikhez más beágyazási technika szükséges ahhoz, hogy az üzenet túlélje az átméretezést.
Ezen utasítások beágyazásához nyílt forráskódú eszközt használtunk. Anamorfer, amelynek célja, hogy a célméretezési algoritmus alapján promptokat juttasson a képekbe, és finom mintázatokban rejtse el azokat. A mesterséges intelligencia képfeldolgozása végül felfedi azokat.
Miután a prompt felfedésre került, a modell megteheti aktiválja az olyan integrációkat, mint a Zapier (vagy az IFTTT-hez hasonló szolgáltatások) és láncműveletekadatgyűjtés, e-mailek küldése vagy harmadik fél szolgáltatásaihoz való kapcsolódás, mindezt egy látszólag normális folyásirányban.
Röviden, ez nem egy beszállító elszigetelt hibája, hanem inkább egy szerkezeti gyengeség a méretezett képek kezelésében multimodális folyamatokon belül, amelyek szöveget, vizuális tartalmat és eszközöket kombinálnak.
Mérséklő intézkedések és bevált gyakorlatok

A kutatók azt javasolják kerüld a lecsökkentést, amikor csak lehetséges és ehelyett, határterhelési méretekAmikor méretezésre van szükség, célszerű beépíteni egy előnézet arról, hogy mit fog valójában látni a modell, valamint a CLI eszközökben és az API-ban, és használjon olyan észlelő eszközöket, mint a Google SynthID.
Tervezési szinten a legszilárdabb védelem a következő: biztonsági minták és szisztematikus ellenőrzések üzenetbefecskendezés ellen: a képbe ágyazott tartalomnak nem szabad kezdeményeznie Érzékeny eszközökhöz intézett hívások kifejezett megerősítés nélkül felhasználó.
Műveleti szinten körültekintő Kerüld az ismeretlen eredetű képek feltöltését a Geminire és gondosan ellenőrizze az asszisztensnek vagy az alkalmazásoknak adott engedélyeket (hozzáférés az e-mailekhez, naptárhoz, automatizálásokhoz stb.). Ezek az akadályok jelentősen csökkentik a lehetséges hatást.
A műszaki csapatok számára érdemes a multimodális előfeldolgozás auditálása, az action sandbox megerősítése és rögzítés/riasztás a rendellenes mintákról eszközaktiválás a képek elemzése után. Ez kiegészíti a termékszintű védelmet.
Minden arra utal, hogy szembenézünk a gyors injekció egy másik változata Vizuális csatornákra alkalmazva. Megelőző intézkedésekkel, beviteli adatok ellenőrzésével és kötelező megerősítésekkel a kihasználási mozgástér szűkül, és a kockázat korlátozott a felhasználók és a vállalkozások számára.
A kutatás a multimodális modellekben található vakfoltra összpontosít: A képméretezés támadási vektorrá válhat Ellenőrizetlenül hagyva, a bemeneti előfeldolgozás megértése, az engedélyek korlátozása és a kritikus műveletek előtti megerősítések megkövetelése jelentheti a különbséget egy egyszerű pillanatkép és az adatokhoz való hozzáférés átjárója között.
Technológia-rajongó vagyok, aki "geek" érdeklődését szakmává változtatta. Életemből több mint 10 évet töltöttem a legmodernebb technológiával, és pusztán kíváncsiságból mindenféle programmal bütykölgettem. Most a számítástechnikára és a videojátékokra szakosodtam. Ennek az az oka, hogy több mint 5 éve írok különféle technológiával és videojátékokkal foglalkozó weboldalakra, olyan cikkeket készítve, amelyek mindenki számára érthető nyelven igyekeznek megadni a szükséges információkat.
Ha bármilyen kérdése van, tudásom a Windows operációs rendszerrel, valamint a mobiltelefonokhoz készült Androiddal kapcsolatos mindenre kiterjed. És az én elkötelezettségem az Ön iránti elkötelezettségem, mindig készen állok néhány percet rászánni arra, hogy segítsek megoldani minden kérdését ebben az internetes világban.