- 'n Aanval versteek onsigbare multimodale aanwysings in beelde wat, wanneer dit op Gemini geskaal word, sonder waarskuwing uitgevoer word.
- Die vektor maak gebruik van beeldvoorverwerking (224x224/512x512) en aktiveer gereedskap soos Zapier om data te eksfiltreer.
- Die naaste buurman-, bilineêre en bikubiese algoritmes is kwesbaar; die Anamorpher-instrument laat toe dat hulle ingespuit word.
- Kenners beveel aan om afskaling, voorskou van invoer en die vereiste van bevestiging te vermy voordat sensitiewe aksies uitgevoer word.

'n Groep navorsers het 'n indringingsmetode gedokumenteer wat in staat is om steel persoonlike data deur verborge instruksies in beelde in te spuitWanneer daardie lêers na multimodale stelsels soos Gemini opgelaai word, aktiveer outomatiese voorverwerking die bevele, en die KI volg hulle asof hulle geldig is.
Die ontdekking, soos deur The Trail of Bits gerapporteer, beïnvloed produksieomgewings. soos Gemini CLI, Vertex AI Studio, Gemini API, Google Assistent of GensparkGoogle het erken dat dit 'n beduidende uitdaging vir die bedryf is, met geen bewyse van uitbuiting in werklike omgewings tot dusver nie. Die kwesbaarheid is privaat aangemeld deur Mozilla se 0Din-program.
Hoe die beeldskaalaanval werk

Die sleutel lê in die voor-analise stap: baie KI-pyplyne Verander outomaties die grootte van beelde na standaardresolusies (224×224 of 512×512)In die praktyk sien die model nie die oorspronklike lêer nie, maar eerder 'n verkleinde weergawe, en dis waar die kwaadwillige inhoud onthul word.
Aanvallers voeg in Multimodale aanwysings gekamoefleer deur onsigbare watermerke, dikwels in donker areas van die foto. Wanneer die opskalingsalgoritmes loop, kom hierdie patrone na vore en die model interpreteer dit as wettige instruksies, wat tot ongewenste aksies kan lei.
In beheerde toetse het navorsers daarin geslaag om Onttrek data uit Google Kalender en stuur dit na 'n eksterne e-posadres sonder gebruikersbevestiging. Daarbenewens skakel hierdie tegnieke na die familie van vinnige inspuitingsaanvalle reeds gedemonstreer in agentskapsinstrumente (soos Claude Code of OpenAI Codex), in staat om inligting uitfiltreer of outomatiseringsaksies aktiveer die uitbuiting van onveilige strome.
Die verspreidingsvektor is wyd: 'n beeld op 'n webwerf, 'n meme wat op WhatsApp gedeel word of 'n phishing-veldtog kon Aktiveer die aanwysingsboodskap wanneer die KI gevra word om die inhoud te verwerkDit is belangrik om te beklemtoon dat die aanval plaasvind wanneer die KI-pyplyn die skalering voor die analise uitvoer; om die beeld te besigtig sonder om deur daardie stap te gaan, aktiveer dit nie.
Daarom is die risiko gekonsentreer in vloeie waar KI toegang het tot gekoppelde gereedskap (bv. stuur e-posse, kyk na kalenders of gebruik API's): Indien daar geen voorsorgmaatreëls is nie, sal dit hulle sonder gebruikersingryping uitvoer.
Kwetsbare algoritmes en gereedskap betrokke

Die aanval maak gebruik van hoe sekere algoritmes komprimeer hoë-resolusie inligting in minder pixels wanneer verkleining plaasvind: naaste buur interpolasie, bilineêre interpolasie en bikubiese interpolasie. Elk vereis 'n ander inbeddingstegniek sodat die boodskap die verandering van grootte kan oorleef.
Om hierdie instruksies in te sluit, is die oopbron-instrument gebruik. Anamorfer, ontwerp om aanwysings in beelde in te spuit gebaseer op die teikenskaalalgoritme en dit in subtiele patrone te versteek. Die KI se beeldvoorverwerking onthul dit dan uiteindelik.
Sodra die aanwysing geopenbaar word, kan die model aktiveer integrasies soos Zapier (of dienste soortgelyk aan IFTTT) en kettingaksiesdata-insameling, die stuur van e-posse of verbindings met derdeparty-dienste, alles binne 'n skynbaar normale vloei.
Kortliks, dit is nie 'n geïsoleerde mislukking van 'n verskaffer nie, maar eerder 'n strukturele swakheid in die hantering van afgeskaalde beelde binne multimodale pyplyne wat teks, visie en gereedskap kombineer.
Versagtingsmaatreëls en goeie praktyke

Navorsers beveel aan vermy afskaling waar moontlik en in plaas daarvan, beperk lasafmetingsWanneer skalering nodig is, is dit raadsaam om 'n voorskou van wat die model werklik sal sien, ook in CLI-gereedskap en in die API, en gebruik opsporingsgereedskap soos Google SynthID.
Op ontwerpvlak is die mees soliede verdediging deur sekuriteitspatrone en sistematiese beheermaatreëls teen boodskapinspuiting: geen inhoud wat in 'n beeld ingebed is, moet kan begin nie Oproepe na sensitiewe gereedskap sonder eksplisiete bevestiging van die gebruiker.
Op die operasionele vlak is dit verstandig Vermy die oplaai van beelde van onbekende oorsprong na Gemini en hersien die toestemmings wat aan die assistent of toepassings verleen is (toegang tot e-pos, kalender, outomatisasies, ens.) noukeurig. Hierdie hindernisse verminder die potensiële impak aansienlik.
Vir tegniese spanne is dit die moeite werd om multimodale voorverwerking te oudit, die aksie-sandkas te verhard, en teken/waarskuwing oor anomale patrone gereedskapaktivering na die ontleding van beelde. Dit komplementeer produkvlakverdediging.
Alles dui daarop dat ons te kampe het met die feit 'n ander variant van vinnige inspuiting Toegepas op visuele kanale. Met voorkomende maatreëls, invoerverifikasie en verpligte bevestigings word die uitbuitingsmarge vernou en die risiko vir gebruikers en besighede beperk.
Die navorsing fokus op 'n blindekol in multimodale modelle: Beeldskalering kan 'n aanvalsvektor word Indien dit nie nagegaan word nie, kan die begrip van hoe invoer voorafverwerk word, die beperking van toestemmings en die vereiste van bevestigings voor kritieke aksies die verskil maak tussen 'n blote momentopname en die toegangspoort tot jou data.
Ek is 'n tegnologie-entoesias wat sy "geek"-belangstellings in 'n beroep verander het. Ek het meer as 10 jaar van my lewe bestee om die nuutste tegnologie te gebruik en uit pure nuuskierigheid met allerhande programme te peuter. Nou het ek gespesialiseer in rekenaartegnologie en videospeletjies. Dit is omdat ek al vir meer as 5 jaar vir verskeie webwerwe oor tegnologie en videospeletjies skryf en artikels skep wat poog om jou die inligting te gee wat jy nodig het in 'n taal wat vir almal verstaanbaar is.
As jy enige vrae het, strek my kennis van alles wat verband hou met die Windows-bedryfstelsel sowel as Android vir selfone. En my verbintenis is aan jou, ek is altyd bereid om 'n paar minute te spandeer en jou te help om enige vrae op te los wat jy in hierdie internetwêreld mag hê.