- Et angreb skjuler usynlige multimodale prompts i billeder, der, når de skaleres på Gemini, udføres uden varsel.
- Vektoren udnytter billedforbehandling (224x224/512x512) og udløser værktøjer som Zapier til at eksfiltrere data.
- Nearest neighbor-, bilineære og bikubiske algoritmer er sårbare; Anamorpher-værktøjet tillader injicering af dem.
- Eksperter anbefaler at undgå nedskalering, forhåndsvisning af input og krav om bekræftelse, før der udføres følsomme handlinger.

En gruppe forskere har dokumenteret en indtrængningsmetode, der er i stand til at stjæle personlige data ved at indsprøjte skjulte instruktioner i billederNår disse filer uploades til multimodale systemer som Gemini, aktiverer automatisk forbehandling kommandoerne, og AI'en følger dem, som om de var gyldige.
Opdagelsen, rapporteret af The Trail of Bits, påvirker produktionsmiljøer. såsom Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant eller GensparkGoogle har erkendt, at dette er en betydelig udfordring for branchen, og der er indtil videre ikke fundet tegn på udnyttelse i virkelige miljøer. Sårbarheden blev rapporteret privat gennem Mozillas 0Din-program.
Sådan fungerer billedskaleringsangrebet

Nøglen ligger i præanalysetrinnet: mange AI-pipelines Tilpas automatisk størrelsen på billeder til standardopløsninger (224×224 eller 512×512)I praksis ser modellen ikke den originale fil, men snarere en nedskaleret version, og det er der, det skadelige indhold afsløres.
Angribere indsætter Multimodale prompts camoufleret af usynlige vandmærker, ofte i mørke områder af billedet. Når opskaleringsalgoritmerne kører, dukker disse mønstre op, og modellen fortolker dem som legitime instruktioner, hvilket kan føre til uønskede handlinger.
I kontrollerede forsøg lykkedes det forskerne at Udtræk data fra Google Kalender og send dem til en ekstern e-mail uden brugerbekræftelse. Derudover linker disse teknikker til familien af hurtige injektionsangreb allerede demonstreret i agentværktøjer (såsom Claude Code eller OpenAI Codex), i stand til udvinde information eller udløse automatiseringshandlinger udnyttelse af usikre strømme.
Fordelingsvektoren er bred: et billede på en hjemmeside, en meme delt på WhatsApp eller en phishing-kampagne podrían Aktivér prompten, når du beder AI'en om at behandle indholdetDet er vigtigt at understrege, at angrebet materialiserer sig, når AI-pipelinen udfører skaleringen før analysen; visning af billedet uden at gennemgå dette trin udløser det ikke.
Derfor er risikoen koncentreret i flows, hvor AI har adgang til forbundne værktøjer (f.eks. send e-mails, tjek kalendere eller brug API'er): Hvis der ikke er nogen sikkerhedsforanstaltninger, vil den udføre dem uden brugerindgriben.
Sårbare algoritmer og værktøjer involveret

Angrebet udnytter, hvordan bestemte algoritmer komprimere information i høj opløsning til færre pixels Ved nedskalering: nearest neighbor-interpolation, bilineær interpolation og bikubisk interpolation. Hver kræver en forskellig indlejringsteknik for at beskeden kan overleve størrelsesændringen.
For at integrere disse instruktioner er der brugt et open source-værktøj Anamorfer, designet til at indsprøjte prompts i billeder baseret på målskaleringsalgoritmen og skjule dem i subtile mønstre. AI'ens billedforbehandling afslører dem derefter i sidste ende.
Når prompten er vist, kan modellen aktiver integrationer som Zapier (eller tjenester der ligner IFTTT) og kædehandlingerdataindsamling, afsendelse af e-mails eller forbindelser til tredjepartstjenester, alt sammen inden for en tilsyneladende normal strøm.
Kort sagt er dette ikke en isoleret fejl hos en leverandør, men snarere en strukturel svaghed i håndtering af skalerede billeder inden for multimodale pipelines, der kombinerer tekst, vision og værktøjer.
Afbødende foranstaltninger og god praksis

Forskere anbefaler undgå nedskalering når det er muligt og i stedet, grænsebelastningsdimensionerNår skalering er nødvendig, anbefales det at inkorporere en et eksempel på, hvad modellen rent faktisk vil se, også i CLI-værktøjer og i API'en, og brug detektionsværktøjer som f.eks. Google SynthID.
På designniveau er det mest solide forsvar gennem sikkerhedsmønstre og systematiske kontroller mod meddelelsesinjektion: intet indhold indlejret i et billede bør kunne starte Opkald til følsomme værktøjer uden eksplicit bekræftelse bruger.
På det operationelle niveau er det klogt Undgå at uploade billeder af ukendt oprindelse til Gemini og gennemgå omhyggeligt de tilladelser, der er givet til assistenten eller apps (adgang til e-mail, kalender, automatiseringer osv.). Disse barrierer reducerer den potentielle påvirkning betydeligt.
For tekniske teams er det værd at revidere multimodal forbehandling, hærde handlingssandkassen og optage/advare om unormale mønstre værktøjsaktivering efter analyse af billeder. Dette supplerer forsvaret på produktniveau.
Alt peger på, at vi står over for en anden variant af hurtig injektion Anvendes på visuelle kanaler. Med forebyggende foranstaltninger, inputverifikation og obligatoriske bekræftelser indsnævres udnyttelsesmarginen, og risikoen begrænses for brugere og virksomheder.
Forskningen fokuserer på en blind vinkel i multimodale modeller: Billedskalering kan blive en angrebsvektor Hvis det ikke gøres, kan forståelse af, hvordan input forbehandles, begrænsning af tilladelser og krav om bekræftelser før kritiske handlinger være forskellen mellem et simpelt øjebliksbillede og adgangen til dine data.
Jeg er en teknologientusiast, der har vendt sine "nørde" interesser til et erhverv. Jeg har brugt mere end 10 år af mit liv på at bruge avanceret teknologi og pille ved alle slags programmer af ren nysgerrighed. Nu har jeg specialiseret mig i computerteknologi og videospil. Dette skyldes, at jeg i mere end 5 år har skrevet til forskellige hjemmesider om teknologi og videospil, og lavet artikler, der søger at give dig den information, du har brug for, på et sprog, der er forståeligt for alle.
Har du spørgsmål, så spænder min viden fra alt relateret til Windows styresystemet samt Android til mobiltelefoner. Og mit engagement er over for dig, jeg er altid villig til at bruge et par minutter og hjælpe dig med at løse eventuelle spørgsmål, du måtte have i denne internetverden.