- En attack döljer osynliga multimodala uppmaningar i bilder som, när de skalas på Gemini, exekveras utan varning.
- Vektorn utnyttjar bildförbehandling (224x224/512x512) och utlöser verktyg som Zapier för att extrahera data.
- Algoritmerna "nearest neighbor", "bilinear" och "bikubic" är sårbara; Anamorpher-verktyget tillåter injicering av dem.
- Experter rekommenderar att man undviker att skala ner, förhandsgranska indata och kräva bekräftelse innan känsliga åtgärder utförs.

En forskargrupp har dokumenterat en intrångsmetod som kan stjäla personuppgifter genom att injicera dolda instruktioner i bilderNär dessa filer laddas upp till multimodala system som Gemini aktiverar automatisk förbehandling kommandona, och AI:n följer dem som om de vore giltiga.
Upptäckten, som rapporterats av The Trail of Bits, påverkar produktionsmiljöer. såsom Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant eller GensparkGoogle har erkänt att detta är en betydande utmaning för branschen, utan några tecken på utnyttjande i verkliga miljöer hittills. Sårbarheten rapporterades privat via Mozillas 0Din-program.
Hur bildskalningsattacken fungerar

Nyckeln ligger i föranalyssteget: många AI-pipelines Ändra automatiskt storlek på bilder till standardupplösningar (224×224 eller 512×512)I praktiken ser modellen inte originalfilen, utan snarare en nedskalad version, och det är där det skadliga innehållet avslöjas.
Angripare infogar Multimodala uppmaningar kamouflerade av osynliga vattenstämplar, ofta i mörka områden i fotot. När uppskalningsalgoritmerna körs framträder dessa mönster och modellen tolkar dem som legitima instruktioner, vilket kan leda till oönskade åtgärder.
I kontrollerade tester lyckades forskarna Extrahera data från Google Kalender och skicka den till en extern e-postadress utan användarbekräftelse. Dessutom länkar dessa tekniker till familjen av snabba injektionsattacker redan demonstrerats i agentverktyg (som Claude Code eller OpenAI Codex), kapabla till exfiltrera information eller utlösa automatiseringsåtgärder utnyttjar osäkra flöden.
Distributionsvektorn är bred: en bild på en webbplats, ett meme som delas på WhatsApp eller en nätfiskekampanj kunde Aktivera prompten när AI:n ber att bearbeta innehålletDet är viktigt att betona att attacken materialiseras när AI-pipelinen utför skalningen före analysen; att titta på bilden utan att gå igenom det steget utlöser den inte.
Därför är risken koncentrerad till flöden där AI har tillgång till uppkopplade verktyg (t.ex. skicka e-postmeddelanden, kolla kalendrar eller använda API:er): Om det inte finns några skyddsåtgärder kommer den att köra dem utan användarens ingripande.
Sårbara algoritmer och verktyg involverade

Attacken utnyttjar hur vissa algoritmer komprimera högupplöst information till färre pixlar vid minskning: närmaste granne-interpolering, bilinjär interpolering och bikubisk interpolering. Var och en kräver en annan inbäddningsteknik för att meddelandet ska överleva storleksändringen.
För att bädda in dessa instruktioner har ett verktyg med öppen källkod använts. Anamorfer, utformad för att injicera prompter i bilder baserat på målskalningsalgoritmen och dölja dem i subtila mönster. AI:s bildförbehandling avslöjar dem sedan slutligen.
När uppmaningen visas kan modellen aktivera integrationer som Zapier (eller tjänster liknande IFTTT) och kedjeåtgärderdatainsamling, skicka e-postmeddelanden eller kontakter med tredjepartstjänster, allt inom ett till synes normalt flöde.
Kort sagt, detta är inte ett isolerat misslyckande hos en leverantör, utan snarare ett strukturell svaghet i hantering av skalade bilder inom multimodala pipelines som kombinerar text, vision och verktyg.
Mildrande åtgärder och god praxis

Forskare rekommenderar undvik nedskalning när det är möjligt och istället, begränsa lastdimensionerNär skalning är nödvändig är det lämpligt att införliva en förhandsvisning av vad modellen faktiskt kommer att se, även i CLI-verktyg och i API:et, och använd detekteringsverktyg som Google SynthID.
På designnivå är det mest stabila försvaret genom säkerhetsmönster och systematiska kontroller mot meddelandeinjicering: inget innehåll inbäddat i en bild ska kunna initiera Anrop till känsliga verktyg utan uttrycklig bekräftelse av användaren.
På den operativa nivån är det klokt Undvik att ladda upp bilder av okänt ursprung till Gemini och granska noggrant de behörigheter som beviljats assistenten eller apparna (åtkomst till e-post, kalender, automatiseringar etc.). Dessa hinder minskar den potentiella effekten avsevärt.
För tekniska team är det värt att granska multimodal förbehandling, härda åtgärdssandlådan och registrera/varna om avvikande mönster verktygsaktivering efter analys av bilder. Detta kompletterar försvar på produktnivå.
Allt tyder på att vi står inför en annan variant av snabb injektion Tillämpas på visuella kanaler. Med förebyggande åtgärder, inmatningsverifiering och obligatoriska bekräftelser minskas marginalen för utnyttjande och risken begränsas för användare och företag.
Forskningen fokuserar på en blind fläck i multimodala modeller: Bildskalning kan bli en attackvektor Om detta lämnas därhän kan förståelse för hur indata förbehandlas, begränsning av behörigheter och krav på bekräftelser före kritiska åtgärder göra skillnaden mellan en ren ögonblicksbild och en port till dina data.
Jag är en teknikentusiast som har gjort sina "nördar"-intressen till ett yrke. Jag har tillbringat mer än 10 år av mitt liv med att använda den senaste tekniken och mixtrat med alla typer av program av ren nyfikenhet. Nu har jag specialiserat mig på datateknik och tv-spel. Detta beror på att jag i mer än 5 år har arbetat med att skriva för olika webbplatser om teknik och videospel, skapa artiklar som försöker ge dig den information du behöver på ett språk som är begripligt för alla.
Om du har några frågor sträcker sig min kunskap från allt som rör operativsystemet Windows samt Android för mobiltelefoner. Och mitt engagemang är för dig, jag är alltid villig att spendera några minuter och hjälpa dig att lösa alla frågor du kan ha i den här internetvärlden.