De har funnet en måte å snike inn ordrer i et bilde i Gemini: enkel skalering får AI-en til å utføre dem.

Siste oppdatering: 03/09/2025

  • Et angrep skjuler usynlige multimodale ledetekster i bilder som, når de skaleres på Gemini, utføres uten forvarsel.
  • Vektoren utnytter bildeforbehandling (224x224/512x512) og utløser verktøy som Zapier for å eksfiltrere data.
  • Nærmeste nabo-, bilineære og bikubiske algoritmer er sårbare; Anamorpher-verktøyet tillater at de injiseres.
  • Eksperter anbefaler å unngå nedskalering, forhåndsvisning av inndata og krav om bekreftelse før man utfører sensitive handlinger.

Bildeangrep på AI-systemer

En gruppe forskere har dokumentert en inntrengingsmetode som er i stand til å stjele personopplysninger ved å injisere skjulte instruksjoner i bilderNår disse filene lastes opp til multimodale systemer som Gemini, aktiverer automatisk forbehandling kommandoene, og AI-en følger dem som om de var gyldige.

Oppdagelsen, rapportert av The Trail of Bits, påvirker produksjonsmiljøer. som for eksempel Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant eller GensparkGoogle har erkjent at dette er en betydelig utfordring for bransjen, uten bevis for utnyttelse i virkelige miljøer så langt. Sårbarheten ble rapportert privat gjennom Mozillas 0Din-program.

Hvordan bildeskaleringsangrepet fungerer

Hvordan Gemini-bildeskaleringsangrepet fungerer

Nøkkelen ligger i foranalysetrinnet: mange AI-rørledninger Endre størrelsen på bilder automatisk til standardoppløsninger (224×224 eller 512×512)I praksis ser ikke modellen den originale filen, men snarere en nedskalert versjon, og det er der det skadelige innholdet avsløres.

Eksklusivt innhold - Klikk her  Slik bytter du Samsung Wallet til Google Pay

Angripere setter inn Multimodale oppfordringer kamuflert av usynlige vannmerker, ofte i mørke områder av bildet. Når oppskaleringsalgoritmene kjører, dukker disse mønstrene opp, og modellen tolker dem som legitime instruksjoner, noe som kan føre til uønskede handlinger.

I kontrollerte tester klarte forskerne å Hent ut data fra Google Kalender og send dem til en ekstern e-post uten brukerbekreftelse. I tillegg lenker disse teknikkene til familien av raske injeksjonsangrep allerede demonstrert i agentverktøy (som Claude Code eller OpenAI Codex), i stand til utvinne informasjon eller utløse automatiseringshandlinger utnytter usikre strømmer.

Fordelingsvektoren er bred: et bilde på en nettside, et meme delt på WhatsApp eller en phishing-kampanje kunne Aktiver ledeteksten når du ber AI-en om å behandle innholdetDet er viktig å understreke at angrepet materialiserer seg når AI-rørledningen utfører skaleringen før analysen; det utløser ikke at man ser bildet uten å gå gjennom det trinnet.

Derfor er risikoen konsentrert i flyter der AI har tilgang til tilkoblede verktøy (f.eks. send e-post, sjekk kalendere eller bruk API-er): Hvis det ikke finnes noen sikkerhetstiltak, vil den utføre dem uten brukerinngripen.

Sårbare algoritmer og verktøy involvert

Sårbarhet i bildeskalering i AI

Angrepet utnytter hvordan visse algoritmer komprimere informasjon med høy oppløsning til færre piksler ved nedskalering: nærmeste nabo-interpolasjon, bilineær interpolasjon og bikubisk interpolasjon. Hver krever en annen innebyggingsteknikk for at meldingen skal overleve endring av størrelse.

Eksklusivt innhold - Klikk her  Android System SafetyCore: Hva er det og hvorfor er det på telefonen din?

For å legge inn disse instruksjonene er det brukt et åpen kildekode-verktøy. Anamorfer, designet for å injisere ledetekster i bilder basert på målskaleringsalgoritmen og skjule dem i subtile mønstre. AI-ens bildeforbehandling avslører dem deretter til slutt.

Når meldingen vises, kan modellen aktiver integrasjoner som Zapier (eller tjenester som ligner på IFTTT) og kjedehandlingerdatainnsamling, sending av e-post eller tilkoblinger til tredjepartstjenester, alt innenfor en tilsynelatende normal flyt.

Kort sagt, dette er ikke en isolert feil hos en leverandør, men snarere en strukturell svakhet i håndtering av skalerte bilder innenfor multimodale rørledninger som kombinerer tekst, visjon og verktøy.

Avbøtende tiltak og god praksis

synthID

Forskere anbefaler unngå nedskalering når det er mulig og i stedet, begrense lastdimensjonerNår skalering er nødvendig, anbefales det å innlemme en forhåndsvisning av hva modellen faktisk vil se, også i CLI-verktøy og i API-et, og bruk deteksjonsverktøy som Google SynthID.

På designnivå er det mest solide forsvaret gjennom sikkerhetsmønstre og systematiske kontroller mot meldingsinjeksjon: intet innhold innebygd i et bilde skal kunne starte Kall til sensitive verktøy uten eksplisitt bekreftelse av brukeren.

Eksklusivt innhold - Klikk her  Hvordan unngå utleiesvindel

På det operative nivået er det fornuftig Unngå å laste opp bilder av ukjent opprinnelse til Gemini og gjennomgå nøye tillatelsene som er gitt til assistenten eller appene (tilgang til e-post, kalender, automatiseringer osv.). Disse barrierene reduserer den potensielle effekten betydelig.

For tekniske team er det verdt å revidere multimodal forbehandling, herde handlingssandkassen og registrer/varsler om avvikende mønstre verktøyaktivering etter analyse av bilder. Dette utfyller forsvar på produktnivå.

Alt tyder på at vi står overfor en annen variant av rask injeksjon Brukes på visuelle kanaler. Med forebyggende tiltak, verifisering av inndata og obligatoriske bekreftelser, reduseres utnyttelsesmarginen og risikoen begrenses for brukere og bedrifter.

Forskningen fokuserer på en blindsone i multimodale modeller: Bildeskalering kan bli en angrepsvektor Hvis dette ikke er avmerket, kan det å forstå hvordan inndata forhåndsbehandles, begrense tillatelser og kreve bekreftelser før kritiske handlinger utgjøre forskjellen mellom et rent øyeblikksbilde og en inngangsport til dataene dine.

Utvidelser oppdager bilder generert av AI-0
Relatert artikkel:
Slik oppdager du om et bilde ble laget av kunstig intelligens: verktøy, utvidelser og triks for å unngå å falle i fellen