- En Attack verstoppt onsichtbar multimodal Uweisungen a Biller, déi, wa se op Gemini skaléiert ginn, ouni Warnung ausgefouert ginn.
- De Vektor notzt d'Virveraarbechtung vum Bild (224x224/512x512) an ausléist Tools wéi Zapier fir Daten ze extrahéieren.
- Déi "nearest neighbor", "bilinear" a "bikubic" Algorithmen si vulnérabel; den Anamorpher Tool erlaabt et, se injizéiert ze ginn.
- Experten roden, d'Verskaléierung, d'Virschau vun Inputen an d'Ufro vun enger Bestätegung virun der Ausféierung vun sensiblen Aktiounen ze vermeiden.

Eng Grupp vu Fuerscher huet eng Intrusiounsmethod dokumentéiert, déi fäeg ass perséinlech Donnéeën klauen andeems verstoppte Instruktiounen a Biller agebruecht ginnWann dës Dateien op multimodal Systemer wéi Gemini eropgeluede ginn, aktivéiert déi automatesch Virveraarbechtung d'Befehle, an d'KI verfollegt se, wéi wann se gëlteg wieren.
D'Entdeckung, déi vun The Trail of Bits gemellt gouf, beaflosst d'Produktiounsëmfeld. wéi zum Beispill Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant oder GensparkGoogle huet zouginn, datt dëst eng bedeitend Erausfuerderung fir d'Industrie ass, ouni bis elo Beweiser fir Ausbeutung a realen Ëmfeld. D'Schwachstelle gouf privat iwwer de Mozilla 0Din Programm gemellt.
Wéi den Image Scaling Attack funktionéiert

De Schlëssel läit am Viranalyseschritt: vill KI-Pipelines Biller automatesch op Standardopléisungen upassen (224×224 oder 512×512)An der Praxis gesäit de Modell net déi original Datei, mä éischter eng verklengert Versioun, an do gëtt de béiswëllegen Inhalt opgedeckt.
Attacker asetzen Multimodal Ufroen, déi duerch onsichtbar Waasserzeechen getarnt sinn, dacks an donkelen Deeler vun der Foto. Wann d'Upskaléierungsalgorithmen lafen, entstinn dës Musteren an de Modell interpretéiert se als legitim Instruktiounen, wat zu ongewollten Aktiounen féiere kann.
A kontrolléierten Tester konnten d'Fuerscher et fäerdeg bréngen, Daten aus dem Google Kalenner extrahéieren an un eng extern E-Mail schécken ouni Benotzerbestätegung. Zousätzlech verlinken dës Techniken op d'Famill vun séier Injektiounsattacken scho an Agentur-Tools (wéi Claude Code oder OpenAI Codex) demonstréiert, fäeg Informatiounen extrahéieren oder Automatiséierungsaktiounen ausléisen onsécher Flëss ausnotzen.
De Verdeelungsvektor ass breet: e Bild op enger Websäit, e Meme deen op WhatsApp gedeelt gëtt oder e Phishing-Kampagne kéint Aktivéiert d'Ufro wann Dir d'KI freet den Inhalt ze veraarbechtenEt ass wichteg ze betounen, datt den Ugrëff materialiséiert gëtt, wann d'KI-Pipeline d'Skaléierung virun der Analyse duerchféiert; d'Bild ze kucken ouni dëse Schrëtt ze maachen, gëtt net ausgeléist.
Dofir ass de Risiko konzentréiert a Flëss, wou KI Zougang zu vernetzten Tools huet (z.B. E-Maile schécken, Kalenneren iwwerpréiwen oder APIen benotzen): Wa keng Sécherheetsmoossnamen do sinn, ginn se ouni Benotzerinterventioun ausgefouert.
Verletzlech Algorithmen an Tools, déi involvéiert sinn

Den Ugrëff notzt aus, wéi bestëmmt Algorithmen héichopléisend Informatioun a manner Pixel kompriméieren beim Downsizing: Nearest Neighbor Interpolation, bilinear Interpolation a bikubesch Interpolation. All eenzel erfuerdert eng aner Embedding-Technik, fir datt d'Noriicht d'Gréisstännerung iwwerlieft.
Fir dës Instruktiounen anzebannen, gouf en Open-Source-Tool benotzt. Anamorph, entwéckelt fir Uweisungen an Biller ze sprëtzen, baséiert op dem Zil-Skalierungsalgorithmus, a se a subtile Mustere ze verstoppen. D'Bildvirveraarbechtung vun der KI weist se dann schlussendlech op.
Soubal d'Ufro opgedeckt ass, kann de Modell Integratiounen wéi Zapier aktivéieren (oder Servicer ähnlech wéi IFTTT) an KettenaktiounenDatenerfassung, E-Maile schécken oder Verbindungen mat Drëttubidder-Servicer maachen, alles an engem scheinbar normalen Flux.
Kuerz gesot, dëst ass keen isoléierte Feeler vun engem Liwwerant, mee éischter en strukturell Schwächt beim Ëmgang mat skaléierte Biller bannent multimodale Pipelines, déi Text, Visioun an Tools kombinéieren.
Mitigatiounsmoossnamen a gutt Praktiken

Fuerscher recommandéieren Vermeit Downscaling wann ëmmer méiglech an amplaz, Dimensiounen vun der Belaaschtung limitéierenWann Skalierung néideg ass, ass et ubruecht, eng anzebannen Virschau vun deem, wat de Modell tatsächlech gesäit, och an CLI-Tools an an der API, a benotzen Detektiounstools wéi z.B. Google SynthID.
Op Designniveau ass déi solidest Verteidegung duerch Sécherheetsmuster a systematesch Kontrollen géint Message-Injektioun: keen Inhalt, deen an engem Bild agebett ass, däerf fäeg sinn, eng Message-Injektioun ze starten Opruff un sensibel Tools ouni explizit Bestätegung Benotzer.
Op operationellem Niveau ass et virsiichteg Vermeit et, Biller vun onbekannter Hierkonft op Gemini eropzelueden a kontrolléiert virsiichteg d'Rechter, déi dem Assistent oder den Apps zougestane goufen (Zougang zu E-Mail, Kalenner, Automatisatiounen, etc.). Dës Barrièren reduzéieren de potenziellen Impakt däitlech.
Fir technesch Équipen ass et derwäert, multimodal Virveraarbechtung ze iwwerpréiwen, d'Aktiouns-Sandbox ze verhärten, an Opzeechnung/Alarm bei anormalen Musteren Toolaktivéierung no der Analyse vu Biller. Dëst ergänzt d'Verteidegung op Produktniveau.
Alles weist drop hin, datt mir virun der Tatsaach stinn, eng aner Variant vun der schneller Injektioun Ugewandt op visuell Kanäl. Mat präventiven Moossnamen, Inputverifizéierung a obligatoresche Bestätegungen gëtt d'Ausnotzungsmarge verklengert an de Risiko fir Benotzer a Geschäfter limitéiert.
D'Fuerschung konzentréiert sech op e blanne Fleck a multimodalen Modeller: Bildskaléierung kann zu engem Attackvektor ginn Wann net iwwerpréift gëtt, kann d'Verständnis, wéi d'Input virveraarbecht gëtt, d'Limitéierung vun den Zougangsrechter an d'Fuerderung vu Bestätegungen virun kriteschen Aktiounen den Ënnerscheed tëscht engem einfache Snapshot an dem Gateway zu Ären Donnéeën ausmaachen.
Ech sinn en Technologie-Enthusiast, deen seng "Geek" Interesse an e Beruff ëmgewandelt huet. Ech hu méi wéi 10 Joer vu mengem Liewen verbruecht mat modernste Technologie a mat all Zorte vu Programmer aus purer Virwëtzegkeet ze manipuléieren. Elo hunn ech op Computertechnologie a Videospiller spezialiséiert. Dëst ass well ech zënter méi wéi 5 Joer fir verschidde Websäiten iwwer Technologie a Videospiller geschriwwen hunn, Artikelen erstallt déi probéieren Iech d'Informatioun ze ginn déi Dir braucht an enger Sprooch déi jidderee verständlech ass.
Wann Dir Froen hutt, da läit mäi Wëssen vun allem wat mam Windows Betriebssystem verbonnen ass, souwéi Android fir Handyen. A mäi Engagement ass fir Iech, ech sinn ëmmer bereet e puer Minutten ze verbréngen an Iech ze hëllefen all Froen ze léisen déi Dir an dëser Internetwelt hutt.