- Un attacco nasconde prompt multimodali invisibili nelle immagini che, se ridimensionate su Gemini, vengono eseguite senza preavviso.
- Il vettore sfrutta la preelaborazione delle immagini (224x224/512x512) e attiva strumenti come Zapier per estrarre i dati.
- Gli algoritmi del vicino più prossimo, bilineare e bicubico sono vulnerabili; lo strumento Anamorpher consente di iniettarli.
- Gli esperti consigliano di evitare di ridurre le dimensioni, di visualizzare in anteprima l'input e di richiedere conferma prima di eseguire azioni sensibili.

Un gruppo di ricercatori ha documentato un metodo di intrusione in grado di rubare dati personali inserendo istruzioni nascoste nelle immaginiQuando questi file vengono caricati su sistemi multimodali come Gemini, la pre-elaborazione automatica attiva i comandi e l'IA li esegue come se fossero validi.
La scoperta, riportata da The Trail of Bits, ha ripercussioni sugli ambienti di produzione. come Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant o GensparkGoogle ha riconosciuto che si tratta di una sfida significativa per il settore, senza finora alcuna prova di sfruttamento in ambienti reali. La vulnerabilità è stata segnalata privatamente tramite il programma 0Din di Mozilla.
Come funziona l'attacco di ridimensionamento delle immagini

La chiave sta nella fase di pre-analisi: molte pipeline di intelligenza artificiale Ridimensiona automaticamente le immagini alle risoluzioni standard (224×224 o 512×512)In pratica, il modello non vede il file originale, ma piuttosto una versione ridotta, ed è lì che viene rivelato il contenuto dannoso.
Gli aggressori inseriscono Prompt multimodali camuffati da filigrane invisibili, spesso nelle aree scure della foto. Quando gli algoritmi di upscaling vengono eseguiti, questi schemi emergono e il modello li interpreta come istruzioni legittime, il che può portare ad azioni indesiderate.
Nei test controllati, i ricercatori sono riusciti a Estrai i dati da Google Calendar e inviali a un'email esterna senza la conferma dell'utente. Inoltre, queste tecniche si collegano alla famiglia di attacchi di iniezione rapida già dimostrato in strumenti agentici (come Claude Code o OpenAI Codex), capaci di esfiltrare informazioni o attivare azioni di automazione sfruttando flussi non sicuri.
Il vettore di distribuzione è ampio: un'immagine su un sito web, un meme condiviso su WhatsApp o un campagna di phishing poteva Attiva il prompt quando chiedi all'IA di elaborare il contenutoÈ importante sottolineare che l'attacco si materializza quando la pipeline dell'IA esegue il ridimensionamento prima dell'analisi; visualizzare l'immagine senza passare attraverso quel passaggio non lo attiva.
Pertanto, il rischio è concentrato nei flussi in cui l'IA ha accesso a strumenti connessi (ad esempio, inviare e-mail, controllare calendari o utilizzare API): Se non ci sono misure di sicurezza, verranno eseguite senza l'intervento dell'utente.
Algoritmi e strumenti vulnerabili coinvolti

L'attacco sfrutta il modo in cui alcuni algoritmi comprimere le informazioni ad alta risoluzione in meno pixel in caso di ridimensionamento: interpolazione del vicino più prossimo, interpolazione bilineare e interpolazione bicubica. Ognuna richiede una tecnica di incorporamento diversa affinché il messaggio sopravviva al ridimensionamento.
Per incorporare queste istruzioni è stato utilizzato lo strumento open source Anamorfico, progettato per iniettare prompt nelle immagini in base all'algoritmo di ridimensionamento del target e nasconderli in schemi sottili. La pre-elaborazione delle immagini da parte dell'IA alla fine li rivela.
Una volta che il prompt è rivelato, il modello può attiva integrazioni come Zapier (o servizi simili a IFTTT) e azioni a catena: raccolta dati, invio di e-mail o connessioni a servizi di terze parti, tutto all'interno di un flusso apparentemente normale.
In breve, non si tratta di un fallimento isolato di un fornitore, ma piuttosto di un debolezza strutturale nella gestione delle immagini in scala all'interno di pipeline multimodali che combinano testo, visione e strumenti.
Misure di mitigazione e buone pratiche

I ricercatori raccomandano evitare il downscaling quando possibile e invece, dimensioni limite del caricoQuando è necessario il ridimensionamento, è consigliabile incorporare un anteprima di ciò che il modello vedrà effettivamente, anche negli strumenti CLI e nell'API, e utilizzare strumenti di rilevamento come Google SynthID.
A livello di progettazione, la difesa più solida è attraverso modelli di sicurezza e controlli sistematici contro l'iniezione di messaggi: nessun contenuto incorporato in un'immagine dovrebbe essere in grado di avviare Chiamate a strumenti sensibili senza conferma esplicita utente.
A livello operativo è prudente Evita di caricare immagini di origine sconosciuta su Gemini e rivedere attentamente le autorizzazioni concesse all'assistente o alle app (accesso a e-mail, calendario, automazioni, ecc.). Queste barriere riducono significativamente il potenziale impatto.
Per i team tecnici, vale la pena di verificare la pre-elaborazione multimodale, rafforzare la sandbox di azione e registrare/avvisare su modelli anomali attivazione dello strumento dopo l'analisi delle immagini. Questo integra la difesa a livello di prodotto.
Tutto indica che ci troviamo di fronte un'altra variante di iniezione rapida Applicato ai canali visivi. Con misure preventive, verifica degli input e conferme obbligatorie, il margine di sfruttamento si riduce e il rischio è limitato per utenti e aziende.
La ricerca si concentra su un punto cieco nei modelli multimodali: Il ridimensionamento delle immagini può diventare un vettore di attacco Se non si seleziona questa opzione, comprendere come viene preelaborato l'input, limitare le autorizzazioni e richiedere conferme prima di eseguire azioni critiche può fare la differenza tra una semplice istantanea e il gateway per i dati.
Sono un appassionato di tecnologia che ha trasformato i suoi interessi "geek" in una professione. Ho trascorso più di 10 anni della mia vita utilizzando tecnologie all'avanguardia e armeggiando con tutti i tipi di programmi per pura curiosità. Ora mi sono specializzato in informatica e videogiochi. Questo perché da più di 5 anni scrivo per vari siti web di tecnologia e videogiochi, creando articoli che cercano di darti le informazioni di cui hai bisogno in un linguaggio comprensibile a tutti.
In caso di domande, le mie conoscenze spaziano da tutto ciò che riguarda il sistema operativo Windows e Android per telefoni cellulari. E il mio impegno è nei tuoi confronti, sono sempre disposto a dedicare qualche minuto e aiutarti a risolvere qualsiasi domanda tu possa avere in questo mondo di Internet.