- Serangan menyembunyikan gesaan multimodal yang tidak kelihatan dalam imej yang, apabila diskalakan pada Gemini, dilaksanakan tanpa amaran.
- Vektor memanfaatkan prapemprosesan imej (224x224/512x512) dan mencetuskan alatan seperti Zapier untuk mengeksfiltrasi data.
- Algoritma jiran terdekat, bilinear dan bikubik adalah terdedah; alat Anamorpher membolehkan mereka disuntik.
- Pakar menasihatkan untuk mengelakkan pengecilan, pratonton input dan memerlukan pengesahan sebelum melakukan tindakan sensitif.

Sekumpulan penyelidik telah mendokumentasikan kaedah pencerobohan yang mampu mencuri data peribadi dengan menyuntik arahan tersembunyi ke dalam imejApabila fail tersebut dimuat naik ke sistem multimodal seperti Gemini, prapemprosesan automatik mengaktifkan arahan, dan AI mengikutinya seolah-olah ia sah.
Penemuan itu, yang dilaporkan oleh The Trail of Bits, menjejaskan persekitaran pengeluaran. seperti Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant atau GensparkGoogle telah mengakui bahawa ini adalah cabaran yang penting untuk industri, tanpa bukti eksploitasi dalam persekitaran dunia sebenar setakat ini. Kerentanan itu dilaporkan secara peribadi melalui program 0Din Mozilla.
Cara serangan penskalaan imej berfungsi

Kuncinya adalah dalam langkah pra-analisis: banyak saluran paip AI Saiz semula imej secara automatik kepada resolusi standard (224×224 atau 512×512)Dalam amalan, model itu tidak melihat fail asal, sebaliknya versi yang diperkecilkan, dan di situlah kandungan berniat jahat didedahkan.
Penyerang memasukkan Gesaan multimodal disamarkan oleh tera air yang tidak kelihatan, selalunya di kawasan gelap pada foto. Apabila algoritma peningkatan berjalan, corak ini muncul dan model mentafsirkannya sebagai arahan yang sah, yang boleh membawa kepada tindakan yang tidak diingini.
Dalam ujian terkawal, penyelidik berjaya Ekstrak data daripada Kalendar Google dan hantarkannya ke e-mel luaran tanpa pengesahan pengguna. Di samping itu, teknik ini dikaitkan dengan keluarga serangan suntikan pantas sudah ditunjukkan dalam alat agenik (seperti Claude Code atau OpenAI Codex), mampu memerah maklumat atau mencetuskan tindakan automasi mengeksploitasi aliran tidak selamat.
Vektor pengedaran adalah luas: imej di tapak web, meme yang dikongsi di WhatsApp atau a kempen pancingan data boleh Aktifkan gesaan apabila meminta AI memproses kandunganAdalah penting untuk menekankan bahawa serangan itu menjadi kenyataan apabila saluran paip AI melakukan penskalaan sebelum analisis; melihat imej tanpa melalui langkah itu tidak mencetuskannya.
Oleh itu, risiko tertumpu pada aliran di mana AI mempunyai akses kepada alat yang disambungkan (cth., hantar e-mel, semak kalendar atau gunakan API): Jika tiada perlindungan, ia akan melaksanakannya tanpa campur tangan pengguna.
Algoritma dan alat terdedah yang terlibat

Serangan mengeksploitasi bagaimana algoritma tertentu memampatkan maklumat resolusi tinggi kepada piksel yang lebih sedikit apabila mengecilkan: interpolasi jiran terdekat, interpolasi bilinear dan interpolasi bikubik. Masing-masing memerlukan teknik pembenaman yang berbeza untuk mesej bertahan dalam saiz semula.
Untuk membenamkan arahan ini, alat sumber terbuka telah digunakan Anamorpher, direka untuk menyuntik gesaan ke dalam imej berdasarkan algoritma penskalaan sasaran dan menyembunyikannya dalam corak halus. Prapemprosesan imej AI kemudian akhirnya mendedahkannya.
Setelah gesaan didedahkan, model boleh aktifkan integrasi seperti Zapier (atau perkhidmatan yang serupa dengan IFTTT) dan tindakan berantai: pengumpulan data, menghantar e-mel atau sambungan kepada perkhidmatan pihak ketiga, semuanya dalam aliran yang kelihatan normal.
Ringkasnya, ini bukan kegagalan terpencil pembekal, sebaliknya a kelemahan struktur dalam mengendalikan imej berskala dalam saluran paip multimodal yang menggabungkan teks, penglihatan dan alatan.
Langkah-langkah mitigasi dan amalan baik

Penyelidik mengesyorkan elakkan pengurangan skala apabila boleh dan sebaliknya, hadkan dimensi beban. Apabila penskalaan perlu, adalah dinasihatkan untuk memasukkan a pratonton perkara yang sebenarnya akan dilihat oleh model, juga dalam alat CLI dan dalam API, dan gunakan alat pengesanan seperti Google SynthID.
Pada peringkat reka bentuk, pertahanan yang paling kukuh adalah melalui corak keselamatan dan kawalan sistematik terhadap suntikan mesej: tiada kandungan yang dibenamkan dalam imej boleh dimulakan Panggilan ke alat sensitif tanpa pengesahan yang jelas pengguna.
Di peringkat operasi, ia adalah berhemat Elakkan memuat naik imej yang tidak diketahui asalnya kepada Gemini dan semak dengan teliti kebenaran yang diberikan kepada pembantu atau apl (akses kepada e-mel, kalendar, automasi, dsb.). Halangan ini mengurangkan potensi kesan dengan ketara.
Untuk pasukan teknikal, adalah wajar mengaudit prapemprosesan pelbagai mod, mengeraskan kotak pasir tindakan, dan rekod/makluman tentang corak anomali pengaktifan alat selepas menganalisis imej. Ini melengkapkan pertahanan peringkat produk.
Semuanya menunjukkan hakikat yang kita hadapi satu lagi varian suntikan pantas Digunakan pada saluran visual. Dengan langkah pencegahan, pengesahan input dan pengesahan mandatori, margin eksploitasi dikecilkan dan risikonya terhad untuk pengguna dan perniagaan.
Penyelidikan memfokuskan pada titik buta dalam model multimodal: Penskalaan imej boleh menjadi vektor serangan Jika dibiarkan, memahami cara input dipraproses, mengehadkan kebenaran dan memerlukan pengesahan sebelum tindakan kritikal boleh membuat perbezaan antara syot kilat semata-mata dan pintu masuk ke data anda.
Saya seorang peminat teknologi yang telah menjadikan minat "geek"nya sebagai satu profesion. Saya telah menghabiskan lebih daripada 10 tahun hidup saya menggunakan teknologi canggih dan bermain-main dengan semua jenis program kerana rasa ingin tahu yang tulen. Sekarang saya mempunyai pakar dalam teknologi komputer dan permainan video. Ini kerana selama lebih daripada 5 tahun saya telah menulis untuk pelbagai laman web mengenai teknologi dan permainan video, mencipta artikel yang bertujuan untuk memberi anda maklumat yang anda perlukan dalam bahasa yang boleh difahami oleh semua orang.
Jika anda mempunyai sebarang soalan, pengetahuan saya merangkumi semua perkara yang berkaitan dengan sistem pengendalian Windows serta Android untuk telefon mudah alih. Dan komitmen saya adalah kepada anda, saya sentiasa bersedia untuk meluangkan masa beberapa minit dan membantu anda menyelesaikan sebarang soalan yang mungkin anda ada dalam dunia internet ini.