- Serangan menyembunyikan perintah multimoda tak terlihat dalam gambar yang, saat diskalakan di Gemini, dijalankan tanpa peringatan.
- Vektor memanfaatkan praproses gambar (224x224/512x512) dan memicu alat seperti Zapier untuk mengekstrak data.
- Algoritma tetangga terdekat, bilinear, dan bikubik rentan; alat Anamorpher memungkinkan mereka untuk disuntikkan.
- Para ahli menyarankan untuk menghindari pengurangan skala, pratinjau masukan, dan memerlukan konfirmasi sebelum melakukan tindakan sensitif.

Sekelompok peneliti telah mendokumentasikan metode intrusi yang mampu mencuri data pribadi dengan menyuntikkan instruksi tersembunyi ke dalam gambarKetika berkas-berkas tersebut diunggah ke sistem multimoda seperti Gemini, praproses otomatis mengaktifkan perintah, dan AI mengikutinya seolah-olah perintah tersebut valid.
Penemuan yang dilaporkan oleh The Trail of Bits memengaruhi lingkungan produksi. seperti Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant atau GensparkGoogle telah mengakui bahwa ini merupakan tantangan signifikan bagi industri, tanpa bukti eksploitasi di lingkungan dunia nyata sejauh ini. Kerentanan ini dilaporkan secara pribadi melalui program 0Din milik Mozilla.
Cara kerja serangan penskalaan gambar

Kuncinya ada pada langkah pra-analisis: banyak jalur AI Ubah ukuran gambar secara otomatis ke resolusi standar (224×224 atau 512×512)Dalam praktiknya, model tidak melihat berkas asli, melainkan versi yang diperkecil, dan di situlah konten berbahaya terungkap.
Penyerang memasukkan Prompt multimodal disamarkan oleh tanda air tak terlihat, seringkali di area gelap foto. Ketika algoritma peningkatan skala berjalan, pola-pola ini muncul dan model menafsirkannya sebagai instruksi yang sah, yang dapat menyebabkan tindakan yang tidak diinginkan.
Dalam uji coba terkontrol, para peneliti berhasil Ekstrak data dari Google Kalender dan kirimkan ke email eksternal tanpa konfirmasi pengguna. Selain itu, teknik-teknik ini terhubung ke keluarga serangan injeksi cepat sudah ditunjukkan dalam alat agen (seperti Claude Code atau OpenAI Codex), yang mampu mengekstrak informasi atau memicu tindakan otomatisasi mengeksploitasi aliran yang tidak aman.
Vektor distribusinya luas: gambar di situs web, meme yang dibagikan di WhatsApp atau kampanye phishing bisa Aktifkan prompt saat meminta AI untuk memproses kontenPenting untuk ditegaskan bahwa serangan terjadi saat alur AI melakukan penskalaan sebelum analisis; melihat gambar tanpa melalui langkah itu tidak memicunya.
Oleh karena itu, risikonya terkonsentrasi pada aliran di mana AI memiliki akses ke alat yang terhubung (misalnya, mengirim email, memeriksa kalender, atau menggunakan API): Jika tidak ada pengamanan, ia akan mengeksekusinya tanpa campur tangan pengguna.
Algoritma dan alat yang rentan terlibat

Serangan ini mengeksploitasi bagaimana algoritma tertentu mengompres informasi resolusi tinggi menjadi lebih sedikit piksel Saat melakukan perampingan: interpolasi tetangga terdekat, interpolasi bilinear, dan interpolasi bikubik. Masing-masing memerlukan teknik penyisipan yang berbeda agar pesan dapat bertahan setelah diubah ukurannya.
Untuk menanamkan instruksi ini, alat sumber terbuka telah digunakan Anamorpher, dirancang untuk menyuntikkan perintah ke dalam gambar berdasarkan algoritma penskalaan target dan menyembunyikannya dalam pola-pola halus. Prapemrosesan gambar AI kemudian akhirnya mengungkapnya.
Setelah prompt terungkap, model dapat mengaktifkan integrasi seperti Zapier (atau layanan serupa dengan IFTTT) dan tindakan berantai:pengumpulan data, pengiriman email atau koneksi ke layanan pihak ketiga, semuanya dalam aliran yang tampaknya normal.
Singkatnya, ini bukan kegagalan pemasok yang terisolasi, melainkan kelemahan struktural dalam menangani gambar berskala dalam jaringan multimoda yang menggabungkan teks, visi, dan alat.
Langkah-langkah mitigasi dan praktik baik

Para peneliti merekomendasikan hindari penurunan skala jika memungkinkan dan sebagai gantinya, dimensi beban batas. Ketika penskalaan diperlukan, disarankan untuk memasukkan pratinjau dari apa yang sebenarnya akan dilihat oleh model, juga di alat CLI dan di API, dan menggunakan alat deteksi seperti Google SynthID.
Pada tingkat desain, pertahanan yang paling solid adalah melalui pola keamanan dan kontrol sistematis terhadap injeksi pesan: tidak ada konten yang tertanam dalam gambar yang dapat memulai Panggilan ke alat sensitif tanpa konfirmasi eksplisit pengguna.
Pada tingkat operasional, adalah bijaksana Hindari mengunggah gambar yang tidak diketahui asalnya ke Gemini dan tinjau dengan cermat izin yang diberikan kepada asisten atau aplikasi (akses ke email, kalender, otomatisasi, dll.). Hambatan ini secara signifikan mengurangi potensi dampak.
Bagi tim teknis, ada baiknya melakukan audit praproses multimodal, memperkuat kotak pasir tindakan, dan merekam/memberi peringatan pada pola anomali Aktivasi alat setelah menganalisis gambar. Ini melengkapi pertahanan tingkat produk.
Segala sesuatu menunjukkan fakta bahwa kita sedang menghadapi varian lain dari injeksi cepat Diterapkan pada saluran visual. Dengan langkah-langkah pencegahan, verifikasi input, dan konfirmasi wajib, margin eksploitasi dipersempit dan risiko bagi pengguna dan bisnis pun terbatas.
Penelitian ini berfokus pada titik buta dalam model multimoda: Skala gambar dapat menjadi vektor serangan Jika tidak dicentang, memahami bagaimana masukan diproses terlebih dahulu, membatasi izin, dan mewajibkan konfirmasi sebelum tindakan kritis dapat membuat perbedaan antara sekadar cuplikan dan gerbang menuju data Anda.
Saya seorang penggila teknologi yang telah mengubah minat "geek"-nya menjadi sebuah profesi. Saya telah menghabiskan lebih dari 10 tahun hidup saya menggunakan teknologi mutakhir dan mengutak-atik semua jenis program hanya karena rasa ingin tahu. Sekarang saya memiliki spesialisasi dalam teknologi komputer dan video game. Hal ini karena selama lebih dari 5 tahun saya telah menulis untuk berbagai website tentang teknologi dan video game, membuat artikel yang berupaya memberikan informasi yang Anda butuhkan dalam bahasa yang dapat dimengerti oleh semua orang.
Jika Anda memiliki pertanyaan, pengetahuan saya berkisar dari segala sesuatu yang berhubungan dengan sistem operasi Windows serta Android untuk ponsel. Dan komitmen saya adalah kepada Anda, saya selalu bersedia meluangkan beberapa menit dan membantu Anda menyelesaikan pertanyaan apa pun yang mungkin Anda miliki di dunia internet ini.