- การโจมตีจะซ่อนการแจ้งเตือนแบบมัลติโมดัลที่มองไม่เห็นในรูปภาพ ซึ่งเมื่อปรับขนาดบน Gemini แล้ว จะดำเนินการโดยไม่มีการเตือนล่วงหน้า
- เวกเตอร์ใช้ประโยชน์จากการประมวลผลภาพล่วงหน้า (224x224/512x512) และเรียกใช้เครื่องมือเช่น Zapier เพื่อดึงข้อมูลออก
- อัลกอริทึมเพื่อนบ้านที่ใกล้ที่สุด บิลิเนียร์ และไบคิวบิกมีความเสี่ยง เครื่องมือ Anamorpher ช่วยให้สามารถฉีดเข้าไปได้
- ผู้เชี่ยวชาญแนะนำให้หลีกเลี่ยงการลดขนาด การดูตัวอย่างอินพุต และการขอการยืนยันก่อนดำเนินการที่ละเอียดอ่อน

กลุ่มนักวิจัยได้บันทึกวิธีการบุกรุกที่สามารถทำได้ ขโมยข้อมูลส่วนบุคคลโดยการใส่คำสั่งที่ซ่อนอยู่ลงในรูปภาพเมื่อไฟล์เหล่านั้นถูกอัพโหลดไปยังระบบมัลติโหมดเช่น Gemini การประมวลผลล่วงหน้าอัตโนมัติจะเปิดใช้งานคำสั่ง และ AI จะปฏิบัติตามราวกับว่าคำสั่งนั้นถูกต้อง
การค้นพบดังกล่าวซึ่งรายงานโดย The Trail of Bits ส่งผลกระทบต่อสภาพแวดล้อมการผลิต เช่น Gemini CLI, Vertex AI Studio, Gemini API, Google Assistant หรือ GensparkGoogle ยอมรับว่านี่เป็นความท้าทายที่สำคัญสำหรับอุตสาหกรรม โดยยังไม่มีหลักฐานการใช้ประโยชน์ในสภาพแวดล้อมจริง ช่องโหว่นี้ได้รับการรายงานเป็นการส่วนตัวผ่านโปรแกรม 0Din ของ Mozilla
การโจมตีโดยการปรับขนาดภาพทำงานอย่างไร

กุญแจสำคัญอยู่ที่ขั้นตอนก่อนการวิเคราะห์: กระบวนการ AI จำนวนมาก ปรับขนาดภาพให้เป็นความละเอียดมาตรฐานโดยอัตโนมัติ (224×224 หรือ 512×512)ในทางปฏิบัติ โมเดลจะไม่เห็นไฟล์ต้นฉบับ แต่จะเห็นเวอร์ชันที่ลดขนาดลง และนั่นคือจุดที่เนื้อหาที่เป็นอันตรายถูกเปิดเผย
ผู้โจมตีแทรก คำเตือนแบบหลายโหมดที่พรางตัวด้วยลายน้ำที่มองไม่เห็นมักอยู่ในบริเวณที่มืดของภาพถ่าย เมื่ออัลกอริทึมการอัปสเกลทำงาน รูปแบบเหล่านี้จะปรากฏขึ้นและโมเดลจะตีความว่าเป็นคำสั่งที่ถูกต้อง ซึ่งอาจนำไปสู่การดำเนินการที่ไม่พึงประสงค์
ในการทดสอบแบบควบคุม นักวิจัยสามารถจัดการได้ ดึงข้อมูลจาก Google Calendar และส่งไปยังอีเมลภายนอก โดยไม่ต้องมีการยืนยันจากผู้ใช้ นอกจากนี้ เทคนิคเหล่านี้ยังเชื่อมโยงกับกลุ่มของ การโจมตีด้วยการฉีดอย่างรวดเร็ว ได้รับการสาธิตแล้วในเครื่องมือตัวแทน (เช่น Claude Code หรือ OpenAI Codex) ซึ่งสามารถ ขโมยข้อมูลหรือกระตุ้นการดำเนินการอัตโนมัติ การใช้ประโยชน์จากกระแสที่ไม่ปลอดภัย
เวกเตอร์การกระจายมีความกว้าง: รูปภาพบนเว็บไซต์ มีมที่แชร์บน WhatsApp หรือ แคมเปญฟิชชิ่ง ได้ เปิดใช้งานการแจ้งเตือนเมื่อขอให้ AI ประมวลผลเนื้อหาสิ่งสำคัญคือต้องเน้นย้ำว่าการโจมตีจะเกิดขึ้นเมื่อ AI pipeline ดำเนินการปรับขนาดก่อนการวิเคราะห์ การดูภาพโดยไม่ผ่านขั้นตอนนั้นจะไม่ทำให้เกิดการโจมตี
ดังนั้น ความเสี่ยงจึงกระจุกตัวอยู่ในกระแสที่ AI สามารถเข้าถึงเครื่องมือที่เชื่อมต่อได้ (เช่น ส่งอีเมล ตรวจสอบปฏิทิน หรือใช้ API): หากไม่มีการป้องกัน ระบบจะดำเนินการโดยไม่ต้องมีการแทรกแซงจากผู้ใช้
อัลกอริทึมและเครื่องมือที่มีความเสี่ยงที่เกี่ยวข้อง

การโจมตีใช้ประโยชน์จากอัลกอริทึมบางอย่าง บีบอัดข้อมูลความละเอียดสูงให้เหลือพิกเซลน้อยลง เมื่อลดขนาด: การสอดแทรกแบบเพื่อนบ้านที่ใกล้ที่สุด การสอดแทรกแบบบิลิเนียร์ และการสอดแทรกแบบไบคิวบิก แต่ละวิธีจำเป็นต้องใช้เทคนิคการฝังที่แตกต่างกันเพื่อให้ข้อความสามารถคงอยู่ได้แม้จะปรับขนาดแล้ว
เพื่อฝังคำแนะนำเหล่านี้ได้ใช้เครื่องมือโอเพนซอร์ส อะนามอร์เฟอร์ออกแบบมาเพื่อแทรกคำกระตุ้นลงในภาพตามอัลกอริทึมการปรับขนาดเป้าหมาย และซ่อนคำกระตุ้นเหล่านั้นในรูปแบบที่ซับซ้อน จากนั้นการประมวลผลภาพเบื้องต้นของ AI จะเปิดเผยคำกระตุ้นเหล่านั้นในที่สุด
เมื่อเปิดเผยคำเตือนแล้ว โมเดลสามารถ เปิดใช้งานการรวมระบบเช่น Zapier (หรือบริการที่คล้ายกับ IFTTT) และการกระทำแบบลูกโซ่: การรวบรวมข้อมูล การส่งอีเมลหรือการเชื่อมต่อกับบริการของบุคคลที่สาม ทั้งหมดอยู่ในกระแสที่ดูเหมือนปกติ.
โดยสรุป นี่ไม่ใช่ความล้มเหลวที่แยกจากกันของซัพพลายเออร์ แต่เป็น จุดอ่อนเชิงโครงสร้างในการจัดการภาพปรับขนาด ภายในท่อส่งหลายโหมดที่รวมข้อความ วิสัยทัศน์ และเครื่องมือ.
มาตรการบรรเทาผลกระทบและแนวทางปฏิบัติที่ดี

นักวิจัยแนะนำ หลีกเลี่ยงการลดขนาดเมื่อใดก็ตามที่เป็นไปได้ และแทนที่ ขนาดโหลดจำกัดเมื่อจำเป็นต้องปรับขนาด ขอแนะนำให้รวม ตัวอย่างสิ่งที่โมเดลจะเห็นจริงรวมถึงในเครื่องมือ CLI และใน API และใช้เครื่องมือตรวจจับ เช่น Google SynthID.
ในระดับการออกแบบ การป้องกันที่แข็งแกร่งที่สุดคือผ่าน รูปแบบความปลอดภัยและการควบคุมอย่างเป็นระบบ ต่อต้านการแทรกข้อความ: ไม่ควรมีเนื้อหาใด ๆ ที่ฝังอยู่ในภาพที่สามารถเริ่มต้นได้ การโทรไปยังเครื่องมือที่ละเอียดอ่อนโดยไม่มีการยืนยันที่ชัดเจน ผู้ใช้
ในระดับปฏิบัติการก็มีความรอบคอบ หลีกเลี่ยงการอัพโหลดรูปภาพที่ไม่ทราบแหล่งที่มาไปยัง Gemini และตรวจสอบสิทธิ์ที่มอบให้กับผู้ช่วยหรือแอปอย่างละเอียด (เช่น การเข้าถึงอีเมล ปฏิทิน ระบบอัตโนมัติ ฯลฯ) อุปสรรคเหล่านี้จะช่วยลดผลกระทบที่อาจเกิดขึ้นได้อย่างมาก
สำหรับทีมเทคนิค การตรวจสอบการประมวลผลล่วงหน้าแบบหลายโหมด การทำให้แซนด์บ็อกซ์การดำเนินการแข็งแกร่งขึ้น และ บันทึก/แจ้งเตือนเกี่ยวกับรูปแบบที่ผิดปกติ การเปิดใช้งานเครื่องมือหลังจากวิเคราะห์ภาพ ซึ่งจะช่วยเสริมการป้องกันระดับผลิตภัณฑ์
ทุกสิ่งทุกอย่างชี้ให้เห็นถึงความจริงที่ว่าเรากำลังเผชิญอยู่ การฉีดแบบรวดเร็วอีกรูปแบบหนึ่ง นำไปใช้กับช่องทางภาพ ด้วยมาตรการป้องกัน การตรวจสอบข้อมูลนำเข้า และการยืนยันแบบบังคับ ขอบเขตการใช้ประโยชน์จึงแคบลง และความเสี่ยงสำหรับผู้ใช้และธุรกิจก็ถูกจำกัด
การวิจัยมุ่งเน้นไปที่จุดบอดในโมเดลหลายโหมด: การปรับขนาดภาพอาจกลายเป็นเวกเตอร์โจมตีได้ หากไม่ได้รับการตรวจสอบ การทำความเข้าใจวิธีการประมวลผลอินพุตล่วงหน้า การจำกัดสิทธิ์ และการเรียกร้องการยืนยันก่อนดำเนินการที่สำคัญ อาจสร้างความแตกต่างระหว่างสแนปช็อตธรรมดาและเกตเวย์ไปยังข้อมูลของคุณได้
ฉันเป็นผู้ชื่นชอบเทคโนโลยีที่เปลี่ยนความสนใจ "เกินบรรยาย" ของเขาให้กลายเป็นอาชีพ ฉันใช้เวลามากกว่า 10 ปีในชีวิตไปกับเทคโนโลยีล้ำสมัยและปรับแต่งโปรแกรมทุกประเภทด้วยความอยากรู้อยากเห็น ตอนนี้ฉันมีความเชี่ยวชาญในด้านเทคโนโลยีคอมพิวเตอร์และวิดีโอเกม เนื่องจากเป็นเวลากว่า 5 ปีแล้วที่ฉันเขียนให้กับเว็บไซต์ต่างๆ เกี่ยวกับเทคโนโลยีและวิดีโอเกม โดยสร้างบทความที่พยายามให้ข้อมูลที่คุณต้องการในภาษาที่ทุกคนเข้าใจได้
หากคุณมีคำถามใดๆ ความรู้ของฉันมีตั้งแต่ทุกอย่างที่เกี่ยวข้องกับระบบปฏิบัติการ Windows รวมถึง Android สำหรับโทรศัพท์มือถือ และความมุ่งมั่นของฉันคือคุณ ฉันยินดีสละเวลาสักครู่เสมอและช่วยคุณแก้ไขคำถามใดๆ ที่คุณอาจมีในโลกอินเทอร์เน็ตนี้