- હુમલો છબીઓમાં અદ્રશ્ય મલ્ટિમોડલ પ્રોમ્પ્ટ છુપાવે છે, જે જેમિની પર સ્કેલ કરવામાં આવે ત્યારે ચેતવણી વિના અમલમાં મુકાય છે.
- વેક્ટર ઇમેજ પ્રીપ્રોસેસિંગ (224x224/512x512) નો ઉપયોગ કરે છે અને ડેટા એક્સફિલ્ટ્રેટ કરવા માટે ઝેપિયર જેવા ટૂલ્સને ટ્રિગર કરે છે.
- નજીકના પાડોશી, બાયલિનિયર અને બાયક્યુબિક અલ્ગોરિધમ્સ સંવેદનશીલ છે; એનામોર્ફર ટૂલ તેમને ઇન્જેક્ટ કરવાની મંજૂરી આપે છે.
- નિષ્ણાતો સંવેદનશીલ ક્રિયાઓ કરતા પહેલા સ્કેલિંગ ડાઉન, ઇનપુટનું પૂર્વાવલોકન અને પુષ્ટિકરણની જરૂર ન રાખવાની સલાહ આપે છે.

સંશોધકોના એક જૂથે એક ઘૂસણખોરી પદ્ધતિનું દસ્તાવેજીકરણ કર્યું છે જે સક્ષમ છે છબીઓમાં છુપાયેલા સૂચનો દાખલ કરીને વ્યક્તિગત ડેટા ચોરી કરવોજ્યારે તે ફાઇલોને જેમિની જેવી મલ્ટિમોડલ સિસ્ટમ્સ પર અપલોડ કરવામાં આવે છે, ત્યારે ઓટોમેટિક પ્રીપ્રોસેસિંગ આદેશોને સક્રિય કરે છે, અને AI તેમને માન્ય હોય તેમ અનુસરે છે.
ધ ટ્રેઇલ ઓફ બિટ્સ દ્વારા અહેવાલ કરાયેલ આ શોધ ઉત્પાદન વાતાવરણને અસર કરે છે. જેમ કે જેમિની CLI, વર્ટીક્સ AI સ્ટુડિયો, જેમિની API, ગૂગલ આસિસ્ટન્ટ અથવા ગેન્સપાર્કગૂગલે સ્વીકાર્યું છે કે આ ઉદ્યોગ માટે એક મહત્વપૂર્ણ પડકાર છે, વાસ્તવિક દુનિયાના વાતાવરણમાં શોષણના કોઈ પુરાવા હજુ સુધી મળ્યા નથી. મોઝિલાના 0Din પ્રોગ્રામ દ્વારા આ નબળાઈની ખાનગી રીતે જાણ કરવામાં આવી હતી.
ઇમેજ સ્કેલિંગ હુમલો કેવી રીતે કાર્ય કરે છે

મુખ્ય બાબત વિશ્લેષણ પૂર્વેના પગલામાં છે: ઘણી AI પાઇપલાઇન્સ છબીઓનું કદ આપમેળે માનક રીઝોલ્યુશન (224×224 અથવા 512×512) પર બદલો.વ્યવહારમાં, મોડેલ મૂળ ફાઇલ જોતું નથી, પરંતુ એક નાના સંસ્કરણને જુએ છે, અને તે જ જગ્યાએ દૂષિત સામગ્રી પ્રગટ થાય છે.
હુમલાખોરો દાખલ કરે છે અદ્રશ્ય વોટરમાર્ક્સ દ્વારા છદ્માવરણ કરાયેલ મલ્ટિમોડલ પ્રોમ્પ્ટ, ઘણીવાર ફોટાના અંધારાવાળા વિસ્તારોમાં. જ્યારે અપસ્કેલિંગ અલ્ગોરિધમ્સ ચાલે છે, ત્યારે આ પેટર્ન બહાર આવે છે અને મોડેલ તેમને કાયદેસર સૂચનાઓ તરીકે અર્થઘટન કરે છે, જે અનિચ્છનીય ક્રિયાઓ તરફ દોરી શકે છે.
નિયંત્રિત પરીક્ષણોમાં, સંશોધકો સફળ થયા ગૂગલ કેલેન્ડરમાંથી ડેટા કાઢો અને તેને બાહ્ય ઇમેઇલ પર મોકલો વપરાશકર્તા પુષ્ટિ વિના. વધુમાં, આ તકનીકો પરિવાર સાથે જોડાયેલી છે ઝડપી ઇન્જેક્શન હુમલાઓ એજન્ટિક ટૂલ્સ (જેમ કે ક્લાઉડ કોડ અથવા ઓપનએઆઈ કોડેક્સ) માં પહેલાથી જ દર્શાવવામાં આવ્યું છે, જે સક્ષમ છે માહિતી કાઢી નાખો અથવા ઓટોમેશન ક્રિયાઓ શરૂ કરો અસુરક્ષિત પ્રવાહોનો ઉપયોગ કરવો.
વિતરણ વેક્ટર વિશાળ છે: વેબસાઇટ પરની છબી, વોટ્સએપ પર શેર કરાયેલ મીમ અથવા ફિશિંગ ઝુંબેશ કરી શકે છે AI ને સામગ્રી પર પ્રક્રિયા કરવાનું કહેતી વખતે પ્રોમ્પ્ટ સક્રિય કરોએ વાત પર ભાર મૂકવો મહત્વપૂર્ણ છે કે જ્યારે AI પાઇપલાઇન વિશ્લેષણ પહેલાં સ્કેલિંગ કરે છે ત્યારે હુમલો સાકાર થાય છે; તે પગલામાંથી પસાર થયા વિના છબી જોવાથી તે ટ્રિગર થતું નથી.
તેથી, જોખમ એવા પ્રવાહોમાં કેન્દ્રિત છે જ્યાં AI ને કનેક્ટેડ ટૂલ્સની ઍક્સેસ હોય છે (દા.ત., ઇમેઇલ્સ મોકલો, કેલેન્ડર્સ તપાસો અથવા API નો ઉપયોગ કરો): જો કોઈ સુરક્ષા પગલાં ન હોય, તો તે વપરાશકર્તાના હસ્તક્ષેપ વિના તેમને અમલમાં મૂકશે.
સંવેદનશીલ અલ્ગોરિધમ્સ અને સાધનો સામેલ છે

આ હુમલો ચોક્કસ અલ્ગોરિધમ્સનો ઉપયોગ કરે છે કે કેવી રીતે ઉચ્ચ-રીઝોલ્યુશન માહિતીને ઓછા પિક્સેલ્સમાં સંકુચિત કરો કદ ઘટાડતી વખતે: નજીકના પાડોશી પ્રક્ષેપણ, દ્વિરેખીય પ્રક્ષેપણ અને બાયક્યુબિક પ્રક્ષેપણ. સંદેશને કદ બદલવામાં ટકી રહેવા માટે દરેકને અલગ એમ્બેડિંગ તકનીકની જરૂર પડે છે.
આ સૂચનાઓને એમ્બેડ કરવા માટે ઓપન સોર્સ ટૂલનો ઉપયોગ કરવામાં આવ્યો છે. એનામોર્ફર, જે ટાર્ગેટ સ્કેલિંગ અલ્ગોરિધમના આધારે છબીઓમાં પ્રોમ્પ્ટ દાખલ કરવા અને તેમને સૂક્ષ્મ પેટર્નમાં છુપાવવા માટે રચાયેલ છે. AI ની છબી પ્રીપ્રોસેસિંગ પછી આખરે તેમને જાહેર કરે છે.
એકવાર પ્રોમ્પ્ટ જાહેર થઈ જાય, પછી મોડેલ કરી શકે છે ઝેપિયર જેવા એકીકરણને સક્રિય કરો (અથવા IFTTT જેવી સેવાઓ) અને સાંકળ ક્રિયાઓ: ડેટા સંગ્રહ, ઇમેઇલ મોકલવા અથવા તૃતીય-પક્ષ સેવાઓ સાથે જોડાણો, બધું એક સામાન્ય પ્રવાહની અંદર.
ટૂંકમાં, આ કોઈ સપ્લાયરની એકલ નિષ્ફળતા નથી, પરંતુ એક સ્કેલ કરેલી છબીઓને હેન્ડલ કરવામાં માળખાકીય નબળાઈ ટેક્સ્ટ, વિઝન અને ટૂલ્સને જોડતી મલ્ટિમોડલ પાઇપલાઇન્સમાં.
ઘટાડાના પગલાં અને સારી પ્રથાઓ

સંશોધકો ભલામણ કરે છે શક્ય હોય ત્યારે ડાઉનસ્કેલિંગ ટાળો અને તેના બદલે, લોડ પરિમાણો મર્યાદિત કરો. જ્યારે સ્કેલિંગ જરૂરી હોય, ત્યારે એનો સમાવેશ કરવાની સલાહ આપવામાં આવે છે કે મોડેલ ખરેખર શું જોશે તેનું પૂર્વાવલોકન, CLI ટૂલ્સ અને API માં પણ, અને શોધ ટૂલ્સનો ઉપયોગ કરો જેમ કે ગૂગલ સિન્થઆઈડી.
ડિઝાઇન સ્તરે, સૌથી મજબૂત સંરક્ષણ એ છે કે સુરક્ષા પેટર્ન અને વ્યવસ્થિત નિયંત્રણો સંદેશ ઇન્જેક્શન સામે: છબીમાં એમ્બેડ કરેલી કોઈપણ સામગ્રી શરૂ કરી શકતી નથી સ્પષ્ટ પુષ્ટિ વિના સંવેદનશીલ સાધનો પર કૉલ્સ વપરાશકર્તા.
કાર્યકારી સ્તરે, તે સમજદારીભર્યું છે જેમિની પર અજાણ્યા મૂળના ફોટા અપલોડ કરવાનું ટાળો અને સહાયક અથવા એપ્લિકેશન્સને આપવામાં આવેલી પરવાનગીઓની કાળજીપૂર્વક સમીક્ષા કરો (ઇમેઇલ, કેલેન્ડર, ઓટોમેશન, વગેરેની ઍક્સેસ). આ અવરોધો સંભવિત અસરને નોંધપાત્ર રીતે ઘટાડે છે.
ટેકનિકલ ટીમો માટે, મલ્ટિમોડલ પ્રીપ્રોસેસિંગનું ઓડિટ કરવું, એક્શન સેન્ડબોક્સને સખત બનાવવું અને અસામાન્ય પેટર્ન પર રેકોર્ડ/ચેતવણી આપો છબીઓનું વિશ્લેષણ કર્યા પછી ટૂલ સક્રિયકરણ. આ ઉત્પાદન-સ્તરના સંરક્ષણને પૂરક બનાવે છે.
બધું જ એ હકીકત તરફ નિર્દેશ કરે છે કે આપણે જેનો સામનો કરી રહ્યા છીએ ઝડપી ઇન્જેક્શનનો બીજો પ્રકાર વિઝ્યુઅલ ચેનલો પર લાગુ. નિવારક પગલાં, ઇનપુટ ચકાસણી અને ફરજિયાત પુષ્ટિકરણો સાથે, શોષણનું માર્જિન સંકુચિત થાય છે અને વપરાશકર્તાઓ અને વ્યવસાયો માટે જોખમ મર્યાદિત થાય છે.
આ સંશોધન મલ્ટિમોડલ મોડેલોમાં એક અંધ બિંદુ પર ધ્યાન કેન્દ્રિત કરે છે: છબી સ્કેલિંગ એટેક વેક્ટર બની શકે છે જો અનચેક કરવામાં ન આવે તો, ઇનપુટ કેવી રીતે પ્રીપ્રોસેસ થાય છે તે સમજવું, પરવાનગીઓ મર્યાદિત કરવી અને મહત્વપૂર્ણ ક્રિયાઓ પહેલાં પુષ્ટિકરણની જરૂર રાખવી એ ફક્ત સ્નેપશોટ અને તમારા ડેટાના પ્રવેશદ્વાર વચ્ચેનો તફાવત બનાવી શકે છે.
હું એક ટેક્નોલોજી ઉત્સાહી છું જેણે તેની "ગીક" રુચિઓને વ્યવસાયમાં ફેરવી દીધી છે. મેં મારા જીવનના 10 થી વધુ વર્ષો અત્યાધુનિક ટેક્નોલોજીનો ઉપયોગ કરીને અને શુદ્ધ જિજ્ઞાસાથી તમામ પ્રકારના કાર્યક્રમો સાથે ટિંકરિંગમાં વિતાવ્યા છે. હવે મેં કોમ્પ્યુટર ટેક્નોલોજી અને વિડિયો ગેમ્સમાં વિશેષતા મેળવી લીધી છે. આ એટલા માટે છે કારણ કે 5 વર્ષથી વધુ સમયથી હું ટેક્નોલોજી અને વિડિયો ગેમ્સ પર વિવિધ વેબસાઇટ્સ માટે લખી રહ્યો છું, દરેકને સમજી શકાય તેવી ભાષામાં તમને જોઈતી માહિતી આપવા માટે લેખો બનાવું છું.
જો તમને કોઈ પ્રશ્નો હોય, તો મારું જ્ઞાન વિન્ડોઝ ઓપરેટિંગ સિસ્ટમ તેમજ મોબાઈલ ફોન માટે એન્ડ્રોઈડથી સંબંધિત દરેક વસ્તુથી લઈને છે. અને મારી પ્રતિબદ્ધતા તમારા માટે છે, હું હંમેશા થોડી મિનિટો પસાર કરવા અને આ ઈન્ટરનેટ વિશ્વમાં તમારા કોઈપણ પ્રશ્નોના ઉકેલમાં મદદ કરવા માટે તૈયાર છું.