- SynthID waxay gelisaa calamadaha biyoodka aan la fahmi karin qoraalka, sawirada, maqalka, iyo fiidyaha si loo aqoonsado waxa AI-abuuray.
- Qoraal ahaan waxay u shaqeysaa sidii processor-ka logit oo leh furayaal iyo n-grams, oo leh ogaanshaha Bayesian oo lagu habeyn karo marinnada.
- Hirgelinta waxaa laga heli karaa Transformers 4.46.0+, oo leh boos rasmi ah iyo tixraac GitHub.
- Waxay leedahay xaddidaadyo (qoraal gaaban, tarjumaad, dib u qor) laakiin waxay xoojisaa daahfurnaanta iyo raadinta.
Soo ifbaxa AI-soo-saarka ayaa kor u qaaday soo saarista sawirada, qoraallada, maqalka, iyo fiidiyowyada miisaan aan hore loo arag, iyo iyada, shakiga ku saabsan asalkooda ayaa koray; xaaladdan, Aqoonso in nuxurka la sameeyay ama uu beddelay qaab waxay fure u noqotaa kalsoonida dhijitaalka ah. SynthID waxay noqon kartaa xal weyn.
Tani waa soo jeedinta Google DeepMind, a qoyska ee farsamooyinka watermarking "aan la arki karin". kuwaas oo si toos ah ugu dhex jira waxyaabaha AI-abuuray si loo fududeeyo xaqiijinta xigta iyada oo aan hoos loo dhigin tayada ay dadku dareemaan.
Waa maxay SynthID maxaase loogu talagalay?
Google wuxuu ku sifeeyaa SynthID inuu yahay qalab loogu talagalay calaamad gaar ah oo loogu talagalay nuxurka AI-abuuray, loogu talagalay in lagu horumariyo hufnaanta iyo raadinta. Kuma koobna hal qaab: waxay ka kooban tahay sawirro, maqal, qoraal, iyo muuqaal, si hal hab farsamo loogu dabaqo noocyada kala duwan ee warbaahinta.
Sisteemka deegaanka Google waxa mar horeba loo adeegsaday dhawr siyaabood:
- Qoraal ahaan, calanku wuxuu khuseeyaa jawaabaha Gemini.
- Maqal ahaan, waxaa loo adeegsaday qaabka Lyria iyo astaamo ay ka mid yihiin abuurista podcasts ee qoraalka ku jira Notebook LM.
- En video, waxa lagu dhex daray hal-abuurka Veo, moodeel awood u leh in uu soo saaro cajalado 1080p ah.
Dhammaan kiisaska calaamadeyn Waa wax aan la fahmi karin, waxaana loo qorsheeyay u adkeyso wax ka beddelka joogtada ah sida isku-buufinta, isbeddelka laxanka ee jarista maqalka ama muuqaalka, iyada oo aan la dhimin tayada.
Marka laga reebo tignoolajiyada, ujeeddadeeda la taaban karo waa caddahay: Caawin kala soocida walxaha synthetic ee la soo saaray iyada oo aan AI lahayn, si dadka isticmaala, warbaahinta iyo hay'adaha ay u gaaraan go'aano xog ogaal ah oo ku saabsan isticmaalka iyo qaybinta macluumaadka.

Sida qoraalka watermark (SynthID Text) u shaqeeyo
Ficil ahaan, qoraalka SynthID wuxuu u shaqeeyaa sidii a processor-ka logit kaas oo ku xidha tuubada jiilka qaabka luqadda ka dib shaandhada muunada caadiga ah (Top-K iyo Top-P). Processor-kani wuxuu si hoose wax uga beddelaa buundooyinka moodeelka oo leh a shaqada pseudorandom g, ku dhejinta xogta qaabka suurtogalka ah iyada oo aan la soo bandhigin farshaxan muuqda qaabka iyo tayada qoraalka.
Natiijadu waa qoraal, jaleecada hore, ilaalinaysa tayada, saxnaanta iyo dareeraha, laakiin kaas oo ku dara qaab-dhismeedka tirakoobka lagu ogaan karo oo leh hubiye tababaran.
Si aad u abuurto qoraal leh watermark muhiim maaha dib u tabobar model: si fudud u bixi qaabaynta habka .generate() oo shaqaysii processor-ka logit ee SynthID Text. Tani waxay fududaynaysaa korsashada waxayna ogolanaysaa in lagu tijaabiyo moodallo horay loo geeyay.
Dejinta watermark-ka waxaa ka mid ah laba cabbir oo muhiim ah: keys y ngram_len. Furayaasha waa liis gaar ah, tirooyin random ah oo loo isticmaalo in lagu dhaliyo erayada iyadoo la isticmaalayo g function; dhererka liiskaas ayaa xakameynaya inta "lakabyada" ee calaamadaynta biyaha. Dhanka kale, ngram_len Dejiya dheelitirka u dhexeeya ogaanshaha iyo adkeynta isbeddelada: qiyamka sare waxay ka dhigaan ogaanshaha mid sahlan laakiin ka dhigaya shaabadda mid aad ugu nugul isbeddellada; qiimaha 5 wuxuu si fiican u shaqeeyaa barta bilawga.
Intaa waxaa dheer, SynthID Text waxay isticmaashaa a miiska muunad oo leh laba guri: sampling_table_size y sampling_table_seed. Cabbirka ugu yaraan 2^16 ayaa lagula talinayaa si loo hubiyo in shaqada g u dhaqmo si deggan oo aan eex lahayn marka muunad la qaadayo, iyadoo la tixgelinayo taas baaxad weyn waxay ka dhigan tahay xasuus badan inta lagu guda jiro ka-fiirsashada. Abuurku wuxuu noqon karaa mid kasta oo isku dhafan, kaas oo sahlaya dib u soo saarista jawiga qiimeynta.
Waxaa jira nuance muhiim ah si loo hagaajiyo calaamadaha: n-grams soo noqnoqda gudaha taariikhda dhow ee macnaha guud (oo lagu qeexay context_history_size) aan la calaamadin, taas oo door bideysa in la ogaado calaamadda qoraalka intiisa kale oo yaraynaysa waxtarka beenta ah ee ku xiran ku celcelinta dabiiciga ah ee luqadda.
Nabadgelyada, habayn kasta oo calaamad-biyood ah (oo ay ku jiraan furayaashiisa, abuurkeeda iyo cabbirrada) waa in si gaar ah loo kaydiyaaHaddii furayaashan la sii daayo, qolo saddexaad waxay si fudud u soo celin karaan astaanta ama, ka sii daran, waxay isku dayi karaan inay ku dhaqmaan iyadoo aqoon buuxda u leh qaab-dhismeedkeeda.
Sida loo ogaado: Xaqiijinta ixtimaalka leh ee xad-dhaafka ah
Xaqiijinta calaamad-biyoodka qoraalku maaha binary, laakiin macquul ahGoogle waxa ay ku daabacdaa qalabka wax baaraha ee Bayesian labada Transformers iyo GitHub kaas, ka dib marka la falanqeeyo qaabka tirakoobka qoraalka, soo celisa saddex gobol oo suurtagal ah: oo leh sumad, sumad lahayn o hubinWax-soo-saarkan ternary wuxuu u oggolaanayaa hawlgalka in lagu hagaajiyo khataro kala duwan iyo duruufaha dulqaadka khaladka.
Hab-dhaqanka xaqiijiyaha waxa lagu habayn karaa laba marin kuwaas oo xakameynaya heerka been-abuurka iyo xumaanta beenta ah. Si kale haddii loo dhigo, waxaad qiyaasi kartaa sida aad u rabto ogaanshiyaha, adoo u huraya dareenka saxnaanta ama lid ku ah iyadoo ku xiran kiiskaaga isticmaalka, shay gaar ahaan faa'iido u leh deegaan tafatir, dhexdhexaadin ama hanti dhawrka gudaha.
Haddii dhowr nooc ay wadaagaan isku mid calaamadeeyaha, sidoo kale wadaagi kartaa qaabeynta astaanta isku midka ah iyo qalabka wax sheegta, ilaa inta goobta tababarka hubinta ay ku jiraan tusaalayaal dhamaantood. Tani waxay sahlaysaa in la dhiso "calamadaha biyaha caadiga ah" ee ururada leh LLM-yo badan.
Marka baaraha la tababaro, hay'aduhu waxay go'aansan karaan heerka uu gaadhsiisan yahay: hayso gabi ahaanba gaar ah, u bixi hab badh-gaar ah iyada oo loo marayo API, ama u sii daa hab dadweynaha si loo soo dejiyo oo ay adeegsadaan qolo saddexaad. Doorashadu waxay ku xiran tahay hay'ad kasta awooddeeda shaqo ee kaabayaasha, khataraha sharciyeynta, iyo istiraatiijiyadda daahfurnaanta.

Calaamadaha biyaha ee sawirada, maqalka iyo muuqaalka
Summadan waxaa loogu talagalay inay sii jirto isbeddellada caadiga ah sida goynta, cabbirka, beddelka, beddelka midabka, ama xitaa sawir-qaadista, iyada oo aan loo baahnayn in la hayo xogta badan. Markii hore, isticmaalkeeda waxaa lagu soo bandhigay Sawirka Vertex AI, halkaasoo isticmaalayaashu ay dooran karaan inay kiciyaan calaamadda biyaha marka ay soo saarayaan nuxurka.
Cod ahaan, calaamaddu waa aan la maqli karin waxayna taageertaa hawlgallada caadiga ah sida isku-buuqa MP3, ku darista buuqa, ama wax ka beddelka xawaaraha dib-u-ciyaarista. Google ayaa ku dhex daraysa Lyria iyo buug-yaraha LM-ku-saleysan, oo kor u qaadaya calaamadda xitaa marka feylku dhex maro qulqulka daabacaadda khasaaraha leh.
Fiidiyowga, habku wuxuu soo celinayaa habka sawirka: calaamaddu waxay ku dhex jirtaa gudaha pixels ee jir kasta, si aan la fahmi karin, oo u xasiloon miirayaasha, isbeddelada heerka soo kicinta, cadaadis ama dib u soo celin. Fiidyowyada uu sameeyay Waan arkayaa Aaladaha sida VideoFX waxay ku daraan summadan inta lagu jiro abuurista, taasoo yaraynaysa halista tirtirka shilalka ah ee tafatirrada xiga.
Sambalaynta algorithms iyo adkaanta shaabadda qoraalka
Wadnaha SynthID Text waa isaga muunad algorithm, kaas oo adeegsada furaha (ama furayaasha) si loo qoondeeyo buundooyinka- random-ka calaamad kasta oo suurtagal ah. Musharrixiinta waxaa laga soo qaatay qaybinta moodeelka (ka dib Top-K/Top-P) waxaana la geliyaa "tartan" ka dib wareegyada baabi'inta, ilaa calaamadda dhibcaha ugu sareysa la doorto iyadoo loo eegayo shaqada g.
Habka doorashadani waxa ay door bidaysaa qaabka ugu dambeeya ee tirakoobka of itimaalka waxay wataan calaamadda calaamadda, laakiin iyada oo aan lagu qasbin fursadaha aan dabiiciga ahayn. Marka loo eego daraasadaha la daabacay, farsamada ayaa adkeynaysa tirtir, been-abuur, ama rogaal celi shaabadda, had iyo jeer ku jira xadka macquulka ah ee ka soo horjeeda waqti iyo dhiirigelin.
Dhaqan-fulin wanaagsan iyo ku-dhaqan amni
- Haddii aad dirayso SynthID Text, ula dhaqan qaabaynta sida sirta wax soo saarkaKu kaydi furayaasha iyo abuurka maareeye sugan, dhaqan geli kontaroolada gelitaanka, una ogolow wareeg xilliyeed. Ka hortagga daadinta waxay yaraynaysaa weerarka ka dhanka ah isku dayga injineernimada.
- Qorshe qorshee kormeerka oo loogu talagalay baarahaaga: diiwaan geli qiimayaasha togan/ taban ee beenta ah, hagaaji xadka iyada oo la raacayo macnaha guud oo go'aami nidaamkaaga ogaanshaha soo-dhoweynta (gaar ah, badh-gaar ah iyada oo loo marayo API, ama dadweynaha) oo leh sharci cad iyo shuruudo hawleed. Oo haddii noocyo badan ay wadaagaan calaamadeeyaha, tixgeli tababarka a baaraha caadiga ah oo leh tusaalayaal dhammaantood si loo fududeeyo dayactirka.
- Heerka waxqabadka, waxay qiimeysaa saamaynta
sampling_table_sizexusuusta iyo daahitaanka, oo dooro angram_lentaas oo dheelitiraysa dulqaadkaaga wax ka beddelka iyo baahida ogaanshaha la isku halayn karo. Xusuusnow inaad ka saarto n-gram-yada soo noqnoqda (viacontext_history_size) si loo hagaajiyo calaamada qoraalka qulqulaya.
SynthID ma aha xabbad qalin ah oo lid ku ah macluumaadka khaldan, laakiin waxay bixisaa dhisme aasaasi ah oo dib-u-dhiska silsiladda kalsoonida ee xilliga AI-abuurka. Iyada oo la dhexgelinayo calaamadaha caddaynta ee qoraalka, sawirrada, maqalka, iyo muuqaalka, iyo furitaanka qaybta qoraalka ee bulshada, Google DeepMind waxay u riixaysaa mustaqbalka halkaas oo xaqiiqada lagu hubin karo si wax ku ool ah, la qiyaasi karo, iyo, dhammaan ka sarreeya, hab ku habboon hal-abuurka iyo tayada nuxurka.
Tafatiraha ku takhasusay tignoolajiyada iyo arrimaha internetka oo leh in ka badan toban sano oo khibrad u leh warbaahinta dhijitaalka ah ee kala duwan. Waxaan u shaqeeyay sidii tifaftire iyo abuuraha nuxurka ganacsiga e-commerce, isgaarsiinta, suuqgeynta internetka iyo shirkadaha xayeysiiska. Waxa kale oo aan wax ka qoray mareegaha dhaqaalaha, maaliyadda iyo qaybaha kale. Shaqadaydu sidoo kale waa dareenkeyga. Hadda, iyada oo loo marayo maqaalladayda gudaha Tecnobits, Waxaan isku dayaa in aan sahamiyo dhammaan wararka iyo fursadaha cusub ee dunida tignoolajiyada ay ina siiso maalin kasta si aan u wanaajino nolosheena.