- „SynthID“ įterpia nepastebimus vandens ženklus į tekstą, vaizdus, garso ir vaizdo įrašus, kad atpažintų dirbtinio intelekto sugeneruotą turinį.
- Tekste jis veikia kaip logit procesorius su raktais ir n-gramomis, o Bajeso aptikimą galima konfigūruoti pagal slenksčius.
- Įgyvendinimas galimas „Transformers 4.46.0+“ versijoje, su oficialia „Space“ ir nuoroda „GitHub“.
- Jis turi apribojimų (trumpi tekstai, vertimai, perrašymai), tačiau sustiprina skaidrumą ir atsekamumą.
Generatyviojo dirbtinio intelekto atsiradimas padidino vaizdų, tekstų, garso ir vaizdo įrašų gamybą iki šiol nematytu mastu, o kartu išaugo abejonės dėl jų kilmės; šiame kontekste, Nustatyti, ar turinys buvo sukurtas ar pakeistas modelio tampa skaitmeninio pasitikėjimo raktu. SynthID gali būti puikus sprendimas.
Tai „Google DeepMind“ pasiūlymas. „Nematomų“ vandens ženklų technikų šeima kurie yra tiesiogiai įterpti į dirbtinio intelekto sukurtą turinį, kad būtų lengviau jį vėliau patikrinti nepabloginant žmonių suvokiamos kokybės.
Kas yra „SynthID“ ir kam jis skirtas?
„Google“ apibūdina „SynthID“ kaip įrankį, skirtą specialus vandens ženklas dirbtinio intelekto sukurtam turiniui, skirtas skatinti skaidrumą ir atsekamumą. Jis neapsiriboja vienu formatu: apima vaizdus, garsą, tekstą ir vaizdo įrašus, todėl skirtingų tipų medijai galima taikyti vieną techninį metodą.
„Google“ ekosistemoje jis jau naudojamas keliais būdais:
- Tekste, vėliavėlė taikoma Dvynių atsakymams.
- Garso įraše, naudojamas su „Lyria“ modeliu ir su tokiomis funkcijomis kaip podcast'ų kūrimas iš teksto programoje „Notebook LM“.
- En vaizdo įrašas, yra integruotas į „Veo creations“ – modelį, galintį generuoti 1080p raiškos klipus.
Visais atvejais vandens ženklas Jis nepastebimas ir buvo sukurtas taip, kad atlaikyti dažnus pakeitimus pvz., suspaudimą, ritmo pokyčius garso ar vaizdo įrašuose, nesumažinant kokybės.
Be technologijos, jos praktinis tikslas yra aiškus: padėti atskirti sintetinę medžiagą nuo tos, kuri pagaminta be dirbtinio intelekto, kad vartotojai, žiniasklaida ir institucijos galėtų priimti pagrįstus sprendimus dėl turinio vartojimo ir platinimo.

Kaip veikia teksto vandenženklis („SynthID Text“)
Praktiškai „SynthID Text“ veikia kaip Logit procesorius kuris įsijungia į kalbos modelio generavimo srautą po įprastų atrankos filtrų („Top-K“ ir „Top-P“). Šis procesorius subtiliai modifikuoja modelio balus naudodamas pseudoatsitiktinė funkcija g, koduojant informaciją pagal tikimybių modelį, neįvedant matomų artefaktų į teksto stilių ar kokybę.
Rezultatas – tekstas, kuris iš pirmo žvilgsnio atitinka kokybė, tikslumas ir sklandumas, tačiau kurioje yra statistinė struktūra, kurią galima aptikti apmokytu tikrintoju.
Norint sugeneruoti tekstą su vandens ženklu, nebūtina permokyti modelį: tiesiog pateikite metodo konfigūraciją .generate() ir aktyvuoti „SynthID Text“ logit procesorių. Tai supaprastina diegimą ir leidžia testuoti su jau įdiegtais modeliais.
Vandens ženklo nustatymuose yra du esminiai parametrai: keys y ngram_len. Raktai yra unikalių, atsitiktinių sveikųjų skaičių, naudojamų žodynui įvertinti naudojant funkciją g, sąrašas; šio sąrašo ilgis kontroliuoja, kiek vandens ženklų „sluoksnių“ taikoma. Tuo tarpu ngram_len Nustato pusiausvyrą tarp aptikimo ir atsparumo transformacijoms: didesnės vertės palengvina aptikimą, tačiau daro plomba labiau pažeidžiama pokyčių; 5 vertė gerai tinka kaip atspirties taškas.
Be to, „SynthID Text“ naudoja mėginių ėmimo lentelė su dviem savybėmis: sampling_table_size y sampling_table_seedRekomenduojamas bent 2^16 dydis, siekiant užtikrinti, kad funkcija g imtųsi stabiliai ir nešališkai, atsižvelgiant į tai, kad didesnis dydis reiškia daugiau atminties išvados metu. Pradinis skaičius gali būti bet koks sveikasis skaičius, o tai palengvina atkuriamumą vertinimo aplinkose.
Yra svarbus niuansas, kaip pagerinti signalą: pakartotiniai n-gramai neseniai vykusioje konteksto istorijoje (apibrėžtoje context_history_size) nėra pažymėti, todėl ženklas yra lengviau aptinkamas likusioje teksto dalyje ir sumažėja klaidingai teigiamų rezultatų, susijusių su natūraliais kalbos pasikartojimais.
Dėl saugumo kiekviena vandens ženklo konfigūracija (įskaitant jos raktus, sėklą ir parametrus) turi būti saugomas privačiaiJei šie raktai nutekėtų, trečiosios šalys galėtų lengvai atkartoti prekės ženklą arba, dar blogiau, bandyti jį manipuliuoti, puikiai žinodamos jo struktūrą.
Kaip aptikti: tikimybinis patikrinimas su ribomis
Vandens ženklo tikrinimas tekste nėra dvejetainis, bet tikimybinis„Google“ tiek „Transformers“, tiek „GitHub“ platformose skelbia Bajeso detektorių, kuris, išanalizavęs teksto statistinį modelį, grąžina tris galimas būsenas: firminis, be prekės ženklo o neaiškusŠi trinarė išvestis leidžia operaciją pritaikyti prie skirtingų rizikos ir klaidų tolerancijos kontekstų.
Tikrintojo elgesį galima konfigūruoti dvi ribos kurie kontroliuoja klaidingai teigiamų ir klaidingai neigiamų rezultatų dažnį. Kitaip tariant, galite sukalibruoti aptikimo tikslumą, aukodami jautrumą tikslumo labui arba atvirkščiai, priklausomai nuo jūsų naudojimo atvejo, o tai ypač naudinga redakcinė aplinka, moderavimas arba vidaus auditas.
Jei keli modeliai turi tą patį žetonų generatorius, taip pat gali pasidalinti tos pačios prekės ženklo konfigūracija ir tas pats detektorius, jei tik vertintojo mokymo rinkinyje yra visų jų pavyzdžių. Tai palengvina „bendrų vandenženklių“ kūrimą organizacijose, turinčiose kelis LLM.
Kai detektorius apmokytas, organizacijos gali nuspręsti dėl jo poveikio lygio: laikyti jį visiškai privatu, pasiūlykite tai tam tikru būdu pusiau privatus per API arba išleisti tokiu būdu viešas trečiųjų šalių atsisiuntimui ir naudojimui. Pasirinkimas priklauso nuo kiekvieno subjekto infrastruktūros veiklos pajėgumų, reguliavimo rizikos ir skaidrumo strategijos.

Vandens ženklas vaizduose, garso ir vaizdo įrašuose
Šis prekės ženklas sukurtas ilgam tarnavimui dažnos transformacijos pvz., apkarpyti, keisti dydį, pasukti, keisti spalvą ar net kurti ekrano kopijas, nereikalaujant išsaugoti metaduomenų. Iš pradžių jo naudojimas buvo siūlomas per Vaizdas „Vertex AI“, kur vartotojai gali pasirinkti aktyvuoti vandens ženklą generuodami turinį.
Garso įrašuose prekės ženklas yra negirdimas ir palaiko įprastas operacijas, tokias kaip MP3 glaudinimas, triukšmo pridėjimas arba atkūrimo greičio keitimas. „Google“ tai integruoja į Lyrija ir „Notebook LM“ pagrindu sukurtose funkcijose, sustiprinant signalą net tada, kai failas praeina per nuostolingus publikavimo srautus.
Vaizdo įraše šis metodas atkartoja įvaizdžio metodą: prekės ženklas yra įterptas į kiekvieno kadro pikseliųnepastebimai ir išlieka stabilus, nepaisant filtrų, atnaujinimo dažnio, glaudinimo ar kitų veiksnių. gabalaiVaizdo įrašus sukūrė Aš matau Tokios priemonės kaip „VideoFX“ įterpia šį žymėjimą kūrimo metu, taip sumažindamos atsitiktinio ištrynimo riziką vėlesnių redagavimų metu.
Imčių ėmimo algoritmai ir teksto antspaudo patikimumas
„SynthID Text“ esmė yra jos atrankos algoritmas, kuris naudoja raktą (arba raktų rinkinį) pseudoatsitiktiniams balams priskirti kiekvienam potencialiam žetonui. Kandidatai atrenkami iš modelio skirstinio (po Top-K/Top-P) ir po eliminacinių raundų įtraukiami į „konkursą“, kol pagal funkciją g išrenkamas aukščiausią balą surinkęs žetonas.
Ši atrankos procedūra palanki galutinis statistinis modelis tikimybių turi prekės ženklo žymę, tačiau nepriverčiant rinktis nenatūralių variantų. Remiantis paskelbtais tyrimais, ši technika apsunkina ištrinti, suklastoti arba apversti antspaudas, visada neviršijant pagrįstų ribų prieš priešininkus, turinčius laiko ir motyvacijos.
Gera įgyvendinimo ir saugumo praktika
- Jei diegiate „SynthID Text“, konfigūraciją laikykite tokia: gamybos paslaptisSaugokite raktus ir sėklas saugioje tvarkytuvėje, vykdykite prieigos kontrolę ir leiskite periodiškai juos keisti. Nutekėjimo prevencija sumažina atakų paviršių, nukreiptą prieš atvirkštinės inžinerijos bandymus.
- Sukurkite planą, kaip stebėsena jūsų detektoriui: užregistruokite klaidingai teigiamų / neigiamų rezultatų dažnį, pakoreguokite slenksčius pagal kontekstą ir nuspręskite dėl aptikimo politikos poveikis (privatus, pusiau privatus per API arba viešas) su aiškiais teisiniais ir operaciniais kriterijais. O jei keli modeliai dalijasi tuo pačiu žetonų rinkiniu, apsvarstykite galimybę apmokyti bendras detektorius su visų jų pavyzdžiais, siekiant supaprastinti priežiūrą.
- Veiklos lygmeniu vertinamas poveikis
sampling_table_sizeatmintyje ir delsoje, ir pasirinkite angram_lenkuris subalansuoja jūsų toleranciją redagavimui su patikimo aptikimo poreikiu. Nepamirškite neįtraukti pasikartojančių n-gramų (percontext_history_size), kad pagerėtų signalas sklandžiame tekste.
„SynthID“ nėra stebuklinga priemonė nuo dezinformacijos, bet yra esminis pagrindas pasitikėjimo grandinės atkūrimui generatyvinio dirbtinio intelekto eroje. Įterpdama kilmės signalus į tekstą, vaizdus, garso ir vaizdo įrašus bei atverdama teksto komponentą bendruomenei, „Google DeepMind“ stumia į ateitį, kurioje autentiškumą galima patikrinti praktiškai, išmatuojamai ir, svarbiausia, suderinamu būdu su turinio kūrybiškumu ir kokybe.
Redaktorius specializuojasi technologijų ir interneto klausimais, turintis daugiau nei dešimties metų patirtį įvairiose skaitmeninėse laikmenose. Esu dirbusi redaktore ir turinio kūrėja elektroninės prekybos, komunikacijos, internetinės rinkodaros ir reklamos įmonėse. Taip pat rašiau ekonomikos, finansų ir kitų sektorių svetainėse. Mano darbas taip pat yra mano aistra. Dabar per mano straipsnius Tecnobits, stengiuosi ištirti visas naujienas ir naujas galimybes, kurias mums kasdien siūlo technologijų pasaulis, kad pagerintume savo gyvenimą.