- SynthID bygger inn umerkelige vannmerker i tekst, bilder, lyd og video for å identifisere AI-generert innhold.
- I tekst fungerer den som en logit-prosessor med nøkler og n-grammer, med Bayesiansk deteksjon konfigurerbar av terskler.
- Implementeringen er tilgjengelig i Transformers 4.46.0+, med offisiell Space og referanse på GitHub.
- Den har begrensninger (korte tekster, oversettelser, omskrivinger), men forsterker åpenhet og sporbarhet.
Fremveksten av generativ AI har økt produksjonen av bilder, tekst, lyd og videoer i en skala man aldri har sett maken til, og med den har tvilen om deres opprinnelse vokst; i denne sammenhengen, Identifiser om innhold har blitt opprettet eller endret av en modell blir nøkkelen til digital tillit. SynthID kan være en flott løsning.
Dette er Google DeepMinds forslag, et familie av «usynlige» vannmerkingsteknikker som er innebygd direkte i AI-generert innhold for å legge til rette for etterfølgende verifisering uten å forringe kvaliteten som oppfattes av mennesker.
Hva er SynthID, og hva er det ment for?
Google beskriver SynthID som et verktøy for spesifikt vannmerke for AI-generert innhold, utformet for å fremme åpenhet og sporbarhet. Den er ikke begrenset til ett format: den omfatter bilder, lyd, tekst og video, slik at én teknisk tilnærming kan brukes på ulike typer medier.
I Googles økosystem brukes det allerede på flere måter:
- I teksten, flagget gjelder for Gemini-svar.
- I lyd, brukes med Lyria-modellen og med funksjoner som å lage podkaster fra tekst i Notebook LM.
- En video, er integrert i Veo-kreasjoner, modellen som kan generere klipp i 1080p.
I alle tilfeller vannmerke Den er umerkelig, og er designet for å tåler hyppige modifikasjoner som for eksempel komprimering, rytmeendringer i lyd- eller videoklipp, uten å redusere kvaliteten.
Utover teknologien er det praktiske målet klart: bidra til å skille syntetisk materiale fra det som er produsert uten AI, slik at brukere, medier og institusjoner kan ta informerte beslutninger om forbruk og distribusjon av innhold.

Hvordan tekstvannmerket (SynthID Text) fungerer
I praksis fungerer SynthID Text som en logit-prosessor som kobler seg til språkmodellgenereringsrørledningen etter de vanlige samplingsfiltrene (Top-K og Top-P). Denne prosessoren modifiserer subtilt modellpoengene med en pseudotilfeldig funksjon g, koder informasjon i sannsynlighetsmønsteret uten å introdusere synlige artefakter i tekstens stil eller kvalitet.
Resultatet er en tekst som ved første øyekast opprettholder kvalitet, presisjon og flyt, men som inkorporerer en statistisk struktur som kan oppdages med en trent verifikator.
Det er ikke nødvendig å generere tekst med vannmerke omskolere modellen: bare gi en konfigurasjon til metoden .generate() og aktivere SynthID Texts logit-prosessor. Dette forenkler adopsjonen og tillater testing med allerede distribuerte modeller.
Vannmerkeinnstillingene inkluderer to viktige parametere: keys y ngram_len. Nøklene er en liste med unike, tilfeldige heltall som brukes til å score vokabularet ved hjelp av g-funksjonen; lengden på listen styrer hvor mange «lag» med vannmerking som brukes. I mellomtiden, ngram_len Setter balansen mellom deteksjonsevne og robusthet overfor transformasjoner: høyere verdier gjør deteksjon enklere, men gjør forseglingen mer sårbar for endringer; en verdi på 5 fungerer godt som et utgangspunkt.
I tillegg bruker SynthID Text en prøvetakingstabell med to egenskaper: sampling_table_size y sampling_table_seedEn størrelse på minst 2^16 anbefales for å sikre at funksjonen g oppfører seg stabilt og objektivt ved sampling, tatt i betraktning at en større størrelse betyr mer minne under inferens. Frøet kan være et hvilket som helst heltall, noe som forenkler reproduserbarhet i evalueringsmiljøer.
Det er en viktig nyanse for å forbedre signalet: gjentatte n-grammer innenfor kontekstens nyere historie (definert av context_history_size) er ikke merket, noe som favoriserer merkets synlighet i resten av teksten og reduserer falske positiver knyttet til naturlige repetisjoner av språket.
Av sikkerhetshensyn, hver vannmerkekonfigurasjon (inkludert nøkler, frø og parametere) må lagres privatHvis disse nøklene lekker ut, kan tredjeparter enkelt kopiere merkevaren, eller enda verre, forsøke å manipulere den med full kjennskap til strukturen.
Hvordan oppdage: sannsynlighetsverifisering med terskler
Verifisering av et vannmerke i tekst er ikke binær, men sannsynlighetsbasertGoogle publiserer en Bayesiansk detektor på både Transformers og GitHub som, etter å ha analysert det statistiske mønsteret i teksten, returnerer tre mulige tilstander: med merke, ingen merke o usikkerDenne ternære utgangen gjør det mulig å justere operasjonen til ulike risiko- og feiltoleransekontekster.
Verifikatorens oppførsel kan konfigureres av to terskler som kontrollerer andelen falske positive og falske negative resultater. Med andre ord kan du kalibrere hvor streng du vil at deteksjonen skal være, og ofre følsomhet for nøyaktighet eller omvendt avhengig av brukstilfellet, noe som er spesielt nyttig i redaksjonelle miljøer, moderering eller internrevisjon.
Hvis flere modeller deler det samme tokenizer, kan også dele samme merkekonfigurasjon og samme detektor, så lenge verifikatorens treningssett inneholder eksempler på alle. Dette gjør det enklere å bygge "felles vannmerker" i organisasjoner med flere LLM-er.
Når detektoren er trent, kan organisasjoner bestemme eksponeringsnivået: behold den helt privat, tilby det på en måte semi-privat gjennom et API, eller utgi det på en måte offentlig for nedlasting og bruk av tredjeparter. Valget avhenger av hver enhets driftskapasitet for infrastruktur, regulatoriske risikoer og strategi for åpenhet.

Vannmerke på bilder, lyd og video
Dette merket er designet for å vare vanlige transformasjoner som beskjæring, endring av størrelse, rotering, endring av farge eller til og med skjermbilder, uten behov for å beholde metadata. I utgangspunktet ble bruken tilbudt gjennom Bilde i Vertex AI, der brukere kan velge å aktivere vannmerket når de genererer innhold.
Innen lyd er merket uhørlig og støtter vanlige operasjoner som MP3-komprimering, legge til støy eller endre avspillingshastighet. Google integrerer det i Lyria og i Notebook LM-baserte funksjoner, forsterkes signalet selv når filen passerer gjennom tapsrike publiseringsstrømmer.
I video gjenskaper tilnærmingen bildetilnærmingen: merkevaren er innebygd i piksler i hver ramme, umerkelig, og forblir stabil mot filtre, endringer i oppdateringsfrekvens, komprimering eller recortesVideoer generert av Jeg ser Verktøy som VideoFX bruker dette merket under opprettelsen, noe som reduserer risikoen for utilsiktet sletting i påfølgende redigeringer.
Samplingsalgoritmer og robusthet av tekstforseglingen
Hjertet i SynthID Text er dens samplingsalgoritme, som bruker en nøkkel (eller et sett med nøkler) for å tildele pseudotilfeldige poengsummer til hvert potensielt token. Kandidater trekkes fra modellens fordeling (etter Top-K/Top-P) og settes i "konkurranse" etter eliminasjonsrunder, inntil tokenet med høyest poengsum er valgt i henhold til funksjonen g.
Denne utvelgelsesprosedyren favoriserer endelig statistisk mønster av sannsynlighetene bærer merkevarens preg, men uten å tvinge frem unaturlige alternativer. I følge publiserte studier gjør teknikken det vanskelig slette, forfalske eller reversere seglet, alltid innenfor rimelige grenser mot motstandere med tid og motivasjon.
God implementering og sikkerhetspraksis
- Hvis du distribuerer SynthID Text, behandler du konfigurasjonen som produksjonshemmelighetOppbevar nøkler og frø i en sikker manager, håndhev tilgangskontroller og tillat periodisk rotasjon. Forebygging av lekkasjer reduserer angrepsflaten mot reverse engineering-forsøk.
- Utform en plan overvåkning for detektoren din: registrer falske positive/negative rater, juster terskler i henhold til kontekst og bestem deteksjonspolicyen din eksponering (privat, semi-privat via API eller offentlig) med klare juridiske og operative kriterier. Og hvis flere modeller deler en tokenizer, bør du vurdere å trene en felles detektor med eksempler på alle for å forenkle vedlikeholdet.
- På ytelsesnivå vurderer den effekten av
sampling_table_sizei minne og latens, og velg enngram_lensom balanserer toleransen din for redigeringer med behovet for pålitelig deteksjon. Husk å ekskludere gjentatte n-grammer (viacontext_history_size) for å forbedre signalet i flytende tekst.
SynthID er ikke en mirakelkur mot feilinformasjon, men gir en grunnleggende byggestein for å gjenoppbygge tillitskjeden i en tid med generativ AI. Ved å legge inn provenienssignaler i tekst, bilder, lyd og video, og åpne tekstkomponenten for fellesskapet, presser Google DeepMind mot en fremtid der autentisitet kan revideres på en praktisk, målbar og fremfor alt kompatibel måte med kreativiteten og kvaliteten til innhold.
Redaktør spesialisert i teknologi og internettspørsmål med mer enn ti års erfaring i ulike digitale medier. Jeg har jobbet som redaktør og innholdsskaper for e-handel, kommunikasjon, online markedsføring og reklameselskaper. Jeg har også skrevet på nettsteder innen økonomi, finans og andre sektorer. Arbeidet mitt er også min lidenskap. Nå, gjennom artiklene mine i Tecnobits, Jeg prøver å utforske alle nyhetene og nye mulighetene som teknologiverdenen tilbyr oss hver dag for å forbedre livene våre.