- SynthID incorpora filigrane impercettibili in testo, immagini, audio e video per identificare i contenuti generati dall'intelligenza artificiale.
- Nel testo agisce come un processore logit con chiavi e n-grammi, con rilevamento bayesiano configurabile tramite soglie.
- L'implementazione è disponibile in Transformers 4.46.0+, con spazio ufficiale e riferimento su GitHub.
- Presenta dei limiti (testi brevi, traduzioni, riscritture), ma rafforza la trasparenza e la tracciabilità.
L'emergere dell'intelligenza artificiale generativa ha dato impulso alla produzione di immagini, testi, audio e video su una scala mai vista prima e, con essa, sono cresciuti i dubbi sulla loro origine; in questo contesto, Identificare se il contenuto è stato creato o modificato da un modello diventa fondamentale per la fiducia digitale. SynthID può essere un'ottima soluzione.
Questa è la proposta di Google DeepMind, una famiglia di tecniche di filigrana “invisibili” che vengono integrati direttamente nei contenuti generati dall'intelligenza artificiale per facilitare la verifica successiva senza degradare la qualità percepita dagli esseri umani.
Che cos'è SynthID e a cosa serve?
Google descrive SynthID come uno strumento per filigrana specifica per i contenuti generati dall'intelligenza artificiale, progettato per promuovere trasparenza e tracciabilità. Non è limitato a un solo formato: comprende immagini, audio, testo e video, in modo che un unico approccio tecnico possa essere applicato a diversi tipi di media.
Nell'ecosistema Google viene già utilizzato in diversi modi:
- Nel testo, il flag si applica alle risposte dei Gemelli.
- Nell'audio, viene utilizzato con il modello Lyria e con funzionalità quali la creazione di podcast da testo in Notebook LM.
- En video, è integrato nelle creazioni Veo, il modello in grado di generare clip in 1080p.
In tutti i casi il filigrana È impercettibile ed è stato progettato per resistere a frequenti modifiche come la compressione, i cambiamenti di ritmo nei tagli audio o video, senza ridurre la qualità.
Al di là della tecnologia, il suo obiettivo pratico è chiaro: aiutare a distinguere il materiale sintetico da quello prodotto senza IA, in modo che utenti, media e istituzioni possano prendere decisioni informate sul consumo e la distribuzione dei contenuti.

Come funziona la filigrana di testo (SynthID Text)
In pratica, SynthID Text agisce come un processore logit che si aggancia alla pipeline di generazione del modello linguistico dopo i consueti filtri di campionamento (Top-K e Top-P). Questo processore modifica sottilmente i punteggi del modello con un funzione pseudocasuale g, codificando le informazioni nel modello delle probabilità senza introdurre artefatti visibili nello stile o nella qualità del testo.
Il risultato è un testo che, a prima vista, mantiene qualità, precisione e fluidità, ma che incorpora una struttura statistica rilevabile con un verificatore addestrato.
Per generare testo con filigrana non è necessario riqualificare il modello: fornire semplicemente una configurazione al metodo .generate() e attivare il processore logit di SynthID Text. Questo semplifica l'adozione e consente di testare con modelli già implementati.
Le impostazioni della filigrana includono due parametri essenziali: keys y ngram_len. Le chiavi sono un elenco di numeri interi casuali e univoci utilizzati per valutare il vocabolario utilizzando la funzione g; la lunghezza di tale elenco controlla quanti "livelli" di filigrana vengono applicati. Nel frattempo, ngram_len Imposta l'equilibrio tra rilevabilità e robustezza alle trasformazioni: valori più alti facilitano il rilevamento ma rendono il sigillo più vulnerabile alle modifiche; un valore pari a 5 funziona bene come punto di partenza.
Inoltre, SynthID Text utilizza un tabella di campionamento con due proprietà: sampling_table_size y sampling_table_seedSi raccomanda una dimensione di almeno 2^16 per garantire che la funzione g si comporti in modo stabile e imparziale durante il campionamento, tenendo conto che una dimensione più grande significa più memoria durante l'inferenza. Il seme può essere qualsiasi numero intero, il che facilita la riproducibilità negli ambienti di valutazione.
C'è una sfumatura importante per migliorare il segnale: n-grammi ripetuti all'interno della storia recente del contesto (definito da context_history_size) non sono marcati, il che favorisce la rilevabilità del segno nel resto del testo e riduce i falsi positivi legati alle ripetizioni naturali della lingua.
Per motivi di sicurezza, ogni configurazione della filigrana (incluse le sue chiavi, seed e parametri) deve essere conservato privatamenteSe queste chiavi venissero divulgate, terze parti potrebbero facilmente replicare il marchio o, peggio ancora, tentare di manipolarlo conoscendone perfettamente la struttura.
Come rilevare: verifica probabilistica con soglie
La verifica di una filigrana nel testo non è binaria, ma probabilisticoGoogle pubblica un rilevatore bayesiano sia su Transformers che su GitHub che, dopo aver analizzato il modello statistico del testo, restituisce tre possibili stati: con marchio, senza marchio o incertoQuesto output ternario consente di adattare l'operazione a diversi contesti di rischio e tolleranza agli errori.
Il comportamento del verificatore è configurabile tramite due soglie che controllano il tasso di falsi positivi e falsi negativi. In altre parole, è possibile calibrare il livello di rigore desiderato per il rilevamento, sacrificando la sensibilità a favore dell'accuratezza o viceversa, a seconda del caso d'uso, un aspetto particolarmente utile in ambienti editoriali, moderazione o audit interno.
Se più modelli condividono lo stesso tokenizzatore, può anche condividere il stessa configurazione di marca e stesso rilevatore, a condizione che il set di addestramento del verificatore includa esempi di tutti i titoli. Questo semplifica la creazione di "filigrane comuni" nelle organizzazioni con più LLM.
Una volta che il rilevatore è stato addestrato, le organizzazioni possono decidere il suo livello di esposizione: mantenerlo completamente privato, offrilo in un modo semi-privato tramite un'API, o rilasciarlo in un modo pubblico per il download e l'utilizzo da parte di terzi. La scelta dipende dalla capacità operativa dell'infrastruttura, dai rischi normativi e dalla strategia di trasparenza di ciascuna entità.

Filigrana su immagini, audio e video
Questo marchio è progettato per durare trasformazioni comuni come ritagliare, ridimensionare, ruotare, cambiare colore o persino screenshot, senza la necessità di conservare metadati. Inizialmente, il suo utilizzo era offerto tramite Immagine in Vertex AI, dove gli utenti possono scegliere di attivare la filigrana durante la generazione di contenuti.
Nell'audio, il marchio è inudibile e supporta operazioni comuni come la compressione MP3, l'aggiunta di rumore o la modifica della velocità di riproduzione. Google lo integra in Liria e nelle funzionalità basate su Notebook LM, potenziando il segnale anche quando il file passa attraverso flussi di pubblicazione con perdita di dati.
Nel video, l'approccio replica l'approccio dell'immagine: il marchio è incorporato nel pixel di ogni fotogramma, impercettibilmente, e rimane stabile contro filtri, cambiamenti nella frequenza di aggiornamento, compressione o passamanerie. Video generati da video Strumenti come VideoFX incorporano questo segno durante la creazione, riducendo il rischio di eliminazione accidentale nelle modifiche successive.
Algoritmi di campionamento e robustezza del sigillo di testo
Il cuore di SynthID Text è il suo algoritmo di campionamento, che utilizza una chiave (o un insieme di chiavi) per assegnare punteggi pseudo-casuali a ciascun potenziale token. I candidati vengono estratti dalla distribuzione del modello (dopo Top-K/Top-P) e messi in "competizione" dopo i round di eliminazione, fino a quando non viene scelto il token con il punteggio più alto in base alla funzione g.
Questa procedura di selezione favorisce l' modello statistico finale delle probabilità portano il marchio del marchio, ma senza forzare opzioni innaturali. Secondo studi pubblicati, la tecnica rende difficile cancellare, falsificare o invertire il sigillo, sempre entro limiti ragionevoli contro avversari con tempo e motivazione.
Buone pratiche di implementazione e sicurezza
- Se si sta distribuendo SynthID Text, trattare la configurazione come segreto di produzione: Conserva chiavi e seed in un gestore sicuro, applica controlli di accesso e consenti la rotazione periodica. Prevenire le perdite riduce la superficie di attacco ai tentativi di reverse engineering.
- Progettare un piano monitoraggio per il tuo rilevatore: registra i tassi di falsi positivi/negativi, regola le soglie in base al contesto e decidi la tua politica di rilevamento Exposición (privato, semi-privato tramite API o pubblico) con chiari criteri legali e operativi. E se più modelli condividono un tokenizzatore, prendi in considerazione l'addestramento di un rilevatore comune con esempi di tutti per semplificare la manutenzione.
- A livello di performance, valuta l'impatto di
sampling_table_sizein memoria e latenza, e scegli unngram_lenche bilancia la tua tolleranza per le modifiche con la necessità di un rilevamento affidabile. Ricorda di escludere gli n-grammi ripetuti (tramitecontext_history_size) per migliorare il segnale nel testo scorrevole.
SynthID non è una panacea contro la disinformazione, ma fornisce un elemento fondamentale per ricostruire la catena di fiducia nell'era dell'intelligenza artificiale generativa. Incorporando segnali di provenienza in testo, immagini, audio e video e aprendo la componente testuale alla comunità, Google DeepMind sta spingendo verso un futuro in cui l'autenticità può essere verificata in modo pratico, misurabile e, soprattutto, compatibile con la creatività e la qualità dei contenuti.
Editor specializzato in questioni tecnologiche e Internet con più di dieci anni di esperienza in diversi media digitali. Ho lavorato come redattore e creatore di contenuti per aziende di e-commerce, comunicazione, marketing online e pubblicità. Ho scritto anche su siti web di economia, finanza e altri settori. Il mio lavoro è anche la mia passione. Ora, attraverso i miei articoli in Tecnobits, cerco di esplorare tutte le novità e le nuove opportunità che il mondo della tecnologia ci offre ogni giorno per migliorare la nostra vita.