SynthID: Kumaha Google Watermarks Téks, Gambar, Audio, sareng Video

SynthID embeds watermarks imperceptible kana téks, gambar, audio, jeung video pikeun ngaidentipikasi eusi AI-generate.
Dina téks éta tindakan minangka prosésor logit sareng konci sareng n-gram, kalayan deteksi Bayesian tiasa dikonfigurasi ku ambang.
Implementasina sayogi dina Transformers 4.46.0+, kalayan Spasi resmi sareng rujukan dina GitHub.
Éta gaduh watesan (téks pondok, tarjamahan, nyerat ulang) tapi nguatkeun transparansi sareng traceability.

Mecenghulna AI generative geus boosted produksi gambar, téks, audios, jeung video dina skala kungsi katempo saméméh, jeung jeung eta, mamang ngeunaan asal maranéhanana geus tumuwuh; dina konteks ieu, Identipikasi naha eusi geus dijieun atawa dirobah ku model janten konci pikeun kapercayaan digital. ID Sintésis tiasa janten solusi anu saé.

Ieu usulan Google DeepMind, a kulawarga téhnik watermarking "kawih". nu diselapkeun langsung kana eusi AI-generate pikeun mempermudah verifikasi saterusna tanpa ngahinakeun kualitas katarima ku manusa.

Naon SynthID sareng naon tujuanana?

Google ngajelaskeun SynthID salaku alat pikeun watermark husus pikeun eusi AI-dihasilkeun, dirancang pikeun ngamajukeun transparansi jeung traceability. Éta henteu dugi ka hiji format: kalebet gambar, audio, téks, sareng pidéo, supados pendekatan téknis tunggal tiasa diterapkeun kana sababaraha jinis média.

Dina ékosistem Google éta parantos dianggo ku sababaraha cara:

Dina téks, bandéra manglaku ka réspon Gemini.
Dina audio, dipaké kalawan modél Lyria sarta mibanda fitur kayaning nyieun podcast tina téks dina Notebook LM.
En vidéo, Diintegrasikeun kana kreasi Veo, modél anu sanggup ngahasilkeun klip dina 1080p.

Dina sadaya kasus, tanda cai Éta imperceptible, sarta geus dirancang pikeun tahan modifikasi sering kayaning komprési, parobahan wirahma dina motong audio atawa video, tanpa ngurangan kualitas.

Saluareun téknologi, tujuan praktisna jelas: mantuan ngabedakeun bahan sintétik ti nu dihasilkeun tanpa AI, ku kituna pamaké, média jeung lembaga bisa nyieun kaputusan informed ngeunaan konsumsi jeung distribusi eusi.

ID sintésis

Kumaha watermark téks (SynthID Text) jalan

Dina prakna, SynthID Text tindakan minangka a prosésor logit anu ngaitkeun kana pipa generasi modél basa saatos saringan sampling biasa (Top-K sareng Top-P). Prosesor ieu sacara halus ngarobih skor modél kalayan a fungsi pseudorandom g, encoding informasi dina pola probabiliti tanpa ngawanohkeun artefak katempo kana gaya atawa kualitas téks.

Eusi ekslusif - Klik Ieuh Sabaraha piksel anu gaduh slide Google?

Hasilna nyaéta téks anu, di glance kahiji, ngajaga kualitas, precision jeung fluidity, tapi nu incorporates struktur statistik bisa didéteksi ku verifier dilatih.

Pikeun ngahasilkeun téks nganggo watermark henteu diperyogikeun ngalatih deui modél: saukur nyadiakeun konfigurasi kana métode .generate() sareng aktipkeun prosesor logit SynthID Text. Ieu simplifies nyoko tur ngamungkinkeun nguji jeung model geus deployed.

Setélan watermark kalebet dua parameter penting: keys y ngram_len. Konci mangrupa daptar wilangan bulat acak anu unik anu digunakeun pikeun nyitak kosakata ngagunakeun fungsi g; panjang daptar éta ngadalikeun sabaraha "lapisan" watermarking diterapkeun. Samentara éta, ngram_len Nyetél kasaimbangan antara deteksi sareng kateguhan pikeun transformasi: nilai anu langkung luhur ngajantenkeun deteksi langkung gampang tapi ngajantenkeun segel langkung rentan ka parobahan; nilai 5 jalan ogé salaku titik awal.

Salaku tambahan, SynthID Text nganggo a méja sampling mibanda dua sipat: sampling_table_size y sampling_table_seed. Ukuran sahenteuna 2^16 disarankeun pikeun mastikeun yén fungsi g berperilaku stabil sareng henteu bias nalika sampling, kalayan merhatikeun yén ukuran nu leuwih gede hartina leuwih memori salila inferensi. Sikina tiasa wae integer, nu facilitates reproducibility dina lingkungan evaluasi.

Aya nuansa penting pikeun ningkatkeun sinyal: ulangan n-gram dina sajarah panganyarna tina konteks (ditetepkeun ku context_history_size) teu ditandaan, nu ni'mat detectability sahiji tanda dina sesa téks na ngurangan positip palsu numbu ka pangulangan alam basa.

Pikeun kaamanan, unggal konfigurasi watermark (kalebet konci, siki sareng parameterna) kudu disimpen sacara pribadiLamun konci ieu bocor, pihak katilu bisa kalayan gampang ngayakeun réplikasi brand atawa, parah acan, nyobian pikeun ngamanipulasi eta kalawan pangaweruh pinuh ngeunaan struktur na.

Eusi ekslusif - Klik Ieuh Kumaha ningali 2 halaman dina Google Docs

Kumaha ngadeteksi: verifikasi probabilistik sareng ambang

Verifikasi watermark dina téks sanés binér, tapi probabilistikGoogle nyebarkeun detektor Bayesian dina Transformers sareng GitHub yén, saatos nganalisa pola statistik téks, mulihkeun tilu kaayaan anu mungkin: bermerek, teu boga merek o teu pastiKaluaran ternary ieu ngamungkinkeun operasi pikeun disaluyukeun kana kontéks résiko sareng kasabaran kasalahan anu béda.

Paripolah verifier nyaeta configurable ku dua bangbarung anu ngatur laju positip palsu sareng négatip palsu. Dina basa sejen, Anjeun bisa calibrate sabaraha ketat Anjeun hoyong deteksi jadi, sacrificing sensitipitas pikeun akurasi atawa sabalikna gumantung kana kasus pamakéan Anjeun, hal utamana mangpaat dina lingkungan redaksi, moderasi atawa audit internal.

Lamun sababaraha model babagi sarua tokenizer, ogé tiasa ngabagikeun konfigurasi brand sarua jeung detektor sarua, salami set latihan verifier kalebet conto sadayana. Ieu ngagampangkeun ngawangun "tanda cai umum" dina organisasi anu ngagaduhan sababaraha LLM.

Sakali detektor dilatih, organisasi tiasa mutuskeun tingkat paparan na: tetep pribadi pisan, tawarkeun ku cara semi-swasta ngaliwatan API, atawa ngaleupaskeun eta dina cara umum pikeun diunduh sareng dianggo ku pihak katilu. Pilihanna gumantung kana kapasitas operasi infrastruktur unggal éntitas, résiko pangaturan, sareng strategi transparansi.

Watermark dina gambar, audio sareng pidéo

merek ieu dirancang pikeun panungtungan transformasi umum sapertos motong, ngarobah ukuran, muterkeun, ngarobah warna, atanapi malah Potret layar, tanpa kedah nahan metadata. Awalna, pamakéan na ieu ditawarkeun ngaliwatan Gambar dina Vertex AI, dimana pamaké bisa milih pikeun ngaktipkeun watermark nalika ngahasilkeun eusi.

Dina audio, merek téh teu kadéngé sareng ngadukung operasi umum sapertos komprési MP3, nambihan sora, atanapi ngarobih laju playback. Google integrates kana Lyria sarta dina Notebook fitur basis LM, boosting sinyal sanajan file ngaliwatan aliran penerbitan lossy.

Dina pidéo, pendekatan éta ngulang pendekatan gambar: merek dipasang dina piksel unggal pigura, imperceptibly, sarta tetep stabil ngalawan saringan, parobahan laju refresh, komprési atawa potongan. Video dihasilkeun ku Oh kitu Alat sapertos VideoFX ngalebetkeun tanda ieu nalika nyiptakeun, ngirangan résiko ngahapus teu kahaja dina éditan salajengna.

Eusi ekslusif - Klik Ieuh Kumaha Bagikeun Google Slide

Algoritma sampling sareng kateguhan segel téks

Jantung SynthID Text nyaeta na algoritma sampling, anu ngagunakeun konci (atawa susunan konci) pikeun napelkeun skor pseudo-acak ka unggal token poténsial. Calon ditarik tina distribusi modél (sanggeus Top-K / Top-P) sareng nempatkeun kana "kompetisi" saatos babak éliminasi, dugi ka token anu nyetak pangluhurna dipilih dumasar kana fungsi g.

Prosedur Pilihan ieu ni'mat nu pola statistik ahir tina probabiliti nanggung tanda tina merek, tapi tanpa forcing pilihan wajar. Numutkeun studi diterbitkeun, téhnik ngajadikeun hésé mupus, palsu, atawa ngabalikeun segel, salawasna dina wates lumrah ngalawan lawan kalawan waktu jeung motivasi.

Palaksanaan anu saé sareng prakték kaamanan

Lamun anjeun deploying SynthID Téks, ngubaran konfigurasi salaku rusiah produksi: Simpen konci sareng siki dina manajer anu aman, ngalaksanakeun kadali aksés, sareng ngantepkeun rotasi périodik. Nyegah bocor ngirangan permukaan serangan ngalawan usaha rékayasa sabalikna.
Ngarancang rencana pikeun pangawasan pikeun detektor anjeun: catetan tingkat positip/négatip palsu, saluyukeun ambang dumasar kana kontéks sareng mutuskeun kawijakan deteksi anjeun kakeunaan (swasta, semi-swasta via API, atawa publik) kalawan kriteria légal jeung operasional jelas. Tur upami sababaraha model babagi tokenizer a, mertimbangkeun latihan a detektor umum kalawan conto sakabéh éta pikeun simplify pangropéa.
Dina tingkat kinerja, éta assesses dampak tina sampling_table_size dina mémori jeung latency, tur pilih a ngram_len anu nyaimbangkeun kasabaran anjeun pikeun éditan sareng kabutuhan deteksi anu tiasa dipercaya. Inget pikeun ngaluarkeun ulang n-gram (via context_history_size) pikeun ngaronjatkeun sinyal dina téks ngalir.

SynthID sanes pélor pérak ngalawan misinformasi, tapi nyayogikeun blok wangunan dasar pikeun ngawangun deui ranté kapercayaan dina jaman AI generatif. Ku embedding sinyal provenance dina téks, gambar, audio, jeung video, sarta muka nepi komponén téks ka masarakat, Google DeepMind ngadorong ka arah hareup dimana kaaslian bisa diaudit dina praktis, bisa diukur, sarta, luhureun sakabeh, cara cocog jeung kreativitas sarta kualitas eusi.

Daniel Terrasa

Éditor khusus dina téknologi sareng masalah internét kalayan pangalaman langkung ti sapuluh taun dina média digital anu béda. Kuring parantos damel salaku redaktur sareng panyipta kontén pikeun e-commerce, komunikasi, pamasaran online sareng perusahaan iklan. Kuring ogé geus ditulis dina ékonomi, keuangan sarta situs web séktor séjén. Karya kuring ogé karep kuring. Ayeuna, ngaliwatan artikel abdi di Tecnobits, Kuring nyobian ngajajah sagala warta sarta kasempetan anyar nu dunya téhnologi nawarkeun kami unggal dintenna pikeun ngaronjatkeun kahirupan urang.