- SynthID AI жасаған мазмұнды анықтау үшін көрінбейтін су белгілерін мәтінге, кескіндерге, аудиоға және бейнеге енгізеді.
- Мәтінде ол кілттер мен n-граммалары бар логит процессоры ретінде әрекет етеді, шекті мәндер арқылы конфигурацияланатын Bayesian анықтауы бар.
- Іске асыру Transformers 4.46.0+ нұсқасында қол жетімді, ресми кеңістік және GitHub сілтемесі бар.
- Оның шектеулері бар (қысқа мәтіндер, аудармалар, қайта жазулар), бірақ мөлдірлік пен бақылауды күшейтеді.
Генеративті AI пайда болуы бұрын-соңды болмаған масштабта суреттер, мәтіндер, аудиолар және бейнелер өндірісін арттырды және онымен бірге олардың шығу тегі туралы күмән өсті; осы тұрғыда, Мазмұнның үлгі арқылы жасалғанын немесе өзгертілгенін анықтаңыз цифрлық сенімнің кілтіне айналады. SynthID тамаша шешім бола алады.
Бұл Google DeepMind ұсынысы, а «көрінбейтін» су таңбалау әдістерінің отбасы адамдар қабылдайтын сапаны төмендетпей, кейінгі тексеруді жеңілдету үшін AI жасаған мазмұнға тікелей енгізілген.
SynthID дегеніміз не және ол не үшін арналған?
Google SynthID құралы ретінде сипаттайды AI жасалған мазмұнға арналған арнайы су белгісі, мөлдірлік пен бақылануды ынталандыруға арналған. Ол бір пішіммен шектелмейді: ол суреттерді, дыбысты, мәтінді және бейнені қамтиды, осылайша бір техникалық тәсілді тасымалдаушылардың әртүрлі түрлеріне қолдануға болады.
Google экожүйесінде ол бірнеше жолмен қолданылады:
- Мәтінде, жалауша Gemini жауаптарына қолданылады.
- Аудио түрінде, Lyria үлгісімен және Notebook LM бағдарламасында мәтіннен подкасттарды жасау сияқты мүмкіндіктермен пайдаланылады.
- En бейне, Veo туындыларына біріктірілген, 1080p форматында клиптер жасауға қабілетті модель.
Барлық жағдайларда су белгісі Ол сезілмейді және ол үшін жасалған жиі өзгерістерге төтеп беру сапаны төмендетпей, аудио немесе бейне үзінділеріндегі қысу, ырғақты өзгерту сияқты.
Технологиядан басқа оның практикалық мақсаты анық: синтетикалық материалды жасанды интеллектсіз жасалған материалдан ажыратуға көмектеседі, осылайша пайдаланушылар, БАҚ және мекемелер мазмұнды тұтыну және тарату туралы негізделген шешім қабылдай алады.

Мәтіндік су таңбасы (SynthID мәтіні) қалай жұмыс істейді
Іс жүзінде, SynthID мәтіні ретінде әрекет етеді логит процессоры ол әдеттегі іріктеу сүзгілерінен (Top-K және Top-P) кейін тіл үлгісін жасау құбырына қосылады. Бұл процессор үлгі ұпайларын а көмегімен мұқият өзгертеді псевдорандық функция g, мәтіннің стиліне немесе сапасына көрінетін артефактілерді енгізбестен ықтималдық үлгісінде ақпаратты кодтау.
Нәтиже - бір қарағанда, қолдайтын мәтін сапа, дәлдік және өтімділік, бірақ оқытылған тексеруші арқылы анықталатын статистикалық құрылымды қамтитын.
Су таңбасы бар мәтінді жасау қажет емес үлгіні қайта дайындау: жай ғана әдіске конфигурация беріңіз .generate() және SynthID Text логит процессорын іске қосыңыз. Бұл қабылдауды жеңілдетеді және бұрыннан орнатылған үлгілермен тестілеуге мүмкіндік береді.
Су таңбасының параметрлері екі маңызды параметрді қамтиды: keys y ngram_len. Кілттер g функциясы арқылы сөздік қорын бағалау үшін пайдаланылатын бірегей, кездейсоқ бүтін сандар тізімі болып табылады; сол тізімнің ұзындығы су таңбасының қанша «қабаттары» қолданылатынын бақылайды. Осы арада, ngram_len Трансформациялардың анықталуы мен беріктігі арасындағы теңгерімді орнатады: жоғары мәндер анықтауды жеңілдетеді, бірақ тығыздағышты өзгерістерге осал етеді; 5 мәні бастапқы нүкте ретінде жақсы жұмыс істейді.
Сонымен қатар, SynthID мәтіні a пайдаланады сынама алу кестесі екі қасиеті бар: sampling_table_size y sampling_table_seed. Таңдау кезінде g функциясының тұрақты және бейтарап әрекет етуін қамтамасыз ету үшін кем дегенде 2^16 өлшемі ұсынылады үлкенірек өлшем көбірек жадты білдіреді қорытынды жасау кезінде. Тұқым бағалау орталарында қайталануды жеңілдететін кез келген бүтін сан болуы мүмкін.
Сигналды жақсарту үшін маңызды нюанс бар: қайталанатын n-грамм контексттің соңғы тарихында (анықтаған context_history_size) таңбаланбаған, бұл мәтіннің қалған бөлігінде таңбаның анықталуын қолдайды және тілдің табиғи қайталануымен байланысты жалған позитивтерді азайтады.
Қауіпсіздік үшін әрбір су таңбасының конфигурациясы (оның кілттерін, тұқымын және параметрлерін қоса) жеке сақталуы керекЕгер бұл кілттер ағып кетсе, үшінші тараптар брендті оңай көшіруі мүмкін немесе одан да жаманы, оның құрылымын толық білу арқылы оны басқаруға әрекеттенуі мүмкін.
Анықтау әдісі: шекті мәндермен ықтималдық тексеру
Мәтіндегі су таңбасын тексеру екілік емес, бірақ ықтималдықGoogle Transformers және GitHub екеуінде де Bayesian детекторын жариялайды, ол мәтіннің статистикалық үлгісін талдағаннан кейін үш ықтимал күйді қайтарады: брендімен, бренд жоқ o белгісізБұл үштік шығыс операцияны әртүрлі тәуекелдер мен қателерге төзімділік контексттеріне реттеуге мүмкіндік береді.
Тексерушінің әрекеті арқылы конфигурацияланады екі табалдырық жалған позитивті және жалған теріс мәндердің жылдамдығын бақылайтын. Басқаша айтқанда, пайдалану жағдайыңызға байланысты дәлдік үшін сезімталдықты жоғалтып немесе керісінше анықтаудың қаншалықты қатаң болуын қалағаныңызды калибрлеуге болады, әсіресе пайдалы нәрсе. редакциялық орталар, модерация немесе ішкі аудит.
Бірнеше модель бірдей ортақ болса токенизатор, сонымен бірге бөлісе алады бірдей бренд конфигурациясы және бірдей детектор, егер тексерушінің оқу жинағы олардың барлығының мысалдарын қамтитын болса. Бұл бірнеше LLM бар ұйымдарда «жалпы су белгілерін» құруды жеңілдетеді.
Детекторды оқытқаннан кейін ұйымдар оның әсер ету деңгейін шеше алады: оны сақтаңыз толығымен жеке, оны бір жолмен ұсыныңыз жартылай жеке API арқылы немесе оны бір жолмен шығарыңыз қоғамдық үшінші тараптар жүктеп алу және пайдалану үшін. Таңдау әрбір ұйымның инфрақұрылымдық жұмыс қабілетіне, реттеуші тәуекелдерге және ашықтық стратегиясына байланысты.

Суреттердегі, аудио және бейнедегі су белгісі
Бұл бренд ұзақ уақытқа арналған жалпы түрлендірулер метадеректерді сақтауды қажет етпестен қию, өлшемін өзгерту, айналдыру, түсін өзгерту немесе тіпті скриншоттар сияқты. Бастапқыда оны пайдалану арқылы ұсынылды Vertex AI жүйесіндегі кескін, мұнда пайдаланушылар мазмұнды жасау кезінде су таңбасын белсендіруді таңдай алады.
Аудиодағы бренд естілмейтін және MP3 қысу, шу қосу немесе ойнату жылдамдығын өзгерту сияқты жалпы әрекеттерді қолдайды. Google оны біріктіреді Лирия және Notebook LM негізіндегі мүмкіндіктерде файл жоғалған жариялау ағындары арқылы өткенде де сигналды күшейтеді.
Бейнеде тәсіл имидждік тәсілді қайталайды: бренд ендірілген әрбір кадрдың пиксельдері, сезілмейді және сүзгілерге, жаңарту жылдамдығының өзгеруіне, қысуға немесе қайталанады. Бейнелерді жасаған Мен көремін VideoFX сияқты құралдар келесі өңдеулерде кездейсоқ жойылу қаупін азайта отырып, жасау кезінде осы белгіні қосады.
Алгоритмдерді іріктеу және мәтін мөрінің сенімділігі
SynthID мәтінінің жүрегі - оның іріктеу алгоритмі, ол әрбір ықтимал таңбалауышқа жалған кездейсоқ ұпайларды тағайындау үшін кілтті (немесе кілттер жинағын) пайдаланады. Үміткерлер модельді бөлуден (Top-K/Top-P кейін) іріктеледі және g функциясына сәйкес ең жоғары ұпай жинаған белгі таңдалғанша, іріктеу раундтарынан кейін «жарысқа» қойылады.
Бұл таңдау процедурасы қолайлы соңғы статистикалық үлгі ықтималдықтардың бренд белгісін береді, бірақ табиғи емес опцияларды мәжбүрлеусіз. Жарияланған зерттеулерге сәйкес, техника оны қиындатады өшіру, бұрмалау немесе кері қайтару уақыт пен мотивация бойынша қарсыластарға қарсы әрқашан ақылға қонымды шектерде мөр.
Жақсы енгізу және қауіпсіздік тәжірибелері
- SynthID мәтінін қолданып жатсаңыз, конфигурацияны келесідей қарастырыңыз өндірістік құпия: Кілттер мен тұқымдарды қауіпсіз басқарушыда сақтаңыз, кіруді басқару элементтерін енгізіңіз және мерзімді айналдыруға рұқсат етіңіз. Ағып кетудің алдын алу кері инженерлік әрекеттерге қарсы шабуыл бетін азайтады.
- Жоспар құру бақылау детекторыңыз үшін: жалған оң/теріс көрсеткіштерді жазып алыңыз, шекті мәндерді контекстке сәйкес реттеңіз және анықтау саясатыңызды шешіңіз әсер етуі мүмкін (жеке, API арқылы жартылай жеке немесе жалпыға ортақ) нақты заңды және операциялық критерийлері бар. Ал егер бірнеше үлгілер токенизаторды ортақ пайдаланса, a оқытуды қарастырыңыз жалпы детектор техникалық қызмет көрсетуді жеңілдету үшін олардың барлығының мысалдарымен.
- Өнімділік деңгейінде ол әсерін бағалайды
sampling_table_sizeжад пен кешігуде және a таңдаңызngram_lenбұл өңдеулерге төзімділікті сенімді анықтау қажеттілігімен теңестіреді. Қайталанатын n-граммдарды алып тастауды ұмытпаңыз (арқылыcontext_history_size) ағынды мәтіндегі сигналды жақсарту.
SynthID жалған ақпаратқа қарсы күміс оқ емес, бірақ генеративті AI дәуірінде сенім тізбегін қайта құру үшін іргелі құрылыс блогын қамтамасыз етеді. Мәтінге, кескіндерге, аудиоға және бейнеге шығу сигналдарын енгізу және мәтін құрамдас бөлігін қоғамдастыққа ашу арқылы Google DeepMind түпнұсқалығын практикалық, өлшенетін және, ең алдымен, мазмұнның креативтілігі мен сапасымен үйлесімді түрде тексеруге болатын болашаққа ұмтылуда.
Түрлі сандық медиада он жылдан астам тәжірибесі бар технология және интернет мәселелеріне маманданған редактор. Мен электрондық коммерция, коммуникация, онлайн маркетинг және жарнама компанияларында редактор және мазмұн жасаушы болып жұмыс істедім. Мен сондай-ақ экономика, қаржы және басқа салалардың веб-сайттарында жаздым. Менің жұмысым да менің құмарлығым. Енді менің мақалаларым арқылы Tecnobits, Мен өмірімізді жақсарту үшін күн сайын технология әлемі ұсынатын барлық жаңалықтар мен жаңа мүмкіндіктерді зерттеуге тырысамын.