- Gemini 2.5 Flash Native Audio, Google-ın süni intellektindən istifadə edərək səsli danışıqların təbiiliyini, dəqiqliyini və axıcılığını artırır.
- Model xarici funksiyalara edilən çağırışları təkmilləşdirir, mürəkkəb təlimatları daha yaxşı yerinə yetirir və uzun dialoqlarda konteksti daha yaxşı saxlayır.
- 70-dən çox dil və 2.000 tərcümə cütlüyünü dəstəkləyən, intonasiya və ritmi qoruyan real vaxt rejimində səsdən səsə tərcüməni özündə birləşdirir.
- Artıq Google AI Studio, Vertex AI, Gemini Live və Search Live-a inteqrasiya olunub və Google və üçüncü tərəf məhsullarında yerləşdirilir.
Google süni intellekt ekosisteminin təkamülündə daha bir addım ataraq əsaslı bir yeniləmə təqdim etdi. Gemini 2.5 Flash Native AudioModel real vaxt rejimində səsi anlamaq və yaratmaq üçün hazırlanmışdır. Bu texnologiya səs qarşılıqlı əlaqələrini daha effektiv etməyə yönəlmişdir. insan söhbətinə daha yaxındırhəm gündəlik həyatda, həm də peşəkar mühitdə.
Sadəcə köməkçinin cavablarına "səs vermək"dən və digər variantlarla müqayisədən uzaqdır səs süni intellektinin müqayisələriBu model üçün nəzərdə tutulub təbii, funksional və kontekstual dialoqları davam etdirmək, əlavə məlumat axtarmaq üçün nə vaxt qərar vermək və söhbətin axışını pozmadan mürəkkəb təlimatları idarə etməkBununla, Google süni intellekt xidmətləri ilə qarşılıqlı əlaqənin əsas vasitəsi kimi səsə sadiqliyini gücləndirir.
Gemini 2.5 Flash Native Audio nədir və harada istifadə olunur?
Gemini 2.5 Flash Native Audio, Google-ın yerli audio modelinin ən son versiyasıdır və aşağıdakıları edə bilir: səslə dinləyin, başa düşün və cavab verin real vaxt rejimində. Yalnız nitq sintezinə yönəlmiş əvvəlki sistemlərdən fərqli olaraq, bu mühərrik həm giriş, həm də çıxış kimi səslə eyni vaxtda işləmək üçün hazırlanmışdır ki, bu da onu xüsusilə danışıq köməkçiləri üçün əlverişli edir.
Şirkət artıq bu versiyanı bir neçə əsas platformasına inteqrasiya edib: Google AI Studio, Vertex AI, Gemini Live və Search LiveBu o deməkdir ki, həm inşaatçılar, həm də şirkətlər tikintiyə başlaya bilərlər qabaqcıl səs agentləri Google-ın ən son danışıq süni intellekt təcrübələrini gücləndirən eyni texnologiya üzərində.
Təcrübədə istifadəçilər təcrübələrdəki bu dəyişiklikləri, məsələn, fərq edəcəklər Əkizlər Canlı (köməkçi ilə səsli söhbət rejimi) və ya Canlı axtarın Google tətbiqinin süni intellekt rejimində, burada danışıq cavabları səslənir daha ifadəli, daha aydın və daha yaxşı kontekstləşdirilmişBundan əlavə, köməkçidən söhbətin tempini təbii şəkildə tənzimləyərək daha yavaş danışmasını da istəyə bilərsiniz.
Google-dan başqa, bu imkanlar üçüncü tərəflərə də təqdim edilmişdir Vertex AI və Gemini APIki, digər şirkətlər yarada bilsinlər öz-özünə işləyən agentlər səsli, virtual qəbuledicilər və ya eyni səviyyədə səs mürəkkəbliyinə malik köməkçi vasitələr.
Daha dəqiq xarici funksiyalar və daha yaxşı qiymətləndirilən modellər

Gemini 2.5 Flash Native Audio-nun ən çox irəliləyiş əldə etdiyi sahələrdən biri də onun qabiliyyətidir xarici funksiyaları çağırınSadə dillə desək, model artıq qərar qəbul etmək baxımından daha etibarlıdır. real vaxt rejimində xidmətlərə və ya məlumatlara müraciət etmək lazım olduqdaMəsələn, yenilənmiş məlumatları əldə etmək, sifarişin statusunu yoxlamaq və ya avtomatlaşdırılmış prosesi başlatmaq.
Google qeyd edir ki, bu əlavə dəqiqlik hərəkətləri tetikləyərkən daha az səhvə səbəb olur və köməkçinin səhv etdiyi və ya vaxtından əvvəl hərəkət etdiyi narahat vəziyyətləri azaldır. Sistem ... qabiliyyətinə malikdir Əldə edilmiş məlumatları audio cavaba daxil edin istifadəçi söhbətdə hər hansı bir qəfil kəsik hiss etmədən.
Bu irəliləyişləri ölçmək üçün şirkət modeli bu kimi sınaqlara məruz qoyub ComplexFuncBench Audio, məhdudiyyətləri olan çoxmərhələli tapşırıqlara yönəlmiş qiymətləndirmə platforması. Bu ssenaridə Gemini 2.5 Flash Native Audio təxminən bir nailiyyət əldə edib Mürəkkəb funksiyaların yerinə yetirilməsində 71,5% uğur nisbəti, onu əvvəlki iterasiyalardan və bu tip istifadədə digər rəqib modellərdən üstün tutur.
Bu performans, xüsusilə mürəkkəb avtomatlaşdırılmış iş axınlarının tələb olunduğu kontekstlərdə aktualdır, məsələn çağrı mərkəzləri, texniki dəstək və ya əməliyyat emalı (məsələn, maliyyə və ya inzibati tapşırıqlar), burada hər addım əvvəlkindən asılıdır və səhvə yol vermək üçün az yer var.
Daha yaxşı təlimat izləmə və daha uyğun söhbət mövzuları
Yeniləmənin digər bir diqqət mərkəzində modelin necə olmasıdır təlimatları şərh edin və onlara əməl edin həm son istifadəçilərdən, həm də tərtibatçılardan alır. Google tərəfindən açıqlanan məlumatlara görə, təlimatlara uyğunluq nisbəti 84%-dən aşağı düşüb 90% riayətBu o deməkdir ki, əslində soruşulanlara daha çox uyğun cavablar verilib.
Bu sıçrayış tələb olunan vəzifələrdə əsasdır mürəkkəb təlimatlar, çoxsaylı addımlar və ya çoxsaylı şərtlərMəsələn, müəyyən bir üslubda izahat tələb edərkən, müəyyən vaxt məhdudiyyətləri ilə xülasə tələb edərkən və ya bir neçə əlaqəli qərardan asılı olan iş axını qurarkən.
Bununla əlaqədar olaraq, Gemini 2.5 Flash Native Audio imkanı qazandı Əvvəlki mesajların kontekstini əldə edinÇoxnövbəli söhbətlərdə model deyilənləri, istifadəçi tərəfindən təqdim edilən nüansları və dialoq boyunca edilən düzəlişləri daha yaxşı xatırlayır.
Danışıq yaddaşındakı bu inkişaf eyni məlumatı dəfələrlə təkrarlamaq ehtiyacını azaldır və qarşılıqlı əlaqələri daha təsirli etməyə kömək edir. daha rahat və daha az əsəbiləşdiriciBu təcrübə, hər cavabı sıfırdan başlamaqdansa, mövzunu qaldığı yerdən davam etdirən bir insanla danışmağa daha yaxındır.
Real həyatda istifadə halları: elektron ticarətdən maliyyə xidmətlərinə qədər
Daxili ölçülərdən əlavə, Google Gemini 2.5 Flash Native Audio-nun praktik təsirini göstərmək üçün müştəri nümunələrinə əsaslanır. Elektron ticarət sektorunda Shopify bu imkanları öz köməkçisinə daxil edib. Sidekick", bu da pərakəndə satıcılara mağazalarını idarə etməyə və bizneslə bağlı şübhələri aradan qaldırmağa kömək edir.
Şirkətin məlumatına görə, bir çox istifadəçi Hətta süni intellektlə danışdıqlarını da unudurlar Bir neçə dəqiqəlik söhbətdən sonra istifadəçi uzun bir sorğudan sonra bota təşəkkür etdi. Bu cür reaksiya təbiilik və tonda irəliləyişlərin texnologiyanın incə şəkildə arxa plana keçməsinə səbəb olduğunu göstərir.
Maliyyə sektorunda, təminatçı Birləşmiş Topdansatış İpoteka (UWM) Şirkət, ipoteka ilə əlaqəli prosesləri idarə etmək üçün modeli "Mia" köməkçisinə inteqrasiya edib. Gemini 2.5 və digər daxili sistemlərin birləşməsi ilə şirkət iddia edir ki, 14.000-dən çox kredit qəbul edilib tərəfdaşları üçün dəqiqlik və tənzimləmə uyğunluğu tələb edən avtomatlaşdırılmış qarşılıqlı əlaqələrə əsaslanır.
Öz növbəsində, startap Newo.ai O, özünün enerji təchizatını təmin etmək üçün Vertex AI vasitəsilə Gemini 2.5 Flash Native Audio-dan istifadə edir. virtual qəbul işçiləriBu səs köməkçiləri səs-küylü mühitlərdə belə əsas danışanı müəyyən edə, söhbət zamanı dilləri dəyişə və səsi saxlaya bilir. emosional nüanslarla təbii səs reyestriki, bu da müştəri xidmətində çox vacibdir.
Real vaxt rejimində səsdən səsə tərcümə: daha çox dil və daha çox nüans
Bu versiyadakı ən diqqət çəkən əlavələrdən biri də canlı səsdən səsə tərcüməƏvvəlcə Google Tərcümə tətbiqinə inteqrasiya edilmiş Gemini 2.5 Flash Native Audio, sadəcə səsi mətnə çevirməkdən və ya fraqmentləşdirilmiş tərcümələr təklif etməkdən daha geniş bir təcrübə təmin edir. sinxron tərcümə insan təfsirinə daha yaxındır.
Sistem aşağıdakı rejimdə işləyə bilər davamlı dinləməBu, istifadəçiyə qulaqcıq taxmağa və hər ifadə üçün fasilə verməyə və ya düymələrə basmağa ehtiyac olmadan ətrafında baş verənləri öz dillərinə tərcümə olunmuş şəkildə eşitməyə imkan verir. Bu seçim səyahət edərkən, beynəlxalq görüşlərdə iştirak edərkən və ya birdən çox dilin iştirak etdiyi tədbirlərdə faydalı ola bilər.
Vəziyyətlər də nəzərə alınıb ikitərəfli söhbətMəsələn, əgər bir şəxs ingilis dilində, digəri isə hind dilində danışırsa, qulaqlıqlar ingilis dilindəki tərcüməni real vaxt rejimində səsləndirir, telefon isə birinci şəxs danışmağı bitirdikdən sonra hind dilindəki tərcüməni səsləndirir. Sistem, istifadəçi növbələr arasında parametrləri dəyişdirmədən, kimin danışdığından asılı olaraq çıxış dilini avtomatik olaraq dəyişir.
Bu funksiyanın ən vacib detallarından biri onun qabiliyyətidir orijinal intonasiyanı, ritmi və tonu qorumaq Bu, tərcümələrin daha az robot səslənməsinə və natiqin səs tərzinə daha yaxın olmasına gətirib çıxarır ki, bu da onları daha asan başa düşməyə və təcrübəni daha təbii etməyə imkan verir.
Dil dəstəyi, avtomatik aşkarlama və səs-küyün filtrlənməsi
Dil əhatəsi baxımından, Gemini 2.5 əsaslı səs tərcüməsi aşağıdakılar üçün dəstək təklif edir 70-dən çox dil və təxminən 2.000 tərcümə cütüModelin dünya biliklərini çoxdilli və yerli audio imkanları ilə birləşdirərək, digər alətlər tərəfindən həmişə prioritetləşdirilməyən bir çox dil kombinasiyaları da daxil olmaqla, geniş çeşiddə dil kombinasiyalarını əhatə edə bilər.
Sistem idarə edə bilər çoxdilli giriş Tək bir sessiya ərzində, istifadəçinin hər dəfə dilləri dəyişdirdikdə parametrləri əl ilə tənzimləməsini tələb etmədən eyni anda birdən çox dili başa düşür. Bu xüsusiyyət, xüsusilə bir neçə dilin təbii şəkildə qarışdırıldığı söhbətlərdə faydalıdır.
Sayəsində danışıq dilinin avtomatik aşkarlanmasıİstifadəçinin həmsöhbətinin hansı dildə ünsiyyət qurduğunu əvvəlcədən bilməsinə ehtiyac yoxdur: model dili müəyyən edir və sürtünməni və aralıq addımları azaltmaqla dərhal tərcümə etməyə başlayır.
Gemini 2.5 Flash Native Audio həmçinin aşağıdakı mexanizmləri özündə birləşdirir: səs-küyə qarşı möhkəmlikƏsas səsə üstünlük vermək üçün ətraf səslərin bir hissəsini süzgəcdən keçirə bilir və bu da işlək küçələrdə, açıq məkanlarda və ya fon musiqisi olan yerlərdə daha rahat söhbətlər aparmağa imkan verir.
Avropa üçün mövcudluq, yerləşdirmə və perspektivlər
Bu modelə əsaslanan canlı səs tərcüməsi hazırda mövcuddur Google Tərcümə tətbiqində beta mərhələsi ABŞ, Meksika və Hindistan kimi bazarlardakı Android cihazları üçün. Google xidmətin tədricən tətbiq olunacağını təsdiqlədi daha çox bölgə və platforma, digər mobil sistemlər də daxil olmaqla.
Paralel olaraq, Gemini 2.5 Flash Native Audio-nun inteqrasiyası Əkizlər Canlı və Canlı Axtarış Bu, ABŞ-dan başlayaraq Android və iOS platformalarında Google tətbiqinin istifadəçiləri üçün tətbiq olunur. Bu xüsusiyyətlər yetkinləşdikcə və ilkin sınaq və uyğunlaşma mərhələlərindən keçdikcə, digər bölgələrdə də istifadəyə verilməsi gözlənilir. ehtimal ki, Avropa bazarları da daxil olmaqla daha çox ölkə, burada tərcümə və səs köməkçilərinə tələbat xüsusilə yüksəkdir.
Google həmçinin bu səs və tərcümə təcrübəsini digər məhsullara, o cümlədən Əkizlər API-siNövbəti aylar və illər ərzində bu, turizm, logistika, təhsil və dövlət idarəçiliyi kimi sektorlarda fəaliyyət göstərən Avropa şirkətlərinə bu imkanları birbaşa öz xidmətlərinə inteqrasiya etmək üçün qapı açacaq.
Şirkət bu yeni xüsusiyyətləri inkişaf etdiricilərə imkan yaratmaq üçün daha geniş bir strategiyanın bir hissəsi kimi təqdim edir. Təbii səslə danışıq agentləri yaradın Bundan sonra, həm Gemini 2.5 Flash Native Audio, həm də daha çox idarə olunan səs generasiyasına (ton, niyyət, sürət və s. tənzimləmə) yönəlmiş 2.5 Flash və Pro ailəsindəki digər modellərdən və kimi kadrlardan yararlanaraq... Agent AI Fondu.
Bu təkmilləşdirmələrlə Google, səsin süni intellektlə qarşılıqlı əlaqənin əsas kanallarından biri olacağı fikrini gücləndirir: müştəri zənglərini idarə edən və mürəkkəb əməliyyatları emal edən köməkçilərdən tutmuş, dil paylaşmayan insanlar arasında ünsiyyəti asanlaşdıran sinxron tərcümə sistemlərinə qədər. Gemini 2.5 Flash Native Audio, həm səs anlama, həm də ifadəni təkmilləşdirərək bu səyin mərkəzindədir. texnologiyanın Avropada və digər bazarlarda tam tətbiqini gözləyərkən onu daha faydalı və gündəlik həyatda daha az müdaxiləli etmək.
Mən öz "geek" maraqlarını peşəyə çevirmiş texnologiya həvəskarıyam. Mən həyatımın 10 ilindən çoxunu qabaqcıl texnologiyadan istifadə edərək və hər cür proqramlarla maraqlanaraq sərf etmişəm. İndi mən kompüter texnologiyası və video oyunları üzrə ixtisaslaşmışam. Bunun səbəbi, 5 ildən artıqdır ki, texnologiya və video oyunlarla bağlı müxtəlif saytlar üçün yazılar yazıram, sizə lazım olan məlumatları hamı üçün başa düşülən dildə verməyə çalışan məqalələr hazırlayıram.
Hər hansı bir sualınız varsa, mənim biliklərim Windows əməliyyat sistemi, eləcə də mobil telefonlar üçün Android ilə əlaqəli hər şeyi əhatə edir. Və mənim öhdəliyim sizədir, mən həmişə bir neçə dəqiqə sərf etməyə və bu internet dünyasında yarana biləcək bütün suallarınızı həll etməyə kömək etməyə hazıram.
