Gemini 2.5 Flash Native Audio. Ահա թե ինչպես է փոխվում Google-ի արհեստական ​​ինտելեկտի ձայնը

Վերջին թարմացումը. 15/12/2025

  • Gemini 2.5 Flash Native Audio-ն բարելավում է ձայնային զրույցների բնականությունը, ճշգրտությունը և սահունությունը Google-ի արհեստական ​​բանականության միջոցով։
  • Մոդելը կատարելագործում է արտաքին ֆունկցիաների կանչերը, ավելի լավ է հետևում բարդ հրահանգներին և ավելի լավ է պահպանում համատեքստը երկար երկխոսություններում։
  • Այն ներառում է իրական ժամանակում ձայնից ձայն թարգմանություն՝ աջակցելով ավելի քան 70 լեզուների և 2.000 թարգմանչական զույգերի, պահպանելով ինտոնացիան և ռիթմը։
  • Այն արդեն ինտեգրված է Google AI Studio-ում, Vertex AI-ում, Gemini Live-ում և Search Live-ում, և տեղակայվում է Google-ի և երրորդ կողմի արտադրանքներում։

Gemini 2.5 Flash Native Audio

Google-ը ևս մեկ քայլ է կատարել իր արհեստական ​​բանականության էկոհամակարգի զարգացման գործում՝ կատարելով կարևոր թարմացում։ Gemini 2.5 Flash Native AudioՄոդելը նախագծված է իրական ժամանակում ձայնը հասկանալու և ստեղծելու համար: Այս տեխնոլոգիան ուղղված է ձայնային փոխազդեցություններն ավելի արդյունավետ դարձնելուն: ավելի մոտ է մարդկային զրույցինթե՛ առօրյա կյանքում, թե՛ մասնագիտական ​​միջավայրում։

Հեռու է պարզապես օգնականի պատասխաններին «ձայն տալուց» և համեմատած այլ տարբերակների հետ ձայնային արհեստական ​​բանականության համեմատություններԱյս մոդելը նախատեսված է բնական, ֆունկցիոնալ և համատեքստային երկխոսությունները պահպանելու համար, որոշումներ կայացնել այն մասին, թե երբ փնտրել լրացուցիչ տեղեկատվություն և կառավարել բարդ հրահանգներ՝ առանց զրույցի հոսքը խաթարելուՍրանով Google-ը ամրապնդում է իր հանձնառությունը՝ ձայնը դարձնել իր արհեստական ​​ինտելեկտի ծառայությունների հետ փոխազդեցության հիմնական միջոց։

Ի՞նչ է Gemini 2.5 Flash Native Audio-ն և որտե՞ղ է այն օգտագործվում:

Gemini 2.5 Flash Native Audio-ն Google-ի բնիկ աուդիո մոդելի վերջին տարբերակն է, որը կարող է լսել, հասկանալ և ձայնով պատասխանել իրական ժամանակում: Ի տարբերություն նախորդ համակարգերի, որոնք կենտրոնացած էին բացառապես խոսքի սինթեզի վրա, այս շարժիչը նախատեսված է միաժամանակ աշխատելու աուդիոյի հետ՝ որպես մուտքային և ելքային ազդանշան, ինչը այն հատկապես հարմար է դարձնում խոսակցական օգնականների համար:

Ընկերությունն արդեն ինտեգրել է այս տարբերակը իր մի քանի հիմնական հարթակներում՝ Google AI Studio, Vertex AI, Gemini Live և Search LiveՍա նշանակում է, որ և՛ մշակողները, և՛ ընկերությունները կարող են սկսել շինարարությունը առաջադեմ ձայնային գործակալներ նույն տեխնոլոգիայի վրա, որը հզորացնում է Google-ի վերջին զրույցի արհեստական ​​բանականության փորձը։

Գործնականում օգտատերերը կնկատեն այս փոփոխությունները փորձառություններում, ինչպիսիք են՝ Երկվորյակ Live (օգնականի հետ ձայնային զրույցի ռեժիմ) կամ Որոնել ուղիղ եթերում Google հավելվածի արհեստական ​​բանականության ռեժիմում, որտեղ հնչում են բանավոր պատասխանները ավելի արտահայտիչ, ավելի հստակ և ավելի լավ համատեքստայինԱվելին, կարող եք նույնիսկ խնդրել օգնականին ավելի դանդաղ խոսել՝ բնականաբար կարգավորելով զրույցի տեմպը։

Google-ից բացի, այս հնարավորությունները հասանելի են դարձել նաև երրորդ կողմերին՝ Vertex AI և Gemini APIորպեսզի մյուս ընկերությունները կարողանան ստեղծել ինքնազբաղված գործակալներ ձայնային, վիրտուալ ընդունարանի աշխատակիցներ կամ օգնության գործիքներ՝ նույն մակարդակի ձայնային բարդությամբ։

Ավելի ճշգրիտ արտաքին գործառույթներ և ավելի լավ գնահատված մոդելներ

Google-ի ձայնային արհեստական ​​բանականությունը

Gemini 2.5 Flash Native Audio-ի ամենամեծ առաջընթացի ոլորտներից մեկը դրա կարողությունն է։ արտաքին ֆունկցիաների կանչՊարզ ասած, մոդելն այժմ ավելի հուսալի է որոշումներ կայացնելու հարցում։ երբ անհրաժեշտ է խորհրդակցել իրական ժամանակի ծառայությունների կամ տվյալների հետՕրինակ՝ թարմացված տեղեկատվությունը ստանալու, պատվերի կարգավիճակը ստուգելու կամ ավտոմատացված գործընթաց մեկնարկելու համար։

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Ինչպես տեղադրել Google-ի նկարը Google Slides-ում

Google-ը նշում է, որ այս լրացուցիչ ճշգրտությունը հանգեցնում է գործողություններ սկսելիս սխալների նվազմանը, նվազեցնելով անհարմար իրավիճակները, երբ օգնականը թերանում է կամ ժամանակից շուտ է գործում։ Համակարգը կարող է տեղադրեք ստացված տվյալները աուդիո պատասխանի մեջ առանց օգտագործողի կողմից զրույցի որևէ կտրուկ ընդհատում նկատելու։

Այս առաջընթացները չափելու համար ընկերությունը մոդելը ենթարկել է այնպիսի թեստերի, ինչպիսիք են՝ ComplexFuncBench Audio, գնահատման հարթակ, որը կենտրոնացած է սահմանափակումներով բազմաստիճան առաջադրանքների վրա: Այս սցենարում Gemini 2.5 Flash Native Audio-ն հասել է մոտ 71,5% հաջողության մակարդակ բարդ գործառույթների կատարման մեջ, այն դասելով նախորդ իտերացիաներից և այս տեսակի օգտագործման մեջ այլ մրցակցող մոդելներից վեր։

Այս կատարողականը հատկապես կարևոր է այն դեպքերում, երբ անհրաժեշտ են բարդ ավտոմատացված աշխատանքային հոսքեր, ինչպիսիք են՝ զանգերի կենտրոններ, տեխնիկական աջակցություն կամ գործարքների մշակում (օրինակ՝ ֆինանսական կամ վարչական առաջադրանքներ), որտեղ յուրաքանչյուր քայլ կախված է նախորդից, և սխալի տեղ քիչ կա։

Ավելի լավ հրահանգների հետևում և ավելի հետևողական զրույցի թեմաներ

Թարմացման մեկ այլ ուշադրության կենտրոնում է այն, թե ինչպես է մոդելը մեկնաբանել և հարգել հրահանգները որը այն ստանում է թե՛ վերջնական օգտատերերից, թե՛ մշակողներից: Google-ի կողմից հրապարակված տվյալների համաձայն՝ հրահանգների համապատասխանության մակարդակը 84%-ից նվազել է մինչև 90% հետևողականությունՍա նշանակում է պատասխաններ, որոնք ավելի շատ համապատասխանում են իրականում խնդրվածին։

Այս ցատկը կարևոր է այն առաջադրանքներում, որտեղ դա անհրաժեշտ է բարդ հրահանգներ, բազմակի քայլեր կամ բազմակի պայմաններՕրինակ՝ երբ խնդրում եք բացատրություն որոշակի ոճով, խնդրում եք ամփոփում որոշակի ժամանակային սահմանափակումներով կամ կարգավորում եք աշխատանքային հոսք, որը կախված է մի քանի փոխկապակցված որոշումներից։

Դրա հետ կապված, Gemini 2.5 Flash Native Audio-ն ձեռք է բերել հնարավորություն Վերցրեք նախորդ հաղորդագրությունների համատեքստըԲազմակողմանի զրույցներում մոդելն ավելի լավ է հիշում ասվածը, օգտատիրոջ կողմից ներմուծված նրբերանգները և երկխոսության ընթացքում կատարված ուղղումները։

Խոսակցական հիշողության այս բարելավումը նվազեցնում է նույն տեղեկատվությունը կրկին ու կրկին կրկնելու անհրաժեշտությունը և օգնում է փոխազդեցություններն ավելի արդյունավետ դարձնել։ ավելի հարթ և պակաս նյարդայնացնողԱյս փորձը ավելի նման է այն մարդու հետ խոսելուն, ով թեման շարունակում է այնտեղից, որտեղից կանգ է առել, քան թե յուրաքանչյուր պատասխանը զրոյից սկսելուն։

Իրական աշխարհի օգտագործման դեպքեր՝ էլեկտրոնային առևտուրից մինչև ֆինանսական ծառայություններ

Ներքին չափանիշներից զատ, Google-ը հիմնվում է հաճախորդների օրինակների վրա՝ Gemini 2.5 Flash Native Audio-ի գործնական ազդեցությունը ցույց տալու համար: Էլեկտրոնային առևտրի ոլորտում Shopify-ը ներառել է այս հնարավորությունները իր օգնականում: Սիդեկիկ«, որը օգնում է մանրածախ առևտրականներին կառավարել իրենց խանութները և լուծել բիզնեսի վերաբերյալ կասկածները։»

Բացառիկ բովանդակություն - Սեղմեք այստեղ  LinkedIn-ը կարգավորում է իր արհեստական ​​ինտելեկտը. գաղտնիության փոփոխություններ, տարածաշրջաններ և ինչպես այն անջատել

Ընկերության տվյալներով՝ շատ օգտատերեր Նրանք նույնիսկ մոռանում են, որ խոսում են արհեստական ​​բանականության հետ Մի քանի րոպե զրույցից հետո օգտատերը նույնիսկ շնորհակալություն հայտնեց բոտին՝ երկար հարցումից հետո։ Այս տեսակի արձագանքը ենթադրում է, որ բնականության և տոնի առաջընթացը տեխնոլոգիաները աննկատելիորեն մղում է երկրորդ պլան։

Ֆինանսական ոլորտում մատակարարը Միացյալ մեծածախ հիփոթեքային վարկ (UWM) Այն մոդելը ինտեգրել է իր «Mia» օգնականի մեջ՝ հիփոթեքային վարկերի հետ կապված գործընթացները կառավարելու համար: Gemini 2.5-ի և այլ ներքին համակարգերի համադրությամբ ընկերությունը պնդում է, որ ունի մշակվել է ավելի քան 14.000 վարկ իր գործընկերների համար՝ հենվելով ավտոմատացված փոխազդեցությունների վրա, որոնք պահանջում են ճշգրտություն և կարգավորող մարմինների համապատասխանություն։

Իր հերթին, ստարտափը Newo.ai Այն օգտագործում է Gemini 2.5 Flash Native Audio՝ Vertex AI-ի միջոցով՝ իր հզորացման համար։ վիրտուալ ընդունարանի աշխատակիցներԱյս ձայնային օգնականները կարող են ճանաչել գլխավոր խոսողին նույնիսկ աղմկոտ միջավայրում, փոխել լեզուները զրույցի ընթացքում և պահպանել բնական ձայնային ռեգիստր՝ հուզական նրբերանգներովինչը կարևոր է հաճախորդների սպասարկման մեջ։

Իրական ժամանակում ձայնից ձայն թարգմանություն. ավելի շատ լեզուներ և ավելի շատ նրբերանգներ

Այս տարբերակի ամենացնցող լրացումներից մեկը ուղիղ ձայնից ձայն թարգմանությունՍկզբնապես Google Translate հավելվածում ինտեգրված Gemini 2.5 Flash Native Audio-ն ավելին է, քան պարզապես աուդիոն տեքստի վերածելը կամ մասնատված թարգմանություններ առաջարկելը՝ ապահովելով ավելի ընկղմվող փորձառություն: համաժամանակյա թարգմանություն ավելի մոտ է մարդկային մեկնաբանությանը։

Համակարգը կարող է աշխատել ռեժիմով՝ անընդհատ լսողությունՍա թույլ է տալիս օգտատիրոջը ականջակալներ դնել և լսել շուրջը կատարվողը թարգմանված իր լեզվով՝ առանց յուրաքանչյուր արտահայտության համար կանգ առնելու կամ կոճակներ սեղմելու անհրաժեշտության։ Այս տարբերակը կարող է օգտակար լինել ճանապարհորդելիս, միջազգային հանդիպումներին մասնակցելու կամ մի քանի լեզուներով խոսվող միջոցառումների ժամանակ։

Հաշվի են առնվել նաև այնպիսի իրավիճակներ, ինչպիսիք են՝ երկկողմանի զրույցՕրինակ, եթե մեկը խոսում է անգլերեն, իսկ մյուսը՝ հինդի, ականջակալները նվագարկում են անգլերեն թարգմանությունը իրական ժամանակում, մինչդեռ հեռախոսը նվագարկում է հինդի թարգմանությունը, երբ առաջին մարդն ավարտում է խոսելը: Համակարգն ավտոմատ կերպով փոխում է ելքային լեզուն՝ կախված նրանից, թե ով է խոսում, առանց օգտատիրոջ կողմից կարգավորումները փոխելու անհրաժեշտության հերթափոխի միջև:

Այս ֆունկցիայի ամենակարևոր մանրամասներից մեկը դրա ունակությունն է պահպանել բնօրինակ ինտոնացիան, ռիթմը և տոնը խոսողից։ Սա հանգեցնում է թարգմանությունների, որոնք հնչում են պակաս ռոբոտային և ավելի մոտ են խոսողի ձայնային ոճին, ինչը դրանք դարձնում է ավելի հեշտ հասկանալի և փորձառությունն ավելի բնական։

Լեզվի աջակցություն, ավտոմատ հայտնաբերում և աղմուկի զտում

Լեզվական շրջանակի առումով, Gemini 2.5-ի վրա հիմնված ձայնային թարգմանությունը աջակցություն է առաջարկում ավելի քան 70 լեզու և մոտ 2.000 թարգմանչական զույգՄոդելի աշխարհի մասին գիտելիքները համադրելով իր բազմալեզու և բնիկ աուդիո հնարավորությունների հետ, այն կարող է ընդգրկել լեզվական համադրությունների լայն շրջանակ, այդ թվում՝ շատերը, որոնք միշտ չէ, որ առաջնահերթ են համարվում այլ գործիքների կողմից։

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Grok Code Fast 1-ի լավագույն ստեղնաշարի կարճ ստեղները՝ ավելի արագ ծրագրավորելու համար

Համակարգը կարող է կառավարել բազմալեզու մուտքագրում Մեկ սեսիայի ընթացքում այն ​​միաժամանակ հասկանում է մեկից ավելի լեզու՝ առանց պահանջելու, որ օգտատերը ձեռքով կարգավորի կարգավորումները ամեն անգամ, երբ ինչ-որ մեկը փոխում է լեզուն։ Այս գործառույթը հատկապես օգտակար է այն զրույցներում, որտեղ մի քանի լեզուներ բնականաբար խառնվում են։

Շնորհիվ խոսակցական լեզվի ավտոմատ հայտնաբերումՕգտատերը պարտավոր չէ նախապես իմանալ, թե իր զրուցակիցը որ լեզվով է շփվում. մոդելը նույնականացնում է լեզուն և սկսում է թարգմանել անմիջապես՝ նվազեցնելով շփումը և միջանկյալ քայլերը։

Gemini 2.5 Flash Native Audio-ն նաև ներառում է մեխանիզմներ աղմուկի նկատմամբ կայունությունԱյն կարող է զտել շրջակա միջավայրի ձայների մի մասը՝ առաջնահերթություն տալով հիմնական ձայնին, ինչը հնարավորություն է տալիս ավելի հարմարավետ զրույցներ վարել մարդաշատ փողոցներում, բաց տարածքներում կամ ֆոնային երաժշտությամբ վայրերում։

Հասանելիություն, տեղակայում և հեռանկարներ Եվրոպայի համար

Այս մոդելի վրա հիմնված ուղիղ ձայնային թարգմանությունը ներկայումս հասանելի է Google Translate հավելվածի բետա փուլը Android սարքերի համար այնպիսի շուկաներում, ինչպիսիք են Միացյալ Նահանգները, Մեքսիկան և Հնդկաստանը: Google-ը հաստատել է, որ ծառայությունը աստիճանաբար կներդրվի ավելի շատ տարածաշրջաններ և հարթակներ, ներառյալ այլ բջջային համակարգերը։

Զուգահեռաբար, Gemini 2.5 Flash Native Audio-ի ինտեգրումը Երկվորյակներ ուղիղ և որոնում ուղիղ Այն մեկնարկում է Google հավելվածի օգտատերերի համար Android և iOS համակարգերում, սկսած Միացյալ Նահանգներից: Քանի որ այս գործառույթները հասունանում են և անցնում նախնական փորձարկման և հարմարեցման փուլերը, սպասվում է, որ դրանք կհասնեն նաև այլ տարածաշրջաններ: ավելի շատ երկրներ, ենթադրաբար՝ ներառյալ եվրոպական շուկաները, որտեղ թարգմանիչների և ձայնային օգնականների պահանջարկը հատկապես բարձր է։

Google-ը նաև հայտարարել է այս ձայնային և թարգմանչական փորձը այլ արտադրանքներում, այդ թվում՝ Gemini APIԱռաջիկա ամիսների և տարիների ընթացքում սա կբացի դռները եվրոպական ընկերությունների համար, որոնք գործում են այնպիսի ոլորտներում, ինչպիսիք են զբոսաշրջությունը, լոգիստիկան, կրթությունը և պետական ​​կառավարումը, որպեսզի նրանք ուղղակիորեն ինտեգրեն այս հնարավորությունները իրենց սեփական ծառայություններում։

Ընկերությունը ներկայացնում է այս նոր հնարավորությունները որպես ավելի լայն ռազմավարության մի մաս, որը թույլ կտա մշակողներին կառուցել խոսակցական գործակալներ բնական ձայնով Այսուհետ, օգտագործելով Gemini 2.5 Flash Native Audio-ն և 2.5 Flash և Pro ընտանիքի մյուս մոդելները, որոնք ուղղված են ավելի վերահսկվող ձայնի ստեղծմանը (տոնի, մտադրության, արագության և այլնի կարգավորում) և կադրերի, ինչպիսիք են՝ Գործակալական արհեստական ​​բանականության հիմնադրամ.

Այս բարելավումների շարքով Google-ը ամրապնդում է այն գաղափարը, որ ձայնը կլինի արհեստական ​​բանականության հետ փոխազդեցության հիմնական ուղիներից մեկը՝ սկսած հաճախորդների զանգերը մշակող և բարդ գործողություններ մշակող օգնականներից մինչև միաժամանակյա թարգմանության համակարգեր, որոնք հեշտացնում են նույն լեզուն չխոսող մարդկանց միջև հաղորդակցությունը։ Gemini 2.5 Flash Native Audio-ն այս ջանքերի հիմքում է, որը կատարելագործում է ինչպես ձայնի ըմբռնումը, այնպես էլ արտահայտչականությունը: տեխնոլոգիան ավելի օգտակար և առօրյա կյանքում պակաս ներխուժող դարձնելու համար՝ Եվրոպայում և այլ շուկաներում դրա լիարժեք տեղակայմանը սպասելու ընթացքում։

Voice.ai vs ElevenLabs vs Udio. Ո՞րն է ավելի լավ հնչում:
Առնչվող հոդված.
Voice.ai vs ElevenLabs vs Udio. Արհեստական ​​բանականության ձայների ամբողջական համեմատություն