Gemini 2.5 Flash Native Audio. Նոր հնարավորություններ և հիմնական գործառույթներ

Gemini 2.5 Flash Native Audio-ն բարելավում է ձայնային զրույցների բնականությունը, ճշգրտությունը և սահունությունը Google-ի արհեստական բանականության միջոցով։
Մոդելը կատարելագործում է արտաքին ֆունկցիաների կանչերը, ավելի լավ է հետևում բարդ հրահանգներին և ավելի լավ է պահպանում համատեքստը երկար երկխոսություններում։
Այն ներառում է իրական ժամանակում ձայնից ձայն թարգմանություն՝ աջակցելով ավելի քան 70 լեզուների և 2.000 թարգմանչական զույգերի, պահպանելով ինտոնացիան և ռիթմը։
Այն արդեն ինտեգրված է Google AI Studio-ում, Vertex AI-ում, Gemini Live-ում և Search Live-ում, և տեղակայվում է Google-ի և երրորդ կողմի արտադրանքներում։

Google-ը ևս մեկ քայլ է կատարել իր արհեստական բանականության էկոհամակարգի զարգացման գործում՝ կատարելով կարևոր թարմացում։ Gemini 2.5 Flash Native AudioՄոդելը նախագծված է իրական ժամանակում ձայնը հասկանալու և ստեղծելու համար: Այս տեխնոլոգիան ուղղված է ձայնային փոխազդեցություններն ավելի արդյունավետ դարձնելուն: ավելի մոտ է մարդկային զրույցինթե՛ առօրյա կյանքում, թե՛ մասնագիտական միջավայրում։

Հեռու է պարզապես օգնականի պատասխաններին «ձայն տալուց» և համեմատած այլ տարբերակների հետ ձայնային արհեստական բանականության համեմատություններԱյս մոդելը նախատեսված է բնական, ֆունկցիոնալ և համատեքստային երկխոսությունները պահպանելու համար, որոշումներ կայացնել այն մասին, թե երբ փնտրել լրացուցիչ տեղեկատվություն և կառավարել բարդ հրահանգներ՝ առանց զրույցի հոսքը խաթարելուՍրանով Google-ը ամրապնդում է իր հանձնառությունը՝ ձայնը դարձնել իր արհեստական ինտելեկտի ծառայությունների հետ փոխազդեցության հիմնական միջոց։

Ի՞նչ է Gemini 2.5 Flash Native Audio-ն և որտե՞ղ է այն օգտագործվում:

Gemini 2.5 Flash Native Audio-ն Google-ի բնիկ աուդիո մոդելի վերջին տարբերակն է, որը կարող է լսել, հասկանալ և ձայնով պատասխանել իրական ժամանակում: Ի տարբերություն նախորդ համակարգերի, որոնք կենտրոնացած էին բացառապես խոսքի սինթեզի վրա, այս շարժիչը նախատեսված է միաժամանակ աշխատելու աուդիոյի հետ՝ որպես մուտքային և ելքային ազդանշան, ինչը այն հատկապես հարմար է դարձնում խոսակցական օգնականների համար:

Ընկերությունն արդեն ինտեգրել է այս տարբերակը իր մի քանի հիմնական հարթակներում՝ Google AI Studio, Vertex AI, Gemini Live և Search LiveՍա նշանակում է, որ և՛ մշակողները, և՛ ընկերությունները կարող են սկսել շինարարությունը առաջադեմ ձայնային գործակալներ նույն տեխնոլոգիայի վրա, որը հզորացնում է Google-ի վերջին զրույցի արհեստական բանականության փորձը։

Գործնականում օգտատերերը կնկատեն այս փոփոխությունները փորձառություններում, ինչպիսիք են՝ Երկվորյակ Live (օգնականի հետ ձայնային զրույցի ռեժիմ) կամ Որոնել ուղիղ եթերում Google հավելվածի արհեստական բանականության ռեժիմում, որտեղ հնչում են բանավոր պատասխանները ավելի արտահայտիչ, ավելի հստակ և ավելի լավ համատեքստայինԱվելին, կարող եք նույնիսկ խնդրել օգնականին ավելի դանդաղ խոսել՝ բնականաբար կարգավորելով զրույցի տեմպը։

Google-ից բացի, այս հնարավորությունները հասանելի են դարձել նաև երրորդ կողմերին՝ Vertex AI և Gemini APIորպեսզի մյուս ընկերությունները կարողանան ստեղծել ինքնազբաղված գործակալներ ձայնային, վիրտուալ ընդունարանի աշխատակիցներ կամ օգնության գործիքներ՝ նույն մակարդակի ձայնային բարդությամբ։

Ավելի ճշգրիտ արտաքին գործառույթներ և ավելի լավ գնահատված մոդելներ

Google-ի ձայնային արհեստական բանականությունը

Gemini 2.5 Flash Native Audio-ի ամենամեծ առաջընթացի ոլորտներից մեկը դրա կարողությունն է։ արտաքին ֆունկցիաների կանչՊարզ ասած, մոդելն այժմ ավելի հուսալի է որոշումներ կայացնելու հարցում։ երբ անհրաժեշտ է խորհրդակցել իրական ժամանակի ծառայությունների կամ տվյալների հետՕրինակ՝ թարմացված տեղեկատվությունը ստանալու, պատվերի կարգավիճակը ստուգելու կամ ավտոմատացված գործընթաց մեկնարկելու համար։

Բացառիկ բովանդակություն - Սեղմեք այստեղ Ինչպես տեղադրել Google-ի նկարը Google Slides-ում

Google-ը նշում է, որ այս լրացուցիչ ճշգրտությունը հանգեցնում է գործողություններ սկսելիս սխալների նվազմանը, նվազեցնելով անհարմար իրավիճակները, երբ օգնականը թերանում է կամ ժամանակից շուտ է գործում։ Համակարգը կարող է տեղադրեք ստացված տվյալները աուդիո պատասխանի մեջ առանց օգտագործողի կողմից զրույցի որևէ կտրուկ ընդհատում նկատելու։

Այս առաջընթացները չափելու համար ընկերությունը մոդելը ենթարկել է այնպիսի թեստերի, ինչպիսիք են՝ ComplexFuncBench Audio, գնահատման հարթակ, որը կենտրոնացած է սահմանափակումներով բազմաստիճան առաջադրանքների վրա: Այս սցենարում Gemini 2.5 Flash Native Audio-ն հասել է մոտ 71,5% հաջողության մակարդակ բարդ գործառույթների կատարման մեջ, այն դասելով նախորդ իտերացիաներից և այս տեսակի օգտագործման մեջ այլ մրցակցող մոդելներից վեր։

Այս կատարողականը հատկապես կարևոր է այն դեպքերում, երբ անհրաժեշտ են բարդ ավտոմատացված աշխատանքային հոսքեր, ինչպիսիք են՝ զանգերի կենտրոններ, տեխնիկական աջակցություն կամ գործարքների մշակում (օրինակ՝ ֆինանսական կամ վարչական առաջադրանքներ), որտեղ յուրաքանչյուր քայլ կախված է նախորդից, և սխալի տեղ քիչ կա։

Ավելի լավ հրահանգների հետևում և ավելի հետևողական զրույցի թեմաներ

Թարմացման մեկ այլ ուշադրության կենտրոնում է այն, թե ինչպես է մոդելը մեկնաբանել և հարգել հրահանգները որը այն ստանում է թե՛ վերջնական օգտատերերից, թե՛ մշակողներից: Google-ի կողմից հրապարակված տվյալների համաձայն՝ հրահանգների համապատասխանության մակարդակը 84%-ից նվազել է մինչև 90% հետևողականությունՍա նշանակում է պատասխաններ, որոնք ավելի շատ համապատասխանում են իրականում խնդրվածին։

Այս ցատկը կարևոր է այն առաջադրանքներում, որտեղ դա անհրաժեշտ է բարդ հրահանգներ, բազմակի քայլեր կամ բազմակի պայմաններՕրինակ՝ երբ խնդրում եք բացատրություն որոշակի ոճով, խնդրում եք ամփոփում որոշակի ժամանակային սահմանափակումներով կամ կարգավորում եք աշխատանքային հոսք, որը կախված է մի քանի փոխկապակցված որոշումներից։

Դրա հետ կապված, Gemini 2.5 Flash Native Audio-ն ձեռք է բերել հնարավորություն Վերցրեք նախորդ հաղորդագրությունների համատեքստըԲազմակողմանի զրույցներում մոդելն ավելի լավ է հիշում ասվածը, օգտատիրոջ կողմից ներմուծված նրբերանգները և երկխոսության ընթացքում կատարված ուղղումները։

Խոսակցական հիշողության այս բարելավումը նվազեցնում է նույն տեղեկատվությունը կրկին ու կրկին կրկնելու անհրաժեշտությունը և օգնում է փոխազդեցություններն ավելի արդյունավետ դարձնել։ ավելի հարթ և պակաս նյարդայնացնողԱյս փորձը ավելի նման է այն մարդու հետ խոսելուն, ով թեման շարունակում է այնտեղից, որտեղից կանգ է առել, քան թե յուրաքանչյուր պատասխանը զրոյից սկսելուն։

Իրական աշխարհի օգտագործման դեպքեր՝ էլեկտրոնային առևտուրից մինչև ֆինանսական ծառայություններ

Ներքին չափանիշներից զատ, Google-ը հիմնվում է հաճախորդների օրինակների վրա՝ Gemini 2.5 Flash Native Audio-ի գործնական ազդեցությունը ցույց տալու համար: Էլեկտրոնային առևտրի ոլորտում Shopify-ը ներառել է այս հնարավորությունները իր օգնականում: Սիդեկիկ«, որը օգնում է մանրածախ առևտրականներին կառավարել իրենց խանութները և լուծել բիզնեսի վերաբերյալ կասկածները։»

Բացառիկ բովանդակություն - Սեղմեք այստեղ LinkedIn-ը կարգավորում է իր արհեստական ինտելեկտը. գաղտնիության փոփոխություններ, տարածաշրջաններ և ինչպես այն անջատել

Ընկերության տվյալներով՝ շատ օգտատերեր Նրանք նույնիսկ մոռանում են, որ խոսում են արհեստական բանականության հետ Մի քանի րոպե զրույցից հետո օգտատերը նույնիսկ շնորհակալություն հայտնեց բոտին՝ երկար հարցումից հետո։ Այս տեսակի արձագանքը ենթադրում է, որ բնականության և տոնի առաջընթացը տեխնոլոգիաները աննկատելիորեն մղում է երկրորդ պլան։

Ֆինանսական ոլորտում մատակարարը Միացյալ մեծածախ հիփոթեքային վարկ (UWM) Այն մոդելը ինտեգրել է իր «Mia» օգնականի մեջ՝ հիփոթեքային վարկերի հետ կապված գործընթացները կառավարելու համար: Gemini 2.5-ի և այլ ներքին համակարգերի համադրությամբ ընկերությունը պնդում է, որ ունի մշակվել է ավելի քան 14.000 վարկ իր գործընկերների համար՝ հենվելով ավտոմատացված փոխազդեցությունների վրա, որոնք պահանջում են ճշգրտություն և կարգավորող մարմինների համապատասխանություն։

Իր հերթին, ստարտափը Newo.ai Այն օգտագործում է Gemini 2.5 Flash Native Audio՝ Vertex AI-ի միջոցով՝ իր հզորացման համար։ վիրտուալ ընդունարանի աշխատակիցներԱյս ձայնային օգնականները կարող են ճանաչել գլխավոր խոսողին նույնիսկ աղմկոտ միջավայրում, փոխել լեզուները զրույցի ընթացքում և պահպանել բնական ձայնային ռեգիստր՝ հուզական նրբերանգներովինչը կարևոր է հաճախորդների սպասարկման մեջ։

Իրական ժամանակում ձայնից ձայն թարգմանություն. ավելի շատ լեզուներ և ավելի շատ նրբերանգներ

Այս տարբերակի ամենացնցող լրացումներից մեկը ուղիղ ձայնից ձայն թարգմանությունՍկզբնապես Google Translate հավելվածում ինտեգրված Gemini 2.5 Flash Native Audio-ն ավելին է, քան պարզապես աուդիոն տեքստի վերածելը կամ մասնատված թարգմանություններ առաջարկելը՝ ապահովելով ավելի ընկղմվող փորձառություն: համաժամանակյա թարգմանություն ավելի մոտ է մարդկային մեկնաբանությանը։

Համակարգը կարող է աշխատել ռեժիմով՝ անընդհատ լսողությունՍա թույլ է տալիս օգտատիրոջը ականջակալներ դնել և լսել շուրջը կատարվողը թարգմանված իր լեզվով՝ առանց յուրաքանչյուր արտահայտության համար կանգ առնելու կամ կոճակներ սեղմելու անհրաժեշտության։ Այս տարբերակը կարող է օգտակար լինել ճանապարհորդելիս, միջազգային հանդիպումներին մասնակցելու կամ մի քանի լեզուներով խոսվող միջոցառումների ժամանակ։

Հաշվի են առնվել նաև այնպիսի իրավիճակներ, ինչպիսիք են՝ երկկողմանի զրույցՕրինակ, եթե մեկը խոսում է անգլերեն, իսկ մյուսը՝ հինդի, ականջակալները նվագարկում են անգլերեն թարգմանությունը իրական ժամանակում, մինչդեռ հեռախոսը նվագարկում է հինդի թարգմանությունը, երբ առաջին մարդն ավարտում է խոսելը: Համակարգն ավտոմատ կերպով փոխում է ելքային լեզուն՝ կախված նրանից, թե ով է խոսում, առանց օգտատիրոջ կողմից կարգավորումները փոխելու անհրաժեշտության հերթափոխի միջև:

Այս ֆունկցիայի ամենակարևոր մանրամասներից մեկը դրա ունակությունն է պահպանել բնօրինակ ինտոնացիան, ռիթմը և տոնը խոսողից։ Սա հանգեցնում է թարգմանությունների, որոնք հնչում են պակաս ռոբոտային և ավելի մոտ են խոսողի ձայնային ոճին, ինչը դրանք դարձնում է ավելի հեշտ հասկանալի և փորձառությունն ավելի բնական։

Լեզվի աջակցություն, ավտոմատ հայտնաբերում և աղմուկի զտում

Լեզվական շրջանակի առումով, Gemini 2.5-ի վրա հիմնված ձայնային թարգմանությունը աջակցություն է առաջարկում ավելի քան 70 լեզու և մոտ 2.000 թարգմանչական զույգՄոդելի աշխարհի մասին գիտելիքները համադրելով իր բազմալեզու և բնիկ աուդիո հնարավորությունների հետ, այն կարող է ընդգրկել լեզվական համադրությունների լայն շրջանակ, այդ թվում՝ շատերը, որոնք միշտ չէ, որ առաջնահերթ են համարվում այլ գործիքների կողմից։

Բացառիկ բովանդակություն - Սեղմեք այստեղ Grok Code Fast 1-ի լավագույն ստեղնաշարի կարճ ստեղները՝ ավելի արագ ծրագրավորելու համար

Համակարգը կարող է կառավարել բազմալեզու մուտքագրում Մեկ սեսիայի ընթացքում այն միաժամանակ հասկանում է մեկից ավելի լեզու՝ առանց պահանջելու, որ օգտատերը ձեռքով կարգավորի կարգավորումները ամեն անգամ, երբ ինչ-որ մեկը փոխում է լեզուն։ Այս գործառույթը հատկապես օգտակար է այն զրույցներում, որտեղ մի քանի լեզուներ բնականաբար խառնվում են։

Շնորհիվ խոսակցական լեզվի ավտոմատ հայտնաբերումՕգտատերը պարտավոր չէ նախապես իմանալ, թե իր զրուցակիցը որ լեզվով է շփվում. մոդելը նույնականացնում է լեզուն և սկսում է թարգմանել անմիջապես՝ նվազեցնելով շփումը և միջանկյալ քայլերը։

Gemini 2.5 Flash Native Audio-ն նաև ներառում է մեխանիզմներ աղմուկի նկատմամբ կայունությունԱյն կարող է զտել շրջակա միջավայրի ձայների մի մասը՝ առաջնահերթություն տալով հիմնական ձայնին, ինչը հնարավորություն է տալիս ավելի հարմարավետ զրույցներ վարել մարդաշատ փողոցներում, բաց տարածքներում կամ ֆոնային երաժշտությամբ վայրերում։

Հասանելիություն, տեղակայում և հեռանկարներ Եվրոպայի համար

Այս մոդելի վրա հիմնված ուղիղ ձայնային թարգմանությունը ներկայումս հասանելի է Google Translate հավելվածի բետա փուլը Android սարքերի համար այնպիսի շուկաներում, ինչպիսիք են Միացյալ Նահանգները, Մեքսիկան և Հնդկաստանը: Google-ը հաստատել է, որ ծառայությունը աստիճանաբար կներդրվի ավելի շատ տարածաշրջաններ և հարթակներ, ներառյալ այլ բջջային համակարգերը։

Զուգահեռաբար, Gemini 2.5 Flash Native Audio-ի ինտեգրումը Երկվորյակներ ուղիղ և որոնում ուղիղ Այն մեկնարկում է Google հավելվածի օգտատերերի համար Android և iOS համակարգերում, սկսած Միացյալ Նահանգներից: Քանի որ այս գործառույթները հասունանում են և անցնում նախնական փորձարկման և հարմարեցման փուլերը, սպասվում է, որ դրանք կհասնեն նաև այլ տարածաշրջաններ: ավելի շատ երկրներ, ենթադրաբար՝ ներառյալ եվրոպական շուկաները, որտեղ թարգմանիչների և ձայնային օգնականների պահանջարկը հատկապես բարձր է։

Google-ը նաև հայտարարել է այս ձայնային և թարգմանչական փորձը այլ արտադրանքներում, այդ թվում՝ Gemini APIԱռաջիկա ամիսների և տարիների ընթացքում սա կբացի դռները եվրոպական ընկերությունների համար, որոնք գործում են այնպիսի ոլորտներում, ինչպիսիք են զբոսաշրջությունը, լոգիստիկան, կրթությունը և պետական կառավարումը, որպեսզի նրանք ուղղակիորեն ինտեգրեն այս հնարավորությունները իրենց սեփական ծառայություններում։

Ընկերությունը ներկայացնում է այս նոր հնարավորությունները որպես ավելի լայն ռազմավարության մի մաս, որը թույլ կտա մշակողներին կառուցել խոսակցական գործակալներ բնական ձայնով Այսուհետ, օգտագործելով Gemini 2.5 Flash Native Audio-ն և 2.5 Flash և Pro ընտանիքի մյուս մոդելները, որոնք ուղղված են ավելի վերահսկվող ձայնի ստեղծմանը (տոնի, մտադրության, արագության և այլնի կարգավորում) և կադրերի, ինչպիսիք են՝ Գործակալական արհեստական բանականության հիմնադրամ.

Այս բարելավումների շարքով Google-ը ամրապնդում է այն գաղափարը, որ ձայնը կլինի արհեստական բանականության հետ փոխազդեցության հիմնական ուղիներից մեկը՝ սկսած հաճախորդների զանգերը մշակող և բարդ գործողություններ մշակող օգնականներից մինչև միաժամանակյա թարգմանության համակարգեր, որոնք հեշտացնում են նույն լեզուն չխոսող մարդկանց միջև հաղորդակցությունը։ Gemini 2.5 Flash Native Audio-ն այս ջանքերի հիմքում է, որը կատարելագործում է ինչպես ձայնի ըմբռնումը, այնպես էլ արտահայտչականությունը: տեխնոլոգիան ավելի օգտակար և առօրյա կյանքում պակաս ներխուժող դարձնելու համար՝ Եվրոպայում և այլ շուկաներում դրա լիարժեք տեղակայմանը սպասելու ընթացքում։

Voice.ai vs ElevenLabs vs Udio. Ո՞րն է ավելի լավ հնչում:

Առնչվող հոդված.

Voice.ai vs ElevenLabs vs Udio. Արհեստական բանականության ձայների ամբողջական համեմատություն

Ալբերտո Նավարո

Ես տեխնոլոգիայի էնտուզիաստ եմ, ով իր «գիկ» հետաքրքրությունները վերածել է մասնագիտության։ Ես իմ կյանքի ավելի քան 10 տարին անցկացրել եմ՝ օգտագործելով նորագույն տեխնոլոգիաներ և զուտ հետաքրքրասիրությունից դրդված բոլոր տեսակի ծրագրերի հետ աշխատելիս: Այժմ ես մասնագիտացել եմ համակարգչային տեխնիկայի և տեսախաղերի մեջ։ Դա պայմանավորված է նրանով, որ ավելի քան 5 տարի ես գրում եմ տարբեր կայքերի համար տեխնոլոգիայի և վիդեոխաղերի վերաբերյալ՝ ստեղծելով հոդվածներ, որոնք փորձում են ձեզ տրամադրել ձեզ անհրաժեշտ տեղեկատվությունը բոլորին հասկանալի լեզվով:

Եթե ունեք հարցեր, իմ գիտելիքները տատանվում են Windows օպերացիոն համակարգի հետ կապված ամեն ինչից, ինչպես նաև բջջային հեռախոսների համար նախատեսված Android-ից: Եվ իմ հանձնառությունն է ձեզ, ես միշտ պատրաստ եմ մի քանի րոպե ծախսել և օգնել ձեզ լուծել ցանկացած հարց, որը կարող եք ունենալ այս ինտերնետային աշխարհում: