OpenAI-ը հեղափոխում է ձայնը արհեստական ​​ինտելեկտում իր նոր աուդիո մոդելներով

Վերջին թարմացումը՝ 25/03/2025

  • OpenAI-ը թողարկել է նոր աուդիո մոդելներ՝ հիմնված GPT-4o-ի և GPT-4o Mini-ի վրա՝ խոսքի տառադարձումն ու փոխակերպումը բարելավելու համար:
  • Այս բարելավումները նպատակ ունեն առաջարկել ավելի մեծ ճշգրտություն, սխալների կրճատում և ավելի լավ հարմարեցում տարբեր ոճերին և շեշտադրումներին:
  • Ձայնային գործակալները կկարողանան հարմարեցնել իրենց ինտոնացիան՝ հեշտացնելով այն օգտագործել հաճախորդների սպասարկման և այլ հավելվածներում:
  • Գործարկումը հուշում է ապագա, որտեղ AI օգնականները կդառնան ավելի բնական և արտահայտիչ:
Բաց AI-ն բարելավում է ձայնային մոդելները-4

Բաց արհեստական ​​բանականություն մեծ քայլ է կատարել ավելի բնական, արտահայտիչ և ճշգրիտ ձայնային մոդելների մշակման ուղղությամբ, վերջերս հայտարարել է իր աուդիո տեխնոլոգիայի նոր տարբերակները, որոնք հիմնված են GPT-4o-ի և GPT-4o Mini-ի վրա. Այս թարմացումով ընկերությունը ձգտում է հեշտացնել ձայնային գործակալների ինտեգրումը բազմաթիվ հավելվածներում, շեշտը դնելով անհատականացման և փոխգործակցության որակի բարելավման վրա:

Այս առաջընթացները արձագանքում են AI համակարգերի աճող պահանջարկին, որոնք ավելի արդյունավետ են լեզուն մեկնաբանելու և բնական ձայն ստեղծելու համար, ինչը դուռ է բացում դեպի մի դարաշրջան, որտեղ Ավտոմատացված համակարգերի հետ շփումը գործնականում չի տարբերվի մարդկանց հետ զրույցից.

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Արհեստական ​​բանականություն

Նոր աուդիո մոդելներ. տառադարձման և խոսքի առաջացման բարելավումներ

OpenAI ձայնային մոդել

The OpenAI-ի նոր մոդելները ներառում են GPT-4o-տրանսկրիբ և GPT-4o-մինի տառադարձում խոսքից տեքստ փոխակերպելու համար, ապահովելով ավելի ճշգրիտ տառադարձում, նույնիսկ ֆոնային աղմուկով կամ տարբեր շեշտադրումներով միջավայրերում: Իրենց առաջադեմ ուսուցման շնորհիվ այս մոդելները զգալիորեն նվազեցնում են բառի սխալի մակարդակը (WER)՝ բարելավելով հարմարվողականությունը տարբեր լեզուների և խոսակցական ոճերին:

Բացի այդ, OpenAI-ն թողարկեց GPT-4o-mini-tts, տեքստից խոսքի մոդել, որը թույլ է տալիս հարմարեցնել խոսքի ինտոնացիան, տոնայնությունը և ոճը. Սա առանցքային է ավելի բնական թվային օգնականներ ստեղծելու համար, որոնք կարող են արձագանքել համապատասխան հուզականությամբ տարբեր համատեքստերում, ինչպիսիք են հաճախորդների սպասարկումը կամ բովանդակության պատմումը: Այս համատեքստում տեղի են ունեցել նաև զարգացումներ, որոնք թույլ են տալիս տեքստից խոսք դարձնել տարբեր ծրագրերում.

Անհատականացում և գործնական կիրառություն

Ամենամեծ նոր առանձնահատկություններից մեկն այն է Մշակողները կկարողանան հարմարեցնել ձայները այս մոդելների միջոցով՝ ճշգրտելով այնպիսի մանրամասներ, ինչպիսիք են արագությունը, ինտոնացիան և արտահայտչականությունը: Սա ճանապարհ է բացում դեպի Ձայնային գործակալներ՝ հարմարեցված տարբեր ոլորտներինվիրտուալ օգնականներից մինչև տեսողական կամ լսողության խանգարումներ ունեցող մարդկանց հասանելիության գործիքներ:

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Ինչպես օգտագործել Aria AI-ն Opera GX-ում. Ամբողջական ուղեցույց

Ընկերություններն արդեն ուսումնասիրում են այս մոդելների օգտագործումը օպտիմալացնել հաճախորդների սպասարկումը, ստեղծելով համակարգեր, որոնք կարող են կառավարել զանգերը և ավելի արագ արձագանքել զանգերի կենտրոններում: Նախատեսվում է նաև դրա ինտեգրում կրթական հավելվածներում, զվարճանքի հարթակներում և արտադրողականության գործիքներում:

Ուսուցման տեխնոլոգիա և ճշգրտության բարելավումներ

Այս բարելավումներին հասնելու համար OpenAI-ն օգտագործել է ուսուցում՝ հիմնված իրական աուդիո տվյալներ և ուժեղացման ուսուցման առաջադեմ տեխնիկա. Սա թույլ է տվել մոդելներին ավելի լավ հասկանալ լեզվի նրբությունները, հարմարեցնել պատասխանները տարբեր տեսակի օգտատերերին և առաջարկել ավելի բնական խոսակցական փորձ:

Նոր մոդելը գերազանցում է իր նախորդին՝ Whisper-ին, բազմաթիվ առումներով, այդ թվում զրույցի ընթացքում դադարները մեկնաբանելու ունակություն առանց օգտվողներին ընդհատելու և իրական ժամանակում տառադարձման սխալները նվազեցնելու: Եվ այս ամենին զուգահեռ կիրառվում են մոտեցումներ ձայնի ճանաչում տարբեր ոլորտներում.

Ազդեցություն խոսակցական արհեստական ​​ինտելեկտի ապագայի վրա

Այս մոդելների թողարկումը ենթադրում է փոխակերպում AI օգնականների հետ մեր փոխգործակցության մեջ: ունենալու հնարավորությունը Ավելի կարեկից և ճշգրիտ ձայնային գործակալները կարող են հեղափոխել այնպիսի ոլորտներ, ինչպիսիք են էլեկտրոնային առևտուրը, առողջապահությունը և կրթությունը:. Կարևոր է հաշվի առնել, թե ինչպես են նման առաջընթացները կարող է կապված լինել նոր աուդիո սարքերի ստեղծման հետ որոնք բարելավում են ընդհանուր օգտագործողի փորձը:

Բացառիկ բովանդակություն - Սեղմեք այստեղ  Իտալիան արգելում է DeepSeek-ը՝ հաշվի առնելով գաղտնիության և տվյալների պաշտպանության մասին օրենսդրությունը

Քանի որ այս տեխնոլոգիաները զարգանում են, մարդկանց և արհեստական ​​ինտելեկտի միջև սահմանը գնալով լղոզվում է: Նման զարգացումներով, OpenAI-ն իրեն դիրքավորում է ավելի բնական խոսակցական փորձառություններ ստեղծելու առաջնագծում:, մեզ ավելի մոտեցնելով մի դարաշրջանի, որտեղ արհեստական ​​ինտելեկտի հետ շփումը գործնականում չի տարբերվի մարդ-մարդ փոխազդեցությունից:

Խմբագրեք լուսանկարները ձեր ձայնով Google AI Studio-ի միջոցով
Առնչվող հոդված՝
Ինչպես խմբագրել լուսանկարները ձեր ձայնով Google AI Studio-ի միջոցով