- Gemini 2.5 Flash Native Audio huboresha uhalisia, usahihi, na utelezi wa mazungumzo ya sauti kwa kutumia akili bandia ya Google.
- Mfano huu huboresha miito ya utendaji kazi wa nje, hufuata maagizo changamano vyema, na hudumisha muktadha vizuri zaidi katika mazungumzo marefu.
- Inajumuisha tafsiri ya sauti kwa sauti ya wakati halisi, ikiwa na usaidizi wa lugha zaidi ya 70 na jozi 2.000 za tafsiri, ikihifadhi sauti na mdundo.
- Tayari imeunganishwa katika Google AI Studio, Vertex AI, Gemini Live na Search Live, na inatumika katika Google na bidhaa za wahusika wengine.
Google imepiga hatua nyingine katika mageuzi ya mfumo wake wa akili bandia kwa sasisho kubwa la Sauti Asilia ya Gemini 2.5 FlashMfumo huu umeundwa ili kuelewa na kutoa sauti kwa wakati halisi. Teknolojia hii imekusudiwa kufanya mwingiliano wa sauti uwe na ufanisi zaidi. karibu zaidi na mazungumzo ya kibinadamukatika maisha ya kila siku na katika mazingira ya kitaaluma.
Mbali na "kutoa sauti" tu kwa majibu ya msaidizi, na ikilinganishwa na chaguzi zingine katika ulinganisho wa akili bandia ya sautiMfano huu umeundwa kwa ajili ya ili kudumisha mazungumzo ya asili, ya utendaji na ya muktadha, kufanya maamuzi kuhusu wakati wa kutafuta taarifa za ziada na kusimamia maelekezo tata bila kuvunja mtiririko wa mazungumzoKwa hili, Google inaimarisha ahadi yake ya kutoa sauti kama njia kuu ya mwingiliano na huduma zake za AI.
Sauti Asilia ya Gemini 2.5 Flash ni nini na inatumika wapi?
Gemini 2.5 Flash Native Audio ni toleo jipya zaidi la mfumo wa sauti asilia wa Google, wenye uwezo wa sikiliza, elewa, na ujibu kwa sauti kwa wakati halisi. Tofauti na mifumo ya awali iliyolenga usanisi wa usemi pekee, injini hii imeundwa kufanya kazi na sauti kama ingizo na matokeo kwa wakati mmoja, na kuifanya iweze kufaa zaidi kwa wasaidizi wa mazungumzo.
Kampuni tayari imeunganisha toleo hili katika mifumo yake kadhaa muhimu: Studio ya Google AI, Vertex AI, Gemini Moja kwa Moja na Tafuta Moja kwa MojaHii ina maana kwamba watengenezaji na makampuni yanaweza kuanza kujenga mawakala wa sauti wa hali ya juu kwenye teknolojia ile ile inayowezesha matumizi ya hivi karibuni ya Google ya AI ya mazungumzo.
Kwa vitendo, watumiaji wataona mabadiliko haya katika matukio kama vile Gemini Live (hali ya mazungumzo ya sauti na msaidizi) au ndani Tafuta Moja kwa Moja ndani ya hali ya AI ya programu ya Google, ambapo majibu yanayotamkwa husikika inayoelezea zaidi, iliyo wazi zaidi, na yenye muktadha bora zaidiZaidi ya hayo, unaweza hata kumwomba msaidizi azungumze polepole zaidi, akirekebisha kasi ya mazungumzo kiasili.
Zaidi ya Google yenyewe, uwezo huu umepatikana kwa wahusika wengine kupitia Kipeo AI na API ya Geminiili makampuni mengine yaweze kuunda mawakala wa uhuru sauti, wapokeaji wa simu mtandaoni au zana za usaidizi zenye kiwango sawa cha ustadi wa sauti.
Kazi sahihi zaidi za nje na mifumo iliyokadiriwa vyema

Mojawapo ya maeneo ambayo Gemini 2.5 Flash Native Audio imepiga hatua kubwa zaidi ni katika uwezo wake wa piga simu chaguo za njeKwa maneno rahisi, mfumo huu sasa unaaminika zaidi linapokuja suala la kufanya maamuzi. unapohitaji kushauriana na huduma au data ya wakati halisiKwa mfano, ili kupata taarifa zilizosasishwa, kuangalia hali ya agizo, au kuanzisha mchakato otomatiki.
Google inabainisha kuwa usahihi huu ulioongezwa hubadilisha makosa kuwa machache wakati wa kuchochea vitendo, na kupunguza hali zisizo za kawaida ambapo msaidizi hushindwa au kutenda mapema. Mfumo una uwezo wa ingiza data iliyorejeshwa kwenye jibu la sauti bila mtumiaji kuona kukatika kwa ghafla kwa mazungumzo.
Ili kupima maendeleo haya, kampuni imepitia majaribio ya mfumo huu kama vile Sauti ya ComplexFuncBench, benchi la tathmini lililolenga kazi za hatua nyingi zenye vikwazo. Katika hali hii, Gemini 2.5 Flash Native Audio imefanikiwa karibu Kiwango cha mafanikio cha 71,5% katika kutekeleza kazi changamano, ikiiweka juu ya marudio ya awali na mifumo mingine inayoshindana katika aina hii ya matumizi.
Utendaji huu ni muhimu hasa katika miktadha ambapo mifumo ya kazi otomatiki ya kisasa inahitajika, kama vile vituo vya simu, usaidizi wa kiufundi au usindikaji wa miamala (kwa mfano, kazi za kifedha au za kiutawala) ambapo kila hatua inategemea ile iliyotangulia na hakuna nafasi kubwa ya kufanya makosa.
Ufuatiliaji bora wa maelekezo na mazungumzo yenye uthabiti zaidi
Lengo lingine la sasisho ni jinsi mfumo ulivyo kutafsiri na kuheshimu maagizo ambayo inapokea kutoka kwa watumiaji wa mwisho na watengenezaji. Kulingana na data iliyotolewa na Google, kiwango cha kufuata maagizo kimepungua kutoka 84% hadi Utiifu wa 90%Hii ina maana majibu yanayolingana zaidi na yale ambayo yameombwa.
Hatua hii ni muhimu katika kazi inapohitajika maelekezo changamano, hatua nyingi, au masharti mengiKwa mfano, unapoomba maelezo katika mtindo maalum, unapoomba muhtasari wenye vikwazo fulani vya muda, au unapoweka utaratibu wa kazi unaotegemea maamuzi kadhaa yanayohusiana.
Kuhusiana na hili, Gemini 2.5 Flash Native Audio imepata uwezo wa Rejesha muktadha wa jumbe zilizopitaKatika mazungumzo ya mara nyingi, modeli hukumbuka vyema kile kilichosemwa, mambo muhimu yaliyoletwa na mtumiaji, na marekebisho yaliyofanywa katika mazungumzo yote.
Uboreshaji huu wa kumbukumbu ya mazungumzo hupunguza hitaji la kurudia taarifa ile ile mara kwa mara na husaidia kufanya mwingiliano uwe na ufanisi zaidi. laini na isiyokatisha tamaa sanaUzoefu huo uko karibu zaidi na kuzungumza na mtu anayeanza mada pale alipoishia, badala ya kuanza mwanzo na kila jibu.
Matumizi halisi: kuanzia biashara ya mtandaoni hadi huduma za kifedha
Zaidi ya vipimo vya ndani, Google inategemea mifano ya wateja kuonyesha athari halisi ya Gemini 2.5 Flash Native Audio. Katika sekta ya biashara ya mtandaoni, Shopify imejumuisha uwezo huu katika msaidizi wake. Sidekick", ambayo husaidia wauzaji wa rejareja kusimamia maduka yao na kutatua mashaka kuhusu biashara."
Kulingana na kampuni hiyo, watumiaji wengi Hata wanasahau kwamba wanazungumza na AI Baada ya mazungumzo ya dakika chache, mtumiaji hata aliishukuru roboti baada ya uchunguzi mrefu. Aina hii ya mwitikio inaonyesha kwamba maendeleo katika uhalisia na sauti yanasababisha teknolojia kuchukua nafasi ya nyuma kwa njia fiche.
Katika sekta ya fedha, mtoa huduma Rehani ya Jumla ya United (UWM) Imeunganisha mfumo huu katika msaidizi wake wa "Mia" ili kusimamia michakato inayohusiana na rehani. Kwa mchanganyiko wa Gemini 2.5 na mifumo mingine ya ndani, kampuni inadai kuwa nayo kusindika mikopo zaidi ya 14.000 kwa washirika wake, ikitegemea mwingiliano otomatiki unaohitaji usahihi na kufuata kanuni.
Kwa upande wake, kampuni mpya Newo.ai Inatumia Gemini 2.5 Flash Native Audio kupitia Vertex AI ili kuwasha wapokeaji wa mtandaoniWasaidizi hawa wa sauti wana uwezo wa kutambua mzungumzaji mkuu hata katika mazingira yenye kelele, kubadilisha lugha katikati ya mazungumzo, na kudumisha rejista ya sauti ya asili yenye hisia tofautiambayo ni muhimu katika huduma kwa wateja.
Tafsiri ya sauti kwa sauti kwa wakati halisi: lugha zaidi na mambo mengine mengi
Mojawapo ya nyongeza za kuvutia zaidi katika toleo hili ni tafsiri ya moja kwa moja ya sauti kwa sautiHapo awali ikiwa imejumuishwa katika programu ya Google Translate, Gemini 2.5 Flash Native Audio inazidi kubadilisha sauti kuwa maandishi au kutoa tafsiri zilizogawanyika, na kuwezesha uzoefu wa kuzama zaidi. tafsiri ya wakati mmoja karibu zaidi na tafsiri ya kibinadamu.
Mfumo unaweza kufanya kazi katika hali ya kusikiliza mfululizoHii inaruhusu mtumiaji kuvaa vipokea sauti vya masikioni na kusikia kinachoendelea karibu naye kikitafsiriwa katika lugha yao, bila kuhitaji kusimamisha au kubonyeza vitufe kwa kila kifungu cha maneno. Chaguo hili linaweza kuwa muhimu wakati wa kusafiri, kuhudhuria mikutano ya kimataifa, au katika matukio ambapo lugha nyingi zinahusika.
Pia kumezingatiwa hali za mazungumzo ya pande mbiliKwa mfano, ikiwa mtu mmoja anazungumza Kiingereza na mwingine kwa Kihindi, vipokea sauti vya masikioni hucheza tafsiri ya Kiingereza kwa wakati halisi, huku simu ikicheza tafsiri ya Kihindi mara tu mtu wa kwanza anapomaliza kuzungumza. Mfumo hubadilisha kiotomatiki lugha ya kutoa kulingana na ni nani anayezungumza, bila mtumiaji kulazimika kubadilisha mipangilio kati ya zamu.
Mojawapo ya maelezo muhimu zaidi ya kipengele hiki ni uwezo wake wa kuhifadhi sauti, mdundo, na sauti ya asili kutoka kwa spika. Hii husababisha tafsiri ambazo hazisikiki kama roboti sana na karibu na mtindo wa sauti wa spika, na kuzifanya ziwe rahisi kueleweka na uzoefu kuwa wa kawaida zaidi.
Usaidizi wa lugha, ugunduzi otomatiki na uchujaji wa kelele
Kwa upande wa wigo wa lugha, tafsiri ya sauti inayotegemea Gemini 2.5 inatoa usaidizi kwa zaidi ya lugha 70 na jozi za tafsiri zipatazo 2.000Kwa kuchanganya maarifa ya ulimwengu ya modeli hiyo na uwezo wake wa sauti za lugha nyingi na asilia, inaweza kufunika mchanganyiko mbalimbali wa lugha, ikiwa ni pamoja na mingi ambayo si mara zote hupewa kipaumbele na zana zingine.
Mfumo unaweza kusimamia kiingilio cha lugha nyingi Ndani ya kipindi kimoja, inaelewa zaidi ya lugha moja kwa wakati mmoja bila kumhitaji mtumiaji kurekebisha mipangilio mwenyewe kila wakati mtu anapobadilisha lugha. Kipengele hiki ni muhimu hasa katika mazungumzo ambapo lugha kadhaa huchanganywa kiasili.
Shukrani kwa ugunduzi otomatiki wa lugha inayozungumzwaMtumiaji hahitaji kujua mapema ni lugha gani mzungumzaji wake anawasiliana nayo: modeli hutambua lugha na huanza kutafsiri haraka, kupunguza msuguano na hatua za kati.
Gemini 2.5 Flash Native Audio pia inajumuisha mifumo ya uimara dhidi ya keleleInaweza kuchuja baadhi ya sauti ya mazingira ili kuipa kipaumbele sauti kuu, ikiruhusu mazungumzo mazuri zaidi katika mitaa yenye shughuli nyingi, nafasi wazi, au sehemu zenye muziki wa chinichini.
Upatikanaji, upelekaji na matarajio ya Ulaya
Tafsiri ya sauti ya moja kwa moja kulingana na mfumo huu inapatikana kwa sasa katika awamu ya beta katika programu ya Google Tafsiri kwa vifaa vya Android katika masoko kama vile Marekani, Meksiko, na India. Google imethibitisha kwamba huduma hiyo itasambazwa hatua kwa hatua kwa mikoa na majukwaa zaidiikiwa ni pamoja na mifumo mingine ya simu.
Sambamba na hilo, ujumuishaji wa Gemini 2.5 Flash Native Audio katika Gemini Moja kwa Moja na Tafuta Moja kwa Moja Inasambazwa kwa watumiaji wa programu ya Google kwenye Android na iOS, kuanzia Marekani. Vipengele hivi vinapokomaa na kufaulu awamu za awali za majaribio na marekebisho, vinatarajiwa kufika katika maeneo mengine pia. nchi zaidi, ikiwezekana ikijumuisha masoko ya Ulaya, ambapo mahitaji ya wasaidizi wa tafsiri na sauti ni makubwa sana.
Google pia imetangaza nia yake ya kuingiza uzoefu huu wa sauti na tafsiri katika bidhaa zingine, ikiwa ni pamoja na API ya GeminiKatika miezi na miaka ijayo, hii ingefungua mlango kwa makampuni ya Ulaya katika sekta kama vile utalii, vifaa, elimu, na utawala wa umma kuunganisha moja kwa moja uwezo huu katika huduma zao wenyewe.
Kampuni inawasilisha vipengele hivi vipya kama sehemu ya mkakati mpana wa kuwawezesha watengenezaji jenga mawakala wa mazungumzo kwa sauti ya asili Kuanzia sasa, kutumia Gemini 2.5 Flash Native Audio na mifumo mingine katika familia ya 2.5 Flash na Pro, kulenga uzalishaji wa sauti unaodhibitiwa zaidi (kurekebisha sauti, nia, kasi, n.k.) na fremu kama vile Wakala wa AI Foundation.
Kwa seti hii ya maboresho, Google inaimarisha wazo kwamba sauti itakuwa mojawapo ya njia kuu za mwingiliano na akili bandia: kuanzia wasaidizi wanaoshughulikia simu za wateja na kushughulikia shughuli ngumu, hadi mifumo ya utafsiri inayorahisisha mawasiliano kati ya watu ambao hawashiriki lugha moja. Gemini 2.5 Flash Native Audio ndiyo kiini cha juhudi hii, ikiboresha uelewa wa sauti na usemi. ili kuifanya teknolojia hiyo kuwa muhimu zaidi na isiyoingilia mambo mengi katika maisha ya kila siku, huku ikisubiri kusambazwa kikamilifu katika masoko ya Ulaya na mengine.
Mimi ni mpenda teknolojia ambaye amegeuza masilahi yake ya "geek" kuwa taaluma. Nimetumia zaidi ya miaka 10 ya maisha yangu kwa kutumia teknolojia ya kisasa na kuchezea kila aina ya programu kwa udadisi mtupu. Sasa nimebobea katika teknolojia ya kompyuta na michezo ya video. Hii ni kwa sababu kwa zaidi ya miaka 5 nimekuwa nikifanya kazi ya kuandika kwenye tovuti mbalimbali za teknolojia na michezo ya video, nikitengeneza makala zinazotaka kukupa taarifa unazohitaji kwa lugha inayoeleweka na kila mtu.
Ikiwa una maswali yoyote, ujuzi wangu unatoka kwa kila kitu kinachohusiana na mfumo wa uendeshaji wa Windows pamoja na Android kwa simu za mkononi. Na ahadi yangu ni kwako, niko tayari kutumia dakika chache na kukusaidia kutatua maswali yoyote ambayo unaweza kuwa nayo katika ulimwengu huu wa mtandao.
