- Gemini 2.5 Flash Native Audio ningkatkeun kaalamian, akurasi, sareng fluiditas paguneman sora nganggo AI Google.
- Modél ieu ngasah panggero ka fungsi éksternal, nuturkeun parentah anu rumit langkung saé, sareng ngajaga kontéks langkung saé dina dialog anu panjang.
- Éta ngagabungkeun tarjamahan sora-ka-sora sacara real-time, kalayan dukungan pikeun langkung ti 70 basa sareng 2.000 pasangan tarjamahan, ngajaga intonasi sareng wirahma.
- Éta parantos diintegrasikeun kana Google AI Studio, Vertex AI, Gemini Live sareng Search Live, sareng nuju dianggo dina produk Google sareng pihak katilu.
Google parantos ngalakukeun léngkah sanés dina évolusi ékosistem kecerdasan jieunan na ku apdet utama ka Audio Asli Gemini 2.5 FlashModél ieu dirancang pikeun ngartos sareng ngahasilkeun audio sacara real time. Téhnologi ieu diarahkeun pikeun ngajantenkeun interaksi sora langkung efektif. leuwih deukeut kana obrolan manusaboh dina kahirupan sapopoe boh dina lingkungan profesional.
Jauh ti ngan saukur "masihan sora" kana réspon asistén, sareng dibandingkeun sareng pilihan sanés dina babandingan AI soraModél ieu dirancang pikeun pikeun ngajaga dialog alami, fungsional, sareng kontekstual, nyieun kaputusan ngeunaan iraha kedah milarian inpormasi tambahan sareng ngatur pitunjuk anu rumit tanpa ngaganggu alur pagunemanKu ieu, Google nguatkeun komitmenna kana sora salaku sarana utama interaksi sareng layanan AI na.
Naon ari Gemini 2.5 Flash Native Audio sareng di mana éta dianggo?
Gemini 2.5 Flash Native Audio nyaéta vérsi panganyarna tina modél audio asli Google, anu sanggup ngadéngékeun, ngartos, sareng ngaréspon ku sora sacara real time. Teu siga sistem samemehna anu ngan ukur museur kana sintésis ucapan, mesin ieu dirancang pikeun tiasa dianggo sareng audio salaku input sareng output sacara simultan, jantenkeun éta cocog pisan pikeun asistén paguneman.
Pausahaan ieu parantos ngahijikeun vérsi ieu kana sababaraha platform konci na: Google AI Studio, Vertex AI, Gemini Live sareng Search LiveIeu ngandung harti yén pamekar sareng perusahaan tiasa ngamimitian ngawangun agén sora canggih dina téknologi anu sami anu ngadukung pangalaman AI paguneman panganyarna ti Google.
Dina praktékna, pangguna bakal perhatikeun parobihan ieu dina pangalaman sapertos Gemini Hirup (modeu paguneman sora sareng asistén) atanapi dina Pilarian Live dina modeu AI aplikasi Google, dimana réspon lisan disada leuwih ekspresif, leuwih jelas, sarta leuwih kontekstualSalajengna, anjeun malah tiasa nyuhunkeun asistén pikeun nyarios langkung laun, nyaluyukeun Pace paguneman sacara alami.
Salian ti Google sorangan, kamampuan ieu parantos disayogikeun ka pihak katilu ngalangkungan Vertex AI sareng API Geminisupados perusahaan sanés tiasa nyiptakeun agén otonom sora, resepsionis virtual, atanapi alat bantuan kalayan tingkat kecanggihan sora anu sami.
Fungsi éksternal anu langkung akurat sareng modél anu langkung saé

Salah sahiji widang dimana Gemini 2.5 Flash Native Audio parantos ngadamel kamajuan anu paling ageung nyaéta dina kamampuanna pikeun nelepon fungsi éksternalSacara sederhana, modél ieu ayeuna langkung tiasa dipercaya dina hal nyandak kaputusan. nalika anjeun kedah konsultasi ka layanan atanapi data waktos nyataContona, pikeun kéngingkeun inpormasi anu diénggalan, mariksa status pesenan, atanapi ngaluncurkeun prosés otomatis.
Google nunjukkeun yén katepatan anu ditambahkeun ieu ditarjamahkeun kana langkung sakedik kasalahan nalika micu tindakan, ngirangan kaayaan anu canggung dimana asistén gagal atanapi bertindak sateuacan waktuna. Sistem ieu sanggup lebetkeun data anu dicandak kana réspon audio tanpa pangguna ngarasa aya potongan anu ujug-ujug dina paguneman.
Pikeun ngukur kamajuan ieu, perusahaan parantos ngalaksanakeun tés modél sapertos Audio ComplexFuncBench, bangku évaluasi anu museur kana tugas multi-tahap kalayan kendala. Dina skénario ieu, Gemini 2.5 Flash Native Audio parantos ngahontal sakitar a Tingkat kasuksésan 71,5% dina ngalaksanakeun fungsi anu rumit, nempatkeun éta di luhur iterasi sateuacana sareng modél pesaing anu sanés dina jinis panggunaan ieu.
Kinerja ieu hususna relevan dina kontéks dimana alur kerja otomatis anu canggih diperyogikeun, sapertos pusat telepon, dukungan téknis atanapi pamrosésan transaksi (contona, tugas kauangan atanapi administrasi) dimana unggal léngkah gumantung kana léngkah samemehna sareng aya sakedik rohangan pikeun kasalahan.
Pelacakan instruksi anu langkung saé sareng utas paguneman anu langkung koheren
Fokus séjén tina apdet ieu nyaéta kumaha modélna nafsirkeun sareng hormat kana parentah anu ditampi ti pangguna akhir sareng pamekar. Numutkeun data anu dikaluarkeun ku Google, tingkat patuh kana instruksi parantos turun tina 84% ka 90% patuhIeu hartina réspon anu langkung saluyu sareng naon anu saleresna parantos dipénta.
Lompatan ieu penting dina tugas-tugas anu diperyogikeun parentah anu rumit, sababaraha léngkah, atanapi sababaraha kaayaanContona, nalika nyuhunkeun katerangan dina gaya anu khusus, nyuhunkeun ringkesan kalayan kendala waktos anu tangtu, atanapi nyetél alur kerja anu gumantung kana sababaraha kaputusan anu numbu.
Patali sareng ieu, Gemini 2.5 Flash Native Audio parantos kéngingkeun kamampuan pikeun Candak deui kontéks pesen-pesen sateuacannaDina paguneman sababaraha giliran, modél langkung émut naon anu parantos diucapkeun, nuansa anu diwanohkeun ku pangguna, sareng koréksi anu dilakukeun sapanjang dialog.
Peningkatan dina ingetan paguneman ieu ngirangan kabutuhan pikeun ngulang inpormasi anu sami deui-deui sareng ngabantosan ngajantenkeun interaksi langkung efektif. langkung lancar sareng kirang ngagangguPangalaman ieu leuwih deukeut kana ngobrol jeung jalma anu nuluykeun topik ti tempat eureunna, tinimbang ngamimitian ti mimiti ku unggal jawaban.
Kasus panggunaan di dunya nyata: ti e-commerce dugi ka jasa kauangan
Salian ti metrik internal, Google ngandelkeun conto konsumén pikeun ngagambarkeun dampak praktis Gemini 2.5 Flash Native Audio. Dina séktor e-commerce, Shopify parantos ngasupkeun kamampuan ieu kana asisténna. Sidekick", anu ngabantosan para padagang ritel ngatur toko-tokona sareng ngabéréskeun mamang ngeunaan bisnis éta.
Numutkeun perusahaan, seueur pangguna Aranjeunna malah hilap yén aranjeunna nuju ngobrol sareng AI Saatos sababaraha menit ngobrol, pangguna éta malah ngucapkeun hatur nuhun ka bot saatos naroskeun anu panjang. Réaksi sapertos kieu nunjukkeun yén kamajuan dina hal alami sareng nada nyababkeun téknologi sacara halus dikirangan.
Dina séktor kauangan, panyadia Hipotik Grosir Serikat (UWM) Éta parantos ngahijikeun modél kana asistén "Mia" na pikeun ngatur prosés anu aya hubunganana sareng hipotik. Kalayan kombinasi Gemini 2.5 sareng sistem internal anu sanés, perusahaan ngaku gaduh ngolah langkung ti 14.000 pinjaman pikeun mitra-mitrana, ngandelkeun interaksi otomatis anu meryogikeun akurasi sareng patuh kana peraturan.
Pikeun bagianna, perusahaan rintisan Newo.ai Ieu ngagunakeun Gemini 2.5 Flash Native Audio via Vertex AI pikeun ngadayakeunana. resepsionis virtualAsisten sora ieu sanggup ngaidentipikasi panyatur utama sanajan dina lingkungan anu ribut, ngaganti basa di tengah paguneman, sareng ngajaga register sora alami kalayan nuansa émosionalanu penting pisan dina layanan palanggan.
Tarjamahan sora-ka-sora sacara real-time: langkung seueur basa sareng langkung seueur nuansa
Salah sahiji tambahan anu paling narik dina vérsi ieu nyaéta tarjamahan sora-ka-sora langsungMimitina diintegrasikeun kana aplikasi Google Translate, Gemini 2.5 Flash Native Audio langkung ti ngan saukur ngarobih audio kana téks atanapi nawiskeun tarjamahan anu terfragmentasi, ngamungkinkeun pangalaman anu langkung imersif. tarjamahan sakaligus leuwih deukeut kana interpretasi manusa.
Sistem ieu tiasa beroperasi dina modeu ngadangukeun terus-terusanIeu ngamungkinkeun pangguna pikeun nganggo headphone sareng ngadangukeun naon anu kajantenan di sakurilingna ditarjamahkeun kana basa aranjeunna, tanpa kedah ngareureuhkeun atanapi mencét tombol pikeun unggal frasa. Pilihan ieu tiasa mangpaat nalika iinditan, ngiringan rapat internasional, atanapi dina acara-acara dimana sababaraha basa dianggo.
Pertimbangan ogé parantos dipasihkeun kana kaayaan anu paguneman dua arahContona, upami aya anu nyarios dina basa Inggris sareng anu sanésna dina basa Hindi, headphone bakal muterkeun tarjamahan basa Inggris sacara langsung, sedengkeun telepon bakal muterkeun tarjamahan basa Hindi nalika jalma anu munggaran réngsé nyarios. Sistem sacara otomatis ngarobih basa kaluaran gumantung kana saha anu nyarios, tanpa pangguna kedah ngarobih setélan antara giliran.
Salah sahiji detil anu paling relevan tina fungsi ieu nyaéta kamampuanna pikeun ngajaga intonasi, wirahma, jeung nada aslina ti nu nyarita. Ieu ngahasilkeun tarjamahan anu kadéngéna kirang robot sareng langkung caket kana gaya sora nu nyarita, janten langkung gampang kahartos sareng pangalamanna langkung alami.
Pangrojong basa, deteksi otomatis sareng panyaringan noise
Dina hal ruang lingkup linguistik, tarjamahan sora berbasis Gemini 2.5 nawiskeun dukungan pikeun leuwih ti 70 basa sareng sakitar 2.000 pasangan tarjamahanNgahijikeun pangaweruh dunya modél sareng kamampuan audio multibasa sareng asli, éta tiasa ngawengku rupa-rupa kombinasi basa, kalebet seueur anu henteu salawasna diprioritaskeun ku alat sanés.
Sistem éta tiasa ngatur entri multibasa Dina hiji sési, éta ngartos langkung ti hiji basa sacara simultan tanpa meryogikeun pangguna pikeun nyaluyukeun setélan sacara manual unggal waktos aya anu ngagentos basa. Fitur ieu khususna kapaké dina paguneman dimana sababaraha basa dicampur sacara alami.
Hatur nuhun kana deteksi otomatis basa lisanPangguna teu kedah terang sateuacanna basa naon anu dianggo ku lawan bicarana pikeun komunikasi: modél ngaidéntifikasi basa sareng mimiti narjamahkeun sacara langsung, ngirangan gesekan sareng léngkah-léngkah panengah.
Gemini 2.5 Flash Native Audio ogé ngagabungkeun mékanisme pikeun kateguhan ngalawan bisingÉta tiasa nyaring sababaraha sora sakuriling pikeun ngutamakeun sora utama, ngamungkinkeun paguneman anu langkung nyaman di jalan anu rame, tempat kabuka, atanapi tempat-tempat anu aya musik latar.
Kasadiaan, palaksanaan sareng prospek pikeun Éropa
Tarjamahan sora langsung dumasar kana modél ieu ayeuna sayogi di fase béta dina aplikasi Google Translate pikeun alat Android di pasar sapertos Amérika Serikat, Méksiko, sareng India. Google parantos mastikeun yén layanan ieu bakal diluncurkeun sacara bertahap ka langkung seueur daérah sareng platform, kaasup sistem sélulér anu sanésna.
Sacara paralel, integrasi Gemini 2.5 Flash Native Audio dina Gemini Live sareng Search Live Ieu nuju diluncurkeun ka pangguna aplikasi Google dina Android sareng iOS, dimimitian di Amérika Serikat. Nalika fitur-fitur ieu parantos dewasa sareng lulus fase uji coba sareng adaptasi awal, fitur-fitur ieu diperkirakeun bakal sumping di daérah sanés ogé. langkung seueur nagara, sigana kalebet pasar Éropa, dimana paménta pikeun asistén tarjamahan sareng sora kacida luhurna.
Google ogé parantos ngumumkeun niatna pikeun ngagabungkeun pangalaman sora sareng tarjamahan ieu kana produk-produk sanésna, kalebet API GeminiSalila sababaraha bulan sareng taun-taun anu bakal datang, ieu bakal muka panto pikeun perusahaan Éropa dina séktor sapertos pariwisata, logistik, pendidikan, sareng administrasi publik pikeun langsung ngahijikeun kamampuan ieu kana jasana nyalira.
Perusahaan ieu nampilkeun fitur-fitur anyar ieu salaku bagian tina strategi anu langkung lega pikeun ngamungkinkeun para pamekar pikeun ngawangun agén paguneman kalayan sora alami Ti ayeuna, ngamangpaatkeun Gemini 2.5 Flash Native Audio sareng modél sanés dina kulawarga 2.5 Flash sareng Pro anu ditujukeun pikeun ngahasilkeun sora anu langkung dikontrol (nyaluyukeun nada, niat, kecepatan, jsb.) sareng pigura sapertos Yayasan AI Agén.
Ku ayana paningkatan ieu, Google nguatkeun deui pamanggih yén sora bakal janten salah sahiji saluran interaksi utama sareng kecerdasan jieunan: ti asisten anu ngatur telepon palanggan sareng ngolah operasi anu rumit, dugi ka sistem tarjamahan simultan anu ngagampangkeun komunikasi antara jalma anu henteu babagi basa. Gemini 2.5 Flash Native Audio mangrupa inti tina ieu usaha, ngaropea pamahaman sareng éksprési sora. pikeun ngajantenkeun téknologi ieu langkung mangpaat sareng kirang ngaganggu dina kahirupan sapopoe, bari ngantosan panggunaanana sacara lengkep di Éropa sareng pasar sanésna.
Abdi mangrupikeun peminat téknologi anu parantos ngajantenkeun minat "geek" janten profési. Kuring parantos nyéépkeun langkung ti 10 taun hirup kuring nganggo téknologi canggih sareng ngintip kalayan sagala jinis program tina rasa panasaran murni. Ayeuna kuring geus husus dina téhnologi komputer jeung video kaulinan. Ieu kusabab pikeun leuwih ti 5 taun kuring geus nulis pikeun sagala rupa situs web on téhnologi jeung video kaulinan, nyieun artikel nu neangan masihan anjeun informasi nu peryogi dina basa anu kaharti ku sarerea.
Upami Anjeun gaduh patarosan, pangaweruh abdi rentang ti sagalana patali jeung sistem operasi Windows ogé Android pikeun handphone. Sareng komitmen abdi ka anjeun, kuring sok daék nyéépkeun sababaraha menit sareng ngabantosan anjeun ngabéréskeun patarosan anu anjeun gaduh di dunya internét ieu.
