- Audio Asli Gemini 2.5 Flash meningkatkan keaslian, ketepatan dan kelancaran perbualan suara dengan AI Google.
- Model ini memperhalusi panggilan kepada fungsi luaran, mengikuti arahan yang kompleks dengan lebih baik dan mengekalkan konteks dengan lebih baik dalam dialog yang panjang.
- Ia menggabungkan terjemahan suara-ke-suara masa nyata, dengan sokongan untuk lebih daripada 70 bahasa dan 2.000 pasangan terjemahan, mengekalkan intonasi dan irama.
- Ia telah disepadukan ke dalam Google AI Studio, Vertex AI, Gemini Live dan Search Live, dan sedang digunakan dalam Google dan produk pihak ketiga.
Google telah mengambil satu lagi langkah dalam evolusi ekosistem kecerdasan buatannya dengan kemas kini utama kepada Audio Asli Gemini 2.5 FlashModel ini direka untuk memahami dan menjana audio dalam masa nyata. Teknologi ini bertujuan untuk menjadikan interaksi suara lebih berkesan. lebih dekat dengan perbualan manusiabaik dalam kehidupan seharian mahupun dalam persekitaran profesional.
Jauh daripada sekadar "memberi suara" kepada respons pembantu, dan dibandingkan dengan pilihan lain dalam perbandingan AI suaraModel ini direka bentuk untuk untuk mengekalkan dialog semula jadi, berfungsi dan kontekstual, membuat keputusan tentang bila hendak mendapatkan maklumat tambahan dan menguruskan arahan yang kompleks tanpa mengganggu aliran perbualanDengan ini, Google memperkukuh komitmennya terhadap suara sebagai cara interaksi utama dengan perkhidmatan AInya.
Apakah Audio Asli Gemini 2.5 Flash dan di manakah ia digunakan?
Gemini 2.5 Flash Native Audio ialah versi terkini model audio natif Google, yang mampu mendengar, memahami, dan memberi respons melalui suara dalam masa nyata. Tidak seperti sistem sebelumnya yang hanya tertumpu pada sintesis pertuturan, enjin ini direka bentuk untuk berfungsi dengan audio sebagai input dan output secara serentak, menjadikannya amat sesuai untuk pembantu perbualan.
Syarikat itu telah mengintegrasikan versi ini ke dalam beberapa platform utamanya: Google AI Studio, Vertex AI, Gemini Live dan Search LiveIni bermakna kedua-dua pemaju dan syarikat boleh mula membina ejen suara lanjutan pada teknologi yang sama yang memperkasakan pengalaman AI perbualan terkini Google.
Dalam praktiknya, pengguna akan melihat perubahan dalam pengalaman seperti Gemini Live (mod perbualan suara dengan pembantu) atau dalam Cari Langsung dalam mod AI aplikasi Google, tempat respons lisan berbunyi lebih ekspresif, lebih jelas dan lebih kontekstualTambahan pula, anda juga boleh meminta pembantu untuk bercakap dengan lebih perlahan, melaraskan rentak perbualan secara semula jadi.
Selain Google sendiri, keupayaan ini telah disediakan kepada pihak ketiga melalui Vertex AI dan API Geminisupaya syarikat lain dapat mewujudkan ejen autonomi suara, penyambut tetamu maya atau alat bantuan dengan tahap kecanggihan suara yang sama.
Fungsi luaran yang lebih tepat dan model yang dinilai lebih baik

Salah satu bidang di mana Gemini 2.5 Flash Native Audio telah mencapai kemajuan paling besar adalah dalam keupayaannya untuk panggil fungsi luaranSecara ringkasnya, model ini kini lebih andal dalam membuat keputusan. apabila anda perlu merujuk perkhidmatan atau data masa nyataContohnya, untuk mendapatkan maklumat terkini, menyemak status pesanan atau melancarkan proses automatik.
Google menunjukkan bahawa ketepatan tambahan ini diterjemahkan kepada kurang ralat apabila mencetuskan tindakan, sekali gus mengurangkan situasi janggal di mana pembantu gagal atau bertindak lebih awal. Sistem ini mampu masukkan data yang diambil ke dalam respons audio tanpa pengguna menyedari sebarang potongan tiba-tiba dalam perbualan.
Untuk mengukur kemajuan ini, syarikat telah menjalankan ujian terhadap model tersebut seperti Audio ComplexFuncBench, sebuah bangku penilaian yang tertumpu pada tugasan berbilang peringkat dengan kekangan. Dalam senario ini, Gemini 2.5 Flash Native Audio telah mencapai sekitar Kadar kejayaan 71,5% dalam melaksanakan fungsi kompleks, meletakkannya di atas lelaran sebelumnya dan model pesaing lain dalam jenis penggunaan ini.
Prestasi ini amat relevan dalam konteks di mana aliran kerja automatik yang canggih diperlukan, seperti pusat panggilan, sokongan teknikal atau pemprosesan transaksi (contohnya, tugas kewangan atau pentadbiran) yang mana setiap langkah bergantung pada langkah sebelumnya dan terdapat sedikit ruang untuk kesilapan.
Penjejakan arahan yang lebih baik dan utas perbualan yang lebih koheren
Satu lagi fokus kemas kini adalah tentang bagaimana model mentafsir dan menghormati arahan yang diterimanya daripada pengguna akhir dan pembangun. Menurut data yang dikeluarkan oleh Google, kadar pematuhan arahan telah menurun daripada 84% kepada 90% pematuhanIni bermaksud respons yang lebih selaras dengan apa yang sebenarnya telah diminta.
Lompatan ini adalah kunci dalam tugas-tugas di mana ia diperlukan arahan kompleks, berbilang langkah atau berbilang syaratContohnya, apabila meminta penjelasan dalam gaya tertentu, meminta ringkasan dengan kekangan masa tertentu atau menyediakan aliran kerja yang bergantung pada beberapa keputusan yang dipautkan.
Berkaitan dengan ini, Gemini 2.5 Flash Native Audio telah memperoleh keupayaan untuk Dapatkan konteks mesej sebelumnyaDalam perbualan berbilang pusingan, model lebih mengingati apa yang telah diperkatakan, nuansa yang diperkenalkan oleh pengguna dan pembetulan yang dibuat sepanjang dialog.
Peningkatan dalam ingatan perbualan ini mengurangkan keperluan untuk mengulangi maklumat yang sama berulang kali dan membantu menjadikan interaksi lebih berkesan. lebih lancar dan kurang menjengkelkanPengalaman itu lebih dekat dengan bercakap dengan seseorang yang menyambung topik di tempat mereka berhenti, dan bukannya bermula dari awal dengan setiap jawapan.
Kes penggunaan dunia sebenar: daripada e-dagang kepada perkhidmatan kewangan
Selain metrik dalaman, Google bergantung pada contoh pelanggan untuk menggambarkan impak praktikal Gemini 2.5 Flash Native Audio. Dalam sektor e-dagang, Shopify telah menggabungkan keupayaan ini ke dalam pembantunya. Sidekick", yang membantu peruncit menguruskan kedai mereka dan menyelesaikan keraguan tentang perniagaan tersebut.
Menurut syarikat itu, ramai pengguna Mereka juga lupa bahawa mereka sedang bercakap dengan AI Selepas beberapa minit perbualan, pengguna tersebut juga mengucapkan terima kasih kepada bot tersebut selepas pertanyaan yang panjang lebar. Reaksi jenis ini menunjukkan bahawa kemajuan dalam keaslian dan nada menyebabkan teknologi secara halus diabaikan.
Dalam sektor kewangan, penyedia Gadai Janji Borong Bersatu (UWM) Ia telah mengintegrasikan model tersebut ke dalam pembantu "Mia" untuk mengurus proses berkaitan gadai janji. Dengan gabungan Gemini 2.5 dan sistem dalaman yang lain, syarikat itu mendakwa telah memproses lebih daripada 14.000 pinjaman untuk rakan kongsinya, bergantung pada interaksi automatik yang memerlukan ketepatan dan pematuhan peraturan.
Bagi pihaknya, syarikat permulaan Newo.ai Ia menggunakan Gemini 2.5 Flash Native Audio melalui Vertex AI untuk menguasakannya penyambut tetamu mayaPembantu suara ini mampu mengenal pasti penutur utama walaupun dalam persekitaran yang bising, menukar bahasa di pertengahan perbualan dan mengekalkan daftar suara semula jadi dengan nuansa emosiyang penting dalam perkhidmatan pelanggan.
Terjemahan suara-ke-suara masa nyata: lebih banyak bahasa dan lebih banyak nuansa
Antara penambahan yang paling menarik dalam versi ini ialah terjemahan suara ke suara secara langsungPada mulanya disepadukan ke dalam aplikasi Google Translate, Gemini 2.5 Flash Native Audio melangkaui sekadar menukar audio kepada teks atau menawarkan terjemahan berpecah-belah, membolehkan pengalaman yang lebih imersif. terjemahan serentak lebih dekat dengan tafsiran manusia.
Sistem ini boleh beroperasi dalam mod mendengar berterusanIni membolehkan pengguna memakai fon kepala dan mendengar apa yang berlaku di sekeliling mereka diterjemahkan ke dalam bahasa mereka, tanpa perlu berhenti seketika atau menekan butang untuk setiap frasa. Pilihan ini boleh berguna semasa melancong, menghadiri mesyuarat antarabangsa atau di acara yang melibatkan pelbagai bahasa.
Pertimbangan juga telah diberikan kepada situasi-situasi perbualan dua halaContohnya, jika seorang bercakap dalam Bahasa Inggeris dan seorang lagi dalam Bahasa Hindi, fon kepala akan memainkan terjemahan Bahasa Inggeris dalam masa nyata, manakala telefon akan memainkan terjemahan Bahasa Hindi sebaik sahaja orang pertama selesai bercakap. Sistem akan menukar bahasa output secara automatik bergantung pada siapa yang bercakap, tanpa pengguna perlu menukar tetapan antara giliran.
Salah satu butiran yang paling relevan tentang fungsi ini ialah keupayaannya untuk mengekalkan intonasi, rentak dan nada asal daripada penutur. Ini menghasilkan terjemahan yang kedengaran kurang robotik dan lebih hampir dengan gaya suara penutur, menjadikannya lebih mudah difahami dan pengalamannya lebih semula jadi.
Sokongan bahasa, pengesanan automatik dan penapisan hingar
Dari segi skop linguistik, terjemahan suara berasaskan Gemini 2.5 menawarkan sokongan untuk lebih 70 bahasa dan kira-kira 2.000 pasangan terjemahanMenggabungkan pengetahuan dunia model dengan keupayaan audio berbilang bahasa dan natifnya, ia boleh merangkumi pelbagai kombinasi bahasa, termasuk banyak yang tidak selalunya diutamakan oleh alat lain.
Sistem ini boleh mengurus entri berbilang bahasa Dalam satu sesi, ia memahami lebih daripada satu bahasa secara serentak tanpa memerlukan pengguna melaraskan tetapan secara manual setiap kali seseorang menukar bahasa. Ciri ini amat berguna dalam perbualan di mana beberapa bahasa dicampur secara semula jadi.
Terima kasih kepada pengesanan automatik bahasa lisanPengguna tidak perlu mengetahui terlebih dahulu bahasa yang digunakan oleh rakan sejawat mereka untuk berkomunikasi: model mengenal pasti bahasa tersebut dan mula menterjemah dengan pantas, sekali gus mengurangkan geseran dan langkah perantaraan.
Gemini 2.5 Flash Native Audio juga menggabungkan mekanisme untuk ketahanan terhadap bunyi bisingIa mampu menapis sebahagian daripada bunyi ambien untuk mengutamakan suara utama, membolehkan perbualan yang lebih selesa di jalan-jalan yang sibuk, ruang terbuka atau tempat-tempat dengan muzik latar belakang.
Ketersediaan, penggunaan dan prospek untuk Eropah
Terjemahan suara secara langsung berdasarkan model ini kini tersedia dalam fasa beta dalam aplikasi Google Translate untuk peranti Android di pasaran seperti Amerika Syarikat, Mexico dan India. Google telah mengesahkan bahawa perkhidmatan ini akan dilancarkan secara progresif ke lebih banyak wilayah dan platform, termasuk sistem mudah alih yang lain.
Secara selari, penyepaduan Gemini 2.5 Flash Native Audio dalam Gemini Langsung dan Carian Langsung Ia sedang dilancarkan kepada pengguna aplikasi Google pada Android dan iOS, bermula di Amerika Syarikat. Apabila ciri-ciri ini matang dan lulus fasa ujian dan penyesuaian awal, ia dijangka akan tiba di rantau lain juga. lebih banyak negara, mungkin termasuk pasaran Eropah, yang mana permintaan untuk penterjemahan dan pembantu suara amat tinggi.
Google juga telah mengumumkan hasratnya untuk menggabungkan pengalaman suara dan terjemahan ini ke dalam produk lain, termasuk API GeminiDalam beberapa bulan dan tahun akan datang, ini akan membuka pintu kepada syarikat-syarikat Eropah dalam sektor seperti pelancongan, logistik, pendidikan dan pentadbiran awam untuk mengintegrasikan keupayaan ini secara langsung ke dalam perkhidmatan mereka sendiri.
Syarikat ini memperkenalkan ciri-ciri baharu ini sebagai sebahagian daripada strategi yang lebih luas untuk membolehkan pembangun bina ejen perbualan dengan suara semula jadi Mulai sekarang, memanfaatkan Gemini 2.5 Flash Native Audio dan model lain dalam keluarga 2.5 Flash dan Pro yang ditujukan untuk penjanaan suara yang lebih terkawal (melaraskan nada, niat, kelajuan, dll.) dan bingkai seperti Yayasan AI Agentik.
Dengan penambahbaikan ini, Google mengukuhkan idea bahawa suara akan menjadi salah satu saluran interaksi utama dengan kecerdasan buatan: daripada pembantu yang mengendalikan panggilan pelanggan dan memproses operasi kompleks, kepada sistem terjemahan serentak yang memudahkan komunikasi antara orang yang tidak berkongsi bahasa. Gemini 2.5 Flash Native Audio merupakan teras usaha ini, memperhalusi pemahaman dan ekspresi suara. untuk menjadikan teknologi ini lebih berguna dan kurang mengganggu dalam kehidupan seharian, sementara menunggu penggunaannya sepenuhnya di Eropah dan pasaran lain.
Saya seorang peminat teknologi yang telah menjadikan minat "geek"nya sebagai satu profesion. Saya telah menghabiskan lebih daripada 10 tahun hidup saya menggunakan teknologi canggih dan bermain-main dengan semua jenis program kerana rasa ingin tahu yang tulen. Sekarang saya mempunyai pakar dalam teknologi komputer dan permainan video. Ini kerana selama lebih daripada 5 tahun saya telah menulis untuk pelbagai laman web mengenai teknologi dan permainan video, mencipta artikel yang bertujuan untuk memberi anda maklumat yang anda perlukan dalam bahasa yang boleh difahami oleh semua orang.
Jika anda mempunyai sebarang soalan, pengetahuan saya merangkumi semua perkara yang berkaitan dengan sistem pengendalian Windows serta Android untuk telefon mudah alih. Dan komitmen saya adalah kepada anda, saya sentiasa bersedia untuk meluangkan masa beberapa minit dan membantu anda menyelesaikan sebarang soalan yang mungkin anda ada dalam dunia internet ini.
