Audio Asli Flash Gemini 2.5: Begini cara suara AI Google berubah

Pembaharuan Terakhir: 15/12/2025

  • Gemini 2.5 Flash Native Audio meningkatkan kealamian, akurasi, dan kelancaran percakapan suara dengan AI Google.
  • Model ini menyempurnakan panggilan ke fungsi eksternal, mengikuti instruksi kompleks dengan lebih baik, dan mempertahankan konteks dengan lebih baik dalam dialog yang panjang.
  • Fitur ini menggabungkan terjemahan suara ke suara secara real-time, dengan dukungan untuk lebih dari 70 bahasa dan 2.000 pasangan terjemahan, serta mempertahankan intonasi dan ritme.
  • Teknologi ini sudah terintegrasi ke dalam Google AI Studio, Vertex AI, Gemini Live, dan Search Live, serta sedang diterapkan di produk Google dan pihak ketiga.

Audio Asli Flash Gemini 2.5

Google telah mengambil langkah selanjutnya dalam evolusi ekosistem kecerdasan buatannya dengan pembaruan besar pada Audio Asli Flash Gemini 2.5Model ini dirancang untuk memahami dan menghasilkan audio secara real-time. Teknologi ini bertujuan untuk membuat interaksi suara menjadi lebih efektif. lebih mirip percakapan manusiabaik dalam kehidupan sehari-hari maupun di lingkungan profesional.

Jauh dari sekadar "memberikan suara" pada respons asisten, dan dibandingkan dengan pilihan lain dalam Perbandingan AI suaraModel ini dirancang untuk untuk mempertahankan dialog yang alami, fungsional, dan kontekstual, Mengambil keputusan tentang kapan harus mencari informasi tambahan dan mengelola instruksi yang kompleks tanpa mengganggu alur percakapan.Dengan ini, Google memperkuat komitmennya terhadap suara sebagai sarana utama interaksi dengan layanan AI-nya.

Apa itu Gemini 2.5 Flash Native Audio dan di mana fitur ini digunakan?

Gemini 2.5 Flash Native Audio adalah versi terbaru dari model audio asli Google, yang mampu mendengarkan, memahami, dan menanggapi melalui suara Secara waktu nyata. Tidak seperti sistem sebelumnya yang hanya berfokus pada sintesis suara, mesin ini dirancang untuk bekerja dengan audio sebagai input dan output secara bersamaan, sehingga sangat cocok untuk asisten percakapan.

Perusahaan tersebut telah mengintegrasikan versi ini ke dalam beberapa platform utamanya: Google AI Studio, Vertex AI, Gemini Live, dan Search LiveIni berarti bahwa baik pengembang maupun perusahaan dapat mulai membangun. agen suara tingkat lanjut menggunakan teknologi yang sama yang mendukung pengalaman AI percakapan terbaru Google.

Dalam praktiknya, pengguna akan menyadari perubahan ini dalam pengalaman seperti: Gemini Langsung (mode percakapan suara dengan asisten) atau di Cari Langsung di dalam mode AI aplikasi Google, di mana respons yang diucapkan terdengar lebih ekspresif, lebih jelas, dan lebih kontekstual.Selain itu, Anda bahkan dapat meminta asisten untuk berbicara lebih lambat, menyesuaikan kecepatan percakapan secara alami.

Selain Google sendiri, kemampuan ini telah tersedia bagi pihak ketiga melalui Vertex AI dan API Geminiagar perusahaan lain dapat membuat agen otonom suara, resepsionis virtual, atau alat bantu dengan tingkat kecanggihan suara yang sama.

Fungsi eksternal yang lebih akurat dan model dengan peringkat lebih baik.

AI suara Google

Salah satu area di mana Gemini 2.5 Flash Native Audio telah membuat kemajuan paling besar adalah kemampuannya untuk memanggil fungsi eksternalSederhananya, model ini sekarang lebih andal dalam hal pengambilan keputusan. saat Anda perlu berkonsultasi dengan layanan atau data waktu nyataSebagai contoh, untuk mengambil informasi terbaru, memeriksa status pesanan, atau meluncurkan proses otomatis.

Konten eksklusif - Klik Disini  Cara memasang gambar Google di Google Slide

Google menjelaskan bahwa peningkatan presisi ini menghasilkan lebih sedikit kesalahan saat memicu tindakan, mengurangi situasi canggung di mana asisten gagal atau bertindak terlalu cepat. Sistem ini mampu masukkan data yang diambil ke dalam respons audio tanpa pengguna menyadari adanya gangguan mendadak dalam percakapan.

Untuk mengukur kemajuan ini, perusahaan telah melakukan berbagai pengujian pada model tersebut, seperti: Audio ComplexFuncBench, sebuah platform evaluasi yang berfokus pada tugas multi-tahap dengan batasan. Dalam skenario ini, Gemini 2.5 Flash Native Audio telah mencapai sekitar Tingkat keberhasilan 71,5% dalam mengeksekusi fungsi-fungsi kompleks., sehingga menempatkannya di atas versi sebelumnya dan model pesaing lainnya dalam jenis penggunaan ini.

Kinerja ini sangat relevan dalam konteks di mana alur kerja otomatis yang canggih dibutuhkan, seperti: pusat panggilan, dukungan teknis, atau pemrosesan transaksi (misalnya, tugas keuangan atau administrasi) di mana setiap langkah bergantung pada langkah sebelumnya dan ruang untuk kesalahan sangat kecil.

Pelacakan instruksi yang lebih baik dan alur percakapan yang lebih koheren.

Fokus lain dari pembaruan ini adalah pada bagaimana model tersebut menafsirkan dan menghormati instruksi yang diterimanya dari pengguna akhir dan pengembang. Menurut data yang dirilis oleh Google, tingkat kepatuhan instruksi telah turun dari 84% menjadi Kepatuhan 90%Artinya, tanggapan yang lebih sesuai dengan apa yang sebenarnya diminta.

Lompatan ini sangat penting dalam tugas-tugas yang membutuhkannya. instruksi yang kompleks, banyak langkah, atau banyak kondisiSebagai contoh, ketika meminta penjelasan dengan gaya tertentu, meminta ringkasan dengan batasan waktu tertentu, atau menyiapkan alur kerja yang bergantung pada beberapa keputusan yang saling terkait.

Berkaitan dengan hal ini, Gemini 2.5 Flash Native Audio telah memperoleh kemampuan untuk Mengambil konteks pesan sebelumnyaDalam percakapan multi-giliran, model lebih mudah mengingat apa yang telah dikatakan, nuansa yang diperkenalkan oleh pengguna, dan koreksi yang dilakukan sepanjang dialog.

Peningkatan dalam daya ingat percakapan ini mengurangi kebutuhan untuk mengulang informasi yang sama berulang kali dan membantu membuat interaksi menjadi lebih efektif. lebih lancar dan tidak membuat frustrasiPengalaman ini lebih mirip berbicara dengan seseorang yang melanjutkan topik dari tempat terakhir mereka berhenti, daripada memulai dari awal dengan setiap jawaban.

Studi kasus di dunia nyata: dari e-commerce hingga layanan keuangan.

Selain metrik internal, Google mengandalkan contoh pelanggan untuk menggambarkan dampak praktis dari Gemini 2.5 Flash Native Audio. Di sektor e-commerce, Shopify telah memasukkan kemampuan ini ke dalam asistennya. Koncoyang membantu peritel mengelola toko mereka dan menyelesaikan keraguan tentang bisnis tersebut.

Konten eksklusif - Klik Disini  LinkedIn menyesuaikan AI-nya: perubahan privasi, wilayah, dan cara menonaktifkannya

Menurut perusahaan, banyak pengguna Mereka bahkan lupa bahwa mereka sedang berbicara dengan AI. Setelah beberapa menit berbincang, pengguna bahkan berterima kasih kepada bot setelah pertanyaan yang panjang. Reaksi seperti ini menunjukkan bahwa kemajuan dalam hal naturalitas dan intonasi menyebabkan teknologi secara halus mulai terpinggirkan.

Di sektor keuangan, penyedia United Wholesale Mortgage (UWM) Perusahaan telah mengintegrasikan model tersebut ke dalam asisten "Mia" untuk mengelola proses terkait hipotek. Dengan kombinasi Gemini 2.5 dan sistem internal lainnya, perusahaan mengklaim telah memproses lebih dari 14.000 pinjaman untuk para mitranya, dengan mengandalkan interaksi otomatis yang membutuhkan akurasi dan kepatuhan terhadap peraturan.

Sementara itu, perusahaan rintisan tersebut Newo.ai Perangkat ini menggunakan Gemini 2.5 Flash Native Audio melalui Vertex AI untuk mendukung kinerjanya. resepsionis virtualAsisten suara ini mampu mengidentifikasi pembicara utama bahkan di lingkungan yang bising, beralih bahasa di tengah percakapan, dan mempertahankan register suara alami dengan nuansa emosional.yang sangat penting dalam layanan pelanggan.

Terjemahan suara ke suara secara waktu nyata: lebih banyak bahasa dan lebih banyak nuansa.

Salah satu tambahan yang paling mencolok dalam versi ini adalah... terjemahan langsung suara ke suaraAwalnya terintegrasi ke dalam aplikasi Google Translate, Gemini 2.5 Flash Native Audio melampaui sekadar mengkonversi audio ke teks atau menawarkan terjemahan yang terfragmentasi, memungkinkan pengalaman yang lebih mendalam. terjemahan simultan lebih dekat dengan interpretasi manusia.

Sistem ini dapat beroperasi dalam mode mendengarkan terus menerusFitur ini memungkinkan pengguna untuk mengenakan headphone dan mendengarkan apa yang terjadi di sekitar mereka yang diterjemahkan ke dalam bahasa mereka, tanpa perlu menjeda atau menekan tombol untuk setiap frasa. Opsi ini dapat berguna saat bepergian, menghadiri pertemuan internasional, atau di acara-acara yang melibatkan banyak bahasa.

Pertimbangan juga telah diberikan pada situasi-situasi berikut: percakapan dua arahSebagai contoh, jika satu orang berbicara dalam bahasa Inggris dan yang lainnya dalam bahasa Hindi, headphone akan memutar terjemahan bahasa Inggris secara real-time, sementara ponsel akan memutar terjemahan bahasa Hindi setelah orang pertama selesai berbicara. Sistem secara otomatis beralih bahasa keluaran tergantung pada siapa yang berbicara, tanpa pengguna harus mengubah pengaturan di antara giliran berbicara.

Salah satu detail terpenting dari fungsi ini adalah kemampuannya untuk Pertahankan intonasi, ritme, dan nada asli. dari pembicara. Hal ini menghasilkan terjemahan yang terdengar kurang kaku dan lebih dekat dengan gaya suara pembicara, sehingga lebih mudah dipahami dan pengalaman menjadi lebih alami.

Dukungan bahasa, deteksi otomatis, dan penyaringan kebisingan.

Dari segi cakupan linguistik, terjemahan suara berbasis Gemini 2.5 menawarkan dukungan untuk lebih dari 70 bahasa dan sekitar 2.000 pasangan terjemahanDengan menggabungkan pengetahuan model tentang dunia dengan kemampuan multibahasa dan audio asli, model ini dapat mencakup berbagai kombinasi bahasa, termasuk banyak bahasa yang tidak selalu diprioritaskan oleh alat lain.

Konten eksklusif - Klik Disini  Pintasan keyboard terbaik di Grok Code Fast 1 untuk memprogram lebih cepat

Sistem ini dapat mengelola entri multibahasa Dalam satu sesi, aplikasi ini dapat memahami lebih dari satu bahasa secara bersamaan tanpa mengharuskan pengguna untuk menyesuaikan pengaturan secara manual setiap kali seseorang berganti bahasa. Fitur ini sangat berguna dalam percakapan di mana beberapa bahasa bercampur secara alami.

Berkat deteksi otomatis bahasa lisanPengguna tidak perlu mengetahui terlebih dahulu bahasa apa yang digunakan lawan bicaranya: model akan mengidentifikasi bahasa tersebut dan mulai menerjemahkan secara langsung, mengurangi hambatan dan langkah-langkah perantara.

Audio bawaan Flash Gemini 2.5 juga menyertakan mekanisme untuk ketahanan terhadap kebisinganPerangkat ini mampu menyaring sebagian suara sekitar untuk memprioritaskan suara utama, sehingga memungkinkan percakapan yang lebih nyaman di jalanan yang ramai, ruang terbuka, atau tempat dengan musik latar.

Ketersediaan, penerapan, dan prospek untuk Eropa

Terjemahan suara langsung berdasarkan model ini saat ini tersedia di Fase beta di aplikasi Google Translate untuk perangkat Android di pasar seperti Amerika Serikat, Meksiko, dan India. Google telah mengkonfirmasi bahwa layanan ini akan diluncurkan secara bertahap ke lebih banyak wilayah dan platform, termasuk sistem seluler lainnya.

Secara paralel, integrasi Gemini 2.5 Flash Native Audio di Gemini Live dan Search Live Fitur ini sedang diluncurkan kepada pengguna aplikasi Google di Android dan iOS, dimulai di Amerika Serikat. Seiring fitur-fitur ini semakin matang dan melewati fase pengujian dan adaptasi awal, fitur-fitur ini diharapkan akan hadir di wilayah lain juga. lebih banyak negara, termasuk pasar Eropa., di mana permintaan akan penerjemahan dan asisten suara sangat tinggi.

Google juga telah mengumumkan niatnya untuk menggabungkan pengalaman suara dan terjemahan ini ke dalam produk lain, termasuk API GeminiDalam beberapa bulan dan tahun mendatang, hal ini akan membuka pintu bagi perusahaan-perusahaan Eropa di sektor-sektor seperti pariwisata, logistik, pendidikan, dan administrasi publik untuk secara langsung mengintegrasikan kemampuan ini ke dalam layanan mereka sendiri.

Perusahaan menghadirkan fitur-fitur baru ini sebagai bagian dari strategi yang lebih luas untuk memungkinkan para pengembang untuk membangun agen percakapan dengan suara alami Mulai sekarang, dengan memanfaatkan Audio Asli Gemini 2.5 Flash dan model lain dalam keluarga 2.5 Flash dan Pro yang ditujukan untuk pembangkitan suara yang lebih terkontrol (menyesuaikan nada, maksud, kecepatan, dll.) dan bingkai seperti Yayasan AI Agentik.

Dengan serangkaian peningkatan ini, Google memperkuat gagasan bahwa suara akan menjadi salah satu saluran utama interaksi dengan kecerdasan buatan: mulai dari asisten yang menangani panggilan pelanggan dan memproses operasi kompleks, hingga sistem penerjemahan simultan yang memfasilitasi komunikasi antara orang-orang yang tidak memiliki bahasa yang sama. Gemini 2.5 Flash Native Audio adalah inti dari upaya ini, menyempurnakan pemahaman dan ekspresi suara. untuk membuat teknologi ini lebih bermanfaat dan tidak terlalu mengganggu dalam kehidupan sehari-hari, sambil menunggu penerapannya secara penuh di Eropa dan pasar lainnya.

Voice.ai vs ElevenLabs vs Udio: Mana yang terdengar lebih baik?
Artikel terkait:
Voice.ai vs ElevenLabs vs Udio: Perbandingan lengkap suara AI