- Gemini 2.5 Flash Native Audio cải thiện tính tự nhiên, độ chính xác và sự mượt mà của các cuộc hội thoại bằng giọng nói nhờ trí tuệ nhân tạo của Google.
- Mô hình này tinh chỉnh các lệnh gọi đến các hàm bên ngoài, xử lý các hướng dẫn phức tạp tốt hơn và duy trì ngữ cảnh tốt hơn trong các đoạn hội thoại dài.
- Nó tích hợp tính năng dịch giọng nói sang giọng nói theo thời gian thực, hỗ trợ hơn 70 ngôn ngữ và 2.000 cặp ngôn ngữ dịch, giữ nguyên ngữ điệu và nhịp điệu.
- Nó đã được tích hợp vào Google AI Studio, Vertex AI, Gemini Live và Search Live, và đang được triển khai trong các sản phẩm của Google và bên thứ ba.
Google đã tiến thêm một bước nữa trong quá trình phát triển hệ sinh thái trí tuệ nhân tạo của mình với một bản cập nhật lớn. Gemini 2.5 Flash Native AudioMô hình này được thiết kế để hiểu và tạo ra âm thanh trong thời gian thực. Công nghệ này hướng đến mục tiêu làm cho các tương tác bằng giọng nói hiệu quả hơn. gần giống với một cuộc trò chuyện giữa người với người hơncả trong cuộc sống thường nhật lẫn trong môi trường chuyên nghiệp.
Khác xa với việc chỉ đơn thuần "lồng tiếng" cho các câu trả lời của trợ lý ảo, và so với các lựa chọn khác trong So sánh AI giọng nóiMẫu này được thiết kế cho để duy trì các cuộc đối thoại tự nhiên, chức năng và phù hợp với ngữ cảnh., Đưa ra quyết định về thời điểm cần tìm kiếm thêm thông tin và xử lý các chỉ dẫn phức tạp mà không làm gián đoạn cuộc trò chuyện.Với động thái này, Google khẳng định lại cam kết của mình đối với giọng nói như là phương thức tương tác chính với các dịch vụ trí tuệ nhân tạo của hãng.
Gemini 2.5 Flash Native Audio là gì và nó được sử dụng ở đâu?
Gemini 2.5 Flash Native Audio là phiên bản mới nhất của mô hình âm thanh gốc của Google, có khả năng... lắng nghe, thấu hiểu và phản hồi bằng giọng nói. trong thời gian thực. Không giống như các hệ thống trước đây chỉ tập trung vào tổng hợp giọng nói, công cụ này được thiết kế để hoạt động với âm thanh vừa là đầu vào vừa là đầu ra đồng thời, điều này khiến nó đặc biệt phù hợp với các trợ lý đàm thoại.
Công ty đã tích hợp phiên bản này vào một số nền tảng chính của mình: Google AI Studio, Vertex AI, Gemini Live và Search LiveĐiều này có nghĩa là cả nhà phát triển và các công ty đều có thể bắt đầu xây dựng. các tác nhân giọng nói nâng cao Dựa trên cùng công nghệ được sử dụng trong các trải nghiệm trí tuệ nhân tạo đàm thoại mới nhất của Google.
Trên thực tế, người dùng sẽ nhận thấy những thay đổi này trong các trải nghiệm như sau: Song Tử sống (chế độ hội thoại bằng giọng nói với trợ lý) hoặc trong Tìm kiếm trực tiếp trong chế độ AI của ứng dụng Google, nơi phát ra âm thanh phản hồi bằng giọng nói. biểu cảm hơn, rõ ràng hơn và phù hợp với ngữ cảnh hơn.Hơn nữa, bạn thậm chí có thể yêu cầu trợ lý nói chậm hơn, điều chỉnh nhịp độ cuộc trò chuyện một cách tự nhiên.
Ngoài Google, những khả năng này cũng đã được cung cấp cho các bên thứ ba thông qua... Vertex AI và API Geminiđể các công ty khác có thể tạo ra đại lý tự trị giọng nói, lễ tân ảo hoặc các công cụ hỗ trợ có cùng mức độ tinh vi về giọng nói.
Các chức năng bên ngoài chính xác hơn và các mẫu được đánh giá cao hơn

Một trong những lĩnh vực mà Gemini 2.5 Flash Native Audio đã có những tiến bộ vượt bậc nhất là khả năng của nó trong việc... gọi các hàm bên ngoàiNói một cách đơn giản, mô hình hiện nay đáng tin cậy hơn trong việc đưa ra quyết định. khi bạn cần tham khảo các dịch vụ hoặc dữ liệu thời gian thực.Ví dụ, để truy xuất thông tin cập nhật, kiểm tra trạng thái đơn hàng hoặc khởi chạy một quy trình tự động.
Google chỉ ra rằng độ chính xác được tăng cường này giúp giảm thiểu lỗi khi thực hiện các hành động, hạn chế những tình huống khó xử khi trợ lý ảo không đáp ứng được yêu cầu hoặc hành động quá sớm. Hệ thống này có khả năng... Chèn dữ liệu đã truy xuất vào phản hồi âm thanh. mà người dùng không hề nhận thấy bất kỳ sự gián đoạn đột ngột nào trong cuộc trò chuyện.
Để đánh giá những tiến bộ này, công ty đã tiến hành các thử nghiệm đối với mô hình, chẳng hạn như: ComplexFuncBench Audio, một hệ thống đánh giá tập trung vào các tác vụ nhiều giai đoạn có ràng buộc. Trong kịch bản này, Gemini 2.5 Flash Native Audio đã đạt được khoảng... Tỷ lệ thành công 71,5% trong việc thực hiện các chức năng phức tạp, đưa nó vượt trội hơn các phiên bản trước đó và các mô hình cạnh tranh khác trong cùng loại hình sử dụng.
Hiệu suất này đặc biệt phù hợp trong các bối cảnh cần đến các quy trình tự động hóa phức tạp, chẳng hạn như trung tâm cuộc gọi, hỗ trợ kỹ thuật hoặc xử lý giao dịch (ví dụ: các nhiệm vụ tài chính hoặc hành chính) trong đó mỗi bước phụ thuộc vào bước trước đó và hầu như không có chỗ cho sai sót.
Việc theo dõi hướng dẫn được cải thiện và các cuộc hội thoại mạch lạc hơn.
Một trọng tâm khác của bản cập nhật là về cách thức hoạt động của mô hình. Hiểu và tuân thủ các hướng dẫn. mà Google nhận được từ cả người dùng cuối và nhà phát triển. Theo dữ liệu do Google công bố, tỷ lệ tuân thủ hướng dẫn đã giảm từ 84% xuống còn... Tỷ lệ tuân thủ 90%Điều này có nghĩa là các câu trả lời sẽ phù hợp hơn với những gì thực sự được yêu cầu.
Bước nhảy vọt này rất quan trọng trong những nhiệm vụ đòi hỏi điều đó. hướng dẫn phức tạp, nhiều bước hoặc nhiều điều kiệnVí dụ, khi yêu cầu giải thích theo một phong cách cụ thể, yêu cầu tóm tắt với những ràng buộc về thời gian nhất định, hoặc thiết lập một quy trình làm việc phụ thuộc vào nhiều quyết định liên kết với nhau.
Liên quan đến điều này, Gemini 2.5 Flash Native Audio đã có thêm khả năng... Truy xuất ngữ cảnh của các tin nhắn trước đóTrong các cuộc hội thoại nhiều lượt, mô hình ghi nhớ tốt hơn những gì đã được nói, những sắc thái do người dùng đưa ra và những chỉnh sửa được thực hiện trong suốt cuộc đối thoại.
Sự cải thiện về khả năng ghi nhớ hội thoại này giúp giảm bớt nhu cầu lặp đi lặp lại cùng một thông tin và giúp cho các tương tác trở nên hiệu quả hơn. mượt mà hơn và ít gây khó chịu hơnTrải nghiệm này giống như việc trò chuyện với một người tiếp tục chủ đề từ chỗ họ đã dừng lại, thay vì bắt đầu từ đầu với mỗi câu trả lời.
Các trường hợp sử dụng thực tế: từ thương mại điện tử đến dịch vụ tài chính
Ngoài các số liệu nội bộ, Google còn dựa vào các ví dụ từ khách hàng để minh họa tác động thực tiễn của Gemini 2.5 Flash Native Audio. Trong lĩnh vực thương mại điện tử, Shopify đã tích hợp các khả năng này vào trợ lý ảo của mình. Sidekick", giúp các nhà bán lẻ quản lý cửa hàng và giải quyết những thắc mắc về kinh doanh.
Theo công ty, nhiều người dùng Họ thậm chí còn quên mất rằng mình đang nói chuyện với trí tuệ nhân tạo. Sau vài phút trò chuyện, người dùng thậm chí còn cảm ơn con bot sau một câu hỏi dài. Phản ứng này cho thấy những tiến bộ trong tính tự nhiên và giọng điệu đang dần khiến công nghệ trở nên ít nổi bật hơn.
Trong lĩnh vực tài chính, nhà cung cấp United Wholesale Mortgage (UWM) Công ty đã tích hợp mô hình này vào trợ lý ảo "Mia" để quản lý các quy trình liên quan đến thế chấp. Với sự kết hợp giữa Gemini 2.5 và các hệ thống nội bộ khác, công ty tuyên bố đã... đã xử lý hơn 14.000 khoản vay. Đối với các đối tác của mình, công ty dựa vào các tương tác tự động đòi hỏi độ chính xác và tuân thủ quy định.
Về phía mình, công ty khởi nghiệp Newo.ai Nó sử dụng Gemini 2.5 Flash Native Audio thông qua Vertex AI để vận hành. lễ tân ảoCác trợ lý giọng nói này có khả năng nhận diện người nói chính ngay cả trong môi trường ồn ào, chuyển đổi ngôn ngữ giữa cuộc trò chuyện và duy trì sự tập trung. Chất giọng tự nhiên với những sắc thái cảm xúc tinh tế.Điều này rất quan trọng trong dịch vụ khách hàng.
Dịch thuật giọng nói sang giọng nói theo thời gian thực: nhiều ngôn ngữ hơn và nhiều sắc thái hơn
Một trong những điểm bổ sung nổi bật nhất trong phiên bản này là phiên dịch trực tiếp giọng nói sang giọng nóiBan đầu được tích hợp vào ứng dụng Google Translate, Gemini 2.5 Flash Native Audio không chỉ đơn thuần chuyển đổi âm thanh thành văn bản hoặc cung cấp các bản dịch rời rạc, mà còn mang đến trải nghiệm sống động hơn. phiên dịch Gần hơn với cách hiểu của con người.
Hệ thống có thể hoạt động ở chế độ nghe liên tụcTính năng này cho phép người dùng đeo tai nghe và nghe những gì đang diễn ra xung quanh được dịch sang ngôn ngữ của họ, mà không cần phải tạm dừng hoặc nhấn nút cho mỗi cụm từ. Tùy chọn này có thể hữu ích khi đi du lịch, tham dự các cuộc họp quốc tế hoặc tại các sự kiện có sử dụng nhiều ngôn ngữ.
Các tình huống liên quan đến cũng đã được xem xét. cuộc trò chuyện hai chiềuVí dụ, nếu một người nói tiếng Anh và người kia nói tiếng Hindi, tai nghe sẽ phát bản dịch tiếng Anh theo thời gian thực, trong khi điện thoại sẽ phát bản dịch tiếng Hindi sau khi người đầu tiên nói xong. Hệ thống tự động chuyển đổi ngôn ngữ đầu ra tùy thuộc vào người đang nói, mà người dùng không cần phải thay đổi cài đặt giữa các lượt nói.
Một trong những chi tiết quan trọng nhất của chức năng này là khả năng của nó Giữ nguyên ngữ điệu, nhịp điệu và âm sắc ban đầu. Điều này giúp bản dịch nghe tự nhiên hơn, không bị khô khan như máy móc, mà gần với giọng nói của người nói hơn, dễ hiểu hơn và mang lại trải nghiệm tự nhiên hơn.
Hỗ trợ nhiều ngôn ngữ, tự động nhận diện và lọc nhiễu.
Về phạm vi ngôn ngữ, tính năng dịch giọng nói dựa trên Gemini 2.5 hỗ trợ các ngôn ngữ sau: Hơn 70 ngôn ngữ và khoảng 2.000 cặp bản dịch.Bằng cách kết hợp kiến thức toàn cầu của mô hình với khả năng đa ngôn ngữ và xử lý âm thanh bản ngữ, nó có thể bao phủ nhiều sự kết hợp ngôn ngữ khác nhau, bao gồm cả nhiều ngôn ngữ mà các công cụ khác không phải lúc nào cũng ưu tiên.
Hệ thống có thể quản lý mục nhập đa ngôn ngữ Trong cùng một phiên giao tiếp, phần mềm có thể hiểu nhiều ngôn ngữ cùng lúc mà không cần người dùng phải điều chỉnh thủ công cài đặt mỗi khi ai đó chuyển đổi ngôn ngữ. Tính năng này đặc biệt hữu ích trong các cuộc hội thoại có sự pha trộn tự nhiên nhiều ngôn ngữ.
Nhờ có sự phát hiện tự động ngôn ngữ nóiNgười dùng không cần phải biết trước người đối thoại đang sử dụng ngôn ngữ nào: mô hình sẽ tự động nhận diện ngôn ngữ và bắt đầu dịch ngay lập tức, giảm thiểu sự phức tạp và các bước trung gian.
Gemini 2.5 Flash Native Audio cũng tích hợp các cơ chế cho khả năng chống nhiễuThiết bị có khả năng lọc bỏ một số âm thanh xung quanh để ưu tiên giọng nói chính, giúp cho các cuộc trò chuyện thoải mái hơn ở những con phố đông đúc, không gian mở hoặc những nơi có nhạc nền.
Tính khả dụng, triển khai và triển vọng tại châu Âu
Hiện tại, tính năng dịch giọng nói trực tiếp dựa trên mô hình này đang có sẵn. giai đoạn thử nghiệm beta của ứng dụng Google Translate Dành cho các thiết bị Android tại các thị trường như Hoa Kỳ, Mexico và Ấn Độ. Google đã xác nhận rằng dịch vụ này sẽ được triển khai dần dần. nhiều khu vực và nền tảng hơnbao gồm cả các hệ thống di động khác.
Song song đó, việc tích hợp Gemini 2.5 Flash Native Audio vào Gemini Trực tiếp và Tìm kiếm Trực tiếp Tính năng này đang được triển khai cho người dùng ứng dụng Google trên Android và iOS, bắt đầu từ Hoa Kỳ. Khi các tính năng này hoàn thiện và vượt qua các giai đoạn thử nghiệm và thích ứng ban đầu, chúng dự kiến sẽ được triển khai ở các khu vực khác. nhiều quốc gia hơn, có lẽ bao gồm cả thị trường châu Âu.trong đó nhu cầu về dịch thuật và trợ lý giọng nói đặc biệt cao.
Google cũng đã tuyên bố ý định tích hợp trải nghiệm giọng nói và dịch thuật này vào các sản phẩm khác, bao gồm cả... API Song TửTrong những tháng và năm tới, điều này sẽ mở ra cơ hội cho các công ty châu Âu trong các lĩnh vực như du lịch, hậu cần, giáo dục và hành chính công tích hợp trực tiếp các khả năng này vào dịch vụ của họ.
Công ty đang giới thiệu những tính năng mới này như một phần của chiến lược rộng hơn nhằm giúp các nhà phát triển Xây dựng các trợ lý hội thoại với giọng nói tự nhiên Từ nay trở đi, hãy tận dụng cả Gemini 2.5 Flash Native Audio và các mẫu khác trong dòng 2.5 Flash và Pro hướng đến việc tạo giọng nói được kiểm soát tốt hơn (điều chỉnh âm điệu, ý định, tốc độ, v.v.) và các khung như... Tổ chức AI Agentic.
Với loạt cải tiến này, Google củng cố ý tưởng rằng giọng nói sẽ là một trong những kênh tương tác chính với trí tuệ nhân tạo: từ các trợ lý xử lý cuộc gọi khách hàng và thực hiện các thao tác phức tạp, đến các hệ thống dịch thuật đồng thời giúp tạo điều kiện thuận lợi cho giao tiếp giữa những người không cùng ngôn ngữ. Công nghệ Gemini 2.5 Flash Native Audio là cốt lõi của nỗ lực này, giúp tinh chỉnh cả khả năng hiểu và diễn đạt giọng nói. Nhằm làm cho công nghệ trở nên hữu ích hơn và ít gây phiền nhiễu hơn trong cuộc sống hàng ngày, trong khi chờ đợi việc triển khai đầy đủ tại châu Âu và các thị trường khác.
Tôi là một người đam mê công nghệ và đã biến sở thích “đam mê” của mình thành một nghề. Tôi đã dành hơn 10 năm cuộc đời mình để sử dụng công nghệ tiên tiến và mày mò đủ loại chương trình chỉ vì tò mò. Bây giờ tôi chuyên về công nghệ máy tính và trò chơi điện tử. Điều này là do trong hơn 5 năm, tôi đã viết cho nhiều trang web khác nhau về công nghệ và trò chơi điện tử, tạo ra các bài viết nhằm cung cấp cho bạn thông tin bạn cần bằng ngôn ngữ mà mọi người đều có thể hiểu được.
Nếu bạn có bất kỳ câu hỏi nào, kiến thức của tôi bao gồm mọi thứ liên quan đến hệ điều hành Windows cũng như Android dành cho điện thoại di động. Và cam kết của tôi là với bạn, tôi luôn sẵn sàng dành một vài phút và giúp bạn giải quyết mọi thắc mắc mà bạn có thể có trong thế giới internet này.
