صدای بومی Gemini 2.5 Flash: اینگونه صدای هوش مصنوعی گوگل تغییر می‌کند

اخرین بروزرسانی: 15/12/2025

  • صدای بومی فلش Gemini 2.5 با هوش مصنوعی گوگل، طبیعی بودن، دقت و روانی مکالمات صوتی را بهبود می‌بخشد.
  • این مدل فراخوانی توابع خارجی را اصلاح می‌کند، دستورالعمل‌های پیچیده را بهتر دنبال می‌کند و در دیالوگ‌های طولانی، زمینه را بهتر حفظ می‌کند.
  • این برنامه شامل ترجمه صدا به صدا در لحظه است و از بیش از ۷۰ زبان و ۲۰۰۰ جفت ترجمه پشتیبانی می‌کند و لحن و ریتم را حفظ می‌کند.
  • این قابلیت در حال حاضر در Google AI Studio، Vertex AI، Gemini Live و Search Live ادغام شده است و در حال استقرار در محصولات گوگل و سایر شرکت‌ها نیز می‌باشد.

صدای بومی Gemini 2.5 Flash

گوگل با به‌روزرسانی بزرگی که در ... انجام داده، گام دیگری در تکامل اکوسیستم هوش مصنوعی خود برداشته است. صدای بومی Gemini 2.5 Flashاین مدل برای درک و تولید صدا در زمان واقعی طراحی شده است. این فناوری در جهت مؤثرتر کردن تعاملات صوتی است. به گفتگوی انسانی نزدیک‌تر استچه در زندگی روزمره و چه در محیط‌های حرفه‌ای.

به دور از صرفاً «صدایی» گذاشتن برای پاسخ‌های یک دستیار، و در مقایسه با سایر گزینه‌ها در مقایسه هوش مصنوعی صوتیاین مدل برای برای حفظ گفتگوهای طبیعی، کاربردی و زمینه‌ای, تصمیم‌گیری در مورد زمان جستجوی اطلاعات اضافی و مدیریت دستورالعمل‌های پیچیده بدون ایجاد اختلال در جریان مکالمهبا این کار، گوگل تعهد خود را به صدا به عنوان وسیله اصلی تعامل با سرویس‌های هوش مصنوعی خود تقویت می‌کند.

Gemini 2.5 Flash Native Audio چیست و کجا استفاده می‌شود؟

Gemini 2.5 Flash Native Audio آخرین نسخه از مدل صوتی بومی گوگل است که قادر به گوش دهید، بفهمید و با صدا پاسخ دهید در زمان واقعی. برخلاف سیستم‌های قبلی که صرفاً بر سنتز گفتار متمرکز بودند، این موتور به گونه‌ای طراحی شده است که همزمان با صدا به عنوان ورودی و خروجی کار کند، و این امر آن را به ویژه برای دستیاران مکالمه‌ای مناسب می‌سازد.

این شرکت قبلاً این نسخه را در چندین پلتفرم کلیدی خود ادغام کرده است: استودیوی هوش مصنوعی گوگل، هوش مصنوعی ورتکس، جمینی لایو و سرچ لایواین یعنی هم توسعه‌دهندگان و هم شرکت‌ها می‌توانند شروع به ساختن کنند. عامل‌های صوتی پیشرفته بر اساس همان فناوری که جدیدترین تجربیات هوش مصنوعی مکالمه‌ای گوگل را پشتیبانی می‌کند.

در عمل، کاربران متوجه این تغییرات در تجربیاتی مانند موارد زیر خواهند شد: جمینی زنده (حالت مکالمه صوتی با دستیار) یا در جستجوی زنده در حالت هوش مصنوعی برنامه گوگل، جایی که پاسخ‌های گفتاری پخش می‌شوند رساتر، واضح‌تر و با زمینه‌ی مناسب‌ترعلاوه بر این، شما حتی می‌توانید از دستیار بخواهید که آهسته‌تر صحبت کند و سرعت مکالمه را به طور طبیعی تنظیم کند.

فراتر از خود گوگل، این قابلیت‌ها از طریق ... در اختیار اشخاص ثالث نیز قرار گرفته است. هوش مصنوعی ورتکس و رابط برنامه‌نویسی Geminiتا شرکت‌های دیگر بتوانند ایجاد کنند عوامل خودمختار صدا، منشی‌های مجازی یا ابزارهای کمکی با همان سطح از پیچیدگی صدا.

توابع خارجی دقیق‌تر و مدل‌های با رتبه‌بندی بهتر

هوش مصنوعی صوتی گوگل

یکی از زمینه‌هایی که Gemini 2.5 Flash Native Audio بیشترین پیشرفت را در آن داشته است، توانایی آن در ... فراخوانی توابع خارجیبه عبارت ساده، این مدل اکنون در تصمیم‌گیری‌ها قابل اعتمادتر است. چه زمانی نیاز به مشاوره با خدمات یا داده‌های بلادرنگ دارید؟برای مثال، برای بازیابی اطلاعات به‌روز شده، بررسی وضعیت یک سفارش یا راه‌اندازی یک فرآیند خودکار.

محتوای اختصاصی - اینجا را کلیک کنید  نحوه تغییر رنگ پس زمینه در نقشه های گوگل

گوگل اشاره می‌کند که این دقت بیشتر به معنای خطاهای کمتر هنگام اجرای اقدامات است و موقعیت‌های ناخوشایندی را که در آن دستیار کوتاهی می‌کند یا زودهنگام عمل می‌کند، کاهش می‌دهد. این سیستم قادر است داده‌های بازیابی شده را در پاسخ صوتی وارد کنید بدون اینکه کاربر متوجه قطع ناگهانی مکالمه شود.

برای سنجش این پیشرفت‌ها، شرکت، مدل را در معرض آزمایش‌هایی مانند موارد زیر قرار داده است: تست صدای ComplexFuncBench، یک معیار ارزیابی متمرکز بر وظایف چند مرحله‌ای با محدودیت‌ها. در این سناریو، Gemini 2.5 Flash Native Audio به حدود ... دست یافته است. ۷۱.۵٪ میزان موفقیت در اجرای توابع پیچیدهو آن را در این نوع استفاده، بالاتر از مدل‌های قبلی و سایر مدل‌های رقیب قرار می‌دهد.

این عملکرد به ویژه در زمینه‌هایی که به گردش‌های کاری خودکار پیچیده نیاز است، مانند موارد زیر، اهمیت دارد. مراکز تماس، پشتیبانی فنی یا پردازش تراکنش (برای مثال، وظایف مالی یا اداری) که در آن هر مرحله به مرحله قبلی وابسته است و جای کمی برای خطا وجود دارد.

ردیابی بهتر دستورالعمل‌ها و رشته‌های مکالمه منسجم‌تر

تمرکز دیگر این به‌روزرسانی بر چگونگی عملکرد مدل است. دستورالعمل‌ها را تفسیر و رعایت کنید که از کاربران نهایی و توسعه‌دهندگان دریافت می‌کند. طبق داده‌های منتشر شده توسط گوگل، میزان انطباق با دستورالعمل‌ها از ۸۴٪ به ... کاهش یافته است. پایبندی ۹۰٪این به معنای پاسخ‌هایی است که بیشتر با آنچه در واقع درخواست شده است، مطابقت دارند.

این جهش در وظایفی که مورد نیاز است، کلیدی است. دستورالعمل‌های پیچیده، مراحل متعدد یا شرایط متعددبرای مثال، هنگام درخواست توضیح به سبکی خاص، درخواست خلاصه‌ای با محدودیت‌های زمانی مشخص، یا تنظیم گردش کاری که به چندین تصمیم مرتبط بستگی دارد.

در همین راستا، Gemini 2.5 Flash Native Audio این قابلیت را به دست آورده است که بازیابی متن پیام‌های قبلیدر مکالمات چند نوبتی، مدل بهتر می‌تواند آنچه گفته شده، نکات ظریفی که کاربر مطرح کرده و اصلاحات انجام شده در طول مکالمه را به خاطر بسپارد.

این بهبود در حافظه مکالمه، نیاز به تکرار مکرر اطلاعات یکسان را کاهش می‌دهد و به مؤثرتر شدن تعاملات کمک می‌کند. روان‌تر و کمتر آزاردهندهاین تجربه بیشتر شبیه صحبت کردن با شخصی است که موضوع را از جایی که رها کرده ادامه می‌دهد، نه اینکه با هر پاسخ از صفر شروع کند.

موارد استفاده در دنیای واقعی: از تجارت الکترونیک گرفته تا خدمات مالی

فراتر از معیارهای داخلی، گوگل برای نشان دادن تأثیر عملی Gemini 2.5 Flash Native Audio به نمونه‌هایی از مشتریان تکیه می‌کند. در بخش تجارت الکترونیک، Shopify این قابلیت‌ها را در دستیار خود گنجانده است. شخص وابسته«که به خرده‌فروشان کمک می‌کند تا فروشگاه‌های خود را مدیریت کرده و شبهات مربوط به کسب‌وکار خود را برطرف کنند.»

محتوای اختصاصی - اینجا را کلیک کنید  نحوه قرار دادن یک ویدیو در سایت های گوگل

طبق اعلام این شرکت، بسیاری از کاربران آنها حتی فراموش می‌کنند که دارند با یک هوش مصنوعی صحبت می‌کنند. پس از چند دقیقه مکالمه، کاربر حتی پس از یک پرس‌وجوی طولانی از ربات تشکر کرد. این نوع واکنش نشان می‌دهد که پیشرفت در طبیعی بودن و لحن، باعث شده است که فناوری به طور نامحسوس در اولویت قرار گیرد.

در بخش مالی، ارائه دهنده وام مسکن عمده فروشی یونایتد (UWM) این شرکت این مدل را در دستیار «میا» خود ادغام کرده است تا فرآیندهای مربوط به وام مسکن را مدیریت کند. این شرکت ادعا می‌کند که با ترکیب جمینی ۲.۵ و سایر سیستم‌های داخلی، بیش از ۱۴۰۰۰ وام پردازش شده است برای شرکای خود، با تکیه بر تعاملات خودکار که نیاز به دقت و انطباق با مقررات دارند.

از طرف خود، این استارتاپ نیو.آی این دستگاه از Gemini 2.5 Flash Native Audio از طریق Vertex AI برای تأمین قدرت خود استفاده می‌کند. منشی‌های مجازیاین دستیارهای صوتی قادرند حتی در محیط‌های پر سر و صدا، گوینده اصلی را شناسایی کنند، در حین مکالمه زبان را تغییر دهند و ... صدایی طبیعی با ظرافت‌های احساسیکه در خدمات مشتری بسیار مهم است.

ترجمه همزمان صدا به صدا: زبان‌های بیشتر و جزئیات بیشتر

یکی از موارد قابل توجه اضافه شده در این نسخه، ترجمه زنده صدا به صدانرم‌افزار Gemini 2.5 Flash Native Audio که در ابتدا با برنامه Google Translate ادغام شده بود، فراتر از تبدیل ساده صدا به متن یا ارائه ترجمه‌های تکه‌تکه عمل می‌کند و تجربه‌ای فراگیرتر را فراهم می‌کند. ترجمه همزمان به تفسیر انسانی نزدیک‌تر است.

سیستم می‌تواند در حالت ... کار کند. گوش دادن مداوماین به کاربر اجازه می‌دهد هدفون را روی گوش خود بگذارد و اتفاقات اطرافش را به زبان خودش ترجمه کند، بدون اینکه نیازی به مکث یا فشار دادن دکمه برای هر عبارت باشد. این گزینه می‌تواند هنگام سفر، شرکت در جلسات بین‌المللی یا در رویدادهایی که چندین زبان در آن دخیل هستند، مفید باشد.

همچنین به موقعیت‌هایی توجه شده است که مکالمه دو طرفهبرای مثال، اگر یک نفر به انگلیسی و دیگری به هندی صحبت کند، هدفون ترجمه انگلیسی را به صورت زنده پخش می‌کند، در حالی که تلفن پس از پایان صحبت نفر اول، ترجمه هندی را پخش می‌کند. سیستم به طور خودکار زبان خروجی را بسته به اینکه چه کسی صحبت می‌کند تغییر می‌دهد، بدون اینکه کاربر مجبور باشد تنظیمات را بین نوبت‌ها تغییر دهد.

یکی از مهمترین جزئیات این تابع، توانایی آن در حفظ لحن، ریتم و آهنگ اصلی از گوینده. این منجر به ترجمه‌هایی می‌شود که کمتر رباتیک به نظر می‌رسند و به سبک صدای گوینده نزدیک‌تر هستند، که باعث می‌شود درک آنها آسان‌تر و تجربه طبیعی‌تر شود.

پشتیبانی از زبان، تشخیص خودکار و فیلتر نویز

از نظر دامنه زبانی، ترجمه صوتی مبتنی بر Gemini 2.5 از موارد زیر پشتیبانی می‌کند: بیش از ۷۰ زبان و حدود ۲۰۰۰ جفت ترجمهبا ترکیب دانش جهانی مدل با قابلیت‌های صوتی چندزبانه و بومی آن، می‌تواند طیف گسترده‌ای از ترکیبات زبانی را پوشش دهد، از جمله بسیاری از زبان‌هایی که همیشه توسط ابزارهای دیگر در اولویت قرار نمی‌گیرند.

محتوای اختصاصی - اینجا را کلیک کنید  پیشرفت‌های OpenAI با Codex و GPT-5: قابلیت‌های جدید در برنامه‌نویسی و هوش مصنوعی

سیستم می‌تواند مدیریت کند ورودی چندزبانه در یک جلسه، بیش از یک زبان را به طور همزمان می‌فهمد بدون اینکه کاربر هر بار که زبان را عوض می‌کند، نیاز به تنظیم دستی تنظیمات داشته باشد. این ویژگی به ویژه در مکالماتی که چندین زبان به طور طبیعی با هم ترکیب می‌شوند، مفید است.

با تشکر از تشخیص خودکار زبان گفتاریکاربر نیازی ندارد از قبل بداند طرف مقابلش به چه زبانی صحبت می‌کند: مدل زبان را شناسایی می‌کند و شروع به ترجمه درجا می‌کند و اصطکاک و مراحل میانی را کاهش می‌دهد.

Gemini 2.5 Flash Native Audio همچنین شامل مکانیزم‌هایی برای مقاوم در برابر نویزاین دستگاه قادر است بخشی از صدای محیط را فیلتر کند تا صدای اصلی در اولویت قرار گیرد و امکان مکالمات راحت‌تر در خیابان‌های شلوغ، فضاهای باز یا مکان‌هایی با موسیقی پس‌زمینه را فراهم کند.

در دسترس بودن، استقرار و چشم‌اندازها برای اروپا

ترجمه صوتی زنده مبتنی بر این مدل در حال حاضر در دسترس است فاز بتا در اپلیکیشن گوگل ترنسلیت برای دستگاه‌های اندروید در بازارهایی مانند ایالات متحده، مکزیک و هند. گوگل تأیید کرده است که این سرویس به تدریج در دسترس قرار خواهد گرفت. مناطق و پلتفرم‌های بیشتر، از جمله سایر سیستم‌های تلفن همراه.

به موازات آن، ادغام Gemini 2.5 Flash Native Audio در جمینی لایو و سرچ لایو این قابلیت برای کاربران اپلیکیشن گوگل در اندروید و iOS، ابتدا در ایالات متحده، در حال عرضه است. با تکمیل این ویژگی‌ها و پشت سر گذاشتن مراحل اولیه آزمایش و سازگاری، انتظار می‌رود در مناطق دیگر نیز ارائه شود. کشورهای بیشتری، احتمالاً شامل بازارهای اروپاییجایی که تقاضا برای ترجمه و دستیارهای صوتی به طور ویژه‌ای بالاست.

گوگل همچنین اعلام کرده است که قصد دارد این تجربه صوتی و ترجمه را در سایر محصولات خود، از جمله ...، بگنجاند. رابط برنامه‌نویسی کاربردی Geminiطی ماه‌ها و سال‌های آینده، این امر در را برای شرکت‌های اروپایی در بخش‌هایی مانند گردشگری، لجستیک، آموزش و مدیریت عمومی باز می‌کند تا مستقیماً این قابلیت‌ها را در خدمات خود ادغام کنند.

این شرکت این ویژگی‌های جدید را به عنوان بخشی از یک استراتژی گسترده‌تر ارائه می‌دهد تا توسعه‌دهندگان بتوانند ساخت عامل‌های مکالمه با صدای طبیعی از این پس، با بهره‌گیری از Gemini 2.5 Flash Native Audio و سایر مدل‌های خانواده 2.5 Flash و Pro، تولید صدای کنترل‌شده‌تر (تنظیم لحن، نیت، سرعت و غیره) و فریم‌هایی مانند بنیاد هوش مصنوعی عامل.

با این مجموعه پیشرفت‌ها، گوگل این ایده را تقویت می‌کند که صدا یکی از کانال‌های اصلی تعامل با هوش مصنوعی خواهد بود: از دستیارانی که تماس‌های مشتریان را مدیریت می‌کنند و عملیات پیچیده را پردازش می‌کنند، گرفته تا سیستم‌های ترجمه همزمان که ارتباط بین افرادی را که زبان مشترکی ندارند، تسهیل می‌کنند. Gemini 2.5 Flash Native Audio در قلب این تلاش قرار دارد و هم درک صدا و هم بیان آن را به خوبی تنظیم می‌کند. تا این فناوری در زندگی روزمره مفیدتر و کمتر مزاحم شود، در حالی که منتظر استقرار کامل آن در اروپا و سایر بازارها هستیم.

Voice.ai در مقابل ElevenLabs و Udio: کدام بهتر به نظر می‌رسد؟
مقاله مرتبط:
Voice.ai در مقابل ElevenLabs در مقابل Udio: مقایسه کاملی از صداهای هوش مصنوعی