- صدای بومی فلش Gemini 2.5 با هوش مصنوعی گوگل، طبیعی بودن، دقت و روانی مکالمات صوتی را بهبود میبخشد.
- این مدل فراخوانی توابع خارجی را اصلاح میکند، دستورالعملهای پیچیده را بهتر دنبال میکند و در دیالوگهای طولانی، زمینه را بهتر حفظ میکند.
- این برنامه شامل ترجمه صدا به صدا در لحظه است و از بیش از ۷۰ زبان و ۲۰۰۰ جفت ترجمه پشتیبانی میکند و لحن و ریتم را حفظ میکند.
- این قابلیت در حال حاضر در Google AI Studio، Vertex AI، Gemini Live و Search Live ادغام شده است و در حال استقرار در محصولات گوگل و سایر شرکتها نیز میباشد.
گوگل با بهروزرسانی بزرگی که در ... انجام داده، گام دیگری در تکامل اکوسیستم هوش مصنوعی خود برداشته است. صدای بومی Gemini 2.5 Flashاین مدل برای درک و تولید صدا در زمان واقعی طراحی شده است. این فناوری در جهت مؤثرتر کردن تعاملات صوتی است. به گفتگوی انسانی نزدیکتر استچه در زندگی روزمره و چه در محیطهای حرفهای.
به دور از صرفاً «صدایی» گذاشتن برای پاسخهای یک دستیار، و در مقایسه با سایر گزینهها در مقایسه هوش مصنوعی صوتیاین مدل برای برای حفظ گفتگوهای طبیعی، کاربردی و زمینهای, تصمیمگیری در مورد زمان جستجوی اطلاعات اضافی و مدیریت دستورالعملهای پیچیده بدون ایجاد اختلال در جریان مکالمهبا این کار، گوگل تعهد خود را به صدا به عنوان وسیله اصلی تعامل با سرویسهای هوش مصنوعی خود تقویت میکند.
Gemini 2.5 Flash Native Audio چیست و کجا استفاده میشود؟
Gemini 2.5 Flash Native Audio آخرین نسخه از مدل صوتی بومی گوگل است که قادر به گوش دهید، بفهمید و با صدا پاسخ دهید در زمان واقعی. برخلاف سیستمهای قبلی که صرفاً بر سنتز گفتار متمرکز بودند، این موتور به گونهای طراحی شده است که همزمان با صدا به عنوان ورودی و خروجی کار کند، و این امر آن را به ویژه برای دستیاران مکالمهای مناسب میسازد.
این شرکت قبلاً این نسخه را در چندین پلتفرم کلیدی خود ادغام کرده است: استودیوی هوش مصنوعی گوگل، هوش مصنوعی ورتکس، جمینی لایو و سرچ لایواین یعنی هم توسعهدهندگان و هم شرکتها میتوانند شروع به ساختن کنند. عاملهای صوتی پیشرفته بر اساس همان فناوری که جدیدترین تجربیات هوش مصنوعی مکالمهای گوگل را پشتیبانی میکند.
در عمل، کاربران متوجه این تغییرات در تجربیاتی مانند موارد زیر خواهند شد: جمینی زنده (حالت مکالمه صوتی با دستیار) یا در جستجوی زنده در حالت هوش مصنوعی برنامه گوگل، جایی که پاسخهای گفتاری پخش میشوند رساتر، واضحتر و با زمینهی مناسبترعلاوه بر این، شما حتی میتوانید از دستیار بخواهید که آهستهتر صحبت کند و سرعت مکالمه را به طور طبیعی تنظیم کند.
فراتر از خود گوگل، این قابلیتها از طریق ... در اختیار اشخاص ثالث نیز قرار گرفته است. هوش مصنوعی ورتکس و رابط برنامهنویسی Geminiتا شرکتهای دیگر بتوانند ایجاد کنند عوامل خودمختار صدا، منشیهای مجازی یا ابزارهای کمکی با همان سطح از پیچیدگی صدا.
توابع خارجی دقیقتر و مدلهای با رتبهبندی بهتر

یکی از زمینههایی که Gemini 2.5 Flash Native Audio بیشترین پیشرفت را در آن داشته است، توانایی آن در ... فراخوانی توابع خارجیبه عبارت ساده، این مدل اکنون در تصمیمگیریها قابل اعتمادتر است. چه زمانی نیاز به مشاوره با خدمات یا دادههای بلادرنگ دارید؟برای مثال، برای بازیابی اطلاعات بهروز شده، بررسی وضعیت یک سفارش یا راهاندازی یک فرآیند خودکار.
گوگل اشاره میکند که این دقت بیشتر به معنای خطاهای کمتر هنگام اجرای اقدامات است و موقعیتهای ناخوشایندی را که در آن دستیار کوتاهی میکند یا زودهنگام عمل میکند، کاهش میدهد. این سیستم قادر است دادههای بازیابی شده را در پاسخ صوتی وارد کنید بدون اینکه کاربر متوجه قطع ناگهانی مکالمه شود.
برای سنجش این پیشرفتها، شرکت، مدل را در معرض آزمایشهایی مانند موارد زیر قرار داده است: تست صدای ComplexFuncBench، یک معیار ارزیابی متمرکز بر وظایف چند مرحلهای با محدودیتها. در این سناریو، Gemini 2.5 Flash Native Audio به حدود ... دست یافته است. ۷۱.۵٪ میزان موفقیت در اجرای توابع پیچیدهو آن را در این نوع استفاده، بالاتر از مدلهای قبلی و سایر مدلهای رقیب قرار میدهد.
این عملکرد به ویژه در زمینههایی که به گردشهای کاری خودکار پیچیده نیاز است، مانند موارد زیر، اهمیت دارد. مراکز تماس، پشتیبانی فنی یا پردازش تراکنش (برای مثال، وظایف مالی یا اداری) که در آن هر مرحله به مرحله قبلی وابسته است و جای کمی برای خطا وجود دارد.
ردیابی بهتر دستورالعملها و رشتههای مکالمه منسجمتر
تمرکز دیگر این بهروزرسانی بر چگونگی عملکرد مدل است. دستورالعملها را تفسیر و رعایت کنید که از کاربران نهایی و توسعهدهندگان دریافت میکند. طبق دادههای منتشر شده توسط گوگل، میزان انطباق با دستورالعملها از ۸۴٪ به ... کاهش یافته است. پایبندی ۹۰٪این به معنای پاسخهایی است که بیشتر با آنچه در واقع درخواست شده است، مطابقت دارند.
این جهش در وظایفی که مورد نیاز است، کلیدی است. دستورالعملهای پیچیده، مراحل متعدد یا شرایط متعددبرای مثال، هنگام درخواست توضیح به سبکی خاص، درخواست خلاصهای با محدودیتهای زمانی مشخص، یا تنظیم گردش کاری که به چندین تصمیم مرتبط بستگی دارد.
در همین راستا، Gemini 2.5 Flash Native Audio این قابلیت را به دست آورده است که بازیابی متن پیامهای قبلیدر مکالمات چند نوبتی، مدل بهتر میتواند آنچه گفته شده، نکات ظریفی که کاربر مطرح کرده و اصلاحات انجام شده در طول مکالمه را به خاطر بسپارد.
این بهبود در حافظه مکالمه، نیاز به تکرار مکرر اطلاعات یکسان را کاهش میدهد و به مؤثرتر شدن تعاملات کمک میکند. روانتر و کمتر آزاردهندهاین تجربه بیشتر شبیه صحبت کردن با شخصی است که موضوع را از جایی که رها کرده ادامه میدهد، نه اینکه با هر پاسخ از صفر شروع کند.
موارد استفاده در دنیای واقعی: از تجارت الکترونیک گرفته تا خدمات مالی
فراتر از معیارهای داخلی، گوگل برای نشان دادن تأثیر عملی Gemini 2.5 Flash Native Audio به نمونههایی از مشتریان تکیه میکند. در بخش تجارت الکترونیک، Shopify این قابلیتها را در دستیار خود گنجانده است. شخص وابسته«که به خردهفروشان کمک میکند تا فروشگاههای خود را مدیریت کرده و شبهات مربوط به کسبوکار خود را برطرف کنند.»
طبق اعلام این شرکت، بسیاری از کاربران آنها حتی فراموش میکنند که دارند با یک هوش مصنوعی صحبت میکنند. پس از چند دقیقه مکالمه، کاربر حتی پس از یک پرسوجوی طولانی از ربات تشکر کرد. این نوع واکنش نشان میدهد که پیشرفت در طبیعی بودن و لحن، باعث شده است که فناوری به طور نامحسوس در اولویت قرار گیرد.
در بخش مالی، ارائه دهنده وام مسکن عمده فروشی یونایتد (UWM) این شرکت این مدل را در دستیار «میا» خود ادغام کرده است تا فرآیندهای مربوط به وام مسکن را مدیریت کند. این شرکت ادعا میکند که با ترکیب جمینی ۲.۵ و سایر سیستمهای داخلی، بیش از ۱۴۰۰۰ وام پردازش شده است برای شرکای خود، با تکیه بر تعاملات خودکار که نیاز به دقت و انطباق با مقررات دارند.
از طرف خود، این استارتاپ نیو.آی این دستگاه از Gemini 2.5 Flash Native Audio از طریق Vertex AI برای تأمین قدرت خود استفاده میکند. منشیهای مجازیاین دستیارهای صوتی قادرند حتی در محیطهای پر سر و صدا، گوینده اصلی را شناسایی کنند، در حین مکالمه زبان را تغییر دهند و ... صدایی طبیعی با ظرافتهای احساسیکه در خدمات مشتری بسیار مهم است.
ترجمه همزمان صدا به صدا: زبانهای بیشتر و جزئیات بیشتر
یکی از موارد قابل توجه اضافه شده در این نسخه، ترجمه زنده صدا به صدانرمافزار Gemini 2.5 Flash Native Audio که در ابتدا با برنامه Google Translate ادغام شده بود، فراتر از تبدیل ساده صدا به متن یا ارائه ترجمههای تکهتکه عمل میکند و تجربهای فراگیرتر را فراهم میکند. ترجمه همزمان به تفسیر انسانی نزدیکتر است.
سیستم میتواند در حالت ... کار کند. گوش دادن مداوماین به کاربر اجازه میدهد هدفون را روی گوش خود بگذارد و اتفاقات اطرافش را به زبان خودش ترجمه کند، بدون اینکه نیازی به مکث یا فشار دادن دکمه برای هر عبارت باشد. این گزینه میتواند هنگام سفر، شرکت در جلسات بینالمللی یا در رویدادهایی که چندین زبان در آن دخیل هستند، مفید باشد.
همچنین به موقعیتهایی توجه شده است که مکالمه دو طرفهبرای مثال، اگر یک نفر به انگلیسی و دیگری به هندی صحبت کند، هدفون ترجمه انگلیسی را به صورت زنده پخش میکند، در حالی که تلفن پس از پایان صحبت نفر اول، ترجمه هندی را پخش میکند. سیستم به طور خودکار زبان خروجی را بسته به اینکه چه کسی صحبت میکند تغییر میدهد، بدون اینکه کاربر مجبور باشد تنظیمات را بین نوبتها تغییر دهد.
یکی از مهمترین جزئیات این تابع، توانایی آن در حفظ لحن، ریتم و آهنگ اصلی از گوینده. این منجر به ترجمههایی میشود که کمتر رباتیک به نظر میرسند و به سبک صدای گوینده نزدیکتر هستند، که باعث میشود درک آنها آسانتر و تجربه طبیعیتر شود.
پشتیبانی از زبان، تشخیص خودکار و فیلتر نویز
از نظر دامنه زبانی، ترجمه صوتی مبتنی بر Gemini 2.5 از موارد زیر پشتیبانی میکند: بیش از ۷۰ زبان و حدود ۲۰۰۰ جفت ترجمهبا ترکیب دانش جهانی مدل با قابلیتهای صوتی چندزبانه و بومی آن، میتواند طیف گستردهای از ترکیبات زبانی را پوشش دهد، از جمله بسیاری از زبانهایی که همیشه توسط ابزارهای دیگر در اولویت قرار نمیگیرند.
سیستم میتواند مدیریت کند ورودی چندزبانه در یک جلسه، بیش از یک زبان را به طور همزمان میفهمد بدون اینکه کاربر هر بار که زبان را عوض میکند، نیاز به تنظیم دستی تنظیمات داشته باشد. این ویژگی به ویژه در مکالماتی که چندین زبان به طور طبیعی با هم ترکیب میشوند، مفید است.
با تشکر از تشخیص خودکار زبان گفتاریکاربر نیازی ندارد از قبل بداند طرف مقابلش به چه زبانی صحبت میکند: مدل زبان را شناسایی میکند و شروع به ترجمه درجا میکند و اصطکاک و مراحل میانی را کاهش میدهد.
Gemini 2.5 Flash Native Audio همچنین شامل مکانیزمهایی برای مقاوم در برابر نویزاین دستگاه قادر است بخشی از صدای محیط را فیلتر کند تا صدای اصلی در اولویت قرار گیرد و امکان مکالمات راحتتر در خیابانهای شلوغ، فضاهای باز یا مکانهایی با موسیقی پسزمینه را فراهم کند.
در دسترس بودن، استقرار و چشماندازها برای اروپا
ترجمه صوتی زنده مبتنی بر این مدل در حال حاضر در دسترس است فاز بتا در اپلیکیشن گوگل ترنسلیت برای دستگاههای اندروید در بازارهایی مانند ایالات متحده، مکزیک و هند. گوگل تأیید کرده است که این سرویس به تدریج در دسترس قرار خواهد گرفت. مناطق و پلتفرمهای بیشتر، از جمله سایر سیستمهای تلفن همراه.
به موازات آن، ادغام Gemini 2.5 Flash Native Audio در جمینی لایو و سرچ لایو این قابلیت برای کاربران اپلیکیشن گوگل در اندروید و iOS، ابتدا در ایالات متحده، در حال عرضه است. با تکمیل این ویژگیها و پشت سر گذاشتن مراحل اولیه آزمایش و سازگاری، انتظار میرود در مناطق دیگر نیز ارائه شود. کشورهای بیشتری، احتمالاً شامل بازارهای اروپاییجایی که تقاضا برای ترجمه و دستیارهای صوتی به طور ویژهای بالاست.
گوگل همچنین اعلام کرده است که قصد دارد این تجربه صوتی و ترجمه را در سایر محصولات خود، از جمله ...، بگنجاند. رابط برنامهنویسی کاربردی Geminiطی ماهها و سالهای آینده، این امر در را برای شرکتهای اروپایی در بخشهایی مانند گردشگری، لجستیک، آموزش و مدیریت عمومی باز میکند تا مستقیماً این قابلیتها را در خدمات خود ادغام کنند.
این شرکت این ویژگیهای جدید را به عنوان بخشی از یک استراتژی گستردهتر ارائه میدهد تا توسعهدهندگان بتوانند ساخت عاملهای مکالمه با صدای طبیعی از این پس، با بهرهگیری از Gemini 2.5 Flash Native Audio و سایر مدلهای خانواده 2.5 Flash و Pro، تولید صدای کنترلشدهتر (تنظیم لحن، نیت، سرعت و غیره) و فریمهایی مانند بنیاد هوش مصنوعی عامل.
با این مجموعه پیشرفتها، گوگل این ایده را تقویت میکند که صدا یکی از کانالهای اصلی تعامل با هوش مصنوعی خواهد بود: از دستیارانی که تماسهای مشتریان را مدیریت میکنند و عملیات پیچیده را پردازش میکنند، گرفته تا سیستمهای ترجمه همزمان که ارتباط بین افرادی را که زبان مشترکی ندارند، تسهیل میکنند. Gemini 2.5 Flash Native Audio در قلب این تلاش قرار دارد و هم درک صدا و هم بیان آن را به خوبی تنظیم میکند. تا این فناوری در زندگی روزمره مفیدتر و کمتر مزاحم شود، در حالی که منتظر استقرار کامل آن در اروپا و سایر بازارها هستیم.
من یک علاقه مند به فناوری هستم که علایق "گیک" خود را به یک حرفه تبدیل کرده ام. من بیش از 10 سال از زندگی خود را صرف استفاده از فناوری های پیشرفته و سرهم بندی کردن انواع برنامه ها از روی کنجکاوی کرده ام. اکنون در زمینه فناوری رایانه و بازی های ویدیویی تخصص دارم. این به این دلیل است که بیش از 5 سال است که برای وب سایت های مختلف در زمینه فناوری و بازی های ویدیویی می نویسم و مقالاتی را ایجاد می کنم که به دنبال ارائه اطلاعات مورد نیاز شما به زبانی قابل فهم برای همه هستند.
اگر سوالی دارید، دانش من از همه چیز مربوط به سیستم عامل ویندوز و همچنین اندروید برای تلفن های همراه است. و تعهد من به شماست، من همیشه حاضرم چند دقیقه وقت بگذارم و به شما کمک کنم تا هر سوالی را که ممکن است در این دنیای اینترنتی داشته باشید حل کنید.
