Gemini 2.5 Flash Native Audio: گوگل کی AI آواز اس طرح تبدیل ہوتی ہے۔

آخری تازہ کاری: 15/12/2025

  • Gemini 2.5 Flash Native Audio Google کے AI کے ساتھ صوتی گفتگو کی فطری، درستگی اور روانی کو بہتر بناتا ہے۔
  • ماڈل کالز کو بیرونی افعال میں بہتر کرتا ہے، پیچیدہ ہدایات پر بہتر طریقے سے عمل کرتا ہے، اور طویل مکالموں میں سیاق و سباق کو بہتر طور پر برقرار رکھتا ہے۔
  • اس میں 70 سے زیادہ زبانوں اور 2.000 ترجمے کے جوڑوں کی حمایت کے ساتھ، آواز اور تال کو محفوظ رکھتے ہوئے حقیقی وقت میں آواز سے آواز کا ترجمہ شامل ہے۔
  • یہ پہلے سے ہی گوگل اے آئی اسٹوڈیو، ورٹیکس اے آئی، جیمنی لائیو اور سرچ لائیو میں مربوط ہے، اور اسے گوگل اور تھرڈ پارٹی پروڈکٹس میں تعینات کیا جا رہا ہے۔

جیمنی 2.5 فلیش مقامی آڈیو

گوگل نے اپنے مصنوعی ذہانت کے ماحولیاتی نظام کے ارتقاء میں ایک اور قدم اٹھایا ہے جیمنی 2.5 فلیش مقامی آڈیوحقیقی وقت میں آڈیو کو سمجھنے اور تخلیق کرنے کے لیے ڈیزائن کیا گیا ماڈل۔ یہ ٹیکنالوجی صوتی تعاملات کو زیادہ موثر بنانے کے لیے تیار ہے۔ انسانی گفتگو کے قریبروزمرہ کی زندگی اور پیشہ ورانہ ماحول دونوں میں۔

اسسٹنٹ کے جوابات کے لیے محض "آواز ڈالنے" سے بہت دور، اور دیگر اختیارات کے مقابلے میں وائس اے آئی کا موازنہاس ماڈل کے لیے ڈیزائن کیا گیا ہے۔ قدرتی، فعال اور سیاق و سباق کے مکالمے کو برقرار رکھنے کے لیے, اضافی معلومات کب حاصل کرنی ہیں اس بارے میں فیصلے کرنا اور گفتگو کے بہاؤ کو توڑے بغیر پیچیدہ ہدایات کا انتظام کرنااس کے ساتھ، Google اپنی AI سروسز کے ساتھ بات چیت کے بنیادی ذریعہ کے طور پر آواز کے لیے اپنے عزم کو تقویت دیتا ہے۔

Gemini 2.5 Flash Native Audio کیا ہے اور اسے کہاں استعمال کیا جا رہا ہے؟

Gemini 2.5 Flash Native Audio گوگل کے مقامی آڈیو ماڈل کا تازہ ترین ورژن ہے، جو قابل ہے۔ سنیں، سمجھیں، اور آواز سے جواب دیں۔ حقیقی وقت میں. سابقہ ​​نظاموں کے برعکس جو مکمل طور پر تقریر کی ترکیب پر مرکوز تھے، اس انجن کو آڈیو کے ساتھ ان پٹ اور آؤٹ پٹ دونوں کے ساتھ کام کرنے کے لیے ڈیزائن کیا گیا ہے، جس سے یہ بات چیت کے معاونین کے لیے خاص طور پر موزوں ہے۔

کمپنی پہلے ہی اس ورژن کو اپنے کئی اہم پلیٹ فارمز میں ضم کر چکی ہے: گوگل اے آئی اسٹوڈیو، ورٹیکس اے آئی، جیمنی لائیو اور سرچ لائیواس کا مطلب ہے کہ ڈویلپرز اور کمپنیاں دونوں ہی تعمیر شروع کر سکتے ہیں۔ اعلی درجے کی آواز کے ایجنٹوں اسی ٹکنالوجی پر جو گوگل کے جدید ترین AI تجربات کو طاقت دیتی ہے۔

عملی طور پر، صارفین تجربات میں ان تبدیلیوں کو محسوس کریں گے جیسے جیمنی لائیو (اسسٹنٹ کے ساتھ صوتی گفتگو کا موڈ) یا اندر لائیو تلاش کریں۔ گوگل ایپ کے AI موڈ کے اندر، جہاں بولے گئے جوابات کی آواز آتی ہے۔ زیادہ اظہار خیال، واضح، اور بہتر سیاق و سباقمزید برآں، آپ اسسٹنٹ سے بات چیت کی رفتار کو قدرتی طور پر ایڈجسٹ کرتے ہوئے زیادہ آہستہ بولنے کو بھی کہہ سکتے ہیں۔

خود گوگل سے آگے، یہ صلاحیتیں تیسرے فریق کے ذریعے دستیاب کرائی گئی ہیں۔ Vertex AI اور Gemini APIتاکہ دوسری کمپنیاں تخلیق کر سکیں خود مختار ایجنٹوں آواز، ورچوئل ریسپشنسٹ یا امدادی ٹولز جس میں آواز کی نفاست کی ایک ہی سطح ہے۔

زیادہ درست بیرونی افعال اور بہتر درجہ بندی والے ماڈل

گوگل کی آواز AI

ان شعبوں میں سے ایک جہاں Gemini 2.5 Flash Native Audio نے سب سے زیادہ ترقی کی ہے اس کی صلاحیت بیرونی افعال کو کال کریں۔سادہ الفاظ میں، جب فیصلہ کرنے کی بات آتی ہے تو ماڈل اب زیادہ قابل اعتماد ہے۔ جب آپ کو حقیقی وقت کی خدمات یا ڈیٹا سے مشورہ کرنے کی ضرورت ہو۔مثال کے طور پر، اپ ڈیٹ شدہ معلومات کو بازیافت کرنے کے لیے، آرڈر کی حیثیت چیک کریں، یا ایک خودکار عمل شروع کریں۔

خصوصی مواد - یہاں کلک کریں۔  گوگل ڈرائنگ میں پس منظر کا رنگ کیسے تبدیل کریں۔

گوگل بتاتا ہے کہ یہ اضافی درستگی کارروائیوں کو متحرک کرتے وقت کم غلطیوں میں ترجمہ کرتی ہے، ایسے عجیب و غریب حالات کو کم کرتی ہے جہاں اسسٹنٹ کم پڑ جاتا ہے یا وقت سے پہلے کام کرتا ہے۔ سسٹم قابل ہے۔ بازیافت شدہ ڈیٹا کو آڈیو جواب میں داخل کریں۔ صارف کو گفتگو میں اچانک کمی محسوس کیے بغیر۔

ان پیشرفتوں کی پیمائش کرنے کے لیے، کمپنی نے ماڈل کو ٹیسٹوں سے مشروط کیا ہے جیسے کمپلیکس فنک بینچ آڈیو, ایک تشخیصی بینچ جس نے رکاوٹوں کے ساتھ ملٹی اسٹیج کاموں پر توجہ مرکوز کی۔ اس منظر نامے میں، Gemini 2.5 Flash Native Audio نے تقریباً a پیچیدہ افعال کو انجام دینے میں 71,5% کامیابی کی شرحاس کو اس قسم کے استعمال میں سابقہ ​​تکرار اور دیگر مسابقتی ماڈلز کے اوپر رکھنا۔

یہ کارکردگی خاص طور پر ان سیاق و سباق میں متعلقہ ہے جہاں جدید ترین خودکار ورک فلو کی ضرورت ہوتی ہے، جیسے کال سینٹرز، ٹیکنیکل سپورٹ یا ٹرانزیکشن پروسیسنگ (مثال کے طور پر، مالی یا انتظامی کام) جہاں ہر قدم پچھلے ایک پر منحصر ہے اور غلطی کی بہت کم گنجائش ہے۔

بہتر انسٹرکشن ٹریکنگ اور زیادہ مربوط گفتگو کے سلسلے

اپ ڈیٹ کی ایک اور توجہ اس بات پر ہے کہ ماڈل کیسے ہدایات کی تشریح اور احترام کریں۔ جو یہ آخری صارفین اور ڈویلپرز دونوں سے وصول کرتا ہے۔ گوگل کے جاری کردہ اعداد و شمار کے مطابق، ہدایات کی تعمیل کی شرح 84 فیصد سے کم ہو کر رہ گئی ہے۔ 90٪ پابندیاس کا مطلب ہے وہ جوابات جو اصل میں مانگے گئے جوابات کے مطابق ہیں۔

یہ چھلانگ ان کاموں میں کلیدی ہے جہاں اس کی ضرورت ہے۔ پیچیدہ ہدایات، متعدد مراحل، یا متعدد شرائطمثال کے طور پر، کسی مخصوص انداز میں وضاحت کی درخواست کرتے وقت، مخصوص وقت کی پابندیوں کے ساتھ خلاصہ طلب کرنا، یا ایک ایسا ورک فلو ترتیب دینا جو متعدد منسلک فیصلوں پر منحصر ہو۔

اس سے متعلق، جیمنی 2.5 فلیش نیٹیو آڈیو کی صلاحیت حاصل کر لی ہے۔ پچھلے پیغامات کے سیاق و سباق کو بازیافت کریں۔ملٹی ٹرن بات چیت میں، ماڈل بہتر طور پر یاد رکھتا ہے کہ کیا کہا گیا ہے، صارف کی طرف سے متعارف کرائی گئی باریکیاں، اور مکالمے کے دوران کی گئی اصلاحات۔

بات چیت کی یادداشت میں یہ بہتری ایک ہی معلومات کو بار بار دہرانے کی ضرورت کو کم کرتی ہے اور بات چیت کو زیادہ موثر بنانے میں مدد کرتی ہے۔ ہموار اور کم مایوس کنتجربہ کسی ایسے شخص سے بات کرنے کے قریب ہے جو ہر جواب کے ساتھ شروع سے شروع کرنے کے بجائے ایک ایسے موضوع کو اٹھاتا ہے جہاں سے انہوں نے چھوڑا تھا۔

حقیقی دنیا کے استعمال کے معاملات: ای کامرس سے مالیاتی خدمات تک

اندرونی میٹرکس سے ہٹ کر، Google Gemini 2.5 Flash Native Audio کے عملی اثرات کو واضح کرنے کے لیے کسٹمر کی مثالوں پر انحصار کر رہا ہے۔ ای کامرس سیکٹر میں، Shopify نے ان صلاحیتوں کو اپنے اسسٹنٹ میں شامل کیا ہے۔ دلی دوست"، جو خوردہ فروشوں کو اپنے اسٹورز کا انتظام کرنے اور کاروبار کے بارے میں شکوک و شبہات کو دور کرنے میں مدد کرتا ہے۔

خصوصی مواد - یہاں کلک کریں۔  گوگل سائٹس میں ویڈیو ایمبیڈ کرنے کا طریقہ

کمپنی کے مطابق، بہت سے صارفین وہ یہاں تک بھول جاتے ہیں کہ وہ ایک AI سے بات کر رہے ہیں۔ چند منٹ کی گفتگو کے بعد، صارف نے طویل پوچھ گچھ کے بعد بوٹ کا شکریہ بھی ادا کیا۔ اس قسم کے ردعمل سے پتہ چلتا ہے کہ فطری اور لہجے میں ترقی ٹیکنالوجی کو ٹھیک طریقے سے پیچھے ہٹانے کا سبب بن رہی ہے۔

مالیاتی شعبے میں، فراہم کنندہ یونائیٹڈ ہول سیل مارگیج (UWM) اس نے رہن سے متعلقہ عمل کو منظم کرنے کے لیے ماڈل کو اپنے "Mia" اسسٹنٹ میں ضم کر دیا ہے۔ جیمنی 2.5 اور دیگر اندرونی نظاموں کے امتزاج کے ساتھ، کمپنی کا دعویٰ ہے۔ 14.000 سے زیادہ قرضوں پر کارروائی کی گئی۔ اپنے شراکت داروں کے لیے، خودکار تعاملات پر انحصار کرتے ہوئے جو درستگی اور ریگولیٹری تعمیل کی ضرورت ہوتی ہے۔

اس کے حصے کے لئے، آغاز Newo.ai یہ Gemini 2.5 Flash Native Audio کو Vertex AI کے ذریعے طاقت بخشنے کے لیے استعمال کرتا ہے۔ ورچوئل ریسپشنسٹیہ صوتی معاون شور والے ماحول میں بھی مرکزی اسپیکر کی شناخت کرنے، درمیانی گفتگو کے دوران زبانوں کو تبدیل کرنے اور برقرار رکھنے کی صلاحیت رکھتے ہیں۔ جذباتی باریکیوں کے ساتھ ایک قدرتی آواز کا رجسٹرجو کسٹمر سروس میں اہم ہے۔

حقیقی وقت میں آواز سے آواز کا ترجمہ: مزید زبانیں اور مزید باریکیاں

اس ورژن میں سب سے زیادہ حیرت انگیز اضافے میں سے ایک ہے۔ براہ راست آواز سے آواز ترجمہابتدائی طور پر Google Translate ایپ میں ضم کیا گیا، Gemini 2.5 Flash Native Audio صرف آڈیو کو متن میں تبدیل کرنے یا بکھرے ہوئے ترجمے پیش کرنے سے بھی آگے بڑھتا ہے، جس سے ایک مزید عمیق تجربہ ہوتا ہے۔ بیک وقت ترجمہ انسانی تشریح کے قریب۔

نظام کے موڈ میں کام کر سکتے ہیں مسلسل سننایہ صارف کو ہیڈ فون لگانے اور سننے کی اجازت دیتا ہے کہ ان کے ارد گرد کیا ہو رہا ہے ان کی زبان میں ترجمہ کیا جاتا ہے، ہر فقرے کو روکنے یا بٹن دبانے کی ضرورت کے بغیر۔ یہ آپشن سفر کرنے، بین الاقوامی میٹنگز میں شرکت کرنے، یا ایسے پروگراموں میں مفید ہو سکتا ہے جہاں متعدد زبانیں شامل ہوں۔

کے حالات پر بھی غور کیا گیا ہے۔ دو طرفہ بات چیتمثال کے طور پر، اگر ایک شخص انگریزی میں اور دوسرا ہندی میں بولتا ہے، تو ہیڈ فون انگریزی ترجمہ کو حقیقی وقت میں چلاتا ہے، جب کہ پہلا شخص بولنا ختم کرنے کے بعد فون ہندی ترجمہ چلاتا ہے۔ سسٹم خود بخود آؤٹ پٹ لینگویج کو تبدیل کرتا ہے اس بات پر منحصر ہے کہ کون بول رہا ہے، صارف کو موڑ کے درمیان سیٹنگز کو تبدیل کرنے کی ضرورت نہیں ہے۔

اس فنکشن کی سب سے زیادہ متعلقہ تفصیلات میں سے ایک اس کی صلاحیت ہے۔ اصل لہجے، تال اور لہجے کو محفوظ رکھیں اسپیکر سے. اس کے نتیجے میں ایسے ترجمے ہوتے ہیں جو کم روبوٹک لگتے ہیں اور اسپیکر کے آواز کے انداز کے قریب ہوتے ہیں، جس سے انہیں سمجھنے میں آسانی ہوتی ہے اور تجربہ زیادہ قدرتی ہوتا ہے۔

زبان کی حمایت، خود کار طریقے سے پتہ لگانے اور شور فلٹرنگ

لسانی دائرہ کار کے لحاظ سے، Gemini 2.5 پر مبنی صوتی ترجمہ کے لیے تعاون فراہم کرتا ہے۔ 70 سے زیادہ زبانیں اور تقریباً 2.000 ترجمے کے جوڑےماڈل کے عالمی علم کو اس کی کثیر لسانی اور مقامی آڈیو صلاحیتوں کے ساتھ جوڑ کر، یہ زبان کے مجموعوں کی ایک وسیع رینج کا احاطہ کر سکتا ہے، جس میں بہت سے ایسے ہیں جو ہمیشہ دوسرے ٹولز کے ذریعے ترجیح نہیں دیتے ہیں۔

خصوصی مواد - یہاں کلک کریں۔  OpenAI کوڈیکس اور GPT-5 کے ساتھ ترقی کرتا ہے: پروگرامنگ اور مصنوعی ذہانت میں نئی ​​صلاحیتیں

نظام کا انتظام کر سکتا ہے۔ کثیر لسانی اندراج ایک ہی سیشن میں، یہ ایک ہی وقت میں ایک سے زیادہ زبانوں کو سمجھتا ہے، اس کے بغیر صارف کو ہر بار جب کوئی زبان بدلتا ہے تو اسے دستی طور پر ترتیبات کو ایڈجسٹ کرنے کی ضرورت ہوتی ہے۔ یہ فیچر خاص طور پر بات چیت میں مفید ہے جہاں قدرتی طور پر کئی زبانیں مل جاتی ہیں۔

کی بدولت بولی جانے والی زبان کا خودکار پتہ لگاناصارف کو پہلے سے یہ جاننے کی ضرورت نہیں ہوتی کہ ان کا مکالمہ کس زبان میں بات کر رہا ہے: ماڈل زبان کی شناخت کرتا ہے اور اڑتے ہوئے ترجمہ کرنا شروع کر دیتا ہے، رگڑ اور درمیانی مراحل کو کم کرتا ہے۔

Gemini 2.5 Flash Native Audio میں میکانزم بھی شامل ہیں۔ شور کے خلاف مضبوطییہ مرکزی آواز کو ترجیح دینے کے لیے کچھ محیطی آواز کو فلٹر کرنے کے قابل ہے، جس سے مصروف گلیوں، کھلی جگہوں، یا پس منظر کی موسیقی والی جگہوں پر زیادہ آرام دہ بات چیت کی جا سکتی ہے۔

یورپ کے لیے دستیابی، تعیناتی اور امکانات

اس ماڈل پر مبنی لائیو صوتی ترجمہ فی الحال دستیاب ہے۔ گوگل ٹرانسلیٹ ایپ میں بیٹا مرحلہ ریاست ہائے متحدہ امریکہ، میکسیکو اور ہندوستان جیسی مارکیٹوں میں اینڈرائیڈ ڈیوائسز کے لیے۔ گوگل نے تصدیق کی ہے کہ سروس کو بتدریج متعارف کرایا جائے گا۔ مزید علاقے اور پلیٹ فارمدیگر موبائل سسٹمز سمیت۔

متوازی طور پر، Gemini 2.5 Flash Native Audio کا انضمام جیمنی لائیو اور سرچ لائیو اسے امریکہ میں شروع ہونے والے اینڈرائیڈ اور آئی او ایس پر گوگل ایپ کے صارفین کے لیے پیش کیا جا رہا ہے۔ چونکہ یہ خصوصیات پختہ ہوتی ہیں اور ابتدائی جانچ اور موافقت کے مراحل سے گزرتی ہیں، توقع کی جاتی ہے کہ وہ دوسرے خطوں میں بھی پہنچ جائیں گے۔ زیادہ ممالک، غالباً یورپی منڈیوں سمیتجہاں ترجمے اور صوتی معاونین کی مانگ خاص طور پر زیادہ ہے۔

گوگل نے اس آواز اور ترجمے کے تجربے کو دیگر مصنوعات میں شامل کرنے کے اپنے ارادے کا بھی اعلان کیا ہے، بشمول Gemini APIآنے والے مہینوں اور سالوں میں، یہ یورپی کمپنیوں کے لیے سیاحت، لاجسٹکس، تعلیم اور عوامی انتظامیہ جیسے شعبوں میں ان صلاحیتوں کو براہ راست اپنی خدمات میں ضم کرنے کے لیے دروازے کھول دے گا۔

کمپنی ان نئی خصوصیات کو ایک وسیع حکمت عملی کے حصے کے طور پر پیش کر رہی ہے تاکہ ڈویلپرز کو اس قابل بنایا جا سکے۔ قدرتی آواز کے ساتھ بات چیت کے ایجنٹوں کی تعمیر اب سے، Gemini 2.5 Flash Native Audio اور 2.5 Flash اور Pro فیملی میں دونوں ماڈلز کا فائدہ اٹھاتے ہوئے زیادہ کنٹرول شدہ آواز کی تخلیق (ٹون، نیت، رفتار، وغیرہ کو ایڈجسٹ کرنا) اور فریم جیسے ایجنٹ AI فاؤنڈیشن.

بہتری کے اس مجموعے کے ساتھ، Google اس خیال کو تقویت دیتا ہے کہ آواز مصنوعی ذہانت کے ساتھ تعامل کے اہم ذرائع میں سے ایک ہوگی: اسسٹنٹ سے لے کر جو کسٹمر کالز کو ہینڈل کرتے ہیں اور پیچیدہ آپریشنز پر کارروائی کرتے ہیں، بیک وقت ٹرانسلیشن سسٹم تک جو ان لوگوں کے درمیان رابطے کی سہولت فراہم کرتے ہیں جو زبان کا اشتراک نہیں کرتے ہیں۔ Gemini 2.5 Flash Native Audio اس کوشش کے مرکز میں ہے، آواز کی سمجھ اور اظہار دونوں کو بہتر بناتا ہے۔ ٹیکنالوجی کو روزمرہ کی زندگی میں زیادہ کارآمد اور کم دخل اندازی کرنے کے لیے، جبکہ یورپ اور دیگر مارکیٹوں میں اس کی مکمل تعیناتی کا انتظار ہے۔

Voice.ai بمقابلہ ElevenLabs بمقابلہ Udio: کون سا بہتر لگتا ہے؟
متعلقہ آرٹیکل:
Voice.ai بمقابلہ ElevenLabs بمقابلہ Udio: AI آوازوں کا مکمل موازنہ