صوت فلاش أصلي من جيميني 2.5: هكذا تتغير تقنية الصوت بالذكاء الاصطناعي من جوجل

آخر تحديث: 15/12/2025
نبذة عن الكاتب: ألبرتو نافارو

  • يعمل برنامج Gemini 2.5 Flash Native Audio على تحسين طبيعية ودقة وسلاسة المحادثات الصوتية باستخدام الذكاء الاصطناعي من جوجل.
  • يعمل النموذج على تحسين استدعاءات الوظائف الخارجية، ويتبع التعليمات المعقدة بشكل أفضل، ويحافظ على السياق بشكل أفضل في الحوارات الطويلة.
  • وهو يتضمن ترجمة صوتية فورية، مع دعم لأكثر من 70 لغة و2.000 زوج ترجمة، مع الحفاظ على النبرة والإيقاع.
  • وهي مدمجة بالفعل في Google AI Studio و Vertex AI و Gemini Live و Search Live، ويتم نشرها في منتجات Google ومنتجات الجهات الخارجية.

صوت أصلي من Gemini 2.5 Flash

خطت جوجل خطوة أخرى في تطوير نظامها البيئي للذكاء الاصطناعي من خلال تحديث رئيسي لـ صوت أصلي من Gemini 2.5 Flashتم تصميم هذا النموذج لفهم الصوت وتوليده في الوقت الفعلي. تهدف هذه التقنية إلى جعل التفاعلات الصوتية أكثر فعالية. أقرب إلى محادثة بشريةسواء في الحياة اليومية أو في البيئات المهنية.

بعيدًا عن مجرد "إضفاء صوت" على ردود المساعد، وبالمقارنة مع الخيارات الأخرى في مقارنات الذكاء الاصطناعي الصوتيتم تصميم هذا النموذج لـ للحفاظ على حوارات طبيعية ووظيفية وسياقية, اتخاذ القرارات بشأن الوقت المناسب لطلب معلومات إضافية وإدارة التعليمات المعقدة دون مقاطعة سير المحادثةوبهذا، تعزز جوجل التزامها بالصوت كوسيلة أساسية للتفاعل مع خدمات الذكاء الاصطناعي الخاصة بها.

ما هو برنامج Gemini 2.5 Flash Native Audio وأين يتم استخدامه؟

يُعدّ Gemini 2.5 Flash Native Audio أحدث إصدار من نموذج الصوت الأصلي من جوجل، وهو قادر على استمع، وافهم، وأجب بالصوت في الوقت الفعلي. على عكس الأنظمة السابقة التي ركزت فقط على توليف الكلام، تم تصميم هذا المحرك للعمل مع الصوت كمدخل ومخرج في وقت واحد، مما يجعله مناسبًا بشكل خاص للمساعدين في المحادثة.

قامت الشركة بالفعل بدمج هذا الإصدار في العديد من منصاتها الرئيسية: استوديو جوجل للذكاء الاصطناعي، فيرتكس للذكاء الاصطناعي، جيميني لايف، وسيرش لايفوهذا يعني أن بإمكان كل من المطورين والشركات البدء في البناء وكلاء الصوت المتقدمين باستخدام نفس التقنية التي تدعم أحدث تجارب الذكاء الاصطناعي التفاعلي من جوجل.

عملياً، سيلاحظ المستخدمون هذه التغييرات في تجارب مثل الجوزاء لايف (وضع المحادثة الصوتية مع المساعد) أو في البحث المباشر في وضع الذكاء الاصطناعي لتطبيق جوجل، حيث تبدو الردود المنطوقة أكثر تعبيراً، وأكثر وضوحاً، وأفضل ملاءمة للسياقعلاوة على ذلك، يمكنك حتى أن تطلب من المساعد التحدث ببطء أكثر، مما يؤدي إلى تعديل وتيرة المحادثة بشكل طبيعي.

وبعيدًا عن جوجل نفسها، فقد أُتيحت هذه الإمكانيات لأطراف ثالثة من خلال Vertex AI و Gemini APIحتى تتمكن الشركات الأخرى من إنشاء وكلاء مستقلين الصوت، أو موظفي الاستقبال الافتراضيين، أو أدوات المساعدة التي تتمتع بنفس مستوى تطور الصوت.

وظائف خارجية أكثر دقة ونماذج ذات تصنيف أفضل

الذكاء الاصطناعي الصوتي من جوجل

أحد المجالات التي حقق فيها برنامج Gemini 2.5 Flash Native Audio أكبر قدر من التقدم هو قدرته على استدعاء وظائف خارجيةوبعبارة بسيطة، أصبح النموذج الآن أكثر موثوقية عندما يتعلق الأمر باتخاذ القرارات. عندما تحتاج إلى استشارة خدمات أو بيانات في الوقت الفعليعلى سبيل المثال، لاسترداد المعلومات المحدثة، أو التحقق من حالة الطلب، أو تشغيل عملية آلية.

محتوى حصري - اضغط هنا  كيفية تغيير لون الخلفية في رسومات جوجل

تشير جوجل إلى أن هذه الدقة الإضافية تُترجم إلى أخطاء أقل عند تنفيذ الإجراءات، مما يقلل من المواقف المحرجة التي قد يقصر فيها المساعد أو يتصرف قبل الأوان. النظام قادر على أدخل البيانات المسترجعة في الاستجابة الصوتية دون أن يلاحظ المستخدم أي انقطاعات مفاجئة في المحادثة.

ولتقييم هذه التطورات، أخضعت الشركة النموذج لاختبارات مثل ComplexFuncBench Audio، وهي منصة تقييم تركز على المهام متعددة المراحل ذات القيود. في هذا السيناريو، حقق برنامج Gemini 2.5 Flash Native Audio ما يقارب نسبة نجاح 71,5% في تنفيذ الوظائف المعقدةمما يضعه فوق الإصدارات السابقة والنماذج المنافسة الأخرى في هذا النوع من الاستخدام.

يُعد هذا الأداء ذا أهمية خاصة في السياقات التي تتطلب سير عمل آلي متطور، مثل مراكز الاتصال، أو الدعم الفني، أو معالجة المعاملات (على سبيل المثال، المهام المالية أو الإدارية) حيث تعتمد كل خطوة على الخطوة السابقة ولا يوجد مجال كبير للخطأ.

تحسين تتبع التعليمات وسلاسل المحادثات الأكثر تماسكًا

ويركز التحديث أيضاً على كيفية عمل النموذج تفسير التعليمات واحترامها والتي تتلقاها من كل من المستخدمين النهائيين والمطورين. ووفقًا للبيانات التي نشرتها جوجل، انخفض معدل الامتثال للتعليمات من 84% إلى نسبة الالتزام 90%وهذا يعني تقديم ردود تتوافق بشكل أكبر مع ما طُلب فعلاً.

تُعد هذه القفزة أساسية في المهام التي تتطلب ذلك تعليمات معقدة، أو خطوات متعددة، أو شروط متعددةعلى سبيل المثال، عند طلب شرح بأسلوب معين، أو طلب ملخص مع قيود زمنية معينة، أو إعداد سير عمل يعتمد على عدة قرارات مرتبطة.

وفي هذا السياق، اكتسبت تقنية الصوت الأصلي في برنامج Gemini 2.5 Flash القدرة على استرجاع سياق الرسائل السابقةفي المحادثات متعددة الأدوار، يتذكر النموذج بشكل أفضل ما قيل، والفروق الدقيقة التي أدخلها المستخدم، والتصحيحات التي تم إجراؤها طوال الحوار.

هذا التحسن في الذاكرة الحوارية يقلل من الحاجة إلى تكرار نفس المعلومات مرارًا وتكرارًا ويساعد على جعل التفاعلات أكثر فعالية. أكثر سلاسة وأقل إحباطاًإن التجربة أقرب إلى التحدث مع شخص يستكمل الموضوع من حيث توقف، بدلاً من البدء من الصفر مع كل إجابة.

حالات استخدام واقعية: من التجارة الإلكترونية إلى الخدمات المالية

إلى جانب المقاييس الداخلية، تعتمد جوجل على أمثلة من العملاء لتوضيح الأثر العملي لتقنية الصوت الأصلي فلاش في Gemini 2.5. وفي قطاع التجارة الإلكترونية، أدمجت Shopify هذه الإمكانيات في مساعدها الصوتي. الصاحب"، مما يساعد تجار التجزئة على إدارة متاجرهم وحل الشكوك المتعلقة بالعمل.

محتوى حصري - اضغط هنا  كيفية تضمين فيديو في مواقع جوجل

بحسب الشركة، فإن العديد من المستخدمين بل إنهم ينسون أنهم يتحدثون إلى ذكاء اصطناعي بعد دقائق من المحادثة، شكر المستخدم الروبوت حتى بعد استفسار مطوّل. يشير هذا النوع من التفاعل إلى أن التطورات في سلاسة المحادثة ووضوح نبرتها تجعل التكنولوجيا تتراجع تدريجيًا.

في القطاع المالي، مقدم الخدمة شركة يونايتد هولسيل مورغيج (UWM) قامت الشركة بدمج النموذج في مساعدها "ميا" لإدارة العمليات المتعلقة بالرهن العقاري. وتدّعي الشركة أنها، من خلال الجمع بين Gemini 2.5 وأنظمة داخلية أخرى، قد حققت تمت معالجة أكثر من 14.000 قرض بالنسبة لشركائها، بالاعتماد على التفاعلات الآلية التي تتطلب الدقة والامتثال التنظيمي.

أما الشركة الناشئة نيوو.اي يستخدم تقنية الصوت الأصلي من نوع Gemini 2.5 Flash عبر تقنية Vertex AI لتشغيلها موظفو استقبال افتراضيونتستطيع هذه المساعدات الصوتية تحديد المتحدث الرئيسي حتى في البيئات الصاخبة، وتغيير اللغات أثناء المحادثة، والحفاظ على نبرة صوت طبيعية مع فروق دقيقة عاطفيةوهو أمر بالغ الأهمية في خدمة العملاء.

الترجمة الصوتية الفورية: المزيد من اللغات والمزيد من الفروق الدقيقة

من أبرز الإضافات في هذه النسخة ما يلي: ترجمة فورية صوتية إلى صوتيةتم دمج برنامج Gemini 2.5 Flash Native Audio في البداية في تطبيق Google Translate، وهو يتجاوز مجرد تحويل الصوت إلى نص أو تقديم ترجمات مجزأة، مما يتيح تجربة أكثر غامرة. ترجمة فورية أقرب إلى التفسير البشري.

يمكن للنظام أن يعمل في وضع الاستماع المستمريُمكّن هذا المستخدم من ارتداء سماعات الرأس والاستماع إلى ما يدور حوله مترجمًا إلى لغته، دون الحاجة إلى إيقاف التشغيل أو الضغط على أزرار لكل عبارة. يُعدّ هذا الخيار مفيدًا عند السفر، أو حضور اجتماعات دولية، أو في فعاليات تُستخدم فيها لغات متعددة.

كما تم النظر في حالات محادثة ثنائية الاتجاهعلى سبيل المثال، إذا تحدث شخص باللغة الإنجليزية والآخر باللغة الهندية، تُشغّل سماعات الرأس الترجمة الإنجليزية فورًا، بينما يُشغّل الهاتف الترجمة الهندية بمجرد انتهاء الشخص الأول من الكلام. يقوم النظام تلقائيًا بتغيير لغة الإخراج حسب المتحدث، دون الحاجة إلى تغيير الإعدادات بين الأدوار.

من أهم تفاصيل هذه الوظيفة قدرتها على الحفاظ على النغمة والإيقاع والنغمة الأصلية من المتحدث. ينتج عن ذلك ترجمات تبدو أقل آلية وأقرب إلى أسلوب صوت المتحدث، مما يجعلها أسهل في الفهم والتجربة أكثر طبيعية.

دعم اللغة، والكشف التلقائي، وتصفية الضوضاء

من حيث النطاق اللغوي، يوفر نظام الترجمة الصوتية القائم على Gemini 2.5 دعمًا لـ أكثر من 70 لغة وحوالي 2.000 زوج ترجمةبفضل الجمع بين المعرفة العالمية للنموذج وقدراته الصوتية متعددة اللغات والأصلية، يمكنه تغطية مجموعة واسعة من تركيبات اللغات، بما في ذلك العديد من التركيبات التي لا تحظى دائمًا بالأولوية من قبل الأدوات الأخرى.

محتوى حصري - اضغط هنا  OpenAI تتقدم مع Codex و GPT-5: قدرات جديدة في البرمجة والذكاء الاصطناعي

يمكن للنظام إدارة مدخل متعدد اللغات خلال جلسة واحدة، يفهم التطبيق أكثر من لغة في آن واحد دون الحاجة إلى تعديل الإعدادات يدويًا في كل مرة ينتقل فيها شخص ما بين اللغات. هذه الميزة مفيدة بشكل خاص في المحادثات التي تختلط فيها عدة لغات بشكل طبيعي.

بفضل الكشف التلقائي عن اللغة المنطوقةلا يحتاج المستخدم إلى معرفة اللغة التي يتواصل بها محاوره مسبقًا: يقوم النموذج بتحديد اللغة ويبدأ في الترجمة على الفور، مما يقلل من الاحتكاك والخطوات الوسيطة.

يشتمل برنامج Gemini 2.5 Flash Native Audio أيضًا على آليات لـ مقاومة للضوضاءفهو قادر على تصفية بعض الأصوات المحيطة لإعطاء الأولوية للصوت الرئيسي، مما يسمح بإجراء محادثات أكثر راحة في الشوارع المزدحمة أو الأماكن المفتوحة أو الأماكن التي تحتوي على موسيقى خلفية.

التوافر والنشر والآفاق في أوروبا

تتوفر حاليًا خدمة الترجمة الصوتية المباشرة القائمة على هذا النموذج في المرحلة التجريبية في تطبيق ترجمة جوجل لأجهزة أندرويد في أسواق مثل الولايات المتحدة والمكسيك والهند. وقد أكدت جوجل أن الخدمة ستُطرح تدريجياً لـ مناطق ومنصات إضافية، بما في ذلك أنظمة الهواتف المحمولة الأخرى.

بالتوازي مع ذلك، تم دمج تقنية الصوت الأصلي لـ Gemini 2.5 Flash في جيميني لايف وسيرش لايف يجري طرح هذه الميزة لمستخدمي تطبيق جوجل على نظامي أندرويد وiOS، بدءًا من الولايات المتحدة. ومع تطور هذه الميزات واجتيازها مراحل الاختبار والتكييف الأولية، من المتوقع أن تصل إلى مناطق أخرى أيضًا. المزيد من البلدان، بما في ذلك على الأرجح الأسواق الأوروبيةحيث يكون الطلب على خدمات الترجمة والمساعدين الصوتيين مرتفعاً بشكل خاص.

أعلنت جوجل أيضاً عن نيتها دمج تجربة الصوت والترجمة هذه في منتجات أخرى، بما في ذلك واجهة برمجة تطبيقات Geminiعلى مدى الأشهر والسنوات القادمة، سيفتح هذا الباب أمام الشركات الأوروبية في قطاعات مثل السياحة والخدمات اللوجستية والتعليم والإدارة العامة لدمج هذه القدرات بشكل مباشر في خدماتها الخاصة.

تقدم الشركة هذه الميزات الجديدة كجزء من استراتيجية أوسع لتمكين المطورين من قم ببناء وكلاء محادثة بصوت طبيعي من الآن فصاعدًا، سيتم الاستفادة من كل من Gemini 2.5 Flash Native Audio والطرازات الأخرى في عائلة 2.5 Flash و Pro المصممة لتوليد صوت أكثر تحكمًا (ضبط النبرة، والنية، والسرعة، وما إلى ذلك) وإطارات مثل مؤسسة أجينتيك للذكاء الاصطناعي.

من خلال هذه المجموعة من التحسينات، تعزز جوجل فكرة أن الصوت سيكون أحد القنوات الرئيسية للتفاعل مع الذكاء الاصطناعي: بدءًا من المساعدين الذين يتعاملون مع مكالمات العملاء ويعالجون العمليات المعقدة، وصولًا إلى أنظمة الترجمة الفورية التي تسهل التواصل بين الأشخاص الذين لا يتشاركون لغة واحدة. يُعدّ برنامج Gemini 2.5 Flash Native Audio جوهر هذا المسعى، حيث يعمل على تحسين كل من فهم الصوت والتعبير عنه. لجعل التكنولوجيا أكثر فائدة وأقل تدخلاً في الحياة اليومية، في انتظار نشرها الكامل في أوروبا والأسواق الأخرى.

Voice.ai مقابل ElevenLabs مقابل Udio: أيهما يبدو أفضل؟
المادة ذات الصلة:
Voice.ai مقابل ElevenLabs مقابل Udio: مقارنة كاملة لأصوات الذكاء الاصطناعي