- שמע Gemini 2.5 Flash Native Audio משפר את הטבעיות, הדיוק והזרימה של שיחות קוליות בעזרת הבינה המלאכותית של גוגל.
- המודל ממקד קריאות לפונקציות חיצוניות, עוקב אחר הוראות מורכבות בצורה טובה יותר ושומר על ההקשר בצורה טובה יותר בדיאלוגים ארוכים.
- הוא משלב תרגום קולי בזמן אמת, עם תמיכה ביותר מ-70 שפות ו-2.000 זוגות תרגום, תוך שמירה על אינטונציה וקצב.
- הוא כבר משולב ב-Google AI Studio, Vertex AI, Gemini Live ו-Search Live, והוא נפרס במוצרי גוגל ובמוצרים של צד שלישי.
גוגל עשתה צעד נוסף באבולוציה של מערכת הבינה המלאכותית שלה עם עדכון משמעותי ל... שמע מקורי Gemini 2.5 Flashהמודל נועד להבין וליצור אודיו בזמן אמת. טכנולוגיה זו נועדה להפוך אינטראקציות קוליות ליעילות יותר. קרוב יותר לשיחה אנושיתהן בחיי היומיום והן בסביבות מקצועיות.
רחוק מלהיות פשוט "מתן קול" לתגובותיו של עוזר, ובהשוואה לאפשרויות אחרות ב השוואות בינה מלאכותית קוליתדגם זה מיועד עבור לקיים דיאלוגים טבעיים, פונקציונליים והקשריים, קבלת החלטות לגבי מתי לחפש מידע נוסף וניהול הוראות מורכבות מבלי להפריע לזרימה של השיחהבכך, גוגל מחזקת את מחויבותה לקול כאמצעי האינטראקציה העיקרי עם שירותי הבינה המלאכותית שלה.
מהו Gemini 2.5 Flash Native Audio והיכן הוא נמצא בשימוש?
Gemini 2.5 Flash Native Audio הוא הגרסה העדכנית ביותר של מודל האודיו המקורי של גוגל, המסוגל ל... להקשיב, להבין ולהגיב בקול בזמן אמת. בניגוד למערכות קודמות שהתמקדו אך ורק בסינתזת דיבור, מנוע זה נועד לעבוד עם אודיו כקלט ופלט בו זמנית, מה שהופך אותו מתאים במיוחד לעוזרי שיחה.
החברה כבר שילבה גרסה זו בכמה מהפלטפורמות המרכזיות שלה: גוגל בינה מלאכותית סטודיו, ורטקס בינה מלאכותית, ג'מיני לייב וחיפוש לייבמשמעות הדבר היא שגם יזמים וגם חברות יכולים להתחיל לבנות סוכני קול מתקדמים באותה טכנולוגיה שמניעה את חוויות הבינה המלאכותית השיחה האחרונות של גוגל.
בפועל, משתמשים יבחינו בשינויים אלה בחוויות כגון תאומים בשידור חי (מצב שיחה קולית עם העוזר) או ב חיפוש חי בתוך מצב הבינה המלאכותית של אפליקציית גוגל, שבו התשובות המדוברות נשמעות יותר אקספרסיבי, ברור יותר ומוגדר טוב יותר בהקשריתר על כן, ניתן אפילו לבקש מהעוזר לדבר לאט יותר, ולהתאים את קצב השיחה באופן טבעי.
מעבר לגוגל עצמה, יכולות אלו הועמדו לרשות צדדים שלישיים באמצעות בינה מלאכותית של ורטקס ו-API של ג'מיניכדי שחברות אחרות יוכלו ליצור סוכנים אוטונומיים קול, פקידי קבלה וירטואליים או כלי סיוע עם אותה רמת תחכום קולי.
פונקציות חיצוניות מדויקות יותר ודגמים בעלי דירוג טוב יותר

אחד התחומים שבהם Gemini 2.5 Flash Native Audio עשה את ההתקדמות הרבה ביותר הוא ביכולתו ל... קריאה לפונקציות חיצוניותבמילים פשוטות, המודל כעת אמין יותר בכל הנוגע לקבלת החלטות. כאשר אתם צריכים להתייעץ עם שירותים או נתונים בזמן אמתלדוגמה, כדי לאחזר מידע מעודכן, לבדוק את סטטוס ההזמנה או להפעיל תהליך אוטומטי.
גוגל מציינת כי דיוק נוסף זה מתבטא בפחות שגיאות בעת הפעלת פעולות, מה שמפחית מצבים מביכים שבהם העוזר נכשל או פועל בטרם עת. המערכת מסוגלת ל... הכנס את הנתונים שאוחזרו לתגובת האודיו מבלי שהמשתמש יבחין בקיצוצים פתאומיים בשיחה.
כדי למדוד את ההתקדמות הזו, החברה העמידה את המודל לבדיקות כגון אודיו ComplexFuncBench, ספסל הערכה המתמקד במשימות רב-שלביות עם אילוצים. בתרחיש זה, Gemini 2.5 Flash Native Audio השיג בערך שיעור הצלחה של 71,5% בביצוע פונקציות מורכבות, מה שמציב אותו מעל איטרציות קודמות ומודלים מתחרים אחרים בסוג זה של שימוש.
ביצועים אלה רלוונטיים במיוחד בהקשרים בהם נדרשים זרימות עבודה אוטומטיות מתוחכמות, כגון מוקדי שירות, תמיכה טכנית או עיבוד עסקאות (לדוגמה, משימות פיננסיות או אדמיניסטרטיביות) שבהן כל שלב תלוי בקודמו ויש מעט מקום לטעויות.
מעקב טוב יותר אחר הדרכות ושרשורי שיחה קוהרנטיים יותר
מוקד נוסף של העדכון הוא כיצד המודל לפרש ולכבד את ההוראות אשר היא מקבלת הן ממשתמשי הקצה והן ממפתחים. לפי נתונים שפרסמה גוגל, שיעור הציות להוראות ירד מ-84% ל- 90% דבקותמשמעות הדבר היא תשובות התואמות יותר את מה שהתבקש בפועל.
קפיצה זו היא המפתח במשימות בהן היא נדרשת הוראות מורכבות, שלבים מרובים או תנאים מרוביםלדוגמה, כאשר מבקשים הסבר בסגנון מסוים, מבקשים סיכום עם מגבלות זמן מסוימות, או מגדירים זרימת עבודה שתלויה בכמה החלטות מקושרות.
בהקשר לכך, ל-Gemini 2.5 Flash Native Audio יש את היכולת ל- אחזור ההקשר של הודעות קודמותבשיחות מרובות תורות, המודל זוכר טוב יותר את מה שנאמר, את הניואנסים שהוצגו על ידי המשתמש ואת התיקונים שבוצעו במהלך הדיאלוג.
שיפור זה בזיכרון השיחה מפחית את הצורך לחזור על אותו מידע שוב ושוב ומסייע להפוך את האינטראקציות ליעילות יותר. חלק יותר ופחות מתסכלהחוויה קרובה יותר לשיחה עם אדם שממשיך נושא מהמקום בו הפסיק, במקום להתחיל מאפס עם כל תשובה.
מקרי שימוש בעולם האמיתי: ממסחר אלקטרוני ועד שירותים פיננסיים
מעבר למדדים פנימיים, גוגל מסתמכת על דוגמאות מלקוחות כדי להמחיש את ההשפעה המעשית של Gemini 2.5 Flash Native Audio. בתחום המסחר האלקטרוני, Shopify שילבה יכולות אלו בעוזר שלה. Sidekick", אשר מסייע לקמעונאים לנהל את החנויות שלהם ולפתור ספקות לגבי העסק.
לפי החברה, משתמשים רבים הם אפילו שוכחים שהם מדברים עם בינה מלאכותית לאחר מספר דקות של שיחה, המשתמש אף הודה לבוט לאחר שאילתה ממושכת. תגובה מסוג זה מרמזת על כך שההתקדמות בטבעיות ובטון גורמת לטכנולוגיה לדחוק בעדינות מאחור.
במגזר הפיננסי, הספק משכנתאות סיטונאיות מאוחדות (UWM) היא שילבה את המודל בעוזר "Mia" שלה כדי לנהל תהליכים הקשורים למשכנתאות. עם השילוב של Gemini 2.5 ומערכות פנימיות אחרות, החברה טוענת שהצליחה עיבד יותר מ-14.000 הלוואות עבור שותפיה, תוך הסתמכות על אינטראקציות אוטומטיות הדורשות דיוק ועמידה בתקנות.
מצדו, הסטארט-אפ ניואו.איי הוא משתמש באודיו Gemini 2.5 Flash Native Audio דרך Vertex AI כדי להפעיל את פקידי קבלה וירטואלייםעוזרי קול אלה מסוגלים לזהות את הדובר הראשי גם בסביבות רועשות, להחליף שפות באמצע שיחה ולשמור על... קול טבעי עם ניואנסים רגשייםדבר שהוא קריטי בשירות לקוחות.
תרגום קולי בזמן אמת: יותר שפות ויותר ניואנסים
אחת התוספות הבולטות ביותר בגרסה זו היא תרגום קולי לקול בזמן אמתGemini 2.5 Flash Native Audio, ששולב בתחילה באפליקציית Google Translate, הולך מעבר להמרת אודיו לטקסט או הצעת תרגומים מקוטעים, ומאפשר חוויה סוחפת יותר. תרגום סימולטני קרוב יותר לפרשנות אנושית.
המערכת יכולה לפעול במצב של האזנה רציפהזה מאפשר למשתמש לשים אוזניות ולשמוע את מה שקורה סביבו מתורגם לשפתו, מבלי שיהיה צורך להשהות או ללחוץ על כפתורים עבור כל משפט. אפשרות זו יכולה להיות שימושית בעת נסיעה, השתתפות בכנסים בינלאומיים או באירועים בהם מעורבות מספר שפות.
כמו כן, ניתנה התחשבות במצבים של שיחה דו-כיווניתלדוגמה, אם אדם אחד מדבר באנגלית והשני בהינדית, האוזניות משמיעות את התרגום לאנגלית בזמן אמת, בעוד שהטלפון משמיע את התרגום להינדית לאחר שהאדם הראשון מסיים לדבר. המערכת מחליפה אוטומטית את שפת הפלט בהתאם למי שמדבר, מבלי שהמשתמש יצטרך לשנות הגדרות בין תורות.
אחד הפרטים הרלוונטיים ביותר של פונקציה זו הוא יכולתה ל לשמר את האינטונציה, הקצב והטון המקוריים מהדובר. התוצאה היא תרגומים שנשמעים פחות רובוטיים וקרובים יותר לסגנון הקול של הדובר, מה שהופך אותם לקלים יותר להבנה והחוויה טבעית יותר.
תמיכה בשפה, זיהוי אוטומטי וסינון רעשים
מבחינת היקף לשוני, תרגום קולי מבוסס Gemini 2.5 מציע תמיכה ב... מעל 70 שפות וכ-2.000 זוגות תרגוםעל ידי שילוב הידע העולמי של המודל עם יכולות האודיו הרב-לשוניות והמקוריות שלו, הוא יכול לכסות מגוון רחב של צירופי שפות, כולל רבים שלא תמיד מקבלים עדיפות על ידי כלים אחרים.
המערכת יכולה לנהל ערך רב-לשוני בתוך סשן אחד, הוא מבין יותר משפה אחת בו זמנית מבלי שהמשתמש יצטרך להתאים את ההגדרות באופן ידני בכל פעם שמישהו מחליף שפה. תכונה זו שימושית במיוחד בשיחות בהן מספר שפות מעורבבות באופן טבעי.
תודה זיהוי אוטומטי של שפה מדוברתהמשתמש אינו צריך לדעת מראש באיזו שפה בן שיחו מתקשר: המודל מזהה את השפה ומתחיל לתרגם תוך כדי תנועה, מה שמפחית חיכוכים וצעדי ביניים.
Gemini 2.5 Flash Native Audio משלב גם מנגנונים עבור עמידות בפני רעשהוא מסוגל לסנן חלק מרעש הסביבה כדי לתעדף את הקול העיקרי, מה שמאפשר שיחות נוחות יותר ברחובות סואנים, מרחבים פתוחים או מקומות עם מוזיקת רקע.
זמינות, פריסה וסיכויים לאירופה
תרגום קולי חי המבוסס על מודל זה זמין כעת ב שלב בטא באפליקציית גוגל טרנסלייט עבור מכשירי אנדרואיד בשווקים כמו ארצות הברית, מקסיקו והודו. גוגל אישרה כי השירות יושק בהדרגה ל עוד אזורים ופלטפורמות, כולל מערכות ניידות אחרות.
במקביל, שילוב של Gemini 2.5 Flash Native Audio ב- תאומים בשידור חי וחיפוש בשידור חי היא מושקת למשתמשי אפליקציית גוגל באנדרואיד וב-iOS, החל מארצות הברית. ככל שתכונות אלו יבשילו ויעברו את שלבי הבדיקה וההתאמות הראשוניים, הן צפויות להגיע גם לאזורים אחרים. מדינות נוספות, ככל הנראה כולל שווקים אירופאים, שם הביקוש לתרגום ועוזרי קול גבוה במיוחד.
גוגל הודיעה גם על כוונתה לשלב את חוויית הקול והתרגום הזו במוצרים אחרים, כולל Gemini APIבמהלך החודשים ובשנים הקרובות, הדבר יפתח את הדלת לחברות אירופאיות במגזרים כמו תיירות, לוגיסטיקה, חינוך ומנהל ציבורי לשלב ישירות יכולות אלה בשירותיהן.
החברה מציגה את התכונות החדשות הללו כחלק מאסטרטגיה רחבה יותר שתאפשר למפתחים בניית סוכני שיחה עם קול טבעי מעתה והלאה, ניצול של דגמי Gemini 2.5 Flash Native Audio ודגמים אחרים במשפחת 2.5 Flash ו-Pro המיועדים ליצירת קול מבוקרת יותר (התאמת טון, כוונה, מהירות וכו') ומסגרות כגון קרן סוכנית לבינה מלאכותית.
עם מגוון שיפורים זה, גוגל מחזקת את הרעיון שקול יהיה אחד מערוצי האינטראקציה העיקריים עם בינה מלאכותית: החל מעוזרים המטפלים בשיחות לקוחות ומעבדים פעולות מורכבות, ועד מערכות תרגום סימולטני המאפשרות תקשורת בין אנשים שאינם דוברים שפה משותפת. שמע Gemini 2.5 Flash Native Audio עומד בלב המאמץ הזה, ומכוונן הן את הבנת הקול והן את ההבעה. כדי להפוך את הטכנולוגיה לשימושית יותר ופחות פולשנית בחיי היומיום, בזמן שהיא ממתינה לפריסתה המלאה באירופה ובשווקים אחרים.
אני חובב טכנולוגיה שהפך את תחומי העניין ה"חנון" שלו למקצוע. ביליתי יותר מ-10 שנים מחיי בטכנולוגיה מתקדמת והתעסקות עם כל מיני תוכניות מתוך סקרנות טהורה. עכשיו התמחיתי בטכנולוגיית מחשבים ומשחקי וידאו. הסיבה לכך היא שכבר יותר מ-5 שנים אני כותב לאתרים שונים בנושאי טכנולוגיה ומשחקי וידאו, ויוצר מאמרים המבקשים לתת לכם את המידע הדרוש לכם בשפה מובנת לכולם.
אם יש לך שאלות, הידע שלי נע מכל מה שקשור למערכת ההפעלה Windows וכן אנדרואיד לטלפונים ניידים. והמחויבות שלי היא אליך, אני תמיד מוכן להקדיש כמה דקות ולעזור לך לפתור כל שאלה שיש לך בעולם האינטרנט הזה.
