דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ: אַזוי ענדערט זיך גוגל'ס קינסטלעכע אינטעליגענץ קול

לעצטע דערהייַנטיקן: 15/12/2025

  • דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ פֿאַרבעסערט די נאַטירלעכקייט, אַקיעראַסי און פליסיקייט פֿון שטימע שמועסן מיט גוגל'ס קינסטלעכער אינטעליגענץ.
  • דער מאָדעל פֿאַרפֿײַנערט רופֿן צו עקסטערנע פֿונקציעס, פֿאָלגט קאָמפּליצירטע אינסטרוקציעס בעסער, און האַלט קאָנטעקסט בעסער אין לאַנגע דיאַלאָגן.
  • עס נעמט אריין רעאל-צייט שטימע-צו-שטימע איבערזעצונג, מיט שטיצע פאר מער ווי 70 שפראכן און 2.000 איבערזעצונג פּאָרן, וואָס באַוואָרנט אינטאָנאַציע און ריטם.
  • עס איז שוין אינטעגרירט אין גוגל AI סטודיאָ, ווערטעקס AI, דזשעמיני לייוו און זוכן לייוו, און ווערט דיפּלויירט אין גוגל און דריט-פּאַרטיי פּראָדוקטן.

דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ

גוגל האט גענומען נאך א שריט אין דער עוואלוציע פון ​​זיין קינסטלעכער אינטעליגענץ עקא-סיסטעם מיט א גרויסן אפדעיט צו דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָדער מאָדעל איז דיזיינד צו פֿאַרשטיין און שאַפֿן אַודיאָ אין פאַקטישער צייט. די טעכנאָלאָגיע איז געצילט צו מאַכן קול אינטעראַקציעס מער עפֿעקטיוו. נענטער צו א מענטשלעכער שמועססיי אין וואָכעדיקן לעבן און סיי אין פּראָפעסיאָנעלע סביבות.

ווייט פון פשוט "געבן א שטימע" צו אן אסיסטענט'ס ענטפֿערס, און אין פאַרגלייך מיט אַנדערע אָפּציעס אין שטימע קינסטלעכע אינטעליגענץ פאַרגלייַכןדאס מאָדעל איז דיזיינד פֿאַר צו אויפהאלטן נאַטירלעכע, פונקציאָנעלע און קאָנטעקסטועלע דיאַלאָגן, מאַכן באַשלוסן וועגן ווען צו זוכן נאָך אינפֿאָרמאַציע און פאַרוואַלטן קאָמפּליצירטע אינסטרוקציעס אָן צו ברעכן דעם פלוס פון דער שמועסמיט דעם, פארשטארקט גוגל איר איבערגעגעבנקייט צו שטימע אלס דער הויפט מיטל פון אינטעראקציע מיט אירע קינסטלעכע אינטעליגענץ סערוויסעס.

וואָס איז דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ און וואו ווערט עס גענוצט?

דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ איז די לעצטע ווערסיע פון ​​גוגל'ס נאַטיווע אַודיאָ מאָדעל, וואָס איז טויגיק צו הערן, פֿאַרשטיין און ענטפֿערן מיט שטימע אין רעאל-צייט. אנדערש ווי פריערדיגע סיסטעמען וואס האבן זיך קאנצענטרירט אויסשליסלעך אויף רעדע-סינטעז, איז די מאטאר דיזיינט צו ארבעטן מיט אודיא אלס ביידע אינפוט און אויטפוט סיימאלטעניש, מאכנדיג עס ספעציעל פאסיג פאר שמועס-אסיסטענטן.

די פירמע האט שוין אינטעגרירט די ווערסיע אין עטלעכע פון ​​אירע שליסל פּלאַטפאָרמעס: גוגל AI סטודיאָ, ווערטעקס AI, דזשעמיני לייוו און זוכן לייוודאָס מיינט אַז ביידע דעוועלאָפּערס און קאָמפּאַניעס קענען אָנהייבן בויען אַוואַנסירטע שטימע אַגענטן אויף דער זעלבער טעכנאָלאָגיע וואָס שטיצט גוגל'ס לעצטע שמועסדיקע קינסטלעכע אינטעליגענץ דערפאַרונגען.

אין פּראַקטיק, וועלן באַניצער באַמערקן די ענדערונגען אין דערפאַרונגען ווי געמיני לעבן (דער שטימע שמועס מאָדע מיטן אַסיסטאַנט) אדער אין זוכן לייוו אינעם קינסטלעכער אינטעליגענץ מאָדע פֿון דער גוגל אַפּ, וואו די גערעדטע ענטפֿערס הערן זיך אָן מער אויסדריקלעך, קלארער, און בעסער קאנטעקסטואליזירטדערצו קענט איר אפילו בעטן דעם אַסיסטאַנט צו רעדן שטייטער, און אַזוי נאַטירלעך צופּאַסן דעם טעמפּאָ פֿון דער שמועס.

ווייטער פון גוגל אליין, זענען די מעגלעכקייטן געווארן צוגעשטעלט פאר דריטע פארטייען דורך ווערטעקס קינסטלעכע אינטעליגענץ און די דזשעמיני אַפּיכדי אנדערע קאָמפּאַניעס זאָלן קענען שאַפֿן אויטאנאמישע אגענטן שטימע, ווירטועל רעצעפּציאָניסטן אדער הילף מכשירים מיטן זעלבן לעוועל פון שטימע סאָפיסטיקאַציע.

מער גענויע עקסטערנע פונקציעס און בעסער-רייטעד מאָדעלן

גוגל'ס שטימע קינסטלעכע אינטעליגענץ

איינע פון ​​די געביטן וואו Gemini 2.5 Flash Native Audio האט געמאכט די מערסטע פארשריט איז אין זיין מעגלעכקייט צו רופן עקסטערנע פונקציעסאין פּשוטע ווערטער, איז דער מאָדעל איצט מער פאַרלעסלעך ווען עס קומט צו מאַכן באַשלוסן. ווען איר דאַרפֿט באַראַטן זיך מיט רעאַל-צייט סערוויסעס אָדער דאַטןלמשל, צו באַקומען אַרויף-צו-דאַטע אינפֿאָרמאַציע, קאָנטראָלירן דעם סטאַטוס פֿון אַן אָרדער, אָדער אָנהייבן אַן אויטאָמאַטישן פּראָצעס.

ויסשליסיק אינהאַלט - דריקט דאָ  ווי צו שטעלן אַ Google צייכענונג אין Google Slides

גוגל ווייזט אן אז די צוגעלייגטע פּרעציזיע איבערזעצט זיך אין ווייניקער טעותים ביים אויסלעזן אקציעס, און דאס רעדוצירט אומאנגענעמע סיטואציעס וואו דער אסיסטענט פעלט אדער האנדלט צו פרי. די סיסטעם איז פעאיק צו אַרײַנשטעלן די צוריקגעקומענע דאַטן אין דער אַודיאָ ענטפֿער אָן דעם וואָס דער באַניצער באַמערקט קיין פּלוצעמדיקע שניטן אין דער שמועס.

כדי צו מעסטן די דאזיגע פארשריטן, האט די פירמע אונטערגעווארפן דעם מאָדעל צו טעסטן ווי צום ביישפּיל קאָמפּלעקספֿונקבענטש אַודיאָ, אן עוואַלואַציע באַנק פאָקוסירט אויף מערפאַסיק-שטאַפּל טאַסקס מיט באַגרענעצונגען. אין דעם סצענאַר, האט Gemini 2.5 Flash Native Audio דערגרייכט אַרום אַ 71,5% הצלחה ראטע אין אויספירן קאמפליצירטע פונקציעס, שטעלנדיק עס העכער פריערדיקע איטעראציעס און אנדערע קאנקורירנדיקע מאדעלן אין דעם טיפ באנוץ.

די פאָרשטעלונג איז ספּעציעל באַטייַטיק אין קאָנטעקסטן וואו סאָפיסטיקירטע אויטאָמאַטישע וואָרקפלאָוז זענען דארף, אַזאַ ווי רוף צענטערס, טעכנישע שטיצע אדער טראַנזאַקציע פּראַסעסינג (למשל, פינאַנציעלע אָדער אַדמיניסטראַטיווע אויפגאַבן) וואו יעדער שריט איז אָפּהענגיק פון דעם פריערדיקן און עס איז קליין פּלאַץ פֿאַר טעותים.

בעסערע אינסטרוקציע טראַקינג און מער קאָוכירענט שמועס פֿעדעם

נאך א פאָקוס פון דער דערהייַנטיקונג איז אויף ווי דער מאָדעל אויסטייטשן און רעספּעקטירן די אינסטרוקציעס וואָס עס באַקומט פֿון ביידע ענד-באַניצער און דעוועלאָפּערס. לויט דאַטן ארויסגעגעבן דורך גוגל, איז די אינסטרוקציע-קאָנפאָרמאַנס קורס געפֿאַלן פֿון 84% צו 90% אַדכירענסדאָס מיינט ענטפֿערס וואָס זענען מער אין לויט מיט וואָס איז טאַקע געבעטן געוואָרן.

די שפרונג איז שליסל אין אויפגאבעס וואו עס איז פארלאנגט קאָמפּליצירטע אינסטרוקציעס, קייפל טריט, אדער קייפל באדינגונגעןלמשל, ווען מען בעט אן דערקלערונג אין א ספעציפישן סטיל, מען בעט אן איבערבליק מיט געוויסע צייט באגרענעצונגען, אדער מען שטעלט אויף א ארבעטס-פלוס וואס איז אפהענגיק פון עטליכע פארבינדענע באשלוסן.

אין פֿאַרבינדונג מיט דעם, האט Gemini 2.5 Flash Native Audio באַקומען די מעגלעכקייט צו צוריקקריגן דעם קאנטעקסט פון פריערדיגע מעסעדזשעסאין שמועסן מיט עטלעכע טורנס, געדענקט דער מאָדעל בעסער וואָס איז געזאָגט געוואָרן, די נואַנסן וואָס דער באַניצער האָט אַרײַנגעבראַכט, און די קאָרעקציעס וואָס זענען געמאַכט געוואָרן איבערן דיאַלאָג.

די פֿאַרבעסערונג אין שמועס־זכּרון רעדוצירט די נויטווענדיקייט צו איבערחזרן די זעלבע אינפֿאָרמאַציע ווידער און ווידער און העלפֿט מאַכן אינטעראַקציעס מער עפֿעקטיוו. גלאַטער און ווייניקער פראַסטרירנדיקדי דערפאַרונג איז נענטער צו רעדן מיט אַ מענטש וואָס נעמט אויף אַ טעמע וואו זיי האָבן אויפגעהערט, אַנשטאָט אָנהייבן פֿון נײַ מיט יעדער ענטפֿער.

פּראַקטישע נוצן קאַסעס: פֿון E- האַנדל ביז פֿינאַנציעלע באַדינונגען

ווייטער פון אינערליכע מעטריקס, פארלאזט זיך גוגל אויף קאסטומער ביישפילן צו אילוסטרירן די פראקטישע ווירקונג פון דזשעמיני 2.5 פלעש נאטיוו אודיא. אין אי-קאמערץ סעקטאר, האט שאפאיפיי איינגעארבעט די מעגלעכקייטן אין זיין אסיסטענט. סיידקיק", וואָס העלפֿט רעטיילערס פירן זייערע קראָמען און אויסגלייַכן ספֿקות וועגן דעם געשעפֿט.

ויסשליסיק אינהאַלט - דריקט דאָ  לינקדאין אַדזשאַסטירט זיין קינסטלעכע אינטעליגענץ: פּריוואַטקייט ענדערונגען, מקומות, און ווי אַזוי עס צו דיאַקטיווירן

לויט דער פירמע, פילע באַניצער זיי פארגעסן אפילו אז זיי רעדן צו אן אינטעליגענץ-אינטעליגענטום נאך א פאר מינוט שמועס, האט דער באניצער אפילו באדאנקט דעם באט נאך א לאנגער אויספארשונג. די סארט רעאקציע ווייזט אז פארשריטן אין נאטירלעכקייט און טאן מאכן טעכנאלאגיע סובטיל אוועקגיין פון די זייט.

אין דעם פינאַנציעלן סעקטאָר, דער פּראַוויידער יונייטעד כאָולסייל מאָרגעדזש (UWM) עס האט אינטעגרירט דעם מאָדעל אין זיין "מיאַ" אַסיסטאַנט צו פאַרוואַלטן מאָרגעדזש-פֿאַרבונדענע פּראָצעסן. מיט דער קאָמבינאַציע פֿון דזשעמיני 2.5 און אַנדערע אינערלעכע סיסטעמען, באַהויפּטעט די פֿירמע צו האָבן פּראַסעסט מער ווי 14.000 לאָונז פֿאַר אירע פּאַרטנערס, פֿאַרלאָזנדיק זיך אויף אויטאָמאַטישע אינטעראַקציעס וואָס פֿאָדערן אַקיעראַסי און רעגולאַטאָרישע העסקעם.

פֿון זײַן זײַט, די סטאַרטאַפּ ניואָ.איי עס ניצט דזשעמיני 2.5 פלעש נאַטיווע אַודיאָ דורך ווערטעקס קינסטלעכע אינטעליגענץ צו שטאַרקן זיין ווירטועל רעסיסיאָניסץדי שטימע אַסיסטאַנטן זענען טויגיק צו ידענטיפיצירן דעם הויפּט רעדנער אפילו אין גערוישפולע סביבות, טוישן שפּראַכן אין מיטן שמועס, און אויפהאלטן אַ נאַטירלעכער שטימע־רעגיסטער מיט עמאָציאָנעלע נואַנסןוואָס איז קריטיש אין קונה סערוויס.

רעאַל-צייט קול-צו-קול איבערזעצונג: מער שפּראַכן און מער נואַנסן

איינע פון ​​די מערסט אויפפאלנדע צוגאבן אין דעם ווערסיע איז די לעבעדיקע שטימע-צו-שטימע איבערזעצונגאנהייב אינטעגרירט אין דער גוגל טראַנסלייט אַפּ, גייט דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ ווייטער ווי פשוט קאָנווערטירן אַודיאָ צו טעקסט אָדער פאָרשלאָגן פראַגמענטירטע איבערזעצונגען, און דאָס ערמעגליכט אַ מער יממערסיווע דערפאַרונג. סיימאַלטייניאַס איבערזעצונג נענטער צו מענטשלעכער אינטערפּרעטאַציע.

די סיסטעם קען אַרבעטן אין דעם מאָדע פון קאָנטינויִערלעכע צוהערןדאָס ערלויבט דעם באַניצער צו לייגן אויף קאָפּהערער און הערן וואָס טוט זיך אַרום זיי איבערגעזעצט אין זייער שפּראַך, אָן צו דאַרפֿן פּויזירן אָדער דריקן קנעפּלעך פֿאַר יעדער פראַזע. די אָפּציע קען זיין נוצלעך ווען מען רייזט, באַזוכט אינטערנאַציאָנאַלע זיצונגען, אָדער ביי געשעענישן וווּ עס זענען פֿאַרבונדן קייפל שפּראַכן.

מען האט אויך גענומען אין באַטראַכט די סיטואַציעס פון צוויי-וועגיקע שמועסלמשל, אויב איין מענטש רעדט ענגליש און דער צווייטער הינדי, שפּילן די כעדפאָונז די ענגלישע איבערזעצונג אין פאַקטישער צייט, בשעת דער טעלעפאָן שפּילט די הינדי איבערזעצונג אַמאָל דער ערשטער מענטש ענדיגט רעדן. די סיסטעם טוישט אויטאָמאַטיש די אַרויסגאַנג שפּראַך לויט ווער רעדט, אָן דעם וואָס דער באַניצער דאַרף טוישן סעטטינגס צווישן רייזעס.

איינע פון ​​די מערסט וויכטיגע פרטים פון דעם פונקציע איז איר מעגלעכקייט צו באַוואָרן די אָריגינעלע אינטאָנאַציע, ריטעם און טאָן פונעם רעדנער. דאָס רעזולטירט אין איבערזעצונגען וואָס קלינגען ווייניקער ראָבאָטיש און נעענטער צום רעדנער'ס שטימע סטיל, מאַכנדיג זיי גרינגער צו פֿאַרשטיין און די דערפֿאַרונג מער נאַטירלעך.

שפּראַך שטיצע, אויטאָמאַטישע דעטעקציע און ראַש פֿילטערינג

אין טערמינען פון לינגוויסטישן פאַרנעם, אָפפערט Gemini 2.5-באַזירטע שטימע איבערזעצונג שטיצע פֿאַר איבער 70 שפּראַכן און עטלעכע 2.000 איבערזעצונג פּאָרןקאמבינירנדיק דעם מאָדעל'ס וועלט וויסן מיט זייַנע מערשפּראַכיקע און געבוירענע אַודיאָ מעגלעכקייטן, קען עס דעקן אַ ברייטע קייט פון שפּראַך קאָמבינאַציעס, אַרייַנגערעכנט פילע וואָס ווערן נישט שטענדיק געגעבן פּריאָריטעט דורך אַנדערע מכשירים.

ויסשליסיק אינהאַלט - דריקט דאָ  די בעסטע קלאַוויאַטור שאָרטקאַץ אין גראָק קאָוד פאַסט 1 צו פּראָגראַמירן פאַסטער

די סיסטעם קען פארוואלטן מערשפּראַכיקער אַרייַנטרעט אין איין סעסיע פארשטייט עס מער ווי איין שפראך גלייכצייטיג אָן דעם וואָס דער באַניצער דאַרף מאַנועל אַדזשאַסטירן די סעטטינגס יעדעס מאָל ווען עמעצער טוישט שפּראַך. די פֿונקציע איז ספּעציעל נוצלעך אין שמועסן וואו עטלעכע שפּראַכן ווערן נאַטירלעך געמישט.

דאַנק צו די אויטאָמאַטישע דעטעקציע פון ​​גערעדטער שפּראַךדער באַניצער דאַרף נישט וויסן פון פאָראויס אין וועלכער שפּראַך זייער שמועס־פּאַרטנער קאָמוניקירט: דער מאָדעל אידענטיפיצירט די שפּראַך און הייבט אָן צו איבערזעצן אויפן גאַנג, וואָס רעדוצירט רייַבונג און צווישן־טרעט.

דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ נעמט אויך אריין מעכאַניזמען פֿאַר שטאַרקייט קעגן ראַשעס איז ביכולת צו פילטערן ארויס עטלעכע פון ​​די אַמביאַנט סאָונדס צו פּרייאָריטעטירן די הויפּט קול, אַלאַוינג פֿאַר מער באַקוועם שמועסן אין פאַרנומען גאסן, אָפן ספּייסאַז, אָדער ערטער מיט הינטערגרונט מוזיק.

פאַראַנען, דיפּלוימאַנט און פּראַספּעקטן פֿאַר אייראָפּע

לעבעדיגע שטימע איבערזעצונג באזירט אויף דעם מאָדעל איז איצט בנימצא אין ביתא פאַזע אין דער גוגל טראַנסלייט אַפּ פֿאַר אַנדרויד דעוויסעס אין מאַרקן ווי די פאַראייניקטע שטאַטן, מעקסיקאָ און אינדיע. גוגל האט באַשטעטיקט אַז דער סערוויס וועט פּראָגרעסיוולי ווערן אויסגעברייטערט צו מער ראיאנען און פּלאַטפאָרמעס, אריינגערעכנט אנדערע מאָביל סיסטעמען.

אין פּאַראַלעל, די אינטעגראַציע פון ​​דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ אין דזשעמיני לעבן און זוכן לעבן עס ווערט ארויסגעגעבן צו באַניצער פון דער גוגל אַפּ אויף אַנדרויד און יאָס, אָנהייבנדיק אין די פאַראייניקטע שטאַטן. ווי די פֿונקציעס וואַקסן אויס און דורכגיין די ערשטע טעסטינג און אַדאַפּטאַציע פֿאַזעס, ווערט ערוואַרטעט אַז זיי וועלן אָנקומען אין אַנדערע געגנטן אויך. מער לענדער, מסתּמא אַרייַנגערעכנט אייראָפּעיִשע מאַרקן, וואו די פאָדערונג פֿאַר איבערזעצונג און שטימע אַסיסטאַנטן איז ספּעציעל הויך.

גוגל האט אויך געמאלדן איר כוונה צו איינארבעטן די שטימע און איבערזעצונג דערפאַרונג אין אנדערע פּראָדוקטן, אַרייַנגערעכנט די דזשעמיני אַפּיאיבער די קומענדיגע חדשים און יארן, וואלט דאס געעפנט די טיר פאר אייראפעאישע פירמעס אין סעקטארן ווי טוריזם, לאגיסטיק, בילדונג, און עפנטלעכע אדמיניסטראציע צו דירעקט אינטעגרירן די מעגלעכקייטן אין זייערע אייגענע סערוויסעס.

די פירמע פּרעזענטירט די נייע פֿעיִקייטן ווי טייל פֿון אַ ברייטערער סטראַטעגיע צו געבן דעוועלאָפּערס די מעגלעכקייט צו בויען שמועס־אַגענטן מיט נאַטירלעכער שטימע פון איצט אן, אויסנוצן ביידע דזשעמיני 2.5 פלעש נאטיוו אודיא און אנדערע מאדעלן אין די 2.5 פלעש און פרא פאמיליע, געצילט צו מער קאנטראלירטע שטימע דזשענעראציע (צופּאַסן טאָן, כוונה, גיכקייט, אאז"וו) און ראמען ווי... אַגענטיק קינסטלעכע אינטעליגענץ פונדאַציע.

מיט דעם סכום פֿאַרבעסערונגען, פֿאַרשטאַרקט גוגל די געדאַנק אַז שטימע וועט זיין איינער פֿון די הויפּט קאַנאַלן פֿון אינטעראַקציע מיט קינסטלעכער אינטעליגענץ: פֿון אַסיסטאַנטן וואָס האַנדלען מיט קונה־רופֿן און פּראָצעסירן קאָמפּלעקסע אָפּעראַציעס, ביז סימולטאַנישע איבערזעצונג־סיסטעמען וואָס פֿאַרלייכטערן קאָמוניקאַציע צווישן מענטשן וואָס טיילן נישט קיין שפּראַך. דזשעמיני 2.5 פלאַש נאַטיווע אַודיאָ איז אין צענטער פון דעם אונטערנעמונג, פיין-טונינג ביידע שטימע פארשטענדעניש און אויסדרוק. צו מאַכן די טעכנאָלאָגיע מער נוצלעך און ווייניקער אַריינדרינגענדיק אין וואָכעדיקן לעבן, בשעת זי וואַרט אויף איר פולער דיפּלוימאַנט אין אייראָפּע און אַנדערע מאַרקן.

Voice.ai קעגן ElevenLabs קעגן Udio: וועלכע קלינגט בעסער?
פֿאַרבונדענע אַרטיקל:
Voice.ai קעגן ElevenLabs קעגן Udio: א פולשטענדיגע פארגלייך פון AI שטימען