OpenAI רעוואַלושאַנייז די קול אין קינסטלעך סייכל מיט זיין נייַע אַודיאָ מאָדעלס

לעצטע דערהייַנטיקונג: 25/03/2025

  • OpenAI האט באפרייט נייַע אַודיאָ מאָדעלס באזירט אויף GPT-4o און GPT-4o מיני צו פֿאַרבעסערן רעדע טראַנסקריפּציע און קאַנווערזשאַן.
  • די ימפּרווומאַנץ צילן צו פאָרשלאָגן גרעסערע פּינטלעכקייַט, טעות רעדוקציע און בעסער אַדאַפּטיישאַן צו פאַרשידענע סטיילז און אַקסענץ.
  • קול אגענטן קענען קאַסטאַמייז זייער ינטאַניישאַן, מאכן עס גרינגער צו נוצן אין קונה דינסט און אנדערע אַפּלאַקיישאַנז.
  • דער קאַטער סאַגדזשעסץ אַ צוקונפֿט ווו אַי אַסיסטאַנץ וועט ווערן ינקריסינגלי נאַטירלעך און יקספּרעסיוו.
עפֿן אַי ימפּרוווז קול מאָדעלס-4

אָופּען-איי האט גענומען אַ הויפּט שריט אין דעוועלאָפּינג מער נאַטירלעך, יקספּרעסיוו און פּינטלעך קול מאָדעלס, לעצטנס אַנאַונסינג נייַע ווערסיעס פון זיין אַודיאָ טעכנאָלאָגיע באזירט אויף GPT-4o און GPT-4o Mini. מיט דעם דערהייַנטיקן, די פירמע זוכט צו פאַסילאַטייט די ינאַגריישאַן פון קול אגענטן אין קייפל אַפּלאַקיישאַנז, מיט אַ טראָפּ אויף פּערסאַנאַלאַזיישאַן און ימפּרוווינג די קוואַליטעט פון ינטעראַקשאַן.

די אַדוואַנסיז ריספּאַנד צו די גראָוינג פאָדערונג פֿאַר אַי סיסטעמען וואָס זענען מער עפעקטיוו אין ינטערפּרעטינג שפּראַך און דזשענערייטינג נאַטירלעך קול, וואָס עפֿנט די טיר צו אַ תקופה אין וואָס קאָמוניקאַציע מיט אָטאַמייטיד סיסטעמען וועט זיין כמעט ינדיסטינגגווישאַבאַל פון אַ שמועס מיט יומאַנז.

ויסשליסיק אינהאַלט - דריקט דאָ  טשיינאַ דעוועלאָפּס אַי וואָס פּרידיקס חולאתן מיט אַ בלוט פּרובירן אַרויף צו 15 יאָר איידער זיי פאַלן

נייַ אַודיאָ מאָדעלס: ימפּרווומאַנץ אין טראַנסקריפּציע און רעדע דור

OpenAI קול מאָדעל

די ניו OpenAI מאָדעלס אַרייַננעמען GPT-4o-transscribe און GPT-4o-mini-transscribe פֿאַר רייד-צו-טעקסט קאַנווערזשאַן, פּראַוויידינג מער פּינטלעך טראַנסקריפּציע, אפילו אין ינווייראַנמאַנץ מיט הינטערגרונט ראַש אָדער וועריינג אַקסענץ. דאַנק צו זייער אַוואַנסירטע לערנען, די מאָדעלס באטייטיק רעדוצירן די וואָרט טעות קורס (WER), ימפּרוווינג אַדאַפּטיישאַן צו פאַרשידענע שפּראַכן און רעדן סטיילז.

אַדדיטיאָנאַללי, OpenAI באפרייט GPT-4o-mini-tts, אַ טעקסט-צו-רעדע מאָדעל וואָס אַלאַוז איר צו סטרויערן די ינטאַניישאַן, טאָן און נוסח פון רייד. דאָס איז דער שליסל צו אַנטוויקלען מער נאַטירלעך דיגיטאַל אַסיסטאַנץ, וואָס זענען ביכולת צו ריספּאַנד מיט די צונעמען עמאָציאָנעל אין פאַרשידענע קאַנטעקסץ, אַזאַ ווי קונה סערוויס אָדער אינהאַלט דערציילונג. אין דעם קאָנטעקסט, דיוועלאַפּמאַנץ זענען אויך געמאכט וואָס לאָזן מאַכן טעקסט צו רייד אין פאַרשידן אַפּלאַקיישאַנז.

פּערסאַנאַלאַזיישאַן און פּראַקטיש אַפּלאַקיישאַנז

איינער פון די ביגאַסט נייַ פֿעיִקייטן איז אַז דעוועלאָפּערס קענען קאַסטאַמייז קולות דורך די מאָדעלס, אַדזשאַסטינג דעטאַילס אַזאַ ווי גיכקייַט, ינטאַניישאַן און יקספּרעסיוונאַס. דאָס עפֿנט דעם וועג צו מנהג-דיזיינד קול אגענטן פֿאַר פאַרשידענע סעקטאָרס, פֿון ווירטואַל אַסיסטאַנץ צו אַקסעסאַביליטי מכשירים פֿאַר מענטשן מיט וויזשאַוואַל אָדער געהער דיסאַבילאַטיז.

ויסשליסיק אינהאַלט - דריקט דאָ  Hugging Face ריליסיז אַן אָפֿן קלאָון פון די DeepSeek-R1 מאָדעל

קאָמפּאַניעס זענען שוין יקספּלאָרינג די נוצן פון די מאָדעלס צו אַפּטאַמייז קונה דינסט, קריייטינג סיסטעמען וואָס זענען ביכולת צו פירן קאַללס און ריספּאַנד מער פלוידלי אין רופן סענטערס. זיין ינאַגריישאַן אין בילדונגקרייז אַפּלאַקיישאַנז, פאַרווייַלונג פּלאַטפאָרמס און פּראָודאַקטיוויטי מכשירים איז אויך פּלאַננעד.

ימפּרווומאַנץ פון טריינינג טעכנאָלאָגיע און אַקיעראַסי

צו דערגרייכן די ימפּרווומאַנץ, OpenAI האט געוויינט טריינינג באזירט אויף פאַקטיש אַודיאָ דאַטן און אַוואַנסירטע ריינפאָרסמאַנט לערנען טעקניקס. דאָס האָט דערלויבט די מאָדעלס צו בעסער פֿאַרשטיין די נואַנסיז פון שפּראַך, אַדאַפּט רעספּאָנסעס צו פאַרשידענע טייפּס פון ניצערס און פאָרשלאָגן אַ מער נאַטירלעך קאַנווערסיישאַנאַל דערפאַרונג.

די נייַע מאָדעל סערפּאַסיז זיין פאָרויסגייער, ווהיספּער, אין קייפל אַספּעקץ, אַרייַנגערעכנט פיייקייט צו טייַטשן פּאָזאַז אין שמועס אָן ינטעראַפּטינג ניצערס און רידוסינג ערראָרס אין פאַקטיש-צייט טראַנסקריפּציע. און צוזאמען מיט אַלע דעם, אַפּראָוטשיז זענען געווענדט קול דערקענונג אין פאַרשידן פעלדער.

פּראַל אויף דער צוקונפֿט פון קאַנווערסיישאַנאַל קינסטלעך סייכל

די מעלדונג פון די מאָדעלס סאַגדזשעסץ אַ טראַנספאָרמאַציע אין די וועג מיר ינטעראַקט מיט אַי אַסיסטאַנץ. די מעגלעכקייט צו האָבן מער עמפּאַטיש און פּינטלעך קול אגענטן קען רעוואַלושאַנייז סעקטאָרס אַזאַ ווי E- האַנדל, כעלטקער און בילדונג.. עס איז וויכטיק צו באַטראַכטן ווי אַדוואַנסיז ווי די קענען זיין שייַכות צו די שאַפונג פון נייַ אַודיאָ דעוויסעס וואָס פֿאַרבעסערן די קוילעלדיק באַניצער דערפאַרונג.

ויסשליסיק אינהאַלט - דריקט דאָ  טאַרגעט ברענגט זײַן שאַפּינג צו טשאַטGPT מיט אַ שמועס־דערפֿאַרונג

ווי די טעקנאַלאַדזשיז יוואַלוו, די שורה צווישן יומאַנז און קינסטלעך סייכל ווערט ינקריסינגלי בלערד. מיט די אַנטוויקלונגען ווי די, OpenAI איז פּאַזישאַנינג זיך אין די פאָרפראַנט פון קריייטינג מער נאַטירלעך קאַנווערסיישאַנאַל יקספּיריאַנסיז., ברענגען אונדז נעענטער צו אַ תקופה ווו קאָמוניקאַציע מיט אַי וועט זיין כמעט ניט דיסטינגגווישאַבאַל פון מענטש-צו-מענטש ינטעראַקשאַן.

רעדאַגירן פאָטאָס מיט דיין קול ניצן Google AI סטודיאָ
פֿאַרבונדענע אַרטיקל:
ווי צו רעדאַגירן פאָטאָס מיט דיין קול ניצן Google AI סטודיאָ