כך ניתן לעבוד עם gpt-oss-20b באופן מקומי: מה חדש, ביצועים וכיצד לבדוק זאת.

עדכון אחרון: 28/08/2025
מְחַבֵּר: אלברטו נבארו

  • gpt-oss-20b מגיע כמודל משקל-פתוח עם ביצוע מקומי והקשר ארוך (עד 131.072 טוקנים).
  • אופטימלי עבור NVIDIA RTX: מדווחות על מהירויות של עד 256 ט/שנייה; VRAM משתלט על שמירת הביצועים.
  • קל לשימוש עם Ollama וחלופות כגון llama.cpp, GGML ו-Microsoft AI Foundry Local.
  • זמין גם ב-Intel AI Playground 2.6.0, עם מסגרות מעודכנות וניהול סביבה משופר.
gpt-oss-20b על מקומי

הגעתו של gpt-oss-20b עבור שימוש מקומי מביא מודל חשיבה רב עוצמה שפועל ישירות על המחשב למשתמשים רבים יותר. דחיפה זו, המותאמת ל- אופטימיזציה עבור כרטיסי מסך RTX של NVIDIA, פותח את הדלת לזרימות עבודה תובעניות מבלי להסתמך על הענן.

המוקד ברור: להציע משקל פתוח עם הקשר ארוך מאוד עבור משימות מורכבות כגון חיפושים מתקדמים, מחקר, סיוע בקוד או שיחות ארוכות, תוך מתן עדיפות ל- פְּרָטִיוּת ובקרת עלויות בעת עבודה מקומית.

מה מספק gpt-oss-20b כאשר הוא פועל באופן מקומי?

ביצוע מקומי של מודלי GPT במשקל פתוח

משפחת gpt-oss מציגה לראשונה דגמים של משקולות פתוחות נועד לשילוב קל בפתרונות שלכם. באופן ספציפי, gpt-oss-20b הוא בולט באיזון בין יכולת חשיבה ודרישות חומרה סבירות עבור מחשב שולחני.

מאפיין מובהק הוא ה- חלון הקשר מורחב, עם תמיכה בעד 131.072 טוקנים בטווח gpt-oss. אורך זה מאפשר שיחות ארוכות, ניתוח של מסמכים עבי נפח או שרשראות מחשבה עמוקות יותר ללא קיצוצים או פיצול.

תוכן בלעדי - לחץ כאן  כיצד להפעיל את הקול ב-Word

בהשוואה למודלים סגורים, ההצעה במשקל פתוח נותנת עדיפות ל- גמישות אינטגרציה ביישומים: מ עוזרים עם כלים (סוכנים) אפילו תוספים עבור מחקר, חיפוש באינטרנט ותכנות, כולם מנצלים הסקה מקומית.

מבחינה מעשית, החבילה של gpt-oss:20b הוא בערך 13 ג'יגה-בייט מותקן בסביבות זמן ריצה פופולריות. זה קובע את הטון למשאבים הנדרשים ועוזר להרחיב את זיכרון RAM כדי לשמור על ביצועים ללא צווארי בקבוק.

ישנה גם גרסה גדולה יותר (gpt-oss-120b), המיועדת לתרחישים עם משאבים גרפיים נרחבים יותרעבור רוב המחשבים האישיים, לעומת זאת, ה- 20B זוהי נקודת ההתחלה הריאליסטית ביותר בשל הקשר בין מהירות, זיכרון ואיכות.

אופטימיזציה עבור RTX: מהירות, הקשר ו-VRAM

כלים להפעלת gpt-oss 20b באופן מקומי

התאמת מודלים של GPT-OSS למערכת האקולוגית NVIDIA RTX מאפשר קצבי ייצור גבוהים. בציוד יוקרתי, שיאים של עד 256 אסימונים/שנייה עם התאמות מתאימות, תוך ניצול אופטימיזציות ודיוקים ספציפיים כגון MXFP4.

התוצאות תלויות בכרטיס, בהקשר ובתצורה. בבדיקות עם RTX 5080, gpt-oss 20b הגיע בסביבות 128 טון/שנייה עם הקשרים כלולים (≈8k). על ידי הגדלת ה חלון 16 אלף וכפיית חלק מהעומס על זיכרון ה-RAM של המערכת, הקצב ירד ל ~50,5 טון/שנייה, כאשר ה-GPU עושה את רוב העבודה.

תוכן בלעדי - לחץ כאן  איך מקלידים את הסימן @ במק?

הלקח ברור: ה כללי VRAMבבינה מלאכותית מקומית, א RTX 3090 עם יותר זיכרון הוא יכול לבצע ביצועים טובים יותר מכרטיס גרפי חדש יותר אך עם פחות VRAM, מכיוון שהוא מונע גלישה ל- זיכרון מערכת וההתערבות הנוספת של המעבד.

עבור gpt-oss-20b, נוח לקחת את גודל המודל כנקודת ייחוס: בערך 13 ג'יגה-בייט יותר מקום עבור ה- מטמון KV ומשימות אינטנסיביות. כמדריך מהיר, מומלץ שיהיה לך 16 ג'יגה-בייט של זיכרון RAM לפחות ולכוון אל 24 ג'יגה-בייט אם צפויים הקשרים ארוכים או עומסים מתמשכים.

אלו המעוניינים לדחוס את החומרה יכולים לחקור דיוקים יעילים (כגון MXFP4), להתאים את אורך ההקשר או להשתמש בתצורות מרובות GPU במידת האפשר, תוך שמירה תמיד על המטרה של הימנעו מהחלפות לכיוון ה-RAM.

התקנה ושימוש: אולמה ומסלולים אחרים

ביצועי GPT-OSS על גבי כרטיסי מסך RTX

כדי לבחון את המודל בצורה פשוטה, אולמה מציע חוויה ישירה במחשבים מבוססי RTX: מאפשר לך להוריד, להפעיל ולשוחח בצ'אט עם GPT-OSS-20B ללא תצורות מורכבות., בנוסף לתמיכה בקבצי PDF, קבצי טקסט, הנחיות תמונה והתאמת הקשר.

ישנן גם מסלולים חלופיים למשתמשים מתקדמים, לדוגמה התקנת LLM על Windows 11מסגרות כמו llama.cpp וספריות סוגים GGML אופטימליים עבור RTX, עם מאמצים אחרונים ב להפחית את עומס המעבד ולנצל גרפי CUDAבְּמַקבִּיל, מיקרוסופט בינה מלאכותית מקומית (בתצוגה מקדימה) שלב מודלים באמצעות ממשק שורת פקודה (CLI), SDK או ממשקי API עם האצת CUDA ו-TensorRT.

תוכן בלעדי - לחץ כאן  כיצד לתקן את המיקרופון ב-Windows 11

במערכת האקולוגית של הכלים, מגרש המשחקים של אינטל בינה מלאכותית 2.6.0 שילבה את gpt-oss-20b בין האפשרויות שלההעדכון מוסיף בקרת גרסאות מדויקת עבור מערכות תמיכה ותיקונים למסגרות כגון OpenVINO, קומפי UI y llama.cpp (בתמיכתו של וולקן והתאמת הקשר), הקלה סביבות מקומיות יציבות.

כהנחיה להפעלה, בדקו את זיכרון RAM זמין, הורד את גרסת הדגם שמתאימה לכרטיס המסך שלך, אמת את מהירות אסימון עם הנחיות מייצגות ומתאים את חלון ההקשר כדי לשמור על כל העומס על כרטיס המסך.

בעזרת חלקים אלה, ניתן לבנות עוזרים עבור חיפוש וניתוח, כלים של חֲקִירָה או תומכים של תִכנוּת שפועלים כולם על המחשב, תוך שמירה על ריבונות הנתונים.

השילוב של gpt-oss-20b עם האצת RTX, ניהול VRAM זהיר וכלים כמו Ollama, llama.cpp או AI Playground מחזק אופציה בוגרת להפעלת בינה מלאכותית מבוססת חשיבה באופן מקומי; נתיב המאזן ביצועים, עלות ופרטיות מבלי להסתמך על שירותים חיצוניים.

gpt-oss-120b
מאמר קשור:
OpenAI משחררת את gpt-oss-120b: מודל המשקולות הפתוחות המתקדם ביותר שלה עד כה.