در اینجا نحوه کار با gpt-oss-20b به صورت محلی آمده است: موارد جدید، عملکرد و نحوه آزمایش آن.

اخرین بروزرسانی: 28/08/2025

  • gpt-oss-20b به عنوان یک مدل با وزن باز با اجرای محلی و متن طولانی (تا ۱۳۱,۰۷۲ توکن) ارائه می‌شود.
  • بهینه شده برای NVIDIA RTX: سرعت گزارش شده تا ۲۵۶ تراهش بر ثانیه؛ حافظه ویدیویی (VRAM) برای حفظ عملکرد، وظیفه را بر عهده می‌گیرد.
  • استفاده آسان با Ollama و جایگزین‌هایی مانند llama.cpp، GGML و Microsoft AI Foundry Local.
  • همچنین در Intel AI Playground 2.6.0، با چارچوب‌های به‌روز شده و مدیریت محیط بهبود یافته، موجود است.
gpt-oss-20b روی لوکال

ورود gpt-oss-20b برای استفاده محلی یک مدل استدلال قدرتمند را که مستقیماً روی رایانه شخصی اجرا می‌شود، برای کاربران بیشتری به ارمغان می‌آورد. این فشار، همسو با بهینه‌سازی برای پردازنده‌های گرافیکی NVIDIA RTX، دری را به روی گردش‌های کاری دشوار بدون تکیه بر فضای ابری می‌گشاید.

تمرکز واضح است: ارائه وزن آزاد با زمینه بسیار طولانی برای کارهای پیچیده مانند جستجوهای پیشرفته، تحقیق، کمک در کدنویسی یا چت‌های طولانی، اولویت‌بندی خلوت و کنترل هزینه هنگام کار به صورت محلی.

gpt-oss-20b هنگام اجرا به صورت محلی چه چیزی ارائه می‌دهد؟

اجرای محلی مدل‌های GPT با وزن باز

خانواده gpt-oss با مدل‌هایی از ... آغاز به کار می‌کند وزنه‌های آزاد طوری طراحی شده که به راحتی در راه‌حل‌های شما ادغام شود. به طور خاص، gpt-oss-20b این دستگاه به خاطر ایجاد تعادل بین ظرفیت استدلال و نیازهای سخت‌افزاری معقول برای یک کامپیوتر رومیزی، برجسته است.

یک ویژگی متمایز این است که پنجره زمینه توسعه‌یافتهبا پشتیبانی از حداکثر ۱۳۱,۰۷۲ توکن در محدوده gpt-oss. این طول تسهیل می‌کند مکالمات طولانی، تحلیل اسناد حجیم یا زنجیره‌های عمیق‌تر فکری بدون برش یا تکه‌تکه کردن.

محتوای اختصاصی - اینجا را کلیک کنید  نحوه بدست آوردن RFC با هوموکلاو

در مقایسه با مدل‌های بسته، طرح پیشنهادی با وزن باز، اولویت را به موارد زیر می‌دهد: انعطاف‌پذیری ادغام در برنامه‌ها: از دستیاران با ابزار (عامل‌ها) حتی افزونه‌هایی برای تحقیق، جستجوی وب و برنامه‌نویسی، که همگی از استنتاج محلی بهره می‌برند.

از نظر عملی، بسته‌ی gpt-oss:20b حدود ۱۳ گیگابایت است. در محیط‌های زمان اجرای محبوب نصب شده است. این امر، منابع مورد نیاز را تعیین می‌کند و به مقیاس‌پذیری کمک می‌کند. VRAM برای حفظ عملکرد بدون ایجاد گلوگاه.

همچنین یک نوع بزرگتر (gpt-oss-120b) وجود دارد که برای سناریوهایی با ... طراحی شده است. منابع گرافیکی فراوان‌تربا این حال، برای اکثر رایانه‌های شخصی، 20B به دلیل رابطه بین سرعت، حافظه و کیفیت، این واقع‌بینانه‌ترین نقطه شروع است.

بهینه‌سازی برای RTX: سرعت، زمینه و حافظه ویدیویی

ابزارهایی برای اجرای gpt-oss 20b به صورت محلی

تطبیق مدل‌های GPT-OSS با اکوسیستم NVIDIA RTX نرخ تولید بالایی را فراهم می‌کند. در تجهیزات رده بالا، حداکثر سرعت تا ۲۵۶ توکن در ثانیه با تنظیمات مناسب، با بهره‌گیری از بهینه‌سازی‌ها و دقت‌های خاص مانند MXFP4.

نتایج به کارت، زمینه و پیکربندی بستگی دارد. در آزمایش‌هایی با RTX 5080، gpt-oss 20b به اطراف رسید ۱۲۸ تن بر ثانیه با زمینه‌های محدود (≈۸ هزار). با افزایش پنجره ۱۶ هزارتایی و با تحمیل مقداری از بار به رم سیستم، نرخ به ~ کاهش یافت.۱۲۸ تن بر ثانیه، که در آن پردازنده گرافیکی (GPU) بیشتر کارها را انجام می‌دهد.

محتوای اختصاصی - اینجا را کلیک کنید  چگونه می توان یک صفحه را از Word حذف کرد؟

درس واضح است: قوانین VRAMدر هوش مصنوعی محلی، یک RTX 3090 با حافظه بیشتر می‌تواند عملکرد بهتری نسبت به یک پردازنده گرافیکی جدیدتر اما با VRAM کمتر داشته باشد، زیرا از سرریز شدن به ... جلوگیری می‌کند. حافظه سیستم و مداخله اضافی CPU.

برای gpt-oss-20b، بهتر است اندازه مدل را به عنوان مرجع در نظر بگیرید: حدود 13 GB فضای بیشتر برای حافظه پنهان KV و وظایف فشرده. به عنوان یک راهنمای سریع، توصیه می‌شود که 16 گیگابایت VRAM حداقل و هدف قرار دادن 24 GB اگر شرایط طولانی یا بارهای مداوم پیش‌بینی شود.

کسانی که به دنبال فشرده‌سازی سخت‌افزار هستند می‌توانند بررسی کنند دقت‌های کارآمد (مانند MXFP4)، طول متن را تنظیم کنید یا در صورت امکان به پیکربندی‌های چند پردازنده گرافیکی متوسل شوید، و همیشه هدف ... را حفظ کنید. از تعویض اجتناب کنید به سمت رم.

نصب و استفاده: اولاما و مسیرهای دیگر

عملکرد GPT-OSS در پردازنده‌های گرافیکی RTX

برای آزمایش مدل به روشی ساده، اولاما تجربه مستقیمی را در رایانه‌های شخصی مجهز به RTX ارائه می‌دهد: به شما امکان می‌دهد بدون تنظیمات پیچیده، GPT-OSS-20B را دانلود، اجرا و چت کنید.علاوه بر پشتیبانی از فایل‌های PDF، فایل‌های متنی، تصاویر و تنظیم متن.

برای کاربران پیشرفته، مسیرهای جایگزین نیز وجود دارد، به عنوان مثال نصب LLM روی ویندوز ۱۱چارچوب‌هایی مانند lama.cpp و کتابخانه‌های نوع GGML برای RTX بهینه شده‌اند، با تلاش‌های اخیر در کاهش بار پردازنده و سو take استفاده کنید نمودارهای CUDAبه موازات، مایکروسافت هوش مصنوعی ریخته‌گری محلی (در پیش‌نمایش) مدل‌ها را از طریق رابط خط فرمان (CLI)، کیت توسعه نرم‌افزار (SDK) یا رابط‌های برنامه‌نویسی کاربردی (API) با شتاب‌دهنده‌های CUDA و TensorRT ادغام کنید.

محتوای اختصاصی - اینجا را کلیک کنید  چگونه یک پیام جیمیل را حذف کنیم

در اکوسیستم ابزارها، اینتل هوش مصنوعی پلی‌گراند ۲.۶.۰ gpt-oss-20b را در میان گزینه‌های خود گنجانده است.این به‌روزرسانی، کنترل دقیق نسخه‌بندی را برای backendها و اصلاحات به فریم‌ورک‌هایی مانند موارد زیر اضافه می‌کند: رابط کاربری راحت و باز (OpenVINO) y lama.cpp (با حمایت از VULKAN و تنظیم زمینه)، تسهیل محیط‌های محلی پایدار.

به عنوان یک راهنمای راه اندازی، موارد زیر را بررسی کنید حافظه تصویری (VRAM) موجود، مدلی را که با پردازنده گرافیکی شما سازگار است دانلود کنید، اعتبارسنجی کنید سرعت توکن با دستورالعمل‌های نماینده و تنظیم‌ها پنجره زمینه تا تمام بار روی کارت گرافیک باشد.

با این قطعات، می‌توان دستیارهایی برای ... ساخت. جستجو و تحلیل، ابزارهای تحقیق یا پشتیبانی از برنامه نویسی که کاملاً روی رایانه اجرا می‌شوند و حاکمیت داده‌ها را حفظ می‌کنند.

ترکیب gpt-oss-20b با شتاب‌دهنده RTX، مدیریت دقیق VRAM و ابزارهایی مانند Ollama، llama.cpp یا AI Playground، گزینه‌ای کامل برای اجرای هوش مصنوعی استدلالی به صورت محلی را تثبیت می‌کند؛ مسیری که بدون تکیه بر سرویس‌های خارجی، عملکرد، هزینه و حریم خصوصی را متعادل می‌کند.

gpt-oss-120b
مقاله مرتبط:
OpenAI مدل gpt-oss-120b را منتشر کرد: پیشرفته‌ترین مدل وزن‌های باز آن تا به امروز.