مقامی طور پر gpt-oss-20b کے ساتھ کام کرنے کا طریقہ یہاں ہے: نیا کیا ہے، کارکردگی، اور اسے کیسے جانچنا ہے۔

آخری تازہ کاری: 28/08/2025

  • gpt-oss-20b مقامی عمل درآمد اور طویل سیاق و سباق کے ساتھ ایک اوپن ویٹ ماڈل کے طور پر آتا ہے (131.072 ٹوکنز تک)۔
  • NVIDIA RTX کے لیے آپٹمائزڈ: رپورٹ کردہ رفتار 256 t/s تک؛ VRAM کارکردگی کو برقرار رکھنے کے لیے کام کرتا ہے۔
  • Ollama اور متبادلات جیسے llama.cpp، GGML، اور Microsoft AI Foundry Local کے ساتھ استعمال میں آسان۔
  • Intel AI پلے گراؤنڈ 2.6.0 میں بھی دستیاب ہے، اپ ڈیٹ کردہ فریم ورک اور بہتر ماحول کے انتظام کے ساتھ۔
مقامی پر gpt-oss-20b

کی آمد gpt-oss-20b کے لیے مقامی استعمال ایک طاقتور استدلال ماڈل لاتا ہے جو پی سی پر براہ راست زیادہ صارفین تک چلتا ہے۔ یہ دھکا، کے ساتھ منسلک NVIDIA RTX GPUs کے لیے اصلاح، بادل پر بھروسہ کیے بغیر کام کے بہاؤ کا مطالبہ کرنے کا دروازہ کھولتا ہے۔

توجہ واضح ہے: پیش کرنا بہت طویل سیاق و سباق کے ساتھ کھلا وزن پیچیدہ کاموں کے لیے جیسے کہ اعلیٰ درجے کی تلاش، تحقیق، کوڈ کی مدد یا لمبی چیٹس کو ترجیح دینا پرائیویسی اور مقامی طور پر کام کرتے وقت لاگت کا کنٹرول۔

مقامی طور پر چلتے وقت gpt-oss-20b کیا فراہم کرتا ہے؟

اوپن ویٹ جی پی ٹی ماڈلز کا مقامی نفاذ

کے ماڈلز کے ساتھ gpt-oss فیملی ڈیبیو کرتی ہے۔ کھلے وزن آپ کے اپنے حل میں آسانی سے ضم ہونے کے لیے ڈیزائن کیا گیا ہے۔ خاص طور پر، gpt-oss-20b یہ ایک ڈیسک ٹاپ پی سی کے لیے استدلال کی صلاحیت اور معقول ہارڈ ویئر کی ضروریات کو متوازن کرنے کے لیے نمایاں ہے۔

ایک امتیازی خصوصیت یہ ہے۔ توسیعی سیاق و سباق کی کھڑکی, gpt-oss رینج میں 131.072 ٹوکن تک کی حمایت کے ساتھ۔ یہ لمبائی سہولت فراہم کرتی ہے۔ لمبی گفتگو, بڑی دستاویزات کا تجزیہ یا سوچ کی گہری زنجیریں بغیر کٹوتیوں یا ٹکڑوں کے۔

خصوصی مواد - یہاں کلک کریں۔  ونڈوز 10 کو کتنی ریم کی ضرورت ہے؟

بند ماڈلز کے مقابلے میں، کھلے وزن کی تجویز کو ترجیح دی جاتی ہے۔ انضمام کی لچک درخواستوں میں: سے آلات کے ساتھ معاونین (ایجنٹ) یہاں تک کہ پلگ ان کے لیے تحقیق، ویب سرچ اور پروگرامنگ، سبھی مقامی تخمینہ کا فائدہ اٹھا رہے ہیں۔

عملی لحاظ سے، کا پیکج gpt-oss:20b تقریباً 13 جی بی ہے۔ مقبول رن ٹائم ماحول میں نصب. یہ مطلوبہ وسائل کے لیے ٹون سیٹ کرتا ہے اور اسکیل کرنے میں مدد کرتا ہے۔ VRAM رکاوٹوں کے بغیر کارکردگی کو برقرار رکھنے کے لئے.

ایک بڑا ویریئنٹ (gpt-oss-120b) بھی ہے، جو منظرناموں کے لیے ڈیزائن کیا گیا ہے زیادہ گرافک وسائل. تاہم، زیادہ تر پی سی کے لیے 20B رفتار، میموری اور معیار کے درمیان تعلق کی وجہ سے یہ سب سے زیادہ حقیقت پسندانہ نقطہ آغاز ہے۔

RTX کے لیے بہتر بنانا: رفتار، سیاق و سباق، اور VRAM

مقامی طور پر gpt-oss 20b کو چلانے کے لیے ٹولز

GPT-OSS ماڈلز کو ماحولیاتی نظام کے مطابق ڈھالنا NVIDIA RTX اعلی نسل کی شرح کے لئے اجازت دیتا ہے. اعلی کے آخر میں سامان میں، 256 ٹوکن/سیکنڈ تک کی چوٹی مناسب ایڈجسٹمنٹ کے ساتھ، مخصوص اصلاح اور درستگی کا فائدہ اٹھاتے ہوئے جیسے MXFP4.

نتائج کا انحصار کارڈ، سیاق و سباق اور ترتیب پر ہے۔ ایک کے ساتھ ٹیسٹ میں RTX 5080، gpt-oss 20b آس پاس پہنچ گیا۔ 128 t/s شامل سیاق و سباق کے ساتھ (≈8k)۔ میں اضافہ کرکے 16k ونڈو اور سسٹم RAM میں کچھ بوجھ ڈالنے سے، شرح ~ تک گر گئی۔50,5 t/s، GPU کے ساتھ زیادہ تر کام کرتا ہے۔

خصوصی مواد - یہاں کلک کریں۔  آر ایف سی پر کارروائی کیسے کریں۔

سبق واضح ہے: VRAM کے قواعد. مقامی AI میں، a RTX 3090 زیادہ میموری کے ساتھ یہ ایک نئے GPU سے بہتر کارکردگی کا مظاہرہ کر سکتا ہے لیکن کم VRAM کے ساتھ، کیونکہ یہ GPU میں بہاؤ کو روکتا ہے۔ سسٹم میموری اور CPU کی اضافی مداخلت۔

gpt-oss-20b کے لیے، ماڈل کے سائز کو بطور حوالہ لینا آسان ہے: کے بارے میں 13 GB کے لئے مزید گنجائش KV کیشے اور گہرے کام۔ ایک فوری رہنما کے طور پر، یہ رکھنے کی سفارش کی جاتی ہے۔ 16 GB VRAM کم از کم اور مقصد 24 GB اگر طویل سیاق و سباق یا مستقل بوجھ متوقع ہیں۔

جو لوگ ہارڈ ویئر کو نچوڑنا چاہتے ہیں وہ تلاش کر سکتے ہیں۔ موثر درستگی (جیسے MXFP4)، سیاق و سباق کی لمبائی کو ایڈجسٹ کریں یا جب ممکن ہو تو ملٹی GPU کنفیگریشنز کا سہارا لیں، ہمیشہ مقصد کو مدنظر رکھتے ہوئے تبادلہ سے بچیں رام کی طرف۔

تنصیب اور استعمال: اولاما اور دیگر راستے

RTX GPUs پر GPT-OSS کارکردگی

ماڈل کو آسان طریقے سے جانچنے کے لیے، علامہ RTX سے چلنے والے PCs پر براہ راست تجربہ پیش کرتا ہے: آپ کو پیچیدہ کنفیگریشن کے بغیر GPT-OSS-20B کے ساتھ ڈاؤن لوڈ، چلانے اور چیٹ کرنے کی اجازت دیتا ہے۔پی ڈی ایف، ٹیکسٹ فائلز، امیج پرامپٹس، اور سیاق و سباق کی ایڈجسٹمنٹ کو سپورٹ کرنے کے علاوہ۔

مثال کے طور پر اعلی درجے کے صارفین کے لیے متبادل راستے بھی ہیں۔ ونڈوز 11 پر ایل ایل ایم انسٹال کریں۔. جیسے فریم ورک call.cpp اور لائبریریاں ٹائپ کریں۔ جی جی ایم ایل میں حالیہ کوششوں کے ساتھ، RTX کے لیے موزوں ہیں۔ CPU بوجھ کو کم کریں۔ اور فائدہ اٹھائیں CUDA گرافس. متوازی طور پر، مائیکروسافٹ AI فاؤنڈری لوکل (پیش منظر میں) ماڈلز کو CLI، SDK یا APIs کے ذریعے CUDA اور TensorRT ایکسلریشن کے ساتھ مربوط کریں۔

خصوصی مواد - یہاں کلک کریں۔  اجازت کے بغیر خودکار طور پر شروع ہونے والے پروگراموں کو ہٹانے کے لیے Autoruns کا استعمال کیسے کریں۔

آلات کے ماحولیاتی نظام میں، انٹیل اے آئی پلے گراؤنڈ 2.6.0 نے اپنے اختیارات میں gpt-oss-20b کو شامل کیا ہے۔اپ ڈیٹ میں بیک اینڈز اور فریم ورکس میں نظرثانی کے لیے عمدہ ورژننگ کنٹرول شامل کیا گیا ہے جیسے OpenVINO، ComfyUI y call.cpp (کی حمایت کے ساتھ آتش فشاں اور سیاق و سباق کی ایڈجسٹمنٹ)، سہولت فراہم کرنا مستحکم مقامی ماحول.

اسٹارٹ اپ گائیڈ لائن کے طور پر، چیک کریں۔ دستیاب VRAM، ماڈل ویرینٹ ڈاؤن لوڈ کریں جو آپ کے GPU میں فٹ بیٹھتا ہے، کی توثیق کریں۔ ٹوکن کی رفتار نمائندہ اشارے کے ساتھ اور ایڈجسٹ کرتا ہے۔ سیاق و سباق کی کھڑکی تمام بوجھ گرافکس کارڈ پر رکھنے کے لیے۔

ان ٹکڑوں کے ساتھ، اس کے لئے معاونوں کی تعمیر ممکن ہے تلاش اور تجزیہ، کے اوزار تحقیق یا کی حمایت کرتا ہے پروگرامنگ جو کہ مکمل طور پر کمپیوٹر پر چلتا ہے، ڈیٹا کی خودمختاری کو برقرار رکھتا ہے۔

RTX ایکسلریشن کے ساتھ gpt-oss-20b کا امتزاج، محتاط VRAM مینجمنٹ، اور ٹولز جیسے Ollama, llama.cpp، یا AI پلے گراؤنڈ مقامی طور پر استدلال AI کو چلانے کے لیے ایک پختہ آپشن کو مستحکم کرتا ہے۔ ایک ایسا راستہ جو بیرونی خدمات پر انحصار کیے بغیر کارکردگی، لاگت اور رازداری میں توازن رکھتا ہے۔

gpt-oss-120b
متعلقہ آرٹیکل:
OpenAI نے gpt-oss-120b جاری کیا: اس کا اب تک کا سب سے جدید اوپن ویٹ ماڈل۔