- gpt-oss-20b مقامی عمل درآمد اور طویل سیاق و سباق کے ساتھ ایک اوپن ویٹ ماڈل کے طور پر آتا ہے (131.072 ٹوکنز تک)۔
- NVIDIA RTX کے لیے آپٹمائزڈ: رپورٹ کردہ رفتار 256 t/s تک؛ VRAM کارکردگی کو برقرار رکھنے کے لیے کام کرتا ہے۔
- Ollama اور متبادلات جیسے llama.cpp، GGML، اور Microsoft AI Foundry Local کے ساتھ استعمال میں آسان۔
- Intel AI پلے گراؤنڈ 2.6.0 میں بھی دستیاب ہے، اپ ڈیٹ کردہ فریم ورک اور بہتر ماحول کے انتظام کے ساتھ۔
کی آمد gpt-oss-20b کے لیے مقامی استعمال ایک طاقتور استدلال ماڈل لاتا ہے جو پی سی پر براہ راست زیادہ صارفین تک چلتا ہے۔ یہ دھکا، کے ساتھ منسلک NVIDIA RTX GPUs کے لیے اصلاح، بادل پر بھروسہ کیے بغیر کام کے بہاؤ کا مطالبہ کرنے کا دروازہ کھولتا ہے۔
توجہ واضح ہے: پیش کرنا بہت طویل سیاق و سباق کے ساتھ کھلا وزن پیچیدہ کاموں کے لیے جیسے کہ اعلیٰ درجے کی تلاش، تحقیق، کوڈ کی مدد یا لمبی چیٹس کو ترجیح دینا پرائیویسی اور مقامی طور پر کام کرتے وقت لاگت کا کنٹرول۔
مقامی طور پر چلتے وقت gpt-oss-20b کیا فراہم کرتا ہے؟

کے ماڈلز کے ساتھ gpt-oss فیملی ڈیبیو کرتی ہے۔ کھلے وزن آپ کے اپنے حل میں آسانی سے ضم ہونے کے لیے ڈیزائن کیا گیا ہے۔ خاص طور پر، gpt-oss-20b یہ ایک ڈیسک ٹاپ پی سی کے لیے استدلال کی صلاحیت اور معقول ہارڈ ویئر کی ضروریات کو متوازن کرنے کے لیے نمایاں ہے۔
ایک امتیازی خصوصیت یہ ہے۔ توسیعی سیاق و سباق کی کھڑکی, gpt-oss رینج میں 131.072 ٹوکن تک کی حمایت کے ساتھ۔ یہ لمبائی سہولت فراہم کرتی ہے۔ لمبی گفتگو, بڑی دستاویزات کا تجزیہ یا سوچ کی گہری زنجیریں بغیر کٹوتیوں یا ٹکڑوں کے۔
بند ماڈلز کے مقابلے میں، کھلے وزن کی تجویز کو ترجیح دی جاتی ہے۔ انضمام کی لچک درخواستوں میں: سے آلات کے ساتھ معاونین (ایجنٹ) یہاں تک کہ پلگ ان کے لیے تحقیق، ویب سرچ اور پروگرامنگ، سبھی مقامی تخمینہ کا فائدہ اٹھا رہے ہیں۔
عملی لحاظ سے، کا پیکج gpt-oss:20b تقریباً 13 جی بی ہے۔ مقبول رن ٹائم ماحول میں نصب. یہ مطلوبہ وسائل کے لیے ٹون سیٹ کرتا ہے اور اسکیل کرنے میں مدد کرتا ہے۔ VRAM رکاوٹوں کے بغیر کارکردگی کو برقرار رکھنے کے لئے.
ایک بڑا ویریئنٹ (gpt-oss-120b) بھی ہے، جو منظرناموں کے لیے ڈیزائن کیا گیا ہے زیادہ گرافک وسائل. تاہم، زیادہ تر پی سی کے لیے 20B رفتار، میموری اور معیار کے درمیان تعلق کی وجہ سے یہ سب سے زیادہ حقیقت پسندانہ نقطہ آغاز ہے۔
RTX کے لیے بہتر بنانا: رفتار، سیاق و سباق، اور VRAM

GPT-OSS ماڈلز کو ماحولیاتی نظام کے مطابق ڈھالنا NVIDIA RTX اعلی نسل کی شرح کے لئے اجازت دیتا ہے. اعلی کے آخر میں سامان میں، 256 ٹوکن/سیکنڈ تک کی چوٹی مناسب ایڈجسٹمنٹ کے ساتھ، مخصوص اصلاح اور درستگی کا فائدہ اٹھاتے ہوئے جیسے MXFP4.
نتائج کا انحصار کارڈ، سیاق و سباق اور ترتیب پر ہے۔ ایک کے ساتھ ٹیسٹ میں RTX 5080، gpt-oss 20b آس پاس پہنچ گیا۔ 128 t/s شامل سیاق و سباق کے ساتھ (≈8k)۔ میں اضافہ کرکے 16k ونڈو اور سسٹم RAM میں کچھ بوجھ ڈالنے سے، شرح ~ تک گر گئی۔50,5 t/s، GPU کے ساتھ زیادہ تر کام کرتا ہے۔
سبق واضح ہے: VRAM کے قواعد. مقامی AI میں، a RTX 3090 زیادہ میموری کے ساتھ یہ ایک نئے GPU سے بہتر کارکردگی کا مظاہرہ کر سکتا ہے لیکن کم VRAM کے ساتھ، کیونکہ یہ GPU میں بہاؤ کو روکتا ہے۔ سسٹم میموری اور CPU کی اضافی مداخلت۔
gpt-oss-20b کے لیے، ماڈل کے سائز کو بطور حوالہ لینا آسان ہے: کے بارے میں 13 GB کے لئے مزید گنجائش KV کیشے اور گہرے کام۔ ایک فوری رہنما کے طور پر، یہ رکھنے کی سفارش کی جاتی ہے۔ 16 GB VRAM کم از کم اور مقصد 24 GB اگر طویل سیاق و سباق یا مستقل بوجھ متوقع ہیں۔
جو لوگ ہارڈ ویئر کو نچوڑنا چاہتے ہیں وہ تلاش کر سکتے ہیں۔ موثر درستگی (جیسے MXFP4)، سیاق و سباق کی لمبائی کو ایڈجسٹ کریں یا جب ممکن ہو تو ملٹی GPU کنفیگریشنز کا سہارا لیں، ہمیشہ مقصد کو مدنظر رکھتے ہوئے تبادلہ سے بچیں رام کی طرف۔
تنصیب اور استعمال: اولاما اور دیگر راستے

ماڈل کو آسان طریقے سے جانچنے کے لیے، علامہ RTX سے چلنے والے PCs پر براہ راست تجربہ پیش کرتا ہے: آپ کو پیچیدہ کنفیگریشن کے بغیر GPT-OSS-20B کے ساتھ ڈاؤن لوڈ، چلانے اور چیٹ کرنے کی اجازت دیتا ہے۔پی ڈی ایف، ٹیکسٹ فائلز، امیج پرامپٹس، اور سیاق و سباق کی ایڈجسٹمنٹ کو سپورٹ کرنے کے علاوہ۔
مثال کے طور پر اعلی درجے کے صارفین کے لیے متبادل راستے بھی ہیں۔ ونڈوز 11 پر ایل ایل ایم انسٹال کریں۔. جیسے فریم ورک call.cpp اور لائبریریاں ٹائپ کریں۔ جی جی ایم ایل میں حالیہ کوششوں کے ساتھ، RTX کے لیے موزوں ہیں۔ CPU بوجھ کو کم کریں۔ اور فائدہ اٹھائیں CUDA گرافس. متوازی طور پر، مائیکروسافٹ AI فاؤنڈری لوکل (پیش منظر میں) ماڈلز کو CLI، SDK یا APIs کے ذریعے CUDA اور TensorRT ایکسلریشن کے ساتھ مربوط کریں۔
آلات کے ماحولیاتی نظام میں، انٹیل اے آئی پلے گراؤنڈ 2.6.0 نے اپنے اختیارات میں gpt-oss-20b کو شامل کیا ہے۔اپ ڈیٹ میں بیک اینڈز اور فریم ورکس میں نظرثانی کے لیے عمدہ ورژننگ کنٹرول شامل کیا گیا ہے جیسے OpenVINO، ComfyUI y call.cpp (کی حمایت کے ساتھ آتش فشاں اور سیاق و سباق کی ایڈجسٹمنٹ)، سہولت فراہم کرنا مستحکم مقامی ماحول.
اسٹارٹ اپ گائیڈ لائن کے طور پر، چیک کریں۔ دستیاب VRAM، ماڈل ویرینٹ ڈاؤن لوڈ کریں جو آپ کے GPU میں فٹ بیٹھتا ہے، کی توثیق کریں۔ ٹوکن کی رفتار نمائندہ اشارے کے ساتھ اور ایڈجسٹ کرتا ہے۔ سیاق و سباق کی کھڑکی تمام بوجھ گرافکس کارڈ پر رکھنے کے لیے۔
ان ٹکڑوں کے ساتھ، اس کے لئے معاونوں کی تعمیر ممکن ہے تلاش اور تجزیہ، کے اوزار تحقیق یا کی حمایت کرتا ہے پروگرامنگ جو کہ مکمل طور پر کمپیوٹر پر چلتا ہے، ڈیٹا کی خودمختاری کو برقرار رکھتا ہے۔
RTX ایکسلریشن کے ساتھ gpt-oss-20b کا امتزاج، محتاط VRAM مینجمنٹ، اور ٹولز جیسے Ollama, llama.cpp، یا AI پلے گراؤنڈ مقامی طور پر استدلال AI کو چلانے کے لیے ایک پختہ آپشن کو مستحکم کرتا ہے۔ ایک ایسا راستہ جو بیرونی خدمات پر انحصار کیے بغیر کارکردگی، لاگت اور رازداری میں توازن رکھتا ہے۔
میں ٹیکنالوجی کا شوقین ہوں جس نے اپنی "geek" دلچسپیوں کو ایک پیشہ میں بدل دیا ہے۔ میں نے اپنی زندگی کے 10 سال سے زیادہ جدید ٹیکنالوجی کا استعمال کرتے ہوئے اور خالص تجسس کے تحت ہر قسم کے پروگراموں کے ساتھ ٹنکرنگ کرتے ہوئے گزارے ہیں۔ اب میں نے کمپیوٹر ٹیکنالوجی اور ویڈیو گیمز میں مہارت حاصل کر لی ہے۔ اس کی وجہ یہ ہے کہ میں 5 سال سے زیادہ عرصے سے ٹیکنالوجی اور ویڈیو گیمز پر مختلف ویب سائٹس کے لیے لکھ رہا ہوں، ایسے مضامین تخلیق کر رہا ہوں جو آپ کو ایسی زبان میں معلومات فراہم کرنے کی کوشش کر رہے ہیں جو ہر کسی کو سمجھ میں آتی ہے۔
اگر آپ کا کوئی سوال ہے تو، میرا علم ونڈوز آپریٹنگ سسٹم کے ساتھ ساتھ موبائل فون کے لیے اینڈرائیڈ سے متعلق ہر چیز سے ہے۔ اور میری وابستگی آپ کے ساتھ ہے، میں ہمیشہ چند منٹ گزارنے اور انٹرنیٹ کی اس دنیا میں آپ کے کسی بھی سوال کو حل کرنے میں آپ کی مدد کرنے کو تیار ہوں۔