- gpt-oss-20b هڪ اوپن ويٽ ماڊل جي طور تي مقامي عملدرآمد ۽ ڊگهي حوالي سان (131.072 ٽوڪن تائين) اچي ٿو.
- NVIDIA RTX لاءِ بهتر ڪيل: 256 t/s تائين رفتار جي رپورٽ ڪئي وئي؛ VRAM ڪارڪردگي برقرار رکڻ لاءِ ڪم سنڀالي ٿو.
- اولاما ۽ متبادل جهڙوڪ llama.cpp، GGML، ۽ Microsoft AI فاؤنڊيري لوڪل سان استعمال ڪرڻ آسان.
- انٽيل اي آءِ پلي گرائونڊ 2.6.0 ۾ پڻ موجود آهي، اپڊيٽ ٿيل فريم ورڪ ۽ بهتر ماحولياتي انتظام سان.
جي آمد gpt-oss-20b لاءِ مقامي استعمال هڪ طاقتور استدلال وارو ماڊل آڻيندو آهي جيڪو سڌو سنئون پي سي تي وڌيڪ استعمال ڪندڙن لاءِ هلندو آهي. هي ڌڪ، سان ترتيب ڏنل NVIDIA RTX GPUs لاءِ اصلاح، ڪلائوڊ تي ڀروسو ڪرڻ کان سواءِ ڪم جي سخت وهڪري جو دروازو کوليندو آهي.
ڌيان واضح آهي: پيش ڪرڻ لاءِ تمام ڊگهي تناظر سان کليل وزن پيچيده ڪمن لاءِ جيئن ته ترقي يافته ڳولا، تحقيق، ڪوڊ مدد يا ڊگهيون چيٽون، ترجيح ڏيندي رازداري ۽ مقامي طور تي ڪم ڪرڻ وقت قيمت تي ضابطو.
مقامي طور تي هلائڻ وقت gpt-oss-20b ڇا فراهم ڪندو آهي؟

جي پي ٽي-او ايس ايس خاندان ماڊلز سان شروعات ڪري ٿو کليل وزن توهان جي پنهنجي حلن ۾ آساني سان ضم ٿيڻ لاءِ ٺهيل آهي. خاص طور تي، جي پي ٽي-او ايس ايس-20 بي اهو ڊيسڪ ٽاپ پي سي لاءِ استدلال جي صلاحيت ۽ مناسب هارڊويئر گهرجن کي متوازن ڪرڻ لاءِ نمايان آهي.
هڪ امتيازي خصوصيت اها آهي ته وڌايل تناظر ونڊو، gpt-oss رينج ۾ 131.072 ٽوڪن تائين سپورٽ سان. هي ڊيگهه سهولت فراهم ڪري ٿي ڊگهيون ڳالهيون، وڏين دستاويزن جو تجزيو يا سوچ جي گهري زنجيرن جو بغير ڪٽ يا ٽڪراءَ جي.
بند ماڊلز جي مقابلي ۾، اوپن ويٽ تجويز کي ترجيح ڏئي ٿي انضمام لچڪ درخواستن ۾: کان اوزارن سان مددگار (ايجنٽ) لاءِ پڻ پلگ ان تحقيق، ويب ڳولا ۽ پروگرامنگ، سڀ مقامي نتيجي جو فائدو وٺي رهيا آهن.
عملي لحاظ کان، جو پيڪيج gpt-oss:20b لڳ ڀڳ 13 GB آهي. مشهور رن ٽائم ماحول ۾ نصب ٿيل. هي گهربل وسيلن لاءِ سر مقرر ڪري ٿو ۽ ماپ ڪرڻ ۾ مدد ڪري ٿو VAM رڪاوٽن کان سواءِ ڪارڪردگي برقرار رکڻ لاءِ.
هڪ وڏو قسم (gpt-oss-120b) پڻ آهي، جيڪو منظرنامي لاءِ ٺهيل آهي جنهن سان وڌيڪ وسيع گرافڪ وسيلا. جيتوڻيڪ، گھڻن پي سيز لاءِ، 20B رفتار، ياداشت ۽ معيار جي وچ ۾ تعلق جي ڪري اهو سڀ کان وڌيڪ حقيقي شروعاتي نقطو آهي.
آر ٽي ايڪس لاءِ اصلاح: رفتار، تناظر، ۽ وي آر اي ايم

GPT-OSS ماڊلز کي ماحولياتي نظام ۾ اپنائڻ NVIDIA RTX اعلي پيداوار جي شرح جي اجازت ڏئي ٿو. اعليٰ درجي جي سامان ۾، 256 ٽوڪن / سيڪنڊ تائين جي چوٽي مناسب ترتيبن سان، مخصوص اصلاحن ۽ درستگين جو فائدو وٺندي جيئن ته ايم ايڪس ايف پي 4.
نتيجا ڪارڊ، حوالي سان، ۽ ترتيب تي منحصر آهن. ٽيسٽن ۾ a سان RTX 5080، gpt-oss 20b پهچي ويو 128 ٽي/سيڪنڊ شامل ڪيل حوالن سان (≈8k). وڌائڻ سان 16k ونڊو ۽ سسٽم ريم ۾ ڪجهه لوڊ کي مجبور ڪرڻ سان، شرح گهٽجي وئي ~50,5 ٽي/سيڪنڊ، GPU سان گڏ گھڻو ڪم ڪري رهيو آهي.
سبق واضح آهي: VRAM ضابطامقامي AI ۾، هڪ وڌيڪ ميموري سان RTX 3090 اهو هڪ نئين GPU کان بهتر ڪارڪردگي ڏيکاري سگهي ٿو پر گهٽ VRAM سان، ڇاڪاڻ ته اهو اوور فلو کي روڪي ٿو سسٽم ميموري ۽ سي پي يو جي اضافي مداخلت.
gpt-oss-20b لاءِ، ماڊل جي سائيز کي حوالي طور وٺڻ آسان آهي: اٽڪل 13 گلگت بلتستان لاءِ وڌيڪ گنجائش ڪي وي ڪيش ۽ سخت ڪم. هڪ تڪڙي رهنمائي جي طور تي، ان جي سفارش ڪئي وئي آهي ته ويرام جو 16 GB گهٽ ۾ گهٽ ۽ مقصد لاءِ 24 گلگت بلتستان جيڪڏهن ڊگھا تناظر يا مسلسل لوڊ متوقع آهن.
جيڪي هارڊويئر کي نچوڙڻ چاهين ٿا اهي ڳولي سگهن ٿا ڪارآمد درستگيون (جهڙوڪ MXFP4)، تناظر جي ڊيگهه کي ترتيب ڏيو يا جڏهن ممڪن هجي ته ملٽي-GPU ترتيبن جو سهارو وٺو، هميشه مقصد کي برقرار رکندي مٽاسٽا کان پاسو ڪريو رام ڏانهن.
انسٽاليشن ۽ استعمال: اولما ۽ ٻيا رستا

ماڊل کي سادي طريقي سان جانچڻ لاءِ، اولاما RTX-طاقتور پي سيز تي سڌو تجربو پيش ڪري ٿو: توهان کي پيچيده ترتيبن کان سواءِ GPT-OSS-20B ڊائون لوڊ ڪرڻ، هلائڻ ۽ چيٽ ڪرڻ جي اجازت ڏئي ٿو.، PDFs، ٽيڪسٽ فائلن، تصوير جي اشارن، ۽ حوالي سان ترتيب ڏيڻ جي مدد کان علاوه.
ترقي يافته استعمال ڪندڙن لاءِ متبادل رستا پڻ آهن، مثال طور ونڊوز 11 تي ايل ايل ايم انسٽال ڪريو. فريم ورڪ جهڙوڪ call.cpp ۽ لائبريريون ٽائيپ ڪريو جي جي ايم ايل RTX لاءِ بهتر ڪيل آهن، تازين ڪوششن سان سي پي يو لوڊ گھٽايو ۽ فائدو وٺڻ CUDA گرافس. ساڳئي وقت، مائڪروسافٽ اي آءِ فائونڊري لوڪل (پريويو ۾) CLI، SDK يا APIs ذريعي CUDA ۽ TensorRT ايڪسلريشن سان ماڊلز کي ضم ڪريو.
اوزارن جي ماحولياتي نظام ۾، انٽيل اي آءِ پلي گرائونڊ 2.6.0 پنهنجي اختيارن ۾ gpt-oss-20b شامل ڪيو آهي.اپڊيٽ فريم ورڪ ۾ بيڪ اينڊ ۽ ترميمن لاءِ نفيس ورزننگ ڪنٽرول شامل ڪري ٿي جهڙوڪ اوپن وينو، ڪامفي يو آءِ y call.cpp (جي مدد سان ٻرندڙ جبل ۽ حوالي سان ترتيب ڏيڻ)، سهولت فراهم ڪرڻ مستحڪم مقامي ماحول.
شروعاتي هدايت جي طور تي، چيڪ ڪريو موجود VRAM، ماڊل ويرينٽ ڊائون لوڊ ڪريو جيڪو توهان جي GPU سان ملندو آهي، تصديق ڪريو ٽوڪن ويلوسيٽي نمائندن جي اشارن سان ۽ ترتيب ڏئي ٿو context window گرافڪس ڪارڊ تي سڄو لوڊ رکڻ لاءِ.
انهن ٽڪرن سان، مددگار ٺاهڻ ممڪن آهي ڳولا ۽ تجزيوجا اوزار تحقيق يا جي حمايت پروگرامنگ جيڪي مڪمل طور تي ڪمپيوٽر تي هلن ٿا، ڊيٽا جي خودمختياري کي برقرار رکن ٿا.
gpt-oss-20b جو RTX ايڪسلريشن، محتاط VRAM مئنيجمينٽ، ۽ Ollama، llama.cpp، يا AI Playground جهڙن اوزارن سان ميلاپ، مقامي طور تي استدلال AI هلائڻ لاءِ هڪ پختو آپشن کي مضبوط ڪري ٿو؛ هڪ رستو جيڪو ڪارڪردگي، قيمت، ۽ رازداري کي ٻاهرين خدمتن تي ڀروسو ڪرڻ کان سواءِ متوازن ڪري ٿو.
مان هڪ ٽيڪنالاجي جو شوقين آهيان جنهن پنهنجي ”جيڪ“ مفادن کي پيشو بڻائي ڇڏيو آهي. مون پنهنجي زندگيءَ جا 10 سال کان وڌيڪ وقت جديد ٽيڪنالاجي استعمال ڪندي گذاريا آهن ۽ هر قسم جي پروگرامن کي خالص تجسس کان ٻاهر ڪڍيو آهي. هاڻي مون ڪمپيوٽر ٽيڪنالاجي ۽ وڊيو گيمز ۾ ماهر ڪيو آهي. اهو ئي سبب آهي ته 5 سالن کان وڌيڪ عرصي کان آئون ٽيڪنالاجي ۽ وڊيو گيمز تي مختلف ويب سائيٽن لاءِ لکي رهيو آهيان، آرٽيڪل ٺاهي رهيو آهيان جيڪي توهان کي گهربل معلومات ڏيارڻ جي ڪوشش ڪندا اهڙي ٻولي ۾ جيڪا هرڪو سمجهي سگهي.
جيڪڏهن توهان وٽ ڪو سوال آهي، منهنجي ڄاڻ هر شيءِ کان وٺي ونڊوز آپريٽنگ سسٽم سان گڏو گڏ موبائل فون لاءِ Android سان لاڳاپيل آهي. ۽ منهنجو عزم توهان سان آهي، مان هميشه ڪجهه منٽ خرچ ڪرڻ لاءِ تيار آهيان ۽ توهان جي هن انٽرنيٽ جي دنيا ۾ جيڪي به سوال آهن انهن کي حل ڪرڻ ۾ توهان جي مدد ڪرڻ لاءِ تيار آهيان.