यहां बताया गया है कि स्थानीय स्तर पर gpt-oss-20b के साथ कैसे काम किया जाए: क्या नया है, प्रदर्शन कैसा है, और इसका परीक्षण कैसे किया जाए।

आखिरी अपडेट: 28/08/2025

  • gpt-oss-20b स्थानीय निष्पादन और लंबे संदर्भ (131.072 टोकन तक) के साथ एक ओपन-वेट मॉडल के रूप में आता है।
  • NVIDIA RTX के लिए अनुकूलित: 256 t/s तक की गति की सूचना दी गई; प्रदर्शन को बनाए रखने के लिए VRAM कार्यभार संभालता है।
  • ओलामा और इसके अन्य विकल्पों जैसे llama.cpp, GGML, और माइक्रोसॉफ्ट AI फाउंड्री लोकल के साथ उपयोग करना आसान है।
  • यह इंटेल एआई प्लेग्राउंड 2.6.0 में भी उपलब्ध है, जिसमें अपडेटेड फ्रेमवर्क और बेहतर पर्यावरण प्रबंधन शामिल है।
स्थानीय पर gpt-oss-20b

आगमन gpt-oss-20b के लिए स्थानीय उपयोग यह एक शक्तिशाली तर्क मॉडल लाता है जो सीधे पीसी पर अधिक उपयोगकर्ताओं के लिए चलता है। यह प्रयास, NVIDIA RTX GPU के लिए अनुकूलन, क्लाउड पर निर्भर हुए बिना, मांग वाले वर्कफ़्लो के लिए द्वार खोलता है।

फोकस स्पष्ट है: पेशकश करना बहुत लंबे संदर्भ के साथ खुला वजन उन्नत खोज, अनुसंधान, कोड सहायता या लंबी चैट जैसे जटिल कार्यों के लिए, प्राथमिकता देना एकांत और स्थानीय स्तर पर काम करते समय लागत नियंत्रण।

स्थानीय रूप से चलने पर gpt-oss-20b क्या प्रदान करता है?

ओपन-वेट GPT मॉडल का स्थानीय निष्पादन

जीपीटी-ओएसएस परिवार के मॉडल के साथ शुरुआत खुले वज़न आपके अपने समाधानों में आसानी से एकीकृत किए जाने के लिए डिज़ाइन किया गया। विशेष रूप से, जीपीटी-ओएसएस-20बी यह डेस्कटॉप पीसी के लिए तर्क क्षमता और उचित हार्डवेयर आवश्यकताओं को संतुलित करने के लिए खड़ा है।

एक विशिष्ट विशेषता यह है कि विस्तारित संदर्भ विंडो, gpt-oss रेंज में 131.072 टोकन तक के समर्थन के साथ। यह लंबाई सुविधा प्रदान करती है लंबी बातचीत, बिना किसी कटौती या विखंडन के विशाल दस्तावेजों या विचारों की गहरी श्रृंखलाओं का विश्लेषण।

विशेष सामग्री - यहां क्लिक करें  विंडोज़ 10 को कितनी रैम की आवश्यकता है?

बंद मॉडलों की तुलना में, खुले-भार प्रस्ताव को प्राथमिकता दी जाती है एकीकरण लचीलापन अनुप्रयोगों में: से उपकरणों के साथ सहायक (एजेंट) यहां तक ​​कि प्लगइन्स के लिए भी अनुसंधान, वेब खोज और प्रोग्रामिंग, सभी स्थानीय अनुमान का लाभ उठा रहे हैं।

व्यावहारिक दृष्टि से, पैकेज gpt-oss:20b लगभग 13 GB है लोकप्रिय रनटाइम वातावरणों में स्थापित। यह आवश्यक संसाधनों का निर्धारण करता है और स्केल करने में मदद करता है VRAM बिना किसी रुकावट के प्रदर्शन को बनाए रखना।

एक बड़ा संस्करण (gpt-oss-120b) भी है, जिसे ऐसे परिदृश्यों के लिए डिज़ाइन किया गया है अधिक प्रचुर ग्राफिक संसाधनहालाँकि, अधिकांश पीसी के लिए, 20B गति, स्मृति और गुणवत्ता के बीच संबंध के कारण यह सबसे यथार्थवादी प्रारंभिक बिंदु है।

RTX के लिए अनुकूलन: गति, संदर्भ और VRAM

gpt-oss 20b को स्थानीय रूप से चलाने के लिए उपकरण

पारिस्थितिकी तंत्र के लिए GPT-OSS मॉडल को अनुकूलित करना एनवीआईडीआईए आरटीएक्स उच्च उत्पादन दर की अनुमति देता है। उच्च-स्तरीय उपकरणों में, 256 टोकन/सेकंड तक की चोटियाँ उपयुक्त समायोजन के साथ, विशिष्ट अनुकूलन और परिशुद्धता का लाभ उठाते हुए जैसे एमएक्सएफपी4.

परिणाम कार्ड, संदर्भ और कॉन्फ़िगरेशन पर निर्भर करते हैं। आरटीएक्स 5080, जीपीटी-ओएसएस 20बी लगभग पहुँच गया 128 टन/सेकंड निहित संदर्भों के साथ (≈8k)। बढ़ाकर 16k विंडो और कुछ लोड को सिस्टम रैम में डालने पर, दर ~ तक गिर गई50,5 टन/सेकंड, जिसमें अधिकांश काम GPU करता है।

विशेष सामग्री - यहां क्लिक करें  कैसे एक आरएफसी संसाधित करने के लिए

सबक स्पष्ट है: VRAM नियमस्थानीय AI में, अधिक मेमोरी के साथ RTX 3090 यह नए GPU से बेहतर प्रदर्शन कर सकता है, लेकिन कम VRAM के साथ, क्योंकि यह ओवरफ़्लो को रोकता है सिस्टम मेमोरी और सीपीयू का अतिरिक्त हस्तक्षेप।

जीपीटी-ओएसएस-20बी के लिए, मॉडल के आकार को संदर्भ के रूप में लेना सुविधाजनक है: लगभग 13 जीबी के लिए अधिक जगह केवी कैश और गहन कार्य। एक त्वरित मार्गदर्शिका के रूप में, यह अनुशंसा की जाती है कि आप वीआरएएम का 16 जीबी कम से कम और इसका लक्ष्य रखें 24 जीबी यदि लंबे संदर्भ या निरंतर भार की आशंका हो।

जो लोग हार्डवेयर को निचोड़ना चाहते हैं वे खोज सकते हैं कुशल परिशुद्धता (जैसे MXFP4), संदर्भ लंबाई को समायोजित करें या जब संभव हो तो बहु-GPU कॉन्फ़िगरेशन का सहारा लें, हमेशा लक्ष्य को ध्यान में रखते हुए स्वैप से बचें रैम की ओर.

स्थापना और उपयोग: ओलामा और अन्य मार्ग

RTX GPU पर GPT-OSS प्रदर्शन

मॉडल का सरल तरीके से परीक्षण करने के लिए, ओलामा RTX पीसी पर प्रत्यक्ष अनुभव प्रदान करता है: आपको जटिल कॉन्फ़िगरेशन के बिना GPT-OSS-20B को डाउनलोड करने, चलाने और चैट करने की अनुमति देता है।, पीडीएफ, पाठ फ़ाइलें, छवि संकेत और संदर्भ समायोजन का समर्थन करने के अलावा।

उन्नत उपयोगकर्ताओं के लिए वैकल्पिक मार्ग भी हैं, उदाहरण के लिए Windows 11 पर LLM इंस्टॉल करें. जैसे फ्रेमवर्क लामा.सीपीपी और प्रकार पुस्तकालयों जीजीएमएल हाल के प्रयासों के साथ, RTX के लिए अनुकूलित हैं सीपीयू लोड कम करें और लाभ उठाएं CUDA ग्राफ़। समानांतर में, माइक्रोसॉफ्ट एआई फाउंड्री लोकल (पूर्वावलोकन में) CUDA और TensorRT त्वरण के साथ CLI, SDK या API के माध्यम से मॉडल को एकीकृत करें।

विशेष सामग्री - यहां क्लिक करें  बिना अनुमति के स्वतः प्रारंभ होने वाले प्रोग्रामों को हटाने के लिए ऑटोरन का उपयोग कैसे करें

उपकरणों के पारिस्थितिकी तंत्र में, इंटेल एआई प्लेग्राउंड 2.6.0 ने अपने विकल्पों में gpt-oss-20b को शामिल किया हैयह अपडेट बैकएंड और फ्रेमवर्क के संशोधनों के लिए बारीक संस्करण नियंत्रण जोड़ता है जैसे ओपनवीनो, कॉम्फीयूआई y लामा.सीपीपी (के समर्थन से ज्वालामुखी और संदर्भ समायोजन), सुविधा प्रदान करना स्थिर स्थानीय वातावरण.

स्टार्ट-अप दिशानिर्देश के रूप में, जाँच करें उपलब्ध VRAM, अपने GPU के अनुकूल मॉडल संस्करण डाउनलोड करें, सत्यापित करें टोकन वेग प्रतिनिधि संकेत के साथ और समायोजित करता है संदर्भ विंडो सारा भार ग्राफिक्स कार्ड पर ही रखने के लिए।

इन टुकड़ों के साथ, सहायकों का निर्माण करना संभव है खोज और विश्लेषणके उपकरण अनुसंधान या का समर्थन करता है प्रोग्रामिंग जो पूरी तरह से कंप्यूटर पर चलते हैं और डेटा संप्रभुता बनाए रखते हैं।

आरटीएक्स त्वरण, सावधानीपूर्वक वीआरएएम प्रबंधन और ओलामा, लामा.सीपीपी या एआई प्लेग्राउंड जैसे उपकरणों के साथ जीपीटी-ओएसएस-20बी का संयोजन स्थानीय स्तर पर तर्कशील एआई चलाने के लिए एक परिपक्व विकल्प को मजबूत करता है; एक ऐसा मार्ग जो बाहरी सेवाओं पर निर्भर हुए बिना प्रदर्शन, लागत और गोपनीयता को संतुलित करता है।

जीपीटी-ओएसएस-120बी
संबंधित लेख:
ओपनएआई ने gpt-oss-120b जारी किया: यह अब तक का सबसे उन्नत ओपन वेट मॉडल है।