Så här arbetar du med gpt-oss-20b lokalt: vad som är nytt, prestanda och hur man testar det.

Senaste uppdateringen: 28/08/2025
Författare: Alberto navarro

  • gpt-oss-20b anländer som en öppenviktsmodell med lokal exekvering och lång kontext (upp till 131.072 XNUMX tokens).
  • Optimerad för NVIDIA RTX: Rapporterade hastigheter upp till 256 t/s; VRAM tar över för att bibehålla prestandan.
  • Lätt att använda med Ollama och alternativ som llama.cpp, GGML och Microsoft AI Foundry Local.
  • Även tillgänglig i Intel AI Playground 2.6.0, med uppdaterade ramverk och förbättrad miljöhantering.
gpt-oss-20b på lokal

Ankomsten av gpt-oss-20b för lokal användning ger fler användare en kraftfull resonemangsmodell som körs direkt på datorn. Denna satsning, i linje med Optimering för NVIDIA RTX GPU:er, öppnar dörren för krävande arbetsflöden utan att förlita sig på molnet.

Fokus är tydligt: ​​att erbjuda öppen vikt med mycket lång kontext för komplexa uppgifter som avancerade sökningar, forskning, kodhjälp eller långa chattar, prioritera Sekretess och kostnadskontroll vid lokalt arbete.

Vad tillhandahåller gpt-oss-20b när den körs lokalt?

Lokal exekvering av öppna GPT-modeller

gpt-oss-familjen debuterar med modeller av öppna vikter utformad för att enkelt kunna integreras i dina egna lösningar. Specifikt, gpt-oss-20b Den utmärker sig genom sin balans mellan resonemangskapacitet och rimliga hårdvarukrav för en stationär dator.

Ett utmärkande drag är utökat kontextfönster, med stöd för upp till 131.072 XNUMX tokens i gpt-oss-intervallet. Denna längd underlättar långa samtal, analys av omfattande dokument eller djupare tankekedjor utan klipp eller fragmentering.

Exklusivt innehåll - Klicka här  Hur mycket RAM-minne behöver Windows 10?

Jämfört med slutna modeller prioriterar förslaget med öppen viktning integrationsflexibilitet i applikationer: från assistenter med verktyg (agenter) även plugins för forskning, webbsökning och programmering, alla utnyttjar lokal inferens.

I praktiken, paketet med gpt-oss:20b är runt 13 GB installerat i populära runtime-miljöer. Detta sätter tonen för de resurser som krävs och hjälper till att skala upp VRAM för att bibehålla prestanda utan flaskhalsar.

Det finns också en större variant (gpt-oss-120b), utformad för scenarier med mer omfattande grafiska resurserFör de flesta datorer gäller dock 20B Det är den mest realistiska utgångspunkten på grund av dess förhållande mellan hastighet, minne och kvalitet.

Optimera för RTX: Hastighet, kontext och VRAM

Verktyg för att köra gpt-oss 20b lokalt

Anpassning av GPT-OSS-modeller till ekosystemet NVIDIA RTX möjliggör höga produktionshastigheter. I avancerad utrustning, toppar på upp till 256 tokens/sekund med lämpliga justeringar, med utnyttjande av specifika optimeringar och precisioner som t.ex. MXFP4.

Resultaten beror på kortet, kontexten och konfigurationen. I tester med en RTX 5080, gpt-oss 20b nådde runt 128 ton/s med inneslutna kontexter (≈8k). Genom att öka 16k fönster och tvingade en del av belastningen på system-RAM-minnet, sjunker hastigheten till ~50,5 ton/s, där GPU:n gör det mesta av jobbet.

Exklusivt innehåll - Klicka här  Hur man bearbetar en Rfc

Lärdomen är tydlig: den VRAM-reglerI lokal AI, en RTX 3090 med mer minne Den kan prestera bättre än en nyare GPU men med mindre VRAM, eftersom den förhindrar överflöde till systemminne och CPU:ns extra ingripande.

För gpt-oss-20b är det lämpligt att ta modellens storlek som referens: ungefär 13 GB mer utrymme för KV-cache och intensiva uppgifter. Som en snabbguide rekommenderas att ha 16 GB VRAM åtminstone och sikta på 24 GB om långa sammanhang eller ihållande belastningar förväntas.

De som vill pressa hårdvaran kan utforska effektiva precisioner (som MXFP4), justera kontextlängden eller tillgripa konfigurationer med flera GPU:er när det är möjligt, och håll alltid målet med undvik byten mot RAM-minnet.

Installation och användning: Ollama och andra vägar

GPT-OSS-prestanda på RTX-grafikkort

För att testa modellen på ett enkelt sätt, Ollama erbjuder en direkt upplevelse på RTX-datorer: Låter dig ladda ner, köra och chatta med GPT-OSS-20B utan komplicerade konfigurationer., utöver stöd för PDF-filer, textfiler, bilduppmaningar och kontextjustering.

Det finns också alternativa vägar för avancerade användare, till exempel Installera LLM på Windows 11Ramverk som call.cpp och typbibliotek GGML är optimerade för RTX, med nya ansträngningar inom minska CPU-belastningen och dra nytta CUDA-graferParallellt, Microsoft AI Foundry Lokalt (i förhandsvisning) Integrera modeller via CLI, SDK eller API:er med CUDA- och TensorRT-acceleration.

Exklusivt innehåll - Klicka här  Hur man använder Autoruns för att ta bort program som startar automatiskt utan tillstånd

I ekosystemet av verktyg, Intel AI Playground 2.6.0 har införlivat gpt-oss-20b bland sina alternativUppdateringen lägger till finjusterad versionskontroll för backends och revisioner av ramverk som OpenVINO, ComfyUI y call.cpp (med stöd av Vulkan och kontextjustering), underlättande stabila lokala miljöer.

Som en riktlinje för uppstart, kontrollera Tillgängligt VRAM, ladda ner modellvarianten som passar din GPU, validera tokenhastighet med representativa uppmaningar och justerar sammanhangsfönster för att hålla all belastning på grafikkortet.

Med dessa delar är det möjligt att bygga assistenter för sökning och analys, Verktyg forskning eller stöd för programmering som körs helt på datorn, vilket bibehåller datasuveräniteten.

Kombinationen av gpt-oss-20b med RTX-acceleration, noggrann VRAM-hantering och verktyg som Ollama, llama.cpp eller AI Playground cementerar ett moget alternativ för att köra logisk AI lokalt; en väg som balanserar prestanda, kostnad och integritet utan att förlita sig på externa tjänster.

gpt-oss-120b
Relaterad artikel:
OpenAI släpper gpt-oss-120b: deras hittills mest avancerade modell med öppna vikter.