- gpt-oss-20b arriba com a model open-weight amb execució local i context llarg (fins a 131.072 tokens).
- Optimitzat per a NVIDIA RTX: velocitats reportades de fins a 256 t/s; la VRAM mana per mantenir el rendiment.
- Ús senzill amb Ollama i alternatives com truca.cpp, GGML i Microsoft AI Foundry Local.
- Disponible també a Intel AI Playground 2.6.0, amb frameworks actualitzats i millor gestió d'entorns.
L'arribada de gpt-oss-20b per ús local posa a l'abast de més usuaris un model de raonament potent que s'executa directament al PC. Aquest impuls, alineat amb la optimització per a GPUs NVIDIA RTX, obre la porta a fluxos de treball exigents sense dependre del núvol.
L'enfocament és clar: oferir open-weight amb context molt llarg per a tasques complexes com cerques avançades, investigació, assistència de codi o xats prolongats, prioritzant la privacitat i el control de costos en treballar en local.
Què aporta gpt-oss-20b en execució local

La família gpt-oss debuta amb models de pesos oberts dissenyats per integrar-se amb facilitat en solucions pròpies. En concret, gpt-oss-20b destaca per equilibrar capacitat de raonament i requisits de maquinari raonables per a un PC descriptori.
Un tret diferencial és la finestra de context estesa, amb suport de fins a 131.072 tokens a la gamma gpt-oss. Aquesta longitud facilita converses extenses, anàlisi de documents voluminosos o cadenes de pensament més profundes sense talls ni fragmentació.
Enfront de models tancats, la proposta open-weight prioritza la flexibilitat d'integració en aplicacions: des assistents amb eines (agents) fins a plugins per investigació, cerca web i programació, tot aprofitant la inferència local.
En termes pràctics, el paquet de gpt-oss:20b ronda els 13 GB instal·lat en entorns populars dexecució. Això marca la pauta dels recursos necessaris i ajuda a dimensionar la VRAM per mantenir el rendiment sense colls dampolla.
Hi ha també una variant més gran (gpt-oss-120b), pensada per a escenaris amb recursos gràfics més folgats. Per a la majoria de PCs, però, 20B és el punt de partida més realista per la relació entre velocitat, memòria i qualitat.
Optimització per a RTX: velocitat, context i VRAM

L'adaptació dels models gpt-oss a l'ecosistema NVIDIA RTX permet taxes de generació elevades. En equips topall de gamma, s'han reportat pics de fins a 256 tokens/segon amb ajustaments adequats, aprofitant optimitzacions i precisions específiques com MXFP4.
Els resultats depenen de la targeta, el context i la configuració. En proves amb una RTX 5080, gpt-oss 20b va aconseguir al voltant de 128 t/s amb contextos continguts (≈8k). En augmentar la finestra a 16k i forçar part de la càrrega a la RAM del sistema, el ritme va caure a ~50,5 t/s, amb el GPU mantenint la major part del treball.
La lliçó és clara: la VRAM mana. A IA local, una RTX 3090 amb més memòria pot rendir millor que una GPU més nova però amb menys VRAM, perquè evita el desbordament cap a la memòria de sistema i la intervenció extra del CPU.
Per a gpt-oss-20b, convé prendre com a referència la mida del model: uns 13 GB més marge per al KV cache i tasques intensives. Com a guia ràpida, es recomana disposar de 16 GB de VRAM com a mínim i apuntar a 24 GB si es preveuen contextos llargs o càrregues sostingudes.
Els que busquen esprémer el maquinari poden explorar precisions eficients (com MXFP4), ajustar la longitud de context o recórrer a configuracions multi-GPU quan sigui viable, mantenint sempre l'objectiu de evitar swaps cap a la RAM.
Instal·lació i ús: Ollama i altres vies

Per provar el model de forma senzilla, Ollama ofereix una experiència directa en PCs amb RTX: permet descarregar, executar i xatejar amb gpt-oss-20b sense configuracions complexes, a més d'admetre PDFs, arxius de text, prompts amb imatges i ajustament de context.
També hi ha rutes alternatives per a usuaris avançats, per exemple instal·lar LLM a Windows 11. Frameworks com truca.cpp i biblioteques tipus GGML estan optimitzades per a RTX, amb esforços recents en reduir la càrrega de CPU i aprofitar CUDA Graphs. En paral·lel, Microsoft AI Foundry Local (en vista prèvia) integra models via CLI, SDK o APIs amb acceleració CUDA i TensorRT.
A l'ecosistema d'eines, Intel AI Playground 2.6.0 ha incorporat gpt-oss-20b entre les opcions. L'actualització afegeix control fi de versionat de backends i revisions de frameworks com OpenVINO, ComfyUI y truca.cpp (amb suport de Vulkan i ajust de context), facilitant entorns locals estables.
Com a pauta de posada en marxa, verifica la VRAM disponible, descarrega la variant del model que encaixi amb el teu GPU, valida la velocitat de tokens amb prompts representatius i ajusta la finestra de context per mantenir tota la càrrega a la targeta gràfica.
Amb aquestes peces, és possible construir assistents per cerca i anàlisi, Eines de investigació o suports de programació que funcionen íntegrament a l'ordinador, mantenint la sobirania sobre les dades.
La combinació de gpt-oss-20b amb acceleració en RTX, un maneig curós de la VRAM i eines com Ollama, truca.cpp o AI Playground consolida una opció madura per executar IA de raonament en local; una via que equilibra rendiment, cost i privadesa sense dependre de serveis externs.
Sóc un apassionat de la tecnologia que ha convertit els seus interessos frikis en professió. Porto més de 10 anys de la meva vida utilitzant tecnologia d'avantguarda i traslladant tota mena de programes per pura curiositat. Ara he especialitzat en tecnologia d'ordinador i videojocs. Això és perquè des de fa més de 5 anys que treballo redactant per a diverses webs en matèria de tecnologia i videojocs, creant articles que busquen donar-te la informació que necessites amb un llenguatge comprensible per tothom.
Si tens qualsevol pregunta, els meus coneixements van des de tot allò relacionat amb el sistema operatiu Windows així com Android per a mòbils. I és que el meu compromís és amb tu, sempre estic disposat a dedicar-te uns minuts i ajudar-te a resoldre qualsevol dubte que tinguis a aquest món d'internet.