Evo kako lokalno raditi s gpt-oss-20b: što je novo, performanse i kako ga testirati.

Zadnje ažuriranje: 28/08/2025

  • gpt-oss-20b dolazi kao model otvorene težine s lokalnim izvršenjem i dugim kontekstom (do 131.072 tokena).
  • Optimizirano za NVIDIA RTX: Prijavljene brzine do 256 t/s; VRAM preuzima održavanje performansi.
  • Jednostavno za korištenje s Ollamom i alternativama kao što su llama.cpp, GGML i Microsoft AI Foundry Local.
  • Također dostupno u Intel AI Playgroundu 2.6.0, s ažuriranim okvirima i poboljšanim upravljanjem okruženjem.
gpt-oss-20b na lokalnoj razini

Dolazak gpt-oss-20b za lokalna upotreba donosi snažan model zaključivanja koji se izvodi izravno na računalu većem broju korisnika. Ovaj poticaj, usklađen s Optimizacija za NVIDIA RTX GPU-ove, otvara vrata zahtjevnim tijekovima rada bez oslanjanja na oblak.

Fokus je jasan: ponuditi otvorene težine s vrlo dugim kontekstom za složene zadatke poput naprednih pretraga, istraživanja, pomoći s kodom ili dugih razgovora, dajući prioritet Privatnost i kontrolu troškova pri radu lokalno.

Što gpt-oss-20b pruža pri lokalnom pokretanju?

Lokalno izvršavanje GPT modela otvorene težine

Obitelj gpt-oss debitira s modelima otvoreni utezi dizajniran za jednostavnu integraciju u vaša vlastita rješenja. Konkretno, gpt-oss-20b Ističe se po uravnoteženju kapaciteta rasuđivanja i razumnih hardverskih zahtjeva za stolno računalo.

Razlikujuća karakteristika je prošireni kontekstni prozor, s podrškom za do 131.072 tokena u rasponu gpt-oss. Ova duljina olakšava dugi razgovori, analiza opsežnih dokumenata ili dubljih tokova misli bez rezanja ili fragmentacije.

Ekskluzivan sadržaj - Kliknite ovdje  Koliko RAM-a treba Windows 10?

U usporedbi sa zatvorenim modelima, prijedlog otvorene težine daje prioritet fleksibilnost integracije u aplikacijama: od asistenti s alatima (agenti) čak i dodaci za istraživanje, pretraživanje weba i programiranje, a sve to koristeći prednost lokalnog zaključivanja.

U praktičnom smislu, paket od gpt-oss:20b je oko 13 GB instaliran u popularnim okruženjima za izvođenje. To postavlja ton za potrebne resurse i pomaže u skaliranju VRAM kako bi se održale performanse bez uskih grla.

Postoji i veća varijanta (gpt-oss-120b), dizajnirana za scenarije s više grafičkih resursaMeđutim, za većinu računala, 20B To je najrealnija početna točka zbog odnosa između brzine, memorije i kvalitete.

Optimizacija za RTX: Brzina, kontekst i VRAM

Alati za lokalno pokretanje gpt-oss 20b

Prilagođavanje GPT-OSS modela ekosustavu NVIDIA RTX omogućuje visoke stope proizvodnje. U vrhunskoj opremi, vrhovi do 256 tokena/sekundi uz odgovarajuće prilagodbe, iskorištavajući specifične optimizacije i preciznosti kao što su MXFP4.

Rezultati ovise o kartici, kontekstu i konfiguraciji. U testovima s RTX 5080, gpt-oss 20b dosegao je otprilike 128 t/s sa sadržanim kontekstima (≈8k). Povećanjem 16k prozor i prisiljavanjem dijela opterećenja u sistemsku RAM memoriju, brzina je pala na ~50,5 t/s, pri čemu GPU obavlja većinu posla.

Ekskluzivan sadržaj - Kliknite ovdje  Kako obraditi Rfc

Pouka je jasna: Pravila VRAM-aU lokalnoj umjetnoj inteligenciji, a RTX 3090 s više memorije Može raditi bolje od novijeg GPU-a, ali s manje VRAM-a, jer sprječava prelijevanje. memorija sustava i dodatnu intervenciju CPU-a.

Za gpt-oss-20b, zgodno je uzeti veličinu modela kao referencu: otprilike 13 GB više prostora za KV predmemorija i intenzivne zadatke. Kao kratki vodič, preporučuje se imati 16 GB VRAM-a barem i ciljajte na 24 GB ako se očekuju dugi konteksti ili kontinuirana opterećenja.

Oni koji žele iskoristiti hardver mogu istražiti učinkovite preciznosti (kao što je MXFP4), prilagodite duljinu konteksta ili pribjegnite konfiguracijama s više GPU-ova kada je to izvedivo, uvijek imajući cilj izbjegavajte zamjene prema RAM-u.

Instalacija i upotreba: Ollama i druge rute

Performanse GPT-OSS-a na RTX GPU-ima

Za jednostavno testiranje modela, Ollama nudi izravno iskustvo na računalima s RTX procesorima: Omogućuje vam preuzimanje, pokretanje i razgovor s GPT-OSS-20B bez složenih konfiguracija., uz podršku za PDF-ove, tekstualne datoteke, slikovne upute i prilagodbu konteksta.

Postoje i alternativne rute za napredne korisnike, na primjer Instalirajte LLM na Windows 11Okviri poput poziv.cpp i biblioteke tipova GGML optimizirani su za RTX, s nedavnim naporima u smanjiti opterećenje procesora i iskoristite CUDA grafoviParalelno s tim, Lokalno za Microsoft AI Foundry (u pregledu) Integrirajte modele putem CLI-ja, SDK-a ili API-ja s CUDA i TensorRT ubrzanjem.

Ekskluzivan sadržaj - Kliknite ovdje  Kako koristiti Autoruns za uklanjanje programa koji se automatski pokreću bez dopuštenja

U ekosustavu alata, Intel AI Playground 2.6.0 uključio je gpt-oss-20b među svoje opcijeAžuriranje dodaje detaljnu kontrolu verzija za pozadinske sustave i revizije okvira kao što su OpenVINO, Udobno korisničko sučelje y poziv.cpp (uz podršku Vulkan i prilagodba kontekstu), olakšavanje stabilna lokalna okruženja.

Kao smjernicu za početak, provjerite Dostupna VRAM memorija, preuzmite varijantu modela koja odgovara vašem GPU-u, provjerite brzina tokena s reprezentativnim uputama i prilagođava kontekstni prozor kako bi svo opterećenje ostalo na grafičkoj kartici.

S ovim dijelovima moguće je izgraditi pomoćnike za pretraživanje i analiza, alati za istraživanje ili potpore programiranje koji se u potpunosti izvršavaju na računalu, održavajući suverenitet podataka.

Kombinacija gpt-oss-20b s RTX ubrzanjem, pažljivim upravljanjem VRAM-om i alatima poput Ollame, llama.cpp ili AI Playgrounda učvršćuje zrelu opciju za lokalno pokretanje umjetne inteligencije zasnovane na razmišljanju; put koji uravnotežuje performanse, troškove i privatnost bez oslanjanja na vanjske usluge.

gpt-oss-120b
Povezani članak:
OpenAI objavljuje gpt-oss-120b: svoj najnapredniji model otvorenih težina do sada.