Evo kako lokalno raditi s gpt-oss-20b: šta je novo, performanse i kako ga testirati.

Posljednje ažuriranje: 01.02.2024.

  • gpt-oss-20b stiže kao model otvorene težine s lokalnim izvršenjem i dugim kontekstom (do 131.072 tokena).
  • Optimizovano za NVIDIA RTX: Prijavljene brzine do 256 t/s; VRAM preuzima održavanje performansi.
  • Jednostavan za korištenje s Ollama-om i alternativama kao što su llama.cpp, GGML i Microsoft AI Foundry Local.
  • Također dostupno u Intel AI Playground 2.6.0, s ažuriranim okvirima i poboljšanim upravljanjem okruženjem.
gpt-oss-20b na lokalnom

Dolazak gpt-oss-20b za lokalna upotreba donosi moćan model zaključivanja koji se pokreće direktno na računaru većem broju korisnika. Ovaj podsticaj, usklađen sa Optimizacija za NVIDIA RTX GPU-ove, otvara vrata zahtjevnim radnim procesima bez oslanjanja na oblak.

Fokus je jasan: ponuditi otvorene težine s vrlo dugim kontekstom za složene zadatke kao što su napredne pretrage, istraživanje, pomoć pri kodiranju ili dugi razgovori, dajući prioritet privatnost i kontrolu troškova pri radu lokalno.

Šta gpt-oss-20b pruža kada se pokreće lokalno?

Lokalno izvršavanje GPT modela otvorene težine

Porodica gpt-oss debituje sa modelima otvoreni utezi dizajnirano za jednostavnu integraciju u vaša vlastita rješenja. Konkretno, gpt-oss-20b Ističe se po tome što balansira kapacitet logičkog razmišljanja i razumne hardverske zahtjeve za desktop računar.

Odlika koja odlikuje je prošireni kontekstni prozor, sa podrškom za do 131.072 tokena u gpt-oss rasponu. Ova dužina olakšava dugi razgovori, analiza obimnih dokumenata ili dubljih tokova misli bez rezova ili fragmentacije.

Ekskluzivni sadržaj - kliknite ovdje  Upravitelji datoteka

U poređenju sa zatvorenim modelima, prijedlog otvorene težine daje prioritet fleksibilnost integracije u aplikacijama: od asistenti s alatima (agenti) čak i dodaci za istraživanje, web pretraga i programiranje, a svi koriste prednost lokalnog zaključivanja.

U praktičnom smislu, paket od gpt-oss:20b je oko 13 GB instaliran u popularnim okruženjima za izvršavanje. Ovo postavlja ton za potrebne resurse i pomaže u skaliranju VRAM kako bi se održale performanse bez uskih grla.

Postoji i veća varijanta (gpt-oss-120b), dizajnirana za scenarije sa obilnije grafičke resurseMeđutim, za većinu računara, 20B To je najrealnija početna tačka zbog odnosa između brzine, memorije i kvaliteta.

Optimizacija za RTX: Brzina, kontekst i VRAM

Alati za lokalno pokretanje gpt-oss 20b

Prilagođavanje GPT-OSS modela ekosistemu NVIDIA RTX omogućava visoke stope proizvodnje. Kod vrhunske opreme, vrhovi do 256 tokena/sekundi uz odgovarajuća prilagođavanja, koristeći specifične optimizacije i preciznosti kao što su MXFP4.

Rezultati zavise od kartice, konteksta i konfiguracije. U testovima sa RTX 5080, gpt-oss 20b je dostigao oko 128 t/s sa sadržanim kontekstima (≈8k). Povećanjem Prozor od 16 hiljada i prisiljavanjem dijela opterećenja na sistemsku RAM memoriju, brzina je pala na ~50,5 t/s, pri čemu GPU obavlja većinu posla.

Ekskluzivni sadržaj - kliknite ovdje  Kako pretvoriti PDF u dokument koji se može uređivati

Pouka je jasna: Pravila VRAM-aU lokalnoj umjetnoj inteligenciji, a RTX 3090 sa više memorije Može raditi bolje od novijeg GPU-a, ali s manje VRAM-a, jer sprječava prelijevanje. memoria del sistema i dodatnu intervenciju CPU-a.

Za gpt-oss-20b, zgodno je uzeti veličinu modela kao referencu: otprilike 13 GB više prostora za KV cache i intenzivne zadatke. Kao kratak vodič, preporučuje se imati 16 GB VRAM-a barem i ciljajte na 24 GB ako se očekuju dugi konteksti ili kontinuirana opterećenja.

Oni koji žele iskoristiti hardver mogu istražiti efikasne preciznosti (kao što je MXFP4), prilagodite dužinu konteksta ili pribjegnite konfiguracijama s više GPU-ova kada je to izvodljivo, uvijek imajući cilj izbjegavajte zamjene prema RAM-u.

Instalacija i upotreba: Ollama i druge rute

Performanse GPT-OSS-a na RTX grafičkim procesorima

Da biste testirali model na jednostavan način, Ollama nudi direktno iskustvo na računarima s RTX procesorima: Omogućava vam preuzimanje, pokretanje i ćaskanje s GPT-OSS-20B bez složenih konfiguracija., pored podrške za PDF-ove, tekstualne datoteke, upite sa slikama i prilagođavanje konteksta.

Postoje i alternativne rute za napredne korisnike, na primjer Instalirajte LLM na Windows 11Okviri poput llama.cpp i biblioteke tipova GGML su optimizovani za RTX, s nedavnim naporima u smanjite opterećenje CPU-a y aprovechar CUDA GraphsParalelno, Microsoft AI Foundry Local (u pregledu) Integrirajte modele putem CLI-ja, SDK-a ili API-ja s CUDA i TensorRT ubrzanjem.

Ekskluzivni sadržaj - kliknite ovdje  Kako sačuvati i otvoriti komprimovane datoteke pomoću StuffIt Deluxe-a?

U ekosistemu alata, Intel AI igralište 2.6.0 je uključio gpt-oss-20b među svoje opcijeAžuriranje dodaje detaljnu kontrolu verzija za backendove i revizije okvira kao što su OpenVINO, udoban korisnički interfejs y llama.cpp (uz podršku Vulkan i prilagođavanje kontekstu), olakšavanje stabilna lokalna okruženja.

Kao smjernicu za početak, provjerite Dostupna VRAM memorija, preuzmite varijantu modela koja odgovara vašem GPU-u, potvrdite brzina tokena s reprezentativnim uputama i prilagođava kontekstni prozor da bi svo opterećenje bilo na grafičkoj kartici.

Sa ovim dijelovima moguće je napraviti asistente za pretraga i analiza, herramientas de istraga ili podrške programiranje koji se u potpunosti izvršavaju na računaru, održavajući suverenitet podataka.

Kombinacija gpt-oss-20b s RTX ubrzanjem, pažljivim upravljanjem VRAM-om i alatima poput Ollama, llama.cpp ili AI Playground učvršćuje zrelu opciju za lokalno pokretanje umjetne inteligencije zasnovane na razmišljanju; put koji balansira performanse, troškove i privatnost bez oslanjanja na vanjske usluge.

gpt-oss-120b
Povezani članak:
OpenAI objavljuje gpt-oss-120b: svoj najnapredniji model otvorenih težina do sada.