Svona á að vinna með gpt-oss-20b staðbundið: hvað er nýtt, afköst og hvernig á að prófa það.

Síðasta uppfærsla: 28/08/2025

  • gpt-oss-20b kemur út sem opin-þyngdarlíkan með staðbundinni keyrslu og löngu samhengi (allt að 131.072 tákn).
  • Bjartsýni fyrir NVIDIA RTX: Tilkynntur hraði allt að 256 t/s; VRAM tekur við til að viðhalda afköstum.
  • Auðvelt í notkun með Ollama og öðrum valkostum eins og llama.cpp, GGML og Microsoft AI Foundry Local.
  • Einnig fáanlegt í Intel AI Playground 2.6.0, með uppfærðum ramma og bættri umhverfisstjórnun.
gpt-oss-20b á staðnum

Komu gpt-oss-20b fyrir staðbundin notkun færir fleiri notendum öfluga rökhugsunarlíkan sem keyrir beint á tölvunni. Þessi átak, í samræmi við Hagnýting fyrir NVIDIA RTX skjákort, opnar dyrnar að krefjandi vinnuflæði án þess að reiða sig á skýið.

Áherslan er skýr: að bjóða upp á opin þyngd með mjög löngu samhengi fyrir flókin verkefni eins og ítarlegar leitir, rannsóknir, aðstoð við kóðun eða löng spjall, að forgangsraða Persónuvernd og kostnaðarstýringu þegar unnið er á staðnum.

Hvað býður gpt-oss-20b upp á þegar það keyrir staðbundið?

Staðbundin framkvæmd á opnum GPT líkönum

gpt-oss fjölskyldan frumsýnir með líkönum af opnar lóðir hannað til að auðvelt sé að samþætta það í þínar eigin lausnir. Nánar tiltekið, gpt-oss-20b Það sker sig úr fyrir að finna jafnvægi á milli rökhugsunargetu og sanngjarnra vélbúnaðarkrafna fyrir borðtölvur.

Sérkenni er útvíkkaður samhengisgluggi, með stuðningi fyrir allt að 131.072 tákn í gpt-oss sviðinu. Þessi lengd auðveldar langar samræður, greining á umfangsmiklum skjölum eða dýpri hugsanakeðjum án klippinga eða sundurliðunar.

Einkarétt efni - Smelltu hér  Hversu mikið vinnsluminni þarf Windows 10?

Í samanburði við lokaðar gerðir forgangsraðar tillagan með opnu þyngd sveigjanleiki í samþættingu í forritum: frá aðstoðarmenn með verkfæri (umboðsmenn) jafnvel viðbætur fyrir rannsóknir, vefleit og forritun, allt að nýta sér staðbundna ályktun.

Í reynd er pakkinn af gpt-oss:20b er um 13 GB uppsett í vinsælum keyrsluumhverfum. Þetta setur tóninn fyrir nauðsynlegar auðlindir og hjálpar til við að stækka VRAM til að viðhalda afköstum án flöskuhálsa.

Einnig er til stærri útgáfa (gpt-oss-120b), hönnuð fyrir aðstæður með ríkulegri grafíkúrfumFyrir flestar tölvur er hins vegar 20B Þetta er raunhæfasti upphafspunkturinn vegna tengsla hans milli hraða, minnis og gæða.

Að fínstilla fyrir RTX: Hraði, samhengi og VRAM

Tól til að keyra gpt-oss 20b staðbundið

Aðlögun GPT-OSS líköna að vistkerfinu NVIDIA RTX gerir kleift að framleiða mikið magn. Í hágæða búnaði, hámark allt að 256 tákn/sekúndu með viðeigandi leiðréttingum, með því að nýta sér sértækar hagræðingar og nákvæmni eins og MXFP4.

Niðurstöður eru háðar kortinu, samhenginu og stillingunum. Í prófunum með RTX 5080, gpt-oss 20b náði um það bil 128 t/s með innilokuðu samhengi (≈8k). Með því að auka 16 þúsund gluggi og þvingaði hluta af álaginu inn í vinnsluminni kerfisins, hraðinn lækkaði í ~50,5 t/s, þar sem GPU-ið sér um mestallan verkið.

Einkarétt efni - Smelltu hér  Hvernig á að vinna úr Rfc

Lærdómurinn er skýr: VRAM reglurÍ staðbundinni gervigreind, a RTX 3090 með meira minni Það getur virkað betur en nýrri GPU en með minna VRAM, því það kemur í veg fyrir yfirflæði til kerfisminni og auka íhlutun örgjörvans.

Fyrir gpt-oss-20b er þægilegt að taka stærð líkansins sem viðmiðun: u.þ.b. 13 GB meira pláss fyrir KV skyndiminni og krefjandi verkefni. Sem fljótleg leiðarvísir er mælt með því að hafa 16 GB af VRAM að minnsta kosti og stefna að því 24 GB ef gert er ráð fyrir langvarandi samhengi eða viðvarandi álagi.

Þeir sem vilja kreista vélbúnaðinn geta skoðað skilvirk nákvæmni (eins og MXFP4), aðlaga lengd samhengisins eða grípa til stillinga fyrir margar skjákort þegar það er mögulegt, alltaf með það að markmiði að forðastu skipti í átt að vinnsluminni.

Uppsetning og notkun: Ollama og aðrar leiðir

GPT-OSS afköst á RTX skjákortum

Til að prófa líkanið á einfaldan hátt, Ollama býður upp á beina upplifun á RTX-knúnum tölvum: Gerir þér kleift að hlaða niður, keyra og spjalla við GPT-OSS-20B án flókinna stillinga., auk þess að styðja PDF skjöl, textaskrár, myndleiðbeiningar og samhengisstillingar.

Einnig eru til aðrar leiðir fyrir lengra komna notendur, til dæmis Setja upp LLM á Windows 11Rammar eins og call.cpp og tegundarbókasöfn GGML eru fínstilltar fyrir RTX, með nýlegri viðleitni í minnka álag á örgjörva og nýta CUDA gröfSamhliða, Microsoft AI Foundry Local (í forskoðun) Samþættu líkön í gegnum CLI, SDK eða API með CUDA og TensorRT hröðun.

Einkarétt efni - Smelltu hér  Hvernig á að nota Autoruns til að fjarlægja forrit sem ræsast sjálfkrafa án leyfis

Í vistkerfi verkfæra, Intel AI Playground 2.6.0 hefur innlimað gpt-oss-20b meðal valmöguleika sinnaUppfærslan bætir við nákvæmri útgáfustýringu fyrir bakenda og endurbætur á ramma eins og OpenVINO, Þægilegt notendaviðmót y call.cpp (með stuðningi frá Vulkan og aðlögun að samhengi), auðvelda stöðugt staðbundið umhverfi.

Sem leiðbeiningar fyrir upphaf, athugaðu Tiltækt VRAM, sæktu gerðina sem passar við skjákortið þitt, staðfestu táknhraði með fyrirmælum fulltrúa og aðlagar samhengisgluggi til að halda öllu álagi á skjákortið.

Með þessum hlutum er hægt að smíða aðstoðarmenn fyrir leit og greining, verkfæri af rannsóknir eða stuðningur við forritun sem keyra alfarið á tölvunni og viðhalda yfirráðum gagna.

Samsetning gpt-oss-20b með RTX hröðun, nákvæmri VRAM stjórnun og tólum eins og Ollama, llama.cpp eða AI Playground setur þroskaðan valkost fyrir að keyra rökvísa gervigreind staðbundið; leið sem vegur á milli afkasta, kostnaðar og friðhelgi án þess að reiða sig á utanaðkomandi þjónustu.

gpt-oss-120b
Tengd grein:
OpenAI gefur út gpt-oss-120b: háþróaðasta opna þyngdarlíkanið sitt til þessa.