Dyma sut i weithio gyda gpt-oss-20b yn lleol: beth sy'n newydd, perfformiad, a sut i'w brofi.

Diweddariad diwethaf: 28/08/2025

  • Mae gpt-oss-20b yn cyrraedd fel model pwysau agored gyda gweithrediad lleol a chyd-destun hir (hyd at 131.072 o docynnau).
  • Wedi'i optimeiddio ar gyfer NVIDIA RTX: Cyflymderau a adroddwyd hyd at 256 t/s; Mae VRAM yn cymryd yr awenau i gynnal perfformiad.
  • Hawdd ei ddefnyddio gydag Ollama a dewisiadau eraill fel llama.cpp, GGML, a Microsoft AI Foundry Local.
  • Hefyd ar gael yn Intel AI Playground 2.6.0, gyda fframweithiau wedi'u diweddaru a rheolaeth amgylchedd well.
gpt-oss-20b ar leol

Cyrhaeddiad gpt-oss-20b ar gyfer defnydd lleol yn dod â model rhesymu pwerus sy'n rhedeg yn uniongyrchol ar y cyfrifiadur i fwy o ddefnyddwyr. Mae'r gwthiad hwn, wedi'i alinio â'r Optimeiddio ar gyfer GPUs NVIDIA RTX, yn agor y drws i lifau gwaith heriol heb ddibynnu ar y cwmwl.

Mae'r ffocws yn glir: cynnig pwysau agored gyda chyd-destun hir iawn ar gyfer tasgau cymhleth fel chwiliadau uwch, ymchwil, cymorth cod neu sgyrsiau hir, gan flaenoriaethu'r Preifatrwydd a rheoli costau wrth weithio'n lleol.

Beth mae gpt-oss-20b yn ei ddarparu wrth redeg yn lleol?

Gweithredu modelau GPT pwysau agored yn lleol

Mae'r teulu gpt-oss yn ymddangos am y tro cyntaf gyda modelau o pwysau agored wedi'i gynllunio i'w integreiddio'n hawdd i'ch atebion eich hun. Yn benodol, gpt-oss-20b Mae'n sefyll allan am gydbwyso gallu rhesymu a gofynion caledwedd rhesymol ar gyfer cyfrifiadur personol bwrdd gwaith.

Nodwedd nodedig yw'r ffenestr gyd-destun estynedig, gyda chefnogaeth i hyd at 131.072 o docynnau yn yr ystod gpt-oss. Mae'r hyd hwn yn hwyluso sgyrsiau hir, dadansoddiad o ddogfennau swmpus neu gadwyni meddwl dyfnach heb doriadau na darnio.

Cynnwys unigryw - Cliciwch Yma  Faint o RAM sydd ei angen ar Windows 10?

O'i gymharu â modelau caeedig, mae'r cynnig pwysau agored yn blaenoriaethu'r hyblygrwydd integreiddio mewn ceisiadau: o cynorthwywyr gydag offer (asiantau) hyd yn oed ategion ar gyfer ymchwil, chwiliadau gwe a rhaglennu, pob un yn manteisio ar gasgliad lleol.

Yn ymarferol, y pecyn o Mae gpt-oss:20b tua 13 GB wedi'i osod mewn amgylcheddau amser rhedeg poblogaidd. Mae hyn yn gosod y naws ar gyfer yr adnoddau sydd eu hangen ac yn helpu i raddio'r VRAM i gynnal perfformiad heb rwystrau.

Mae yna amrywiad mwy hefyd (gpt-oss-120b), wedi'i gynllunio ar gyfer senarios gyda adnoddau graffig mwy helaethAr gyfer y rhan fwyaf o gyfrifiaduron personol, fodd bynnag, y 20B Dyma'r man cychwyn mwyaf realistig oherwydd ei berthynas rhwng cyflymder, cof ac ansawdd.

Optimeiddio ar gyfer RTX: Cyflymder, Cyd-destun, a VRAM

Offer i redeg gpt-oss 20b yn lleol

Addasu modelau GPT-OSS i'r ecosystem NVIDIA RTX yn caniatáu cyfraddau cynhyrchu uchel. Mewn offer pen uchel, uchafbwyntiau o hyd at 256 tocyn/eiliad gyda addasiadau priodol, gan fanteisio ar optimeiddiadau a manylderau penodol fel MXFP4.

Mae'r canlyniadau'n dibynnu ar y cerdyn, y cyd-destun, a'r ffurfweddiad. Mewn profion gyda RTX 5080, cyrhaeddodd gpt-oss 20b tua 128 t/e gyda chyd-destunau cynhwysol (≈8k). Drwy gynyddu'r ffenestr 16k a gorfodi rhywfaint o'r llwyth i RAM y system, gostyngodd y gyfradd i ~50,5 t/e, gyda'r GPU yn gwneud y rhan fwyaf o'r gwaith.

Cynnwys unigryw - Cliciwch Yma  Sut i brosesu Rfc

Mae'r wers yn glir: y Rheolau VRAMMewn deallusrwydd artiffisial lleol, a RTX 3090 gyda mwy o gof Gall berfformio'n well na GPU mwy newydd ond gyda llai o VRAM, oherwydd ei fod yn atal gorlif i'r cof system ac ymyrraeth ychwanegol y CPU.

Ar gyfer gpt-oss-20b, mae'n gyfleus cymryd maint y model fel cyfeirnod: tua 13 GB mwy o le i'r storfa KV a thasgau dwys. Fel canllaw cyflym, argymhellir cael VRAM 16 GB o leiaf ac anelu at 24 GB os rhagwelir cyd-destunau hir neu lwythi parhaus.

Gall y rhai sy'n edrych i wasgu'r caledwedd archwilio manwl gywirdeb effeithlon (fel MXFP4), addasu hyd y cyd-destun neu droi at gyfluniadau aml-GPU pan fo hynny'n ymarferol, gan gadw'r nod bob amser o osgoi cyfnewidiadau tuag at RAM.

Gosod a defnyddio: Ollama a llwybrau eraill

Perfformiad GPT-OSS ar GPUs RTX

I brofi'r model mewn ffordd syml, Olama yn cynnig profiad uniongyrchol ar gyfrifiaduron RTX: Yn caniatáu ichi lawrlwytho, rhedeg a sgwrsio gyda GPT-OSS-20B heb gyfluniadau cymhleth., yn ogystal â chefnogi ffeiliau PDF, ffeiliau testun, awgrymiadau delwedd, ac addasu cyd-destun.

Mae llwybrau amgen hefyd ar gyfer defnyddwyr uwch, er enghraifft Gosod LLM ar Windows 11Fframweithiau fel galwad.cpp a llyfrgelloedd math GGML wedi'u optimeiddio ar gyfer RTX, gydag ymdrechion diweddar yn lleihau llwyth y CPU a manteisio Graffiau CUDAOchr yn ochr â hynny, Ffowndri Microsoft AI Lleol (mewn rhagolwg) Integreiddio modelau trwy CLI, SDK neu APIs gyda chyflymiad CUDA a TensorRT.

Cynnwys unigryw - Cliciwch Yma  Sut i ddefnyddio Autoruns i gael gwared ar raglenni sy'n cychwyn yn awtomatig heb ganiatâd

Yn ecosystem yr offer, Maes Chwarae Intel AI 2.6.0 wedi ymgorffori gpt-oss-20b ymhlith ei opsiynauMae'r diweddariad yn ychwanegu rheolaeth fersiynau manwl ar gyfer backends a diwygiadau i fframweithiau fel OpenVINO, ComfyUI y galwad.cpp (gyda chefnogaeth Vulkan ac addasu cyd-destun), hwyluso amgylcheddau lleol sefydlog.

Fel canllaw cychwyn, gwiriwch y VRAM sydd ar gael, lawrlwythwch yr amrywiad model sy'n cyd-fynd â'ch GPU, dilyswch y cyflymder tocyn gyda chyfarwyddiadau cynrychioliadol ac yn addasu'r ffenestr cyd-destun i gadw'r holl lwyth ar y cerdyn graffeg.

Gyda'r darnau hyn, mae'n bosibl adeiladu cynorthwywyr ar gyfer chwilio a dadansoddi, offer o ymchwil neu gefnogaethau o rhaglennu sy'n rhedeg yn gyfan gwbl ar y cyfrifiadur, gan gynnal sofraniaeth data.

Mae'r cyfuniad o gpt-oss-20b gyda chyflymiad RTX, rheolaeth ofalus o VRAM, ac offer fel Ollama, llama.cpp, neu AI Playground yn cadarnhau opsiwn aeddfed ar gyfer rhedeg AI rhesymu yn lleol; llwybr sy'n cydbwyso perfformiad, cost, a phreifatrwydd heb ddibynnu ar wasanaethau allanol.

gpt-oss-120b
Erthygl gysylltiedig:
Mae OpenAI yn rhyddhau gpt-oss-120b: ei fodel pwysau agored mwyaf datblygedig hyd yn hyn.