Орон нутгийн хэмжээнд gpt-oss-20b-тэй хэрхэн ажиллах талаар эндээс үзнэ үү: шинэ зүйл юу вэ, гүйцэтгэл, түүнийг хэрхэн шалгах вэ.

Сүүлийн шинэчлэлт: 28/08/2025

  • gpt-oss-20b нь орон нутгийн гүйцэтгэл, урт контекст (131.072 жетон хүртэл) бүхий нээлттэй загвараар ирдэг.
  • NVIDIA RTX-д тохирсон: 256 т/с хүртэл хурдтай гэж мэдээлсэн; VRAM нь гүйцэтгэлийг хадгалахын тулд үүрэг гүйцэтгэдэг.
  • Ollama болон llama.cpp, GGML, Microsoft AI Foundry Local зэрэг хувилбаруудыг ашиглахад хялбар.
  • Мөн Intel AI Playground 2.6.0 хувилбар дээр шинэчлэгдсэн хүрээ, сайжруулсан орчны менежменттэй.
gpt-oss-20b локал дээр

Ирэх нь gpt-oss-20b орон нутгийн хэрэглээ PC дээр шууд ажилладаг хүчирхэг үндэслэлийн загварыг илүү олон хэрэглэгчдэд хүргэдэг. Энэ түлхэлттэй нийцүүлэн NVIDIA RTX GPU-д зориулсан оновчлол, үүлэнд найдалгүйгээр ажлын урсгалыг шаардах үүд хаалгыг нээж өгдөг.

Гол анхаарал нь тодорхой байна: санал болгох маш урт контекст бүхий нээлттэй жин Нарийвчилсан хайлт, судалгаа, кодын тусламж эсвэл урт чат зэрэг нарийн төвөгтэй ажлуудыг эрэмбэлэх хувийн нууцлал орон нутагт ажиллах үед зардлын хяналт.

gpt-oss-20b нь орон нутагт ажиллахад юу өгдөг вэ?

Нээлттэй жинтэй GPT загваруудын орон нутгийн гүйцэтгэл

gpt-oss гэр бүлийн загварууд нь дебютээ нээлттэй жин өөрийн шийдэлд хялбархан нэгтгэх зориулалттай. Тодруулбал, gpt-oss-20b Энэ нь ширээний компьютерт тавих үндэслэл ба техник хангамжийн шаардлагыг тэнцвэржүүлдгээрээ онцлог юм.

Онцлог шинж чанар нь өргөтгөсөн контекст цонх, gpt-oss хүрээн дэх 131.072 хүртэлх жетоныг дэмждэг. Энэ урт нь хөнгөвчлөх болно урт яриа, их хэмжээний баримт бичгүүдэд дүн шинжилгээ хийх эсвэл илүү гүн гүнзгий бодлын хэлхээг огтлох, хуваахгүйгээр хийх.

Онцгой контент - Энд дарна уу  Windows 10-д хэр хэмжээний RAM хэрэгтэй вэ?

Хаалттай загвартай харьцуулахад нээлттэй жингийн саналыг тэргүүлэх ач холбогдол өгдөг интеграцийн уян хатан байдал програмуудад: -аас багаж хэрэгсэл (агент) бүхий туслахууд зориулсан залгаасууд хүртэл судалгаа, вэб хайлт, програмчлал, бүгд орон нутгийн дүгнэлтийг ашиглан.

Практикийн хувьд багц gpt-oss:20b нь ойролцоогоор 13 ГБ байна алдартай ажиллах цагийн орчинд суулгасан. Энэ нь шаардлагатай нөөцийн аяыг тогтоож, хэмжээг нэмэгдүүлэхэд тусалдаг VRAM саад бэрхшээлгүйгээр гүйцэтгэлийг хадгалах.

Мөн хувилбарт зориулагдсан илүү том хувилбар (gpt-oss-120b) байдаг илүү өргөн график нөөц. Гэсэн хэдий ч ихэнх компьютеруудын хувьд 20B Энэ нь хурд, санах ой, чанарын хоорондын хамаарлаас шалтгаалан хамгийн бодит эхлэх цэг юм.

RTX-ийг оновчтой болгох: Хурд, контекст болон VRAM

gpt-oss 20b-г дотооддоо ажиллуулах хэрэгслүүд

GPT-OSS загваруудыг экосистемд тохируулах NVIDIA RTX үүсгүүрийн өндөр хурдыг бий болгох боломжийг олгодог. Дээд зэрэглэлийн тоног төхөөрөмжид, 256 жетон/секунд хүртэлх оргилууд зэрэг тодорхой оновчлол, нарийвчлалын давуу талыг ашиглан зохих тохируулгатай MXFP4.

Үр дүн нь карт, контекст, тохиргооноос хамаарна. А-тай хийсэн туршилтуудад RTX 5080, gpt-oss 20b эргэн тойронд хүрсэн 128 т/с агуулж буй контекстүүдтэй (≈8k). нэмэгдүүлэх замаар 16к цонх мөн ачааллын зарим хэсгийг системийн RAM-д хүчээр оруулахад хурд нь ~ болж буурсан50,5 т/с, GPU ихэнх ажлыг хийдэг.

Онцгой контент - Энд дарна уу  Rfc-г хэрхэн боловсруулах вэ

Сургамж тодорхой байна: the VRAM дүрэм. Орон нутгийн хиймэл оюун ухаанд a Илүү их санах ойтой RTX 3090 Энэ нь шинэ GPU-ээс илүү сайн ажиллах боломжтой боловч бага VRAM-тай, учир нь энэ нь халихаас сэргийлдэг системийн санах ой болон CPU-ийн нэмэлт оролцоо.

Gpt-oss-20b-ийн хувьд загварын хэмжээг лавлагаа болгон авах нь тохиромжтой: тухай 13 GB илүү их зай КВ кэш болон эрчимтэй ажлууд. Хурдан гарын авлагын хувьд үүнийг хийхийг зөвлөж байна 16 ГБ VRAM наад зах нь, зорилго 24 GB хэрвээ урт хугацааны контекст эсвэл тогтвортой ачааллыг хүлээж байгаа бол.

Техник хангамжийг шахах гэж байгаа хүмүүс судалж болно үр ашигтай нарийвчлал (MXFP4 гэх мэт), контекстийн уртыг тохируулах эсвэл боломжтой бол олон GPU тохиргоог ашиглан, солилцохоос зайлсхий RAM руу.

Суурилуулалт ба ашиглалт: Оллама болон бусад замууд

RTX GPU дээрх GPT-OSS гүйцэтгэл

Загварыг энгийн аргаар туршихын тулд, Оллама RTX-ээр ажилладаг компьютер дээр шууд туршлагыг санал болгодог: Нарийн төвөгтэй тохиргоогүйгээр GPT-OSS-20B-г татаж авах, ажиллуулах, чатлах боломжийг танд олгоно., PDF файл, текст файл, зургийн сануулга, контекст тохируулгыг дэмжихээс гадна.

Жишээлбэл, ахисан түвшний хэрэглэгчдэд зориулсан өөр замууд байдаг Windows 11 дээр LLM суулгана уу. гэх мэт хүрээнүүд call.cpp ба төрлийн номын сангууд GGML Сүүлийн үеийн хүчин чармайлтаар RTX-д зориулж оновчтой болгосон CPU-ийн ачааллыг багасгах давуу талыг ашиглах CUDA графикууд. Үүний зэрэгцээ, Microsoft AI Foundry Local (урьдчилан үзэхэд) CUDA болон TensorRT хурдатгал бүхий CLI, SDK эсвэл API-ээр дамжуулан загваруудыг нэгтгэх.

Онцгой контент - Энд дарна уу  Зөвшөөрөлгүйгээр автоматаар эхлүүлдэг програмуудыг устгахын тулд Autoruns-ийг хэрхэн ашиглах вэ

Багаж хэрэгслийн экосистемд, Intel AI тоглоомын талбай 2.6.0 сонголтууддаа gpt-oss-20b-г оруулсанШинэчлэлт нь фреймворкуудын арын хэсэг болон засварт зориулсан нарийн ширхэгтэй хувилбарын хяналтыг нэмдэг OpenVINO, ComfyUI y call.cpp (-ын дэмжлэгтэйгээр Vulkan болон контекст тохируулга), хөнгөвчлөх орон нутгийн тогтвортой орчин.

Эхлэх заавар болгон шалгана уу Боломжтой VRAM, өөрийн GPU-д тохирох загварын хувилбарыг татаж аваад баталгаажуулна уу тэмдгийн хурд төлөөллийн сануулгууд болон тохируулна контекст цонх график карт дээрх бүх ачааллыг хадгалах.

Эдгээр хэсгүүдийн тусламжтайгаар туслахуудыг бүтээх боломжтой хайлт, дүн шинжилгээ хийх, багаж хэрэгсэл мөрдөн байцаалт эсвэл дэмждэг програмчлал өгөгдлийн бүрэн эрхийг хадгалан компьютер дээр бүрэн ажилладаг.

Gpt-oss-20b-ийн RTX хурдатгал, болгоомжтой VRAM удирдлага, Ollama, llama.cpp, эсвэл AI тоглоомын талбай зэрэг хэрэгслүүдтэй хослуулсан нь оюун ухааныг орон нутагт ажиллуулах боловсронгуй сонголтыг бий болгодог; гадны үйлчилгээнд найдахгүйгээр гүйцэтгэл, зардал, нууцлалыг тэнцвэржүүлдэг зам.

gpt-oss-120b
Холбоотой нийтлэл:
OpenAI gpt-oss-120b-г гаргасан: түүний өнөөг хүртэл хамгийн дэвшилтэт нээлттэй жингийн загвар.