- gpt-oss-20b нь орон нутгийн гүйцэтгэл, урт контекст (131.072 жетон хүртэл) бүхий нээлттэй загвараар ирдэг.
- NVIDIA RTX-д тохирсон: 256 т/с хүртэл хурдтай гэж мэдээлсэн; VRAM нь гүйцэтгэлийг хадгалахын тулд үүрэг гүйцэтгэдэг.
- Ollama болон llama.cpp, GGML, Microsoft AI Foundry Local зэрэг хувилбаруудыг ашиглахад хялбар.
- Мөн Intel AI Playground 2.6.0 хувилбар дээр шинэчлэгдсэн хүрээ, сайжруулсан орчны менежменттэй.
Ирэх нь gpt-oss-20b орон нутгийн хэрэглээ PC дээр шууд ажилладаг хүчирхэг үндэслэлийн загварыг илүү олон хэрэглэгчдэд хүргэдэг. Энэ түлхэлттэй нийцүүлэн NVIDIA RTX GPU-д зориулсан оновчлол, үүлэнд найдалгүйгээр ажлын урсгалыг шаардах үүд хаалгыг нээж өгдөг.
Гол анхаарал нь тодорхой байна: санал болгох маш урт контекст бүхий нээлттэй жин Нарийвчилсан хайлт, судалгаа, кодын тусламж эсвэл урт чат зэрэг нарийн төвөгтэй ажлуудыг эрэмбэлэх хувийн нууцлал орон нутагт ажиллах үед зардлын хяналт.
gpt-oss-20b нь орон нутагт ажиллахад юу өгдөг вэ?

gpt-oss гэр бүлийн загварууд нь дебютээ нээлттэй жин өөрийн шийдэлд хялбархан нэгтгэх зориулалттай. Тодруулбал, gpt-oss-20b Энэ нь ширээний компьютерт тавих үндэслэл ба техник хангамжийн шаардлагыг тэнцвэржүүлдгээрээ онцлог юм.
Онцлог шинж чанар нь өргөтгөсөн контекст цонх, gpt-oss хүрээн дэх 131.072 хүртэлх жетоныг дэмждэг. Энэ урт нь хөнгөвчлөх болно урт яриа, их хэмжээний баримт бичгүүдэд дүн шинжилгээ хийх эсвэл илүү гүн гүнзгий бодлын хэлхээг огтлох, хуваахгүйгээр хийх.
Хаалттай загвартай харьцуулахад нээлттэй жингийн саналыг тэргүүлэх ач холбогдол өгдөг интеграцийн уян хатан байдал програмуудад: -аас багаж хэрэгсэл (агент) бүхий туслахууд зориулсан залгаасууд хүртэл судалгаа, вэб хайлт, програмчлал, бүгд орон нутгийн дүгнэлтийг ашиглан.
Практикийн хувьд багц gpt-oss:20b нь ойролцоогоор 13 ГБ байна алдартай ажиллах цагийн орчинд суулгасан. Энэ нь шаардлагатай нөөцийн аяыг тогтоож, хэмжээг нэмэгдүүлэхэд тусалдаг VRAM саад бэрхшээлгүйгээр гүйцэтгэлийг хадгалах.
Мөн хувилбарт зориулагдсан илүү том хувилбар (gpt-oss-120b) байдаг илүү өргөн график нөөц. Гэсэн хэдий ч ихэнх компьютеруудын хувьд 20B Энэ нь хурд, санах ой, чанарын хоорондын хамаарлаас шалтгаалан хамгийн бодит эхлэх цэг юм.
RTX-ийг оновчтой болгох: Хурд, контекст болон VRAM

GPT-OSS загваруудыг экосистемд тохируулах NVIDIA RTX үүсгүүрийн өндөр хурдыг бий болгох боломжийг олгодог. Дээд зэрэглэлийн тоног төхөөрөмжид, 256 жетон/секунд хүртэлх оргилууд зэрэг тодорхой оновчлол, нарийвчлалын давуу талыг ашиглан зохих тохируулгатай MXFP4.
Үр дүн нь карт, контекст, тохиргооноос хамаарна. А-тай хийсэн туршилтуудад RTX 5080, gpt-oss 20b эргэн тойронд хүрсэн 128 т/с агуулж буй контекстүүдтэй (≈8k). нэмэгдүүлэх замаар 16к цонх мөн ачааллын зарим хэсгийг системийн RAM-д хүчээр оруулахад хурд нь ~ болж буурсан50,5 т/с, GPU ихэнх ажлыг хийдэг.
Сургамж тодорхой байна: the VRAM дүрэм. Орон нутгийн хиймэл оюун ухаанд a Илүү их санах ойтой RTX 3090 Энэ нь шинэ GPU-ээс илүү сайн ажиллах боломжтой боловч бага VRAM-тай, учир нь энэ нь халихаас сэргийлдэг системийн санах ой болон CPU-ийн нэмэлт оролцоо.
Gpt-oss-20b-ийн хувьд загварын хэмжээг лавлагаа болгон авах нь тохиромжтой: тухай 13 GB илүү их зай КВ кэш болон эрчимтэй ажлууд. Хурдан гарын авлагын хувьд үүнийг хийхийг зөвлөж байна 16 ГБ VRAM наад зах нь, зорилго 24 GB хэрвээ урт хугацааны контекст эсвэл тогтвортой ачааллыг хүлээж байгаа бол.
Техник хангамжийг шахах гэж байгаа хүмүүс судалж болно үр ашигтай нарийвчлал (MXFP4 гэх мэт), контекстийн уртыг тохируулах эсвэл боломжтой бол олон GPU тохиргоог ашиглан, солилцохоос зайлсхий RAM руу.
Суурилуулалт ба ашиглалт: Оллама болон бусад замууд

Загварыг энгийн аргаар туршихын тулд, Оллама RTX-ээр ажилладаг компьютер дээр шууд туршлагыг санал болгодог: Нарийн төвөгтэй тохиргоогүйгээр GPT-OSS-20B-г татаж авах, ажиллуулах, чатлах боломжийг танд олгоно., PDF файл, текст файл, зургийн сануулга, контекст тохируулгыг дэмжихээс гадна.
Жишээлбэл, ахисан түвшний хэрэглэгчдэд зориулсан өөр замууд байдаг Windows 11 дээр LLM суулгана уу. гэх мэт хүрээнүүд call.cpp ба төрлийн номын сангууд GGML Сүүлийн үеийн хүчин чармайлтаар RTX-д зориулж оновчтой болгосон CPU-ийн ачааллыг багасгах давуу талыг ашиглах CUDA графикууд. Үүний зэрэгцээ, Microsoft AI Foundry Local (урьдчилан үзэхэд) CUDA болон TensorRT хурдатгал бүхий CLI, SDK эсвэл API-ээр дамжуулан загваруудыг нэгтгэх.
Багаж хэрэгслийн экосистемд, Intel AI тоглоомын талбай 2.6.0 сонголтууддаа gpt-oss-20b-г оруулсанШинэчлэлт нь фреймворкуудын арын хэсэг болон засварт зориулсан нарийн ширхэгтэй хувилбарын хяналтыг нэмдэг OpenVINO, ComfyUI y call.cpp (-ын дэмжлэгтэйгээр Vulkan болон контекст тохируулга), хөнгөвчлөх орон нутгийн тогтвортой орчин.
Эхлэх заавар болгон шалгана уу Боломжтой VRAM, өөрийн GPU-д тохирох загварын хувилбарыг татаж аваад баталгаажуулна уу тэмдгийн хурд төлөөллийн сануулгууд болон тохируулна контекст цонх график карт дээрх бүх ачааллыг хадгалах.
Эдгээр хэсгүүдийн тусламжтайгаар туслахуудыг бүтээх боломжтой хайлт, дүн шинжилгээ хийх, багаж хэрэгсэл мөрдөн байцаалт эсвэл дэмждэг програмчлал өгөгдлийн бүрэн эрхийг хадгалан компьютер дээр бүрэн ажилладаг.
Gpt-oss-20b-ийн RTX хурдатгал, болгоомжтой VRAM удирдлага, Ollama, llama.cpp, эсвэл AI тоглоомын талбай зэрэг хэрэгслүүдтэй хослуулсан нь оюун ухааныг орон нутагт ажиллуулах боловсронгуй сонголтыг бий болгодог; гадны үйлчилгээнд найдахгүйгээр гүйцэтгэл, зардал, нууцлалыг тэнцвэржүүлдэг зам.
Би өөрийн "геек" сонирхлоо мэргэжил болгож чадсан технологи сонирхогч хүн. Би амьдралынхаа 10 гаруй жилийг хамгийн сүүлийн үеийн технологи ашиглан, бүх төрлийн программыг сониуч зандаа зориулж өнгөрүүлсэн. Одоо би компьютерийн технологи, видео тоглоомоор мэргэшсэн. Учир нь би 5-аас дээш жил технологи, видео тоглоомын талаар янз бүрийн вэб сайтуудад зориулж, танд хэрэгтэй мэдээллийг хүн бүрт ойлгомжтой хэлээр өгөхийг зорьсон нийтлэлүүдийг бүтээж байна.
Хэрэв танд асуулт байгаа бол миний мэдлэг Windows үйлдлийн систем, гар утсанд зориулсан Android-тай холбоотой бүх зүйлээс хамаарна. Мөн миний амлалт бол таны өмнө, би үргэлж хэдэн минут зарцуулж, энэ интернет ертөнцөд байгаа бүх асуултыг шийдвэрлэхэд тань туслахад бэлэн байна.