以下是如何在本地使用 gpt-oss-20b:新功能、效能以及如何測試它。

最後更新: 28/08/2025

  • gpt-oss-20b 是一個開放權重模型,具有本地執行和長上下文(最多 131.072 個令牌)。
  • 針對 NVIDIA RTX 進行了最佳化:報告速度高達 256 t/s;VRAM 接管以維持效能。
  • 易於與 Ollama 以及 llama.cpp、GGML 和 Microsoft AI Foundry Local 等替代品一起使用。
  • 英特爾 AI Playground 2.6.0 中也提供了此功能,其中包含更新的框架和改進的環境管理。
本地的 gpt-oss-20b

到來了 gpt-oss-20b 本地使用 為更多用戶帶來強大的推理模型,該模型可直接在PC上運行。這項舉措與 針對 NVIDIA RTX GPU 進行最佳化,無需依賴雲端即可實現苛刻的工作流程。

重點很明確:提供 具有非常長上下文的開放式重量 對於進階搜尋、研究、程式碼幫助或長時間聊天等複雜任務,優先考慮 隱私 並在當地工作時控製成本。

gpt-oss-20b 在本地運行時提供什麼?

開放權重 GPT 模型的本地執行

gpt-oss 家族首次亮相,模型如下: 開放式重量 旨在輕鬆整合到您自己的解決方案中。具體來說, GPT-OSS-20B 它因平衡推理能力和桌上型電腦的合理硬體要求而脫穎而出。

一個顯著特點是 擴充上下文視窗,支援最多 131.072 個 gpt-oss 範圍內的 token。這個長度有利於 長時間的對話,分析大量文件或更深層的思路,而不會出現斷點或碎片。

獨家內容 - 點擊這裡  我如何從 RFC 中獲取我的 homoclave

與封閉模型相比,開放式權重提案優先考慮 整合靈活性 在應用程式中:從 帶工具的助手(代理) 甚至插件 研究、網路搜尋和程式設計,都利用了局部推理。

從實際角度來看, gpt-oss:20b 約為 13 GB 安裝在流行的運行時環境。這為所需的資源定下了基調,並有助於擴展 顯存 保持效能不受瓶頸影響。

還有一個更大的變體(gpt-oss-120b),專為以下場景而設計: 更豐富的圖形資源。然而,對於大多數 PC 來說, 20B 由於速度、記憶體和品質之間的關係,它是最現實的起點。

針對 RTX 進行最佳化:速度、上下文和 VRAM

本地運行 gpt-oss 20b 的工具

使 GPT-OSS 模型適應生態系統 NVIDIA RTX 允許高發電率。在高階設備中, 峰值高達 256 個令牌/秒 透過適當的調整,利用特定的最佳化和精確度,例如 MXFP4.

結果取決於卡片、上下文和配置。在使用 RTX 5080,gpt-oss 20b 達到 128噸/秒 包含上下文(≈8k)。透過增加 16k窗口 並強制將部分負載放入系統記憶體中,速率下降到~50,5噸/秒,其中 GPU 完成大部分工作。

獨家內容 - 點擊這裡  如何將 Powerpoint 轉換為 PDF

教訓是明確的: VRAM 規則. 在本地人工智慧中, 擁有更多內存的 RTX 3090 它的性能比新的 GPU 更好,但 VRAM 較少,因為它可以防止溢出到 系統記憶體 以及CPU的額外幹預。

對於 GPT-OSS-20B,可以方便地以模型大小作為參考:約 GB 13 更多的空間 KV快取 和密集型任務。作為快速指南,建議 16 GB的VRAM 至少並力爭 GB 24 如果預計會有較長的時間或持續的負載。

那些想要擠壓硬體的人可以探索 高效能精度 (例如 MXFP4),在可行的情況下調整上下文長度或採用多 GPU 配置,始終保持以下目標 避免掉期 朝向 RAM。

安裝和使用:Ollama和其他路線

GPT-OSS 在 RTX GPU 上的效能

為了以簡單的方式測試模型, 奧拉馬 提供在 RTX PC 上的直接體驗: 允許您下載、運行和與 GPT-OSS-20B 聊天,無需複雜的配置。,此外還支援PDF、文字檔案、圖片提示、上下文調整等。

對於高級用戶,也有其他選擇,例如 在 Windows 11 上安裝 LLM. 框架如下 調用.cpp 和類型庫 GGML 針對 RTX 進行了最佳化,最近 降低CPU負載 並利用 CUDA 圖形.同時, 微軟 AI Foundry Local (預覽版)透過 CLI、SDK 或 API 將模型與 CUDA 和 TensorRT 加速整合。

獨家內容 - 點擊這裡  如何打開 .SUG 文件

在工俱生態系中, 英特爾AI Playground 2.6.0 已將 gpt-oss-20b 納入其選項中此次更新為後端和框架修訂添加了細粒度的版本控制,例如 OpenVINO、ComfyUI y 調用.cpp (在支持下 福爾康 和環境調整),促進 穩定的局部環境.

作為啟動指南,請檢查 可用 VRAM,下載適合您的 GPU 的模型變體,驗證 令牌速度 有代表性的提示和調整 上下文視窗 將所有負載保持在顯示卡上。

有了這些部件,就可以為 搜尋和分析工具 研究 或支持 程序設計 完全在電腦上運行,維護資料主權。

gpt-oss-20b 與 RTX 加速、謹慎的 VRAM 管理以及 Ollama、llama.cpp 或 AI Playground 等工具的結合鞏固了在本地運行推理 AI 的成熟選擇;這是一種在不依賴外部服務的情況下平衡性能、成本和隱私的途徑。

GPT-OSS-120B
相關文章:
OpenAI 發布 gpt-oss-120b:迄今為止最先進的開放權重模型。