字節跳動Seed模型開源!512k超長上下文視窗 重新定義AI應用極限
字節跳動旗下的 AI 研究團隊 Seed,近日宣佈正式開源 Seed-OSS 系列模型,此不僅為開源社群注入新活力,更透過其業界領先的 512k 超長上下文視窗,重新定義了大型語言模型(LLM)的應用邊界。
這一系列模型專為長上下文、推理、代理(Agent)及通用任務而設計,其 512k 的上下文視窗是目前主流模型的 4 倍,甚至達到 GPT-5 上下文視窗的 2 倍,相當於能夠一次性處理超過 1600 頁的文本內容。
領先業界的超長上下文視窗
Seed-OSS 系列模型的最大亮點在於其原生訓練的超長上下文視窗。與一些模型透過後續擴展實現長上下文不同,Seed-OSS 在預訓練階段即以 12 兆個 token 的海量數據進行了原生訓練,確保了在處理數十萬字內容時的穩定性和高效性。
除了超長上下文能力,Seed-OSS 系列模型還採用了多項前沿技術,包括旋轉位置編碼(RoPE)、分組查詢注意力機制(GQA)、均方根歸一化(RMSNorm)和 SwiGLU 活化函數等。這些技術的組合確保了模型在訓練過程中的穩定性,並顯著提升了其推理表現。
獨特且靈活的「思考預算」機制
Seed-OSS 系列模型特別針對推理任務進行了最佳化,並引入了獨特的「思考預算」(Thinking Budget)功能。這項功能允許開發者根據具體任務需求,靈活地控制模型的思維鏈長度,進而有效管理推理成本並優化應用體驗。研究顯示,對於複雜的任務,如程式設計或邏輯推理,增加思考預算能顯著提升模型的準確率,而在簡單任務中則影響不大。這一設計為開發者提供了精準控制模型行為的能力,實現效能與成本的最佳平衡。
字節 Seed 團隊本次共開源了 Seed-OSS 的三個版本,以滿足不同社群的需求:
- 基礎模型 Seed-OSS-36B-Base: 適用於通用場景的基礎模型。
- 無合成數據基礎模型 Seed-OSS-36B-Base-woSyn: 專為學術研究社群設計,由於不包含合成指令數據,研究人員可以更專注於模型本身的架構與能力,進行消融研究。
- 指令微調模型 Seed-OSS-36B-Instruct: 經過指令微調後,該模型在通用知識、代理、程式設計及長上下文等領域的基準測試中,取得了同級開源模型中的 7 項「性能最佳」(SOTA)表現,其整體能力超越了包括 Qwen3-32B、Gemma3-27B 和 gpt-oss-20B 等在內的多個知名模型。
採寬鬆開源協議 獲高度肯定
Seed-OSS 系列模型採用了寬鬆的 Apache 2.0 開源協議,這一舉措獲得了開發者社群的高度肯定。Hugging Face 的工程師 Tiezhen Wang 表示,無合成數據基礎模型的發布尤其有助於學術界進行更深入的研究。
字節 Seed 團隊的這一系列模型,連同先前開源的多語言翻譯模型 Seed-X、智能體模型 Tar 系列和圖像編輯模型 Vincie 等,標誌著字節跳動在開源領域的持續投入。
隨著開源逐漸成為產業「標配」,Seed-OSS 系列模型的發布不僅為開發者提供了更強大的工具,也為整個開源社群提供了更多樣化、更高品質的基礎模型選擇。這不僅是字節 Seed 團隊的技術實力展現,更是對全球 AI 生態健康發展的一大貢獻。
更多鉅亨報導
•Altman示警低估中國AI實力 OpenAI推開源模型迎戰
•有望9月開源!華為正式發布AI推理創新技術UCM 這些晶片股迎來大利多