阿里巴巴 Qwen3-Coder 可與 Claude Sonnet 4 媲美
阿里巴巴已推出Qwen3-Coder,這是其迄今最先進的 AI 編碼模型,旨在與西方領先的模型在程式設計任務上直接競爭。
模型架構與大規模訓練
Qwen3-Coder 是 Qwen3 系列的最新成員,該系列於 4 月由阿里巴巴推出,用於通用 AI 應用。阿里巴巴將此編碼版本描述為其迄今最「自主代理」的模型,旨在處理複雜的多步驟開發工作流程。其旗艦型號 Qwen3-Coder-480B-A35B-Instruct 採用專家混合架構,擁有 4,800 億個參數,其中 350 億個可同時啟用。該模型原生支援高達 256,000 個 token 的上下文視窗,並可選擇擴展至 100 萬個。
阿里巴巴以 7.5 兆個 token 的龐大資料集訓練 Qwen3-Coder,其中程式碼佔 70%。為準備這些資料,阿里巴巴使用其先前的 Qwen2.5-Coder 模型來清理並重寫訓練語料庫。在後續訓練中,阿里巴巴應用了長期強化學習,透過與環境的多階段互動,教導模型使用工具並處理回饋。阿里巴巴在 Alibaba Cloud 上建立了可運行 20,000 個並行環境的基礎設施,以支援此方法。
可與 Claude Sonnet 4 媲美
阿里巴巴表示 Qwen3-Coder 在需要物理定律推理的任務上表現出色,這是編碼模型的常見基準。根據阿里巴巴的說法,該模型在基於代理的編碼、瀏覽器自動化和工具使用方面,其成績可與 Claude Sonnet 4 媲美。
在用於軟體工程任務的 SWE-Bench Verified 基準測試中,Qwen3-Coder 在開源模型中展現了最先進的性能,值得注意的是,它無需依賴測試時縮放(通常在推論期間需要額外的計算資源)。Avi Chawla 進一步比較了 Qwen3-Coder 和 Claude Sonnet 4 在十項 MCP 伺服器開發任務中的表現,結果 Qwen3-Coder 在九個案例中勝出,持續取得更高的正確性分數。
以 Gemini Code 為基礎
與新模型同時發布的還有 Qwen Code,這是一款供開發者使用的命令列工具。Qwen Code 以 Gemini Code 為基礎,但針對 Qwen3-Coder 進行了最佳化,更新了提示詞和函數呼叫協議,並支援 OpenAI SDK 和環境變數配置。Qwen3-Coder 還能與現有的開發者工具無縫整合;例如,搭配 Claude Code 使用時,需要從 Alibaba Cloud Model Studio 取得 API 金鑰。
阿里巴巴計畫推出更多不同規劃的 Qwen3-Coder 模型,以在降低部署成本的同時提供強勁性能。阿里巴巴也在探索編碼代理是否能隨時間自我改進。儘管 480B 模型對於標準 GPU 來說過大,但可透過 Alibaba Cloud Model Studio 取得 API 存取權。
開源替代方案
這次發布將 Qwen3-Coder 定位為 Anthropic 和 Google 等公司專有編碼助理的開源替代方案,使其有別於大多數西方競爭對手。鑒於編碼任務通常涉及處理大量程式碼庫或文件,API 成本可能迅速增加,有時會迫使用戶訂閱昂貴的服務。Qwen3-Coder 強大的開源性能可能會對這些供應商構成價格壓力。
NewMobileLife 網站:https://www.newmobilelife.com