阿里巴巴 Qwen3-Coder 可與 Claude Sonnet 4 媲美

更新於 1小時前 • 發布於 23小時前 • NewMobileLife

阿里巴巴已推出Qwen3-Coder，這是其迄今最先進的 AI 編碼模型，旨在與西方領先的模型在程式設計任務上直接競爭。

模型架構與大規模訓練

Qwen3-Coder 是 Qwen3 系列的最新成員，該系列於 4 月由阿里巴巴推出，用於通用 AI 應用。阿里巴巴將此編碼版本描述為其迄今最「自主代理」的模型，旨在處理複雜的多步驟開發工作流程。其旗艦型號 Qwen3-Coder-480B-A35B-Instruct 採用專家混合架構，擁有 4,800 億個參數，其中 350 億個可同時啟用。該模型原生支援高達 256,000 個 token 的上下文視窗，並可選擇擴展至 100 萬個。

阿里巴巴以 7.5 兆個 token 的龐大資料集訓練 Qwen3-Coder，其中程式碼佔 70%。為準備這些資料，阿里巴巴使用其先前的 Qwen2.5-Coder 模型來清理並重寫訓練語料庫。在後續訓練中，阿里巴巴應用了長期強化學習，透過與環境的多階段互動，教導模型使用工具並處理回饋。阿里巴巴在 Alibaba Cloud 上建立了可運行 20,000 個並行環境的基礎設施，以支援此方法。

可與 Claude Sonnet 4 媲美

阿里巴巴表示 Qwen3-Coder 在需要物理定律推理的任務上表現出色，這是編碼模型的常見基準。根據阿里巴巴的說法，該模型在基於代理的編碼、瀏覽器自動化和工具使用方面，其成績可與 Claude Sonnet 4 媲美。

在用於軟體工程任務的 SWE-Bench Verified 基準測試中，Qwen3-Coder 在開源模型中展現了最先進的性能，值得注意的是，它無需依賴測試時縮放（通常在推論期間需要額外的計算資源）。Avi Chawla 進一步比較了 Qwen3-Coder 和 Claude Sonnet 4 在十項 MCP 伺服器開發任務中的表現，結果 Qwen3-Coder 在九個案例中勝出，持續取得更高的正確性分數。

以 Gemini Code 為基礎

與新模型同時發布的還有 Qwen Code，這是一款供開發者使用的命令列工具。Qwen Code 以 Gemini Code 為基礎，但針對 Qwen3-Coder 進行了最佳化，更新了提示詞和函數呼叫協議，並支援 OpenAI SDK 和環境變數配置。Qwen3-Coder 還能與現有的開發者工具無縫整合；例如，搭配 Claude Code 使用時，需要從 Alibaba Cloud Model Studio 取得 API 金鑰。

阿里巴巴計畫推出更多不同規劃的 Qwen3-Coder 模型，以在降低部署成本的同時提供強勁性能。阿里巴巴也在探索編碼代理是否能隨時間自我改進。儘管 480B 模型對於標準 GPU 來說過大，但可透過 Alibaba Cloud Model Studio 取得 API 存取權。

開源替代方案

這次發布將 Qwen3-Coder 定位為 Anthropic 和 Google 等公司專有編碼助理的開源替代方案，使其有別於大多數西方競爭對手。鑒於編碼任務通常涉及處理大量程式碼庫或文件，API 成本可能迅速增加，有時會迫使用戶訂閱昂貴的服務。Qwen3-Coder 強大的開源性能可能會對這些供應商構成價格壓力。

NewMobileLife 網站：https://www.newmobilelife.com

查看原始文章