請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

Anthropic新旗艦Opus 4.7 上線!新增xhigh思考模式、視覺3倍升級,可接手最難程式工作

數位時代

更新於 04月17日03:31 • 發布於 04月17日03:30

重點一:Claude Opus 4.7 能連續工作數小時、主動檢查自己的答案,過去需要工程師緊盯的程式難題可放手交給 AI。
重點二:軟體工程實測 SWE-bench Pro 解題率從 Opus 4.6 的 53.4% 拉升至 64.3%;新增可微調 AI 思考深度的 xhigh 模式。
重點三:定價不變(輸入 5 美元、輸出 25 美元/百萬 token);同步上架 Bedrock、Vertex AI、Microsoft Foundry,並作為 Anthropic 新安全機制的第一個測試場。

Anthropic 於 4 月 16 日正式推出新一代旗艦模型 Claude Opus 4.7,同步上架自家 Claude 平台,以及 Amazon Bedrock、Google Cloud Vertex AI、Microsoft Foundry 三大雲端。定價與前代 Opus 4.6 相同,每百萬字輸入 token 5 美元、輸出 25 美元(約合新台幣 159 元與 795 元)。

這次更新的核心賣點,Anthropic 用一句話總結:「過去要工程師緊盯的最難程式工作,現在可以放手交給 Opus 4.7。」新模型能連續工作數小時,且在回報答案前,會主動想辦法驗證自己產出的結果正不正確。

科技媒體《VentureBeat》補充,Opus 4.7 在多項可直接比對的評測中,領先 OpenAI 今年 3 月發布的 GPT-5.4 與 Google 今年 2 月發布的 Gemini 3.1 Pro。

實際進步多少?幾個關鍵測試成績

Anthropic 把 Opus 4.7 定位為「Opus 4.6 的直接升級版」,強化重點放在最困難的軟體工程任務。幾個代表性數字:

  • SWE-bench Pro(軟體工程實測):解題率從 Opus 4.6 的 53.4% 提升至 64.3%
  • arXiv Reasoning(論文推理,開啟工具輔助):從 84.7% 升至 91.0%
  • GPQA Diamond(博士級理工題):94.2%
  • GDPval-AA(經濟價值知識工作第三方評測):以 Elo 1753 分居首,GPT-5.4 為 1674、Gemini 3.1 Pro 為 1314
  • 視覺辨識(XBOW 測試):從 54.5% 跳到 98.5%

Anthropic 誠實指出,Opus 4.7「整體能力仍不如公司最強的 Claude Mythos Preview」,後者因能力過強尚未全面開放。

新增extra high思考模式

這次一併端出的新功能,大多圍繞「讓使用者更能控制 AI 怎麼想、花多少錢」這個主軸:

  • xhigh 思考模式:過去 Claude 的思考深度只有「低/中/高/最大」四檔,這次在「高」和「最大」之間多了一檔 xhigh(extra high)。Claude Code 已把預設全面拉到 xhigh,讓開發者不必手動切換也能拿到 Anthropic 認為最划算的品質。
  • task budgets(任務預算)公測:允許開發者替長任務設定 token 上限,避免一個長時間除錯任務意外爆預算。
  • /ultrareview 指令:Claude Code 內的新指令,專門模擬資深工程師的深度程式碼審查,Pro 與 Max 用戶可免費試用三次。
  • auto mode 擴展到 Max 用戶:讓 Claude 在授權範圍內自行做決策、減少使用者被詢問的次數。

視覺方面,Opus 4.7 能處理最長邊 2,576 像素(約 3.75 百萬畫素)的圖片,前一代上限只到 1,568 像素。一張完整解析度的圖最多會吃掉 4,784 個 token,是舊模型 1,600 token 上限的約三倍。這項升級對處理螢幕截圖、技術圖表、文件掃描圖的 AI 工具幫助最大。

Claude Opus 4.7 在 Anthropic 內部「自動代理程式程式碼評測」中,無論在低到 max 各個 effort 等級,都以較少或相近的 token 用量達成明顯更高任務完成率:在相同總 token 下,其得分曲線整體高於 Opus 4.6,並在新增的 xhigh 等級下持續提升表現,顯示在長鏈條、自主化 coding 任務上具備更佳的效能與性價比。

企業升級要留意:費用會變貴、舊 prompt 要重寫

Anthropic 在升級指南中提醒兩件會影響成本的事。

第一,Opus 4.7 換了一套處理文字的方式(業界稱為 tokenizer),同樣的內容在新模型可能產生 1.0 到 1.35 倍的 token 數。換句話說,原本一篇文章花 1,000 token,升級後可能要花 1,350 token,帳單自然上升。第二,新模型在困難任務上會「想得更久」,輸出字數也增加。

另一個比較棘手的變化是,Opus 4.7「對指令的遵循明顯更嚴格」。意思是:過去 Opus 4.6 會自動腦補、寬鬆詮釋模糊指令,Opus 4.7 則完全照字面執行。因此,針對舊模型寫的提示詞(prompt)很可能在新模型上出現非預期結果,企業須重新檢視既有的提示詞資料庫。

技術層面,Anthropic 也移除了幾個舊版 API 參數,用舊寫法會直接回報錯誤,開發者須改寫為新格式,詳細清單見官方遷移指南

Anthropic 新安全機制的「第一個白老鼠」

Opus 4.7 另一層意義,是 Anthropic 上週宣布 Project Glasswing(新一代 AI 安全計畫)之後的第一個測試平台。

公司最強大的 Mythos Preview 模型因能力過強、釋出範圍受限,Anthropic 選擇先在 Opus 4.7 上測試自動偵測並攔截高風險網路安全請求的防護機制,實際部署的學習成果將用於未來放寬 Mythos 等級模型的公開程度。

合法用途的資安研究者(漏洞研究、滲透測試、紅隊演練)可申請加入新設的 Cyber Verification Program,以取得較寬鬆的使用條件。

延伸閱讀:「沒有Anthropic,TPU成長從哪來?」黃仁勳坦承太晚投資Anthropic是失誤,把大訂單拱手讓人

資料來源:AnthropicVentureBeatClaude Migration Guide

本文初稿為AI編撰,整理.編輯/李先泰

延伸閱讀

用藥到底能不能問AI?醫師教你善用「健保快易通」,幫長輩找出成分重複的藥
Canva把設計平民化不夠,連寫程式也想包!大獵才、灌AI⋯假想敵從Adobe變微軟Office?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

慧洋現金股利3.5元殖利率近5% 藍俊昇「公司幫員工養小孩」月領1萬到小學畢業

CTWANT
02

勞退新制首創30天猶豫期 已22人改一次領

中央通訊社
03

瘋台股更求穩健!逾4成上班族去年靠2種股票獲利 擁380萬資產才感到「安全」

anue鉅亨網
04

台股又有9檔「抓去關」 這檔妖股第4次遭處置

EBC 東森新聞
05

破天荒!全家合作黑貓宅急便,羅智先為何點頭拆掉小七超級護城河

商周.com
06

〈美股早盤〉主要指數開高 市場押注美伊停火延續、標普500挑戰最長連漲

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...