對抗 Google Gemini 3,OpenAI 快馬加鞭發表新模型 GPT-5.2
Google 近期攻勢猛烈,在推出強大 Google Gemini 3 模型後,OpenAI 內部立刻發布「紅色警戒」,並於 12 月 11 日正式火速推出最新專業知識工作模型 GPT-5.2。OpenAI 表示,GPT-5.2 Thinking 在 GDPval 70.9% 基準任務中,表現與人類專業人士並駕齊驅甚至超越。
根據 OpenAI 說法,目前 ChatGPT Enterprise 使用者多表示 AI 每天為他們節省 40~60 分鐘,重度使用者則表示每週可節省超過 10 小時。
新一代 GPT‑5.2 模型於 GDPval 等多項基準測試創下新紀錄,在複雜邏輯推理、數學解題、建立試算表、製作簡報、編寫程式碼、解讀圖像、理解長篇上下文、運用各項工具、處理複雜多步驟專案等橫跨 44 種職業、定義明確的知識工作任務時,展現接近人類專家水準,大幅減少 AI 幻覺(Hallucinations)問題。
具體來說,專家評審認為 GPT‑5.2 Thinking 在 70.9% GDPval 知識工作任務中,表現與頂尖業界專業人士不相上下或更優秀,輸出速度超出專業人士逾 11 倍,代表在人類監督前提下,GPT‑5.2 能有效協助處理專業工作。
▲ GPT‑5.2 Thinking 在 70.9% GDPval 知識工作任務中,表現與頂尖業界專業人士不相上下。(Source:OpenAI)
Notion、Box、Shopify、Harvey、Zoom 觀察,GPT‑5.2 展現最先進長程推理和工具呼叫能力;Databricks、Hex、Triple Whale 認為,GPT‑5.2 在代理資料科學和文件分析任務表現出色;Cognition、Warp、Charlie Labs、JetBrains、Augment Code 表示,GPT‑5.2 展現最先進代理程式編碼能力,在互動寫程式、審查程式碼、查找錯誤等方面皆有具體進步。
整體而言,GPT‑5.2 新模型能更出色執行多步驟任務,如主動規劃行程、操作軟體工具,而不僅是回答問題。
OpenAI 內部基準測試針對初級投資銀行分析師的試算表建模任務,結果表明 GPT‑5.2 Thinking 在每項任務平均得分都比 GPT‑5.1 高出 9.3%,由 59.1% 上升至 68.4%。
雖然 GPT-5.2 模型發布表面上是針對 Gemini 3,但 OpenAI 並未在網站上列出兩者比較表,而是專注介紹 GPT-5.2 相較前身的改進,以及在 OpenAI 新 GDPval 基準的表現。
整體而言,GPT‑5.2 同樣分為 3 個版本:即時(Instant)、思考(Thinking)、專業(Pro),模型層級有不同用途:Instant 處理較快速任務,如撰寫與翻譯,Thinking 用模擬推理「思考」文本嘗試處理更複雜工作,如程式設計和數學;Pro 則產出更多模擬推理文本,目標為困難問題提供最高準確度回答。
寫程式方面,GPT‑5.2 Thinking 在 SWE-bench Pro(針對真實世界軟體工程任務的嚴格評估)上取得 55.6% 最新業界領先成績,與僅測試 Python 的 SWE-bench Verified 不同,SWE-bench Pro 測試 4 種語言,並著重提高抗污染性、挑戰性、多樣性與實務相關性。
在日常專業使用,模型能更可靠針對生產環境的程式碼偵錯、處理開發功能需求,重構大型程式碼庫,並以更少人工干預完成端到端的修正流程。
▲ GPT‑5.2 Thinking 在 SWE-bench Pro 取得 55.6% 的最新業界領先成績。(Source:OpenAI)
(首圖來源:AI 生成)