對抗 Google Gemini 3，OpenAI 快馬加鞭發表新模型 GPT-5.2

Google 近期攻勢猛烈，在推出強大 Google Gemini 3 模型後，OpenAI 內部立刻發布「紅色警戒」，並於 12 月 11 日正式火速推出最新專業知識工作模型 GPT-5.2。OpenAI 表示，GPT-5.2 Thinking 在 GDPval 70.9% 基準任務中，表現與人類專業人士並駕齊驅甚至超越。

根據 OpenAI 說法，目前 ChatGPT Enterprise 使用者多表示⁠ AI 每天為他們節省 40～60 分鐘，重度使用者則表示每週可節省超過 10 小時。

新一代 GPT‑5.2 模型於 GDPval 等多項基準測試創下新紀錄，在複雜邏輯推理、數學解題、建立試算表、製作簡報、編寫程式碼、解讀圖像、理解長篇上下文、運用各項工具、處理複雜多步驟專案等橫跨 44 種職業、定義明確的知識工作任務時，展現接近人類專家水準，大幅減少 AI 幻覺（Hallucinations）問題。

具體來說，專家評審認為 GPT‑5.2 Thinking 在 70.9% GDPval 知識工作任務中，表現與頂尖業界專業人士不相上下或更優秀，輸出速度超出專業人士逾 11 倍，代表在人類監督前提下，GPT‑5.2 能有效協助處理專業工作。

▲ GPT‑5.2 Thinking 在 70.9% GDPval 知識工作任務中，表現與頂尖業界專業人士不相上下。（Source：OpenAI）

Notion、Box、Shopify、Harvey、Zoom 觀察，GPT‑5.2 展現最先進長程推理和工具呼叫能力；Databricks、Hex、Triple Whale 認為，GPT‑5.2 在代理資料科學和文件分析任務表現出色；Cognition⁠、Warp、Charlie Labs、JetBrains、Augment Code 表示，GPT‑5.2 展現最先進代理程式編碼能力，在互動寫程式、審查程式碼、查找錯誤等方面皆有具體進步。

整體而言，GPT‑5.2 新模型能更出色執行多步驟任務，如主動規劃行程、操作軟體工具，而不僅是回答問題。

OpenAI 內部基準測試針對初級投資銀行分析師的試算表建模任務，結果表明 GPT‑5.2 Thinking 在每項任務平均得分都比 GPT‑5.1 高出 9.3%，由 59.1% 上升至 68.4%。

雖然 GPT-5.2 模型發布表面上是針對 Gemini 3，但 OpenAI 並未在網站上列出兩者比較表，而是專注介紹 GPT-5.2 相較前身的改進，以及在 OpenAI 新 GDPval 基準的表現。

整體而言，GPT‑5.2 同樣分為 3 個版本：即時（Instant）、思考（Thinking）、專業（Pro），模型層級有不同用途：Instant 處理較快速任務，如撰寫與翻譯，Thinking 用模擬推理「思考」文本嘗試處理更複雜工作，如程式設計和數學；Pro 則產出更多模擬推理文本，目標為困難問題提供最高準確度回答。

寫程式方面，GPT‑5.2 Thinking 在 SWE-bench Pro（針對真實世界軟體工程任務的嚴格評估）上取得 55.6% 最新業界領先成績，與僅測試 Python 的 SWE-bench Verified 不同，SWE-bench Pro 測試 4 種語言，並著重提高抗污染性、挑戰性、多樣性與實務相關性。

在日常專業使用，模型能更可靠針對生產環境的程式碼偵錯、處理開發功能需求，重構大型程式碼庫，並以更少人工干預完成端到端的修正流程。

▲ GPT‑5.2 Thinking 在 SWE-bench Pro 取得 55.6% 的最新業界領先成績。（Source：OpenAI）

（首圖來源：AI 生成）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器

理財

科技新報

更多理財相關文章

他想借弟弟100萬當買房頭期款　 1關鍵網勸：怎麼幫才是重點

獨家／記憶體暴漲三個月不回頭　一位筆電業高層的沈重告白

記憶體狂飆／DRAM缺貨一路到2027年　筆電供應鏈「ㄘㄨㄚˋ著等」

無薪假人數大減2000人、創近三個月新低勞動部：「這因素」讓大企業暫停通報

500萬節電登錄戶注意！長達11年的84元最低節電獎勵金走入歷史

iRobot 破產被中國廠吞下！拒買中國貨「台、韓、瑞典」這三牌成最後救星

請更新您的瀏覽器啟用Javascript