請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

對抗 Google Gemini 3,OpenAI 快馬加鞭發表新模型 GPT-5.2

科技新報

更新於 12月12日10:22 • 發布於 12月12日08:41

Google 近期攻勢猛烈,在推出強大 Google Gemini 3 模型後,OpenAI 內部立刻發布「紅色警戒」,並於 12 月 11 日正式火速推出最新專業知識工作模型 GPT-5.2。OpenAI 表示,GPT-5.2 Thinking 在 GDPval 70.9% 基準任務中,表現與人類專業人士並駕齊驅甚至超越。

根據 OpenAI 說法,目前 ChatGPT Enterprise 使用者多表示⁠ AI 每天為他們節省 40~60 分鐘,重度使用者則表示每週可節省超過 10 小時。

新一代 GPT‑5.2 模型於 GDPval 等多項基準測試創下新紀錄,在複雜邏輯推理、數學解題、建立試算表、製作簡報、編寫程式碼、解讀圖像、理解長篇上下文、運用各項工具、處理複雜多步驟專案等橫跨 44 種職業、定義明確的知識工作任務時,展現接近人類專家水準,大幅減少 AI 幻覺(Hallucinations)問題。

具體來說,專家評審認為 GPT‑5.2 Thinking 在 70.9% GDPval 知識工作任務中,表現與頂尖業界專業人士不相上下或更優秀,輸出速度超出專業人士逾 11 倍,代表在人類監督前提下,GPT‑5.2 能有效協助處理專業工作。

▲ GPT‑5.2 Thinking 在 70.9% GDPval 知識工作任務中,表現與頂尖業界專業人士不相上下。(Source:OpenAI

Notion、Box、Shopify、Harvey、Zoom 觀察,GPT‑5.2 展現最先進長程推理和工具呼叫能力;Databricks、Hex、Triple Whale 認為,GPT‑5.2 在代理資料科學和文件分析任務表現出色;Cognition⁠、Warp、Charlie Labs、JetBrains、Augment Code 表示,GPT‑5.2 展現最先進代理程式編碼能力,在互動寫程式、審查程式碼、查找錯誤等方面皆有具體進步。

整體而言,GPT‑5.2 新模型能更出色執行多步驟任務,如主動規劃行程、操作軟體工具,而不僅是回答問題。

OpenAI 內部基準測試針對初級投資銀行分析師的試算表建模任務,結果表明 GPT‑5.2 Thinking 在每項任務平均得分都比 GPT‑5.1 高出 9.3%,由 59.1% 上升至 68.4%。

雖然 GPT-5.2 模型發布表面上是針對 Gemini 3,但 OpenAI 並未在網站上列出兩者比較表,而是專注介紹 GPT-5.2 相較前身的改進,以及在 OpenAI 新 GDPval 基準的表現。

整體而言,GPT‑5.2 同樣分為 3 個版本:即時(Instant)、思考(Thinking)、專業(Pro),模型層級有不同用途:Instant 處理較快速任務,如撰寫與翻譯,Thinking 用模擬推理「思考」文本嘗試處理更複雜工作,如程式設計和數學;Pro 則產出更多模擬推理文本,目標為困難問題提供最高準確度回答。

寫程式方面,GPT‑5.2 Thinking 在 SWE-bench Pro(針對真實世界軟體工程任務的嚴格評估)上取得 55.6% 最新業界領先成績,與僅測試 Python 的 SWE-bench Verified 不同,SWE-bench Pro 測試 4 種語言,並著重提高抗污染性、挑戰性、多樣性與實務相關性。

在日常專業使用,模型能更可靠針對生產環境的程式碼偵錯、處理開發功能需求,重構大型程式碼庫,並以更少人工干預完成端到端的修正流程。

▲ GPT‑5.2 Thinking 在 SWE-bench Pro 取得 55.6% 的最新業界領先成績。(Source:OpenAI

(首圖來源:AI 生成)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

他想借弟弟100萬當買房頭期款  1關鍵網勸:怎麼幫才是重點

民視新聞網
02

獨家/記憶體暴漲三個月不回頭 一位筆電業高層的沈重告白

鏡報
03

記憶體狂飆/DRAM缺貨一路到2027年 筆電供應鏈「ㄘㄨㄚˋ著等」

鏡報
04

無薪假人數大減2000人、創近三個月新低 勞動部:「這因素」讓大企業暫停通報

太報
05

500萬節電登錄戶注意!長達11年的84元最低節電獎勵金走入歷史

太報
06

iRobot 破產被中國廠吞下!拒買中國貨「台、韓、瑞典」這三牌成最後救星

新頭殼
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...