OpenAI 發佈 GPT 5.2 跑分超越 Gemini 3 Pro
面對 Gemini 3 Pro 的挑戰,今天 OpenAI 宣佈推出GPT-5.2。距離 GPT-5.1 推出僅四周,而在基準測試中取得了顯著的提升,很多項目也比 Gemini 3 Pro 領先。
效能提升
OpenAI 執行長 Sam Altman 在評論 GPT-5.2 的發佈時表示:「自 GPT-5.1 以來,我們已經走了很長一段路。」OpenAI 聲稱,GPT-5.2 是「迄今為止在專業知識工作方面能力最強的模型系列」。該公司推出了三個變體:GPT-5.2 Instant 用於快速的日常任務,GPT-5.2 Thinking 用於更複雜的工作,GPT-5.2 Pro 則作為針對特別嚴苛查詢的進階選項。
基準測試結果
新模型在許多基準測試中與 Google 的 Gemini 3 Pro 相匹敵,並且在其他基準測試中明顯優於它,尤其是在編碼基準 SWE-Verified 和抽象推理基準 ARC-AGI-2 中。Google 的 Gemini 的強勁表現可能激發了 OpenAI 迅速做出回應。在 GDPval 基準測試中,該測試涵蓋 44 個專業領域的知識工作任務,並衡量 AI 模型的經濟相關性,GPT-5.2 Thinking 的得分為 70.9%,而 GPT-5 Thinking 的得分為 38.8%。
錯誤率降低
OpenAI 聲稱已將回應錯誤率降低了 30%。在使用匿名 ChatGPT 請求的測試中,至少存在一個錯誤的回應百分比從 8.8% (GPT-5.1 Thinking) 降至 6.2% (GPT-5.2 Thinking)。在長文本理解方面,OpenAI 表示 GPT-5.2 Thinking 是第一個在 4-Needle MRCR 測試中達到接近 100% 準確度的模型,最多可達 256,000 個 tokens。抽象推理方面,GPT-5.2 Thinking 的 ARC-AGI-2 抽象推理基準測試得分為 52.9%,遠遠超過 GPT-5.1 Thinking 的 17.6%。
NewMobileLife 網站:https://www.newmobilelife.com