OpenAI 發佈 GPT 5.2　跑分超越 Gemini 3 Pro

面對 Gemini 3 Pro 的挑戰，今天 OpenAI 宣佈推出GPT-5.2。距離 GPT-5.1 推出僅四周，而在基準測試中取得了顯著的提升，很多項目也比 Gemini 3 Pro 領先。

效能提升

OpenAI 執行長 Sam Altman 在評論 GPT-5.2 的發佈時表示：「自 GPT-5.1 以來，我們已經走了很長一段路。」OpenAI 聲稱，GPT-5.2 是「迄今為止在專業知識工作方面能力最強的模型系列」。該公司推出了三個變體：GPT-5.2 Instant 用於快速的日常任務，GPT-5.2 Thinking 用於更複雜的工作，GPT-5.2 Pro 則作為針對特別嚴苛查詢的進階選項。

基準測試結果

新模型在許多基準測試中與 Google 的 Gemini 3 Pro 相匹敵，並且在其他基準測試中明顯優於它，尤其是在編碼基準 SWE-Verified 和抽象推理基準 ARC-AGI-2 中。Google 的 Gemini 的強勁表現可能激發了 OpenAI 迅速做出回應。在 GDPval 基準測試中，該測試涵蓋 44 個專業領域的知識工作任務，並衡量 AI 模型的經濟相關性，GPT-5.2 Thinking 的得分為 70.9%，而 GPT-5 Thinking 的得分為 38.8%。

錯誤率降低

OpenAI 聲稱已將回應錯誤率降低了 30%。在使用匿名 ChatGPT 請求的測試中，至少存在一個錯誤的回應百分比從 8.8% (GPT-5.1 Thinking) 降至 6.2% (GPT-5.2 Thinking)。在長文本理解方面，OpenAI 表示 GPT-5.2 Thinking 是第一個在 4-Needle MRCR 測試中達到接近 100% 準確度的模型，最多可達 256,000 個 tokens。抽象推理方面，GPT-5.2 Thinking 的 ARC-AGI-2 抽象推理基準測試得分為 52.9%，遠遠超過 GPT-5.1 Thinking 的 17.6%。

NewMobileLife 網站：https://www.newmobilelife.com

請更新您的瀏覽器

科技

流動日報

效能提升

基準測試結果

錯誤率降低

查看更多

Meta 開放 Instagram 用戶 Reels 演算法控制權

2030 年起部分 GCSE 與 A-level 採螢幕作答　小型科目將率先過渡

美國擬要求免簽旅客提交 5 年社交平台紀錄

請更新您的瀏覽器啟用Javascript

OpenAI 發佈 GPT 5.2 跑分超越 Gemini 3 Pro

流動日報

效能提升

基準測試結果

錯誤率降低

查看更多

Meta 開放 Instagram 用戶 Reels 演算法控制權

2030 年起部分 GCSE 與 A-level 採螢幕作答 小型科目將率先過渡

美國擬要求免簽旅客提交 5 年社交平台紀錄

請更新您的瀏覽器

OpenAI 發佈 GPT 5.2　跑分超越 Gemini 3 Pro

2030 年起部分 GCSE 與 A-level 採螢幕作答　小型科目將率先過渡