請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

OpenAI 發佈 GPT 5.2 跑分超越 Gemini 3 Pro

流動日報

更新於 27分鐘前 • 發布於 12月11日22:34 • NewMobileLife

面對 Gemini 3 Pro 的挑戰,今天 OpenAI 宣佈推出GPT-5.2。距離 GPT-5.1 推出僅四周,而在基準測試中取得了顯著的提升,很多項目也比 Gemini 3 Pro 領先。

效能提升

OpenAI 執行長 Sam Altman 在評論 GPT-5.2 的發佈時表示:「自 GPT-5.1 以來,我們已經走了很長一段路。」OpenAI 聲稱,GPT-5.2 是「迄今為止在專業知識工作方面能力最強的模型系列」。該公司推出了三個變體:GPT-5.2 Instant 用於快速的日常任務,GPT-5.2 Thinking 用於更複雜的工作,GPT-5.2 Pro 則作為針對特別嚴苛查詢的進階選項。

基準測試結果

新模型在許多基準測試中與 Google 的 Gemini 3 Pro 相匹敵,並且在其他基準測試中明顯優於它,尤其是在編碼基準 SWE-Verified 和抽象推理基準 ARC-AGI-2 中。Google 的 Gemini 的強勁表現可能激發了 OpenAI 迅速做出回應。在 GDPval 基準測試中,該測試涵蓋 44 個專業領域的知識工作任務,並衡量 AI 模型的經濟相關性,GPT-5.2 Thinking 的得分為 70.9%,而 GPT-5 Thinking 的得分為 38.8%。

錯誤率降低

OpenAI 聲稱已將回應錯誤率降低了 30%。在使用匿名 ChatGPT 請求的測試中,至少存在一個錯誤的回應百分比從 8.8% (GPT-5.1 Thinking) 降至 6.2% (GPT-5.2 Thinking)。在長文本理解方面,OpenAI 表示 GPT-5.2 Thinking 是第一個在 4-Needle MRCR 測試中達到接近 100% 準確度的模型,最多可達 256,000 個 tokens。抽象推理方面,GPT-5.2 Thinking 的 ARC-AGI-2 抽象推理基準測試得分為 52.9%,遠遠超過 GPT-5.1 Thinking 的 17.6%。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章

Meta 開放 Instagram 用戶 Reels 演算法控制權

流動日報

2030 年起部分 GCSE 與 A-level 採螢幕作答 小型科目將率先過渡

流動日報

美國擬要求免簽旅客提交 5 年社交平台紀錄

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...