Gemini Deep Think 奧數奪金 推理型 AI 持續突破
Google DeepMind 已憑藉其 Gemini 運行在 Deep Think 模式下、先進版本的Gemini模型,在國際數學奧林匹亞 (IMO) 競賽中贏得首枚金牌。該系統在代數、組合學、幾何和數論等領域的六道題目中,成功解決了五道,獲得 42 分中的 35 分,足以摘得金牌。根據 IMO 的數據,僅有約 8% 的人類參賽者能達到此成就。Google DeepMind 表示,這些解決方案已由 IMO 官方評審檢閱,並被描述為「清晰、精確且易於理解」。這次獲獎的獨特之處在於其方法:去年 Google DeepMind 仍需使用 Lean 等形式語言並花費數日進行計算,而此次GeminiDeep Think 模型則完全以自然語言進行運作。該模型在每個四個半小時的時限內,無需外部工具或符號輔助,直接從官方 IMO 題目中生成完整的證明。Google DeepMind 強調,Gemini 面臨著與人類參賽者相同的題目和時間限制。
Gemini 的 Deep Think 模式
這次在 IMO 競賽中應用的模型,運行於 Gemini 2.5 Pro 的全新「Deep Think」模式。Google 於今年 5 月推出此模式,專為複雜的推理任務設計,它讓模型能同時追蹤多個假設,然後才生成答案,目前正對部分指定使用者進行測試。相比之下,標準版的 Gemini 2.5 Pro 僅能解決奧林匹亞競賽中 31.5% 的題目。Gemini Deep Think 透過專門的強化學習方法進行訓練,以鼓勵多步驟推理、問題解決和定理證明。此 IMO 版本還擁有更多的「思考時間」,並可取用來自先前 IMO 任務的高品質解決方案,以及處理此類問題的一般指導。Google DeepMind 指出,這些方法幫助模型在最終確定答案之前,能同時遵循並結合多條解決路徑。
OpenAI 的同步突破
OpenAI 也於近期宣稱在數學奧林匹亞競賽中獲得金牌。根據 OpenAI 的說法,其內部語言模型同樣在競賽條件下解決了六道奧林匹亞題目中的五道,且其證明已由三位前 IMO 金牌得主審閱。OpenAI 表示,該模型在兩個四個半小時的會話中運作,期間沒有網路連接、程式碼或外部工具,完全依賴自然語言。與 Google DeepMind 相似,OpenAI 也強調其模型是一個通用推理系統,而非專門為 IMO 訓練。直到最近,這類結果仍被認為幾乎不可能實現。即使是數學家 Terence Tao,在今年 6 月也曾懷疑語言模型能否即時解決 IMO 問題。兩套系統同時達成這一里程碑,標誌著一個重大的轉變。
推理 AI 的新階段
這兩項成果都表明,具備強大推理能力和強化學習能力的高階 AI 模型,現在能夠連續數小時處理複雜的數學問題,且無需依賴符號工具。然而,這些發布也留下了一些懸而未決的問題。例如,OpenAI 尚未分享其模型架構、訓練數據或所用資源的任何細節。同樣地,Google DeepMind 也未說明其 Deep Think 方法的可擴展性或可轉移性如何,也未提及該方法是否能處理其他任務或科學領域。此外,這些系統在更長的證明或數學的其他分支中,表現的一致性也尚不明確。儘管如此,這些結果確實表明這種方法在實踐中是可行的,而目前,細節可能不如結果本身重要。長時間持續且精確的推理,長期以來一直是語言模型的主要障礙。隨著這些成果的出現,推理型 AI 的競賽正進入一個新階段,至少在數學領域,機器正大幅接近人類水平的表現。
NewMobileLife 網站:https://www.newmobilelife.com