請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

Gemini Deep Think 奧數奪金 推理型 AI 持續突破

流動日報

更新於 3分鐘前 • 發布於 1天前 • NewMobileLife

Google DeepMind 已憑藉其 Gemini 運行在 Deep Think 模式下、先進版本的Gemini模型,在國際數學奧林匹亞 (IMO) 競賽中贏得首枚金牌。該系統在代數、組合學、幾何和數論等領域的六道題目中,成功解決了五道,獲得 42 分中的 35 分,足以摘得金牌。根據 IMO 的數據,僅有約 8% 的人類參賽者能達到此成就。Google DeepMind 表示,這些解決方案已由 IMO 官方評審檢閱,並被描述為「清晰、精確且易於理解」。這次獲獎的獨特之處在於其方法:去年 Google DeepMind 仍需使用 Lean 等形式語言並花費數日進行計算,而此次GeminiDeep Think 模型則完全以自然語言進行運作。該模型在每個四個半小時的時限內,無需外部工具或符號輔助,直接從官方 IMO 題目中生成完整的證明。Google DeepMind 強調,Gemini 面臨著與人類參賽者相同的題目和時間限制。

Gemini 的 Deep Think 模式

這次在 IMO 競賽中應用的模型,運行於 Gemini 2.5 Pro 的全新「Deep Think」模式。Google 於今年 5 月推出此模式,專為複雜的推理任務設計,它讓模型能同時追蹤多個假設,然後才生成答案,目前正對部分指定使用者進行測試。相比之下,標準版的 Gemini 2.5 Pro 僅能解決奧林匹亞競賽中 31.5% 的題目。Gemini Deep Think 透過專門的強化學習方法進行訓練,以鼓勵多步驟推理、問題解決和定理證明。此 IMO 版本還擁有更多的「思考時間」,並可取用來自先前 IMO 任務的高品質解決方案,以及處理此類問題的一般指導。Google DeepMind 指出,這些方法幫助模型在最終確定答案之前,能同時遵循並結合多條解決路徑。

OpenAI 的同步突破

OpenAI 也於近期宣稱在數學奧林匹亞競賽中獲得金牌。根據 OpenAI 的說法,其內部語言模型同樣在競賽條件下解決了六道奧林匹亞題目中的五道,且其證明已由三位前 IMO 金牌得主審閱。OpenAI 表示,該模型在兩個四個半小時的會話中運作,期間沒有網路連接、程式碼或外部工具,完全依賴自然語言。與 Google DeepMind 相似,OpenAI 也強調其模型是一個通用推理系統,而非專門為 IMO 訓練。直到最近,這類結果仍被認為幾乎不可能實現。即使是數學家 Terence Tao,在今年 6 月也曾懷疑語言模型能否即時解決 IMO 問題。兩套系統同時達成這一里程碑,標誌著一個重大的轉變。

推理 AI 的新階段

這兩項成果都表明,具備強大推理能力和強化學習能力的高階 AI 模型,現在能夠連續數小時處理複雜的數學問題,且無需依賴符號工具。然而,這些發布也留下了一些懸而未決的問題。例如,OpenAI 尚未分享其模型架構、訓練數據或所用資源的任何細節。同樣地,Google DeepMind 也未說明其 Deep Think 方法的可擴展性或可轉移性如何,也未提及該方法是否能處理其他任務或科學領域。此外,這些系統在更長的證明或數學的其他分支中,表現的一致性也尚不明確。儘管如此,這些結果確實表明這種方法在實踐中是可行的,而目前,細節可能不如結果本身重要。長時間持續且精確的推理,長期以來一直是語言模型的主要障礙。隨著這些成果的出現,推理型 AI 的競賽正進入一個新階段,至少在數學領域,機器正大幅接近人類水平的表現。

消息來源

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章

人類擊敗 AI 波蘭編程高手於 AtCoder 大賽擊敗 OpenAI 奪冠

流動日報

Anthropic 似乎收緊 Claude Code AI 工具用量限制

流動日報

OpenAI 推出 ChatGPT Agent 程式 主動思考為你完成任務

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

最新內容

vivo X Fold5 海外發佈!兼享輕薄設計、硬淨機身,超強 IPX9+ 水底摺屏

Mobile Magazine

6.1mm 超薄機身與約 515 g 輕量化設計HUAWEI MatePad 11.5 (2025) 發佈!

Mobile Magazine

HONOR Magic V5 登陸香港! 預售禮遇總值高達 $10,000

Mobile Magazine

M5晶片版iPad Pro最快第3季現身 大機會增添一實用功能

am730

卡西歐將推出採用日本傳統錘起工藝的經典MR-G腕表

PR Newswire 美通社

德賽電池發佈主動安全儲能技術新品

PR Newswire 美通社

Pixel 10 宣傳影片外洩 外型曝光

流動日報

Google AI Mode 月活躍用戶破 1 億 Gemini 2.5 Pro 及深度搜尋廣泛推出

流動日報

T-Mobile Starlink 衛星服務正式啟用 支援 iPhone 月費 10 美元

流動日報

<![CDATA[Alphabet 2025 年第 2 季財報 營收達 964 億美元]]>

流動日報

Google Photos 及 YouTube Shorts 引進 AI 技術輕鬆實現照片轉影片

流動日報

<![CDATA[Apple 發布 Safari Technology Preview 224 包含錯誤修正與效能提升]]>

流動日報

Google Gemini 廣泛推送到 Wear OS 裝置

流動日報

Qi2 無線充電升級 25W 主要 Android 智能手機將支援

流動日報

Startup Island TAIWAN 攜手 FPT AI Factory 啟動推薦合作機制

PR Newswire 美通社

專訪「SFL: Pro-JP 2025」Division S的Good 8 Squad!「一場利用經驗值的戰鬥」「不管誰來只有勇往直前」

Saiga NAK

Azure Knowledge Corporation 更名為 Mavrix,推動人工智能驅動的數據智能

PR Newswire 美通社

AppleCare+ 失竊與遺失保障 擴展至 iPhone 以外產品

流動日報

SquaredFinancial 推出雙倍聯盟獎賞的新 CPA 計劃,每個推薦最高獎賞 2,500 美元

PR Newswire 美通社

蘋果推出 AppleCare One 訂閱服務 月費 19.99 美元涵蓋三款產品

流動日報

MSI推出的搭載Mini LED遊戲顯示器「MAG 274QPF X30MV」將於7月24日起上市!支援高達 300Hz 的高更新率

Saiga NAK

「寶可夢 傳說 Z-A」的最新影片公開!新角色與「超級快龍」將登場

Saiga NAK

星路科技啟動Web5戰略,發佈全球領先RWA平台「FRP」

PR Newswire 美通社

一灣清水六十載 贛港同心共此源----紀念東江水供港60週年「一灣清水向港流」網絡主題宣傳活動走進贛州安遠三百山

PR Newswire 美通社

SM集團加強減少塑料廢物承諾

PR Newswire 美通社

Chiikawa x CASETiFY聯乘系列第二回 Chiikawa小八及兔兔夏日造型手機殼

am730

Anthropic 執行長為獲 AI 資金 承認向威權政權妥協

流動日報

系列最新作品「戰地風雲 6」已正式公佈!預告片將於7月25日公開

Saiga NAK

大華資產管理:亞洲市場已接受與美自由貿易成為過去式

PR Newswire 美通社

「Pokémon Friends」將於 7 月 22 日起在Nintendo Switch與智慧型手機推出!讓思考變得有趣的靈感遊戲

Saiga NAK

日本東京交易所掛牌企業Quantum Solutions啟動比特幣儲備業務,獲福布斯控股投資方提供千萬美元支持

PR Newswire 美通社

讀賣樂園的「PokéPark KANTO」將於2026年春季開幕!門票將於 2025 年秋季開始販售

Saiga NAK

摺疊式 iPhone 螢幕尺寸曝光 預期 2026 年下半年推出

流動日報

HONOR Magic V5早鳥預訂禮遇 送DJI Neo無人機或Sony XM5耳機

am730

XTransfer公佈全球客戶超過70萬

PR Newswire 美通社

SAMSUNG新一代OLED耐用性飆升 每日摺疊200次都能用6年 !

am730

「快打旋風6」與「hololive」聯名!身著特別服裝的hololive直播主周邊與聯名餐點

Saiga NAK

Galaxy Z Fold7螢幕通過極限摺疊測試 輕薄之餘更比Z Fold6耐用2.5倍

am730

全球最薄摺疊手機 HONOR Magic V5 登場,預訂即送總值港幣 $10,000 禮遇…

KONGGOK | 港角

SM倡導多元共融職場文化

PR Newswire 美通社