請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

誰是AI數學解題之王?Gemini、ChatGPT奧林匹克賽都摘金,誰更接近頂尖天才高中生?

數位時代

更新於 07月22日03:32 • 發布於 07月22日03:30

重點一:Google DeepMind 的 Gemini Deep Think AI 模型於 2025 年國際數學奧林匹亞(IMO)以自然語言直接解題,獲得金牌標準,成為首批獲官方認證的 AI 系統之一。

重點二:Google的Gemini大型語言模型透過「深度思考」功能及強化學習,正確解答六題中的五題。而最難的第六題,全體630名參賽學生中僅有5名學生解題成功。

重點三:該AI模型將先由數學家測試,未來預計納入Google AI Ultra訂閱服務,進一步推向市場。

Google母公司Alphabet旗下AI研究部門 Google DeepMind 宣布,其開發的人工智慧模型在國際數學奧林匹亞 (International Mathematical Olympiad, IMO) 競賽中,成功摘下金牌。

國際數學奧林匹亞是一項面向高中生的著名數學競賽,每個參賽國家派出六名選手,必須在4.5小時內解答六題。2025年共有630名參賽者,排名前半的參賽者獲得獎牌,而只有頂尖的前8%選手、共67人獲得金牌。

這項成就的關鍵在於,Gemini Deep Think AI 是在與全球頂尖高中生完全相同的競賽條件與評分標準下完成挑戰,成功在六道題目中解出五道(解題過程請點我),獲得總分35分(滿分42分),證明其已具備世界一流的複雜數學推理能力。去年,GoogleDeepMind的AlphaProof和AlphaGeometry 2系統組合取得了銀牌,解決了六個問題中的四個,獲得了28分。

Google今年採用Gemini Deep Think AI 參與IMO競賽,結果優於去年的AlphaProof和AlphaGeometry 2系統組合。

有趣的是,OpenAI研究員Alexander Wei日前才在X上發文指出,OpenAI最新的實驗性語言模型在 也在國際數學奧林匹亞正確解答了六題中的五題,達到金牌水準。

執行長Sam Altman 則稱這一成就是 AI 發展十年來的重要里程碑,但強調這種「金牌級」能力的模型短期內不會公開。

因此,Google此番高調宣布金牌,再加上宣布該模型未來將納入Google AI Ultra,與OpenAI隔空較勁的意味十分濃厚。

Gemini能以自然語言理解題目,AI數學家教要來了?

更關鍵的是,雖然Gemini跟OpenAI的實驗模型在數學解題上都達到了IMO金牌水準, 但OpenAI的評鑑方式是由一群前IMO獎牌得主進行獨立評分,而非在官方競賽框架下進行 。相較之下,Google的AI直接面對官方試題,並在4.5小時的時限內完成作答,其結果的公正性與可比性更勝一籌。

此次參賽的AI是以 Gemini 系列大型語言模型為核心,並搭載了今年五月發布的 Deep Think 功能。此技術使其能夠模擬人類思緒,同時生成並評估多種解題路徑,最終整合出最佳答案。

為了訓練AI的數學能力,Google採用了強化學習 (reinforcement learning) 技術,並利用包含高品質數學解題過程、甚至是解題技巧與提示的特製資料庫進行訓練,使其能處理橫跨代數、組合數學、幾何與數論等領域的複雜證明題。

白話來說, Gemini Deep Think AI 能夠直接用自然語言(像人類一樣的英文敘述)理解和解答數學題目,不需要先把題目轉換成專業的電腦語言。而採用「平行推理」技術,意思是同時思考多種解題方法,最後選出最好的答案,而不是只走單一路線。

獲獎模型將納入Google AI Ultra方案

Google DeepMind表示,相較於去年獲得銀牌的AI模型 AlphaGeometry 與 AlphaProof 需要專家將題目翻譯成特定程式語言,耗時數日運算,今年新一代的Gemini模型已能直接以自然語言理解題目並生成證明,且在競賽時限內完成,展現了端到端的卓越能力。

Google計畫將此頂尖AI技術分階段推向市場,初期將提供給特定數學家進行測試與合作,最終將整合至名為「Google AI Ultra」的訂閱服務中,目前該服務的月費為新台幣8,150元,旨在為高階用戶提供更強大的AI助理功能與一系列進階AI服務。

延伸閱讀:年薪上看487萬!10大「AI最難取代」高薪職位出爐:不只工程師,這類非理科也超穩
電費愈貴它愈搶手,虛擬電廠是什麼?為何是AI時代穩定供電關鍵?

本文初稿為AI編撰,整理.編輯/ 李先泰

資料來源:Googlesiliconangle商業內幕

延伸閱讀

醫療AI國家隊來了!工研院揪團成立「MedBobi 2.0」平台,為何它能解放醫師的雙眼?
重返20歲要讀什麼?黃仁勳秒答「這科系」:下一波實體AI,要懂摩擦力、慣性⋯還有因果
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

景氣燈號「回落近1年半」最低點 國發會點3因素恐添變數

TVBS
02

台積電沒拿到特斯拉165億美元大單!馬斯克把最新晶片交給「這企業」製造

風傳媒
03

台灣無人機出口暴增近7.5倍! 不是烏克蘭 「這國」是最大買家.....

新頭殼
04

金管會ETF新規 專家:高股息要掰了?

NOWnews 今日新聞
05

士電、中興電、亞力、華城...台美加速電網投資,重電4雄誰能領風騷?

商周財富網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 0

沒有留言。

最新消息

盤中速報 - Sei大跌8.26%,報0.32美元

anue鉅亨網

盤中速報 - Worldcoin大跌8.19%,報1.12美元

anue鉅亨網

盤中速報 - Dogwifhat大跌8.53%,報1.04美元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Kinsale Capital Group Inc(KNSL-US)EPS預估上修至18.1元,預估目標價為485.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Woori Financial Group Inc - ADRWF-US的目標價調升至63.23元,幅度約9.99%

anue鉅亨網

鉅亨速報 - Factset 最新調查:福陸FLR-US的目標價調升至57元,幅度約8.57%

anue鉅亨網

盤中速報 - FLOKI大跌8.37%,報0美元

anue鉅亨網

慧榮今天正式入厝竹北總部! 未來四年竹北高鐵站前核心區行情火熱

太報

智易(3596)啟動成長週期,寬頻與5G需求推升未來兩年營運動能

優分析

工程師高薪排行 年薪中位數178萬元奪冠

NOWnews 今日新聞

市場期盼美中延長貿易休戰 華爾街股市多收漲

中央通訊社

〈美股盤後〉川普稱全球基準關稅大概是15-20% 標普那指再登新高

anue鉅亨網

美歐貿易協定達成「美股漲跌互見」 台指期盤後小跌68點

民視新聞網

川普設俄烏停火新期限引供應擔憂 國際油價走揚

中央通訊社

蔡明忠組團破局/難擋剪線潮雪崩另謀出路 蔡明忠組寬頻聯軍抗中華電信失利

鏡週刊

蔡明忠組團破局1/蔡明忠登高一呼被打槍 揭密寬頻業者冷回應4大理由

鏡週刊

蔡明忠組團破局2/全台有線電視業者山頭林立 他讓蔡明忠再踢鐵板

鏡週刊

蔡明忠組團破局3/寬頻一哥中華電信沒在怕 不打價格戰直攻加值應用

鏡週刊

陸行之直指五大因素使得三星拿到特斯拉晶片代工生意

科技新報

金融時報:特斯拉165億美元大單 仍難挽回三星晶圓代工頹勢 Edit

anue鉅亨網

鉅亨速報 - Factset 最新調查:RPM International, Inc.RPM-US的目標價調升至135元,幅度約7.14%

anue鉅亨網

鉅亨速報 - Factset 最新調查:Credo Technology Group Holding LtdCRDO-US的目標價調升至112元,幅度約8.21%

anue鉅亨網

盤中速報 - 哈希圖大跌8.47%,報0.2668美元

anue鉅亨網

下半年信用卡權益變動(二) 3張LINE Pay大決鬥

卡優新聞網

台新新光壽險通過合併 雙證券整併躍升第4大

卡優新聞網

房市冷淡買舊不買新 北市老屋交易成主流

卡優新聞網

億級高資產戶破萬人 玉山銀挺進財管3強

卡優新聞網

盤中速報 - Sui大跌8.17%,報4美元

anue鉅亨網

日本淡化川普貿易協議風險 稱5500億投資多為放貸

anue鉅亨網

藥價要漲了?歐美貿易協議15%關稅 製藥業成本恐增至190億美元

anue鉅亨網

盤中速報 - CRV大跌8.58%,報0.974美元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Range資源-路易斯安那(RRC-US)EPS預估下修至3.12元,預估目標價為44.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Expand Energy Corporation(EXE-US)EPS預估下修至6.78元,預估目標價為134.50元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Woori Financial Group Inc - ADR(WF-US)EPS預估上修至8.88元,預估目標價為57.49元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Antero Resources Corp(AR-US)EPS預估下修至2.59元,預估目標價為46.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:雪佛龍(CVX-US)EPS預估上修至7.8元,預估目標價為165.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:加拿大自然資源公司(CNQ-US)EPS預估上修至2.55元,預估目標價為37.97元

anue鉅亨網

鉅亨速報 - Factset 最新調查:SharkNinja Inc.SN-US的目標價調升至126元,幅度約4.13%

anue鉅亨網

鉅亨速報 - Factset 最新調查:布魯姆能源BE-US的目標價調升至28.5元,幅度約5.56%

anue鉅亨網

微軟Edge新推「Copilot模式」 AI助理深化網頁瀏覽體驗

anue鉅亨網