性能提升仍有限！GPT-5、Grok 4、o3 Pro都零分史上最難AI評測基準換「它」

更新於 1小時前 • 發布於 1小時前

圖：Pixabay/Unsplash/Pexel

先進 AI 模型真能達到博士級推理水準嗎？谷歌、OpenAI 旗下模型先前雖在數學奧林匹克 (IMO) 測試中斬獲金牌，讓不少人認為大語言模型 (LLM) 或許已具備攻克博士級科研難題的推理能力，但現實或許並非如此樂觀。

AI 媒體《機器之心》報導，專注於超智慧和高級 AI 系統研究的機構 AA-I Technologies，近期推出名為 FormulaOne 的新基準測試，讓一票大模型集體「翻車」。GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等模型在此測試中均得零分。

測試結果顯示，在淺層難度上，頂尖模型表現達到 50% 至 70%，說明它們對這類問題有一定熟悉度，任務在其訓練分佈範圍內。深層難度上，Grok 4、Gemini-Pro 等模型最多只能解出 1/100 的題目，GPT-5 Pro 也僅在 10% 上解出 1/100 的題目。

上述測試相關內容可在 HuggingFace 上查看，網址為 https://huggingface.co/spaces/double- ai/FormulaOne - Leaderboard，影片解說可參考 https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg。

FormulaOne 包含 220 個新穎的圖結構動態規劃問題，依難度分為中等、科研等三類，最高等級難題涉及拓樸與幾何、組合問題分析等內容。測驗題看似表述自然，實則解題思路極不直觀。

這類問題的可解性由 Courcelle 提出的演算法元定理保障，該定理指出對於類似樹的圖，能用特定形式邏輯定義的問題，可透過運行時間與圖的階數成線性關係的動態規劃演算法解決，關鍵在於利用樹分解結構將圖的頂點組織成重疊式「袋」，這些「袋裝」呈現樹狀圖，但過程中佈滿微妙組合與邏輯陷阱，需要對問題底層結構有深刻理解，例如解決名為 Maximal - Cluster - Graph 的難題需要十五個相互依賴的推理步驟。

AA-I 是以色列知名企業家、科學家 Amnon Shashua 於 2023 年 8 月創立的 AI 新創公司。Shashua 在自動駕駛、人工視覺和 AI 領域聲譽頗高，是自駕公司 Mobileye、AI21 Labs 和 OrCam 等多個知名專案的創始人。

AA-I 的核心目標是推動「人工專家智慧」(AEI) 的理論與應用，探索區別於傳統窄域 AI 和 AGI 的新發展路徑，旨在讓 AI 像頂級人類專家一樣，結合領域知識與嚴密科學推理能力，突破傳統瓶頸，解決複雜科學或工程難題。

AA-I 創立一年內吸引數千萬美元投資，也入選 AWS 2024 年生成式 AI 加速器項目，獲贈 100 萬美元運算資源用於加速 AI 基礎建設。

更多鉅亨報導

點我加鉅亨網LINE好友🔥財經大事不漏接

查看原始文章