性能提升仍有限!GPT-5、Grok 4、o3 Pro都零分 史上最難AI評測基準換「它」
先進 AI 模型真能達到博士級推理水準嗎?谷歌、OpenAI 旗下模型先前雖在數學奧林匹克 (IMO) 測試中斬獲金牌,讓不少人認為大語言模型 (LLM) 或許已具備攻克博士級科研難題的推理能力,但現實或許並非如此樂觀。
AI 媒體《機器之心》報導,專注於超智慧和高級 AI 系統研究的機構 AA-I Technologies,近期推出名為 FormulaOne 的新基準測試,讓一票大模型集體「翻車」。GPT-5、o3 Pro、Gemini 2.5 Pro、Grok 4 等模型在此測試中均得零分。
測試結果顯示,在淺層難度上,頂尖模型表現達到 50% 至 70%,說明它們對這類問題有一定熟悉度,任務在其訓練分佈範圍內。深層難度上,Grok 4、Gemini-Pro 等模型最多只能解出 1/100 的題目,GPT-5 Pro 也僅在 10% 上解出 1/100 的題目。
上述測試相關內容可在 HuggingFace 上查看,網址為 https://huggingface.co/spaces/double- ai/FormulaOne - Leaderboard,影片解說可參考 https://mp.weixin.qq.com/s/cyOJ_Id606REj97nCXYqhg。
FormulaOne 包含 220 個新穎的圖結構動態規劃問題,依難度分為中等、科研等三類,最高等級難題涉及拓樸與幾何、組合問題分析等內容。測驗題看似表述自然,實則解題思路極不直觀。
這類問題的可解性由 Courcelle 提出的演算法元定理保障,該定理指出對於類似樹的圖,能用特定形式邏輯定義的問題,可透過運行時間與圖的階數成線性關係的動態規劃演算法解決,關鍵在於利用樹分解結構將圖的頂點組織成重疊式「袋」,這些「袋裝」呈現樹狀圖,但過程中佈滿微妙組合與邏輯陷阱,需要對問題底層結構有深刻理解,例如解決名為 Maximal - Cluster - Graph 的難題需要十五個相互依賴的推理步驟。
AA-I 是以色列知名企業家、科學家 Amnon Shashua 於 2023 年 8 月創立的 AI 新創公司。Shashua 在自動駕駛、人工視覺和 AI 領域聲譽頗高,是自駕公司 Mobileye、AI21 Labs 和 OrCam 等多個知名專案的創始人。
AA-I 的核心目標是推動「人工專家智慧」(AEI) 的理論與應用,探索區別於傳統窄域 AI 和 AGI 的新發展路徑,旨在讓 AI 像頂級人類專家一樣,結合領域知識與嚴密科學推理能力,突破傳統瓶頸,解決複雜科學或工程難題。
AA-I 創立一年內吸引數千萬美元投資,也入選 AWS 2024 年生成式 AI 加速器項目,獲贈 100 萬美元運算資源用於加速 AI 基礎建設。
更多鉅亨報導
留言 0