OpenAI o3 模型超越 GPT-5 模型　複雜辦公任務表現優異

一項名為 OdysseyBench 的新基準測試將 AI 代理置於逼真的多日辦公工作流程中，結果令人驚訝：OpenAI 較舊的 o3 模型在許多複雜任務上持續超越較新的 GPT-5。

基準測試詳細表現

由 Microsoft 和愛丁堡大學的研究人員所建立的 OdysseyBench，旨在超越孤立的「原子任務」，測試模型如何處理跨越多天的情境。該基準涵蓋 Word、Excel、PDF、電子郵件和日曆應用程式中的 602 項任務，分為來自 OfficeBench 的 300 項逼真任務 (OdysseyBench+) 和 302 項新建立的、特別具有挑戰性的情境 (OdysseyBench-Neo)。

這兩個部分都要求模型從多日對話中提取資訊、規劃多步驟序列並協調不同辦公工具之間的操作。在 OdysseyBench+ 和 OdysseyBench-Neo 中，OpenAI 的 o3 模型持續領先於 GPT-5。在包含最嚴苛手動任務的 OdysseyBench-Neo 上，o3 模型的成功率達到 61.26%，相較之下 GPT-5 為 55.96%，GPT-5-chat 為 57.62%。在需要同時使用三個應用程式的任務上，差距更大：o3 模型得分 59.06%，而 GPT-5 僅為 53.80%。OdysseyBench+ 的結果相似。在此，o3 模型得分 56.2%，勝過 GPT-5 的 54.0% 和 GPT-5-chat 的 40.3%。在涉及協調兩個或三個應用程式的任務上，差異更為明顯，這些任務中上下文和規劃最為重要。

模型表現差異與發展方向

有趣的是，GPT-5-chat 在 OdysseyBench-Neo 上實際上優於 GPT-5。這可能是因為 Neo 任務側重於對話式協助，發揮了 GPT-5-chat 的優勢。同時，OdysseyBench+ 包含更多零散、較少對話的情境，在這些情境中，專注於推理的 GPT-5 可以更好地從不連貫的輸入中提取相關資訊。

該論文沒有詳細說明 GPT-5 的推理設定，例如思考時間或代理參數，並且更先進的 GPT-5 Pro 模型並未納入評估。這些發現與 OpenAI 正在開發能夠「思考」數小時甚至數天的 AI 代理特別相關，其目標是在醫學和 AI 安全等領域產生新想法並自動化研究。OdysseyBench 可能成為這些長遠系統的關鍵基準。同時，結果也凸顯了進展正在放緩：雖然 o3 模型和 GPT-5 模型都比舊模型有明顯改進，但沒有證據顯示 o3 模型到 GPT-5 模型有跳躍式進步。值得注意的是，o3 模型於今年四月才正式發佈。

AI 代理面臨的挑戰

仔細檢視結果會發現一些重複出現的問題。AI 代理經常忽略重要檔案、跳過必要步驟或使用錯誤的工具。例如，一些模型試圖在 Word 中生成原始文字之前建立 PDF 檔案，或者未能從 PDF 中提取內容，就開始撰寫評論文件。涉及建立或編輯 DOCX 和 XLSX 檔案的任務尤其容易出錯。

這些任務需要仔細、多步驟的協調，而這正是 AI 代理持續面臨困難的領域。研究人員表示，這表明了一個更大的挑戰：目前的 AI 代理在跨越不同工具、時間範圍和上下文的精確、多階段規劃方面仍然存在問題。OdysseyBench 和 HOMERAGENTS 框架可在 GitHub 上取得，有關基準設定和評估提示的完整詳細資訊可在論文附錄中找到。

NewMobileLife 網站：https://www.newmobilelife.com

請更新您的瀏覽器

科技

流動日報

基準測試詳細表現

模型表現差異與發展方向

AI 代理面臨的挑戰

查看更多

ChatGPT 大幅提升 Google 服務整合力　支援 Gmail、Calendar 等服務

乾旱缺水　英國呼籲民眾刪除舊 E-mail、照片減輕數據中心負擔

Perplexity 向 Google 提出收購 Chrome 巨額報價

最新內容

BYD 發佈 3,000 匹馬力超跑或成 Tesla Roadster 的強勁對手

Pixel 10 Pro Fold 支援 Qi2 無線充電，發佈時間延遲根據可靠消息來源透露

Pixel 9 Pro Fold 價格下調，優惠幅度達 $600

Ulefone RugKing 手機具備 9,600 mAh 電池、強光手電筒及 126 dB 喇叭

Tesla 在第 3 季結束時的業務動態分析

被指語氣過於冰冷　GPT-5 讓用戶將自訂 AI 回應風格

Apple Watch 系列明年將有顯著升級

Google Phone 開始推送可自訂的聯絡人「名片」功能

體驗壓倒性的沉浸感！快來體驗「NBA 2K26」超越現實的進化表現技術吧！

Google示警！全球Gmail用戶小心「no-reply詐騙信」

彩虹社推出的「Idios」新周邊上市！「Angel Medicine」周邊8月14日起開賣！

免費任看 ! 《鬼滅之刃》TV 版 Youtube 動畫馬拉松來了！

來自彩虹社「和妖」由4位所組成的折衷女子樂團全新出道！8月15日18點起發佈！

明年 Apple Watch Series 12 或 Ultra 4 迎來全新外觀設計

自由鳥暑假外遊數據日費低至$10　送雙人來回亞洲機票及優惠券

Tesla 競爭對手 CEO 向客戶提出意外建議有關 Model Y

iPhone 17 Pro 物理 SIM 卡槽疑似在泄露圖片中曝光

iPhone 17 Pro Max 內部設計與金屬電池細節曝光

Adobe Photoshop 照片編輯軟件評析：功能、定價及選擇建議

Home Control International Limited (股份代號: 1747.HK) 2025 年中期業績公告

Honor Magic V Flip 2 顯示屏耐用性及電池容量資訊

iPhone 17 Pro 型號 SIM 卡托盤去或留？部分國家或將保留！

iPhone 17 Pro Max 有望大幅升級遠攝鏡頭　8 倍光學變焦

蘋果首款 5G Macbook 或將提早問世

Vantage基金會攜手Blue Dragon Children's Foundation保護兒童並阻斷人口販賣

「瑪利歐賽車世界」將舉辦「線上挑戰暑假大試身手」！將於8月23日17點～19點舉行2小時

【開箱評價】conven UG35 35W 旅行轉插充電器：足夠輕便，旅行床頭為手機充電之選

Claude 學習模式全面開放　助用戶深入理解

請更新您的瀏覽器啟用Javascript

OpenAI o3 模型超越 GPT-5 模型 複雜辦公任務表現優異

流動日報

基準測試詳細表現

模型表現差異與發展方向

AI 代理面臨的挑戰

查看更多

ChatGPT 大幅提升 Google 服務整合力 支援 Gmail、Calendar 等服務

乾旱缺水 英國呼籲民眾刪除舊 E-mail、照片減輕數據中心負擔

Perplexity 向 Google 提出收購 Chrome 巨額報價

最新內容

BYD 發佈 3,000 匹馬力超跑或成 Tesla Roadster 的強勁對手

Pixel 10 Pro Fold 支援 Qi2 無線充電，發佈時間延遲根據可靠消息來源透露

Pixel 9 Pro Fold 價格下調，優惠幅度達 $600

Ulefone RugKing 手機具備 9,600 mAh 電池、強光手電筒及 126 dB 喇叭

Tesla 在第 3 季結束時的業務動態分析

被指語氣過於冰冷 GPT-5 讓用戶將自訂 AI 回應風格

Apple Watch 系列明年將有顯著升級

Google Phone 開始推送可自訂的聯絡人「名片」功能

體驗壓倒性的沉浸感！快來體驗「NBA 2K26」超越現實的進化表現技術吧！

Google示警！ 全球Gmail用戶小心「no-reply詐騙信」

彩虹社推出的「Idios」新周邊上市！「Angel Medicine」周邊8月14日起開賣！

免費任看 ! 《鬼滅之刃》TV 版 Youtube 動畫馬拉松來了！

來自彩虹社「和妖」由4位所組成的折衷女子樂團全新出道！8月15日18點起發佈！

明年 Apple Watch Series 12 或 Ultra 4 迎來全新外觀設計

自由鳥暑假外遊數據日費低至$10 送雙人來回亞洲機票及優惠券

Tesla 競爭對手 CEO 向客戶提出意外建議有關 Model Y

iPhone 17 Pro 物理 SIM 卡槽疑似在泄露圖片中曝光

iPhone 17 Pro Max 內部設計與金屬電池細節曝光

Adobe Photoshop 照片編輯軟件評析：功能、定價及選擇建議

Home Control International Limited (股份代號: 1747.HK) 2025 年中期業績公告

Honor Magic V Flip 2 顯示屏耐用性及電池容量資訊

iPhone 17 Pro 型號 SIM 卡托盤去或留？部分國家或將保留！

iPhone 17 Pro Max 有望大幅升級遠攝鏡頭 8 倍光學變焦

蘋果首款 5G Macbook 或將提早問世

Vantage基金會攜手Blue Dragon Children's Foundation保護兒童並阻斷人口販賣

「瑪利歐賽車世界」將舉辦「線上挑戰 暑假大試身手」！將於8月23日17點～19點舉行2小時

【開箱評價】conven UG35 35W 旅行轉插充電器：足夠輕便，旅行床頭為手機充電之選

Claude 學習模式全面開放 助用戶深入理解

請更新您的瀏覽器

OpenAI o3 模型超越 GPT-5 模型　複雜辦公任務表現優異

ChatGPT 大幅提升 Google 服務整合力　支援 Gmail、Calendar 等服務

乾旱缺水　英國呼籲民眾刪除舊 E-mail、照片減輕數據中心負擔

被指語氣過於冰冷　GPT-5 讓用戶將自訂 AI 回應風格

Google示警！全球Gmail用戶小心「no-reply詐騙信」

自由鳥暑假外遊數據日費低至$10　送雙人來回亞洲機票及優惠券

iPhone 17 Pro Max 有望大幅升級遠攝鏡頭　8 倍光學變焦

「瑪利歐賽車世界」將舉辦「線上挑戰暑假大試身手」！將於8月23日17點～19點舉行2小時

Claude 學習模式全面開放　助用戶深入理解