請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

OpenAI o3 模型超越 GPT-5 模型 複雜辦公任務表現優異

流動日報

更新於 7小時前 • 發布於 10小時前 • NewMobileLife

一項名為 OdysseyBench 的新基準測試將 AI 代理置於逼真的多日辦公工作流程中,結果令人驚訝:OpenAI 較舊的 o3 模型在許多複雜任務上持續超越較新的 GPT-5。

基準測試詳細表現

由 Microsoft 和愛丁堡大學的研究人員所建立的 OdysseyBench,旨在超越孤立的「原子任務」,測試模型如何處理跨越多天的情境。該基準涵蓋 Word、Excel、PDF、電子郵件和日曆應用程式中的 602 項任務,分為來自 OfficeBench 的 300 項逼真任務 (OdysseyBench+) 和 302 項新建立的、特別具有挑戰性的情境 (OdysseyBench-Neo)。

這兩個部分都要求模型從多日對話中提取資訊、規劃多步驟序列並協調不同辦公工具之間的操作。在 OdysseyBench+ 和 OdysseyBench-Neo 中,OpenAI 的 o3 模型持續領先於 GPT-5。在包含最嚴苛手動任務的 OdysseyBench-Neo 上,o3 模型的成功率達到 61.26%,相較之下 GPT-5 為 55.96%,GPT-5-chat 為 57.62%。在需要同時使用三個應用程式的任務上,差距更大:o3 模型得分 59.06%,而 GPT-5 僅為 53.80%。OdysseyBench+ 的結果相似。在此,o3 模型得分 56.2%,勝過 GPT-5 的 54.0% 和 GPT-5-chat 的 40.3%。在涉及協調兩個或三個應用程式的任務上,差異更為明顯,這些任務中上下文和規劃最為重要。

模型表現差異與發展方向

有趣的是,GPT-5-chat 在 OdysseyBench-Neo 上實際上優於 GPT-5。這可能是因為 Neo 任務側重於對話式協助,發揮了 GPT-5-chat 的優勢。同時,OdysseyBench+ 包含更多零散、較少對話的情境,在這些情境中,專注於推理的 GPT-5 可以更好地從不連貫的輸入中提取相關資訊。

該論文沒有詳細說明 GPT-5 的推理設定,例如思考時間或代理參數,並且更先進的 GPT-5 Pro 模型並未納入評估。這些發現與 OpenAI 正在開發能夠「思考」數小時甚至數天的 AI 代理特別相關,其目標是在醫學和 AI 安全等領域產生新想法並自動化研究。OdysseyBench 可能成為這些長遠系統的關鍵基準。同時,結果也凸顯了進展正在放緩:雖然 o3 模型和 GPT-5 模型都比舊模型有明顯改進,但沒有證據顯示 o3 模型到 GPT-5 模型有跳躍式進步。值得注意的是,o3 模型於今年四月才正式發佈。

AI 代理面臨的挑戰

仔細檢視結果會發現一些重複出現的問題。AI 代理經常忽略重要檔案、跳過必要步驟或使用錯誤的工具。例如,一些模型試圖在 Word 中生成原始文字之前建立 PDF 檔案,或者未能從 PDF 中提取內容,就開始撰寫評論文件。涉及建立或編輯 DOCX 和 XLSX 檔案的任務尤其容易出錯。

這些任務需要仔細、多步驟的協調,而這正是 AI 代理持續面臨困難的領域。研究人員表示,這表明了一個更大的挑戰:目前的 AI 代理在跨越不同工具、時間範圍和上下文的精確、多階段規劃方面仍然存在問題。OdysseyBench 和 HOMERAGENTS 框架可在 GitHub 上取得,有關基準設定和評估提示的完整詳細資訊可在論文附錄中找到。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章

ChatGPT 大幅提升 Google 服務整合力 支援 Gmail、Calendar 等服務

流動日報

乾旱缺水 英國呼籲民眾刪除舊 E-mail、照片減輕數據中心負擔

流動日報

Perplexity 向 Google 提出收購 Chrome 巨額報價

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

最新內容

BYD 發佈 3,000 匹馬力超跑或成 Tesla Roadster 的強勁對手

TECH RITUAL

Pixel 10 Pro Fold 支援 Qi2 無線充電,發佈時間延遲根據可靠消息來源透露

TECH RITUAL

Pixel 9 Pro Fold 價格下調,優惠幅度達 $600

TECH RITUAL

Ulefone RugKing 手機具備 9,600 mAh 電池、強光手電筒及 126 dB 喇叭

TECH RITUAL

Tesla 在第 3 季結束時的業務動態分析

TECH RITUAL

被指語氣過於冰冷 GPT-5 讓用戶將自訂 AI 回應風格

流動日報

Apple Watch 系列明年將有顯著升級

TECH RITUAL

Google Phone 開始推送可自訂的聯絡人「名片」功能

TECH RITUAL

體驗壓倒性的沉浸感!快來體驗「NBA 2K26」超越現實的進化表現技術吧!

Saiga NAK

Google示警! 全球Gmail用戶小心「no-reply詐騙信」

VOCO News

彩虹社推出的「Idios」新周邊上市!「Angel Medicine」周邊8月14日起開賣!

Saiga NAK

免費任看 ! 《鬼滅之刃》TV 版 Youtube 動畫馬拉松來了!

流動日報

來自彩虹社「和妖」由4位所組成的折衷女子樂團全新出道!8月15日18點起發佈!

Saiga NAK

明年 Apple Watch Series 12 或 Ultra 4 迎來全新外觀設計

流動日報

自由鳥暑假外遊數據日費低至$10 送雙人來回亞洲機票及優惠券

am730

Tesla 競爭對手 CEO 向客戶提出意外建議有關 Model Y

TECH RITUAL

iPhone 17 Pro 物理 SIM 卡槽疑似在泄露圖片中曝光

TECH RITUAL

iPhone 17 Pro Max 內部設計與金屬電池細節曝光

流動日報

Adobe Photoshop 照片編輯軟件評析:功能、定價及選擇建議

TECH RITUAL

Home Control International Limited (股份代號: 1747.HK) 2025 年中期業績公告

PR Newswire 美通社

Honor Magic V Flip 2 顯示屏耐用性及電池容量資訊

TECH RITUAL

iPhone 17 Pro 型號 SIM 卡托盤去或留?部分國家或將保留!

流動日報

iPhone 17 Pro Max 有望大幅升級遠攝鏡頭 8 倍光學變焦

流動日報

蘋果首款 5G Macbook 或將提早問世

流動日報

Vantage基金會攜手Blue Dragon Children's Foundation保護兒童並阻斷人口販賣

PR Newswire 美通社

「瑪利歐賽車世界」將舉辦「線上挑戰 暑假大試身手」!將於8月23日17點~19點舉行2小時

Saiga NAK

【開箱評價】conven UG35 35W 旅行轉插充電器:足夠輕便,旅行床頭為手機充電之選

TECH RITUAL

Claude 學習模式全面開放 助用戶深入理解

流動日報