OpenAI o3 模型超越 GPT-5 模型 複雜辦公任務表現優異
一項名為 OdysseyBench 的新基準測試將 AI 代理置於逼真的多日辦公工作流程中,結果令人驚訝:OpenAI 較舊的 o3 模型在許多複雜任務上持續超越較新的 GPT-5。
基準測試詳細表現
由 Microsoft 和愛丁堡大學的研究人員所建立的 OdysseyBench,旨在超越孤立的「原子任務」,測試模型如何處理跨越多天的情境。該基準涵蓋 Word、Excel、PDF、電子郵件和日曆應用程式中的 602 項任務,分為來自 OfficeBench 的 300 項逼真任務 (OdysseyBench+) 和 302 項新建立的、特別具有挑戰性的情境 (OdysseyBench-Neo)。
這兩個部分都要求模型從多日對話中提取資訊、規劃多步驟序列並協調不同辦公工具之間的操作。在 OdysseyBench+ 和 OdysseyBench-Neo 中,OpenAI 的 o3 模型持續領先於 GPT-5。在包含最嚴苛手動任務的 OdysseyBench-Neo 上,o3 模型的成功率達到 61.26%,相較之下 GPT-5 為 55.96%,GPT-5-chat 為 57.62%。在需要同時使用三個應用程式的任務上,差距更大:o3 模型得分 59.06%,而 GPT-5 僅為 53.80%。OdysseyBench+ 的結果相似。在此,o3 模型得分 56.2%,勝過 GPT-5 的 54.0% 和 GPT-5-chat 的 40.3%。在涉及協調兩個或三個應用程式的任務上,差異更為明顯,這些任務中上下文和規劃最為重要。
模型表現差異與發展方向
有趣的是,GPT-5-chat 在 OdysseyBench-Neo 上實際上優於 GPT-5。這可能是因為 Neo 任務側重於對話式協助,發揮了 GPT-5-chat 的優勢。同時,OdysseyBench+ 包含更多零散、較少對話的情境,在這些情境中,專注於推理的 GPT-5 可以更好地從不連貫的輸入中提取相關資訊。
該論文沒有詳細說明 GPT-5 的推理設定,例如思考時間或代理參數,並且更先進的 GPT-5 Pro 模型並未納入評估。這些發現與 OpenAI 正在開發能夠「思考」數小時甚至數天的 AI 代理特別相關,其目標是在醫學和 AI 安全等領域產生新想法並自動化研究。OdysseyBench 可能成為這些長遠系統的關鍵基準。同時,結果也凸顯了進展正在放緩:雖然 o3 模型和 GPT-5 模型都比舊模型有明顯改進,但沒有證據顯示 o3 模型到 GPT-5 模型有跳躍式進步。值得注意的是,o3 模型於今年四月才正式發佈。
AI 代理面臨的挑戰
仔細檢視結果會發現一些重複出現的問題。AI 代理經常忽略重要檔案、跳過必要步驟或使用錯誤的工具。例如,一些模型試圖在 Word 中生成原始文字之前建立 PDF 檔案,或者未能從 PDF 中提取內容,就開始撰寫評論文件。涉及建立或編輯 DOCX 和 XLSX 檔案的任務尤其容易出錯。
這些任務需要仔細、多步驟的協調,而這正是 AI 代理持續面臨困難的領域。研究人員表示,這表明了一個更大的挑戰:目前的 AI 代理在跨越不同工具、時間範圍和上下文的精確、多階段規劃方面仍然存在問題。OdysseyBench 和 HOMERAGENTS 框架可在 GitHub 上取得,有關基準設定和評估提示的完整詳細資訊可在論文附錄中找到。
NewMobileLife 網站:https://www.newmobilelife.com