AI Agent過譽了？16款LLM代理功能大PK：GPT-5達成率43％卻奪冠，為何複雜任務AI搞不定？

重點一：MCP-Universe基準測試顯示，現有大型語言模型（如GPT-5）在真實企業環境下的成功率僅約四成，遠低於市場宣傳。

重點二：模型雖能遵循格式規範，但在處理動態資料、多步推理及不熟悉工具時，表現大幅下滑，暴露出多重脆弱性。

重點三：框架選擇與工具組合對AI代理效能有實質影響，僅靠提升模型規模無法解決可靠性問題。

目前市面上的各式AI代理，真的如各家AI大廠說的這麼神，甚至可以取代初階白領工作？近期的研究結果，恐怕為AI代理的任務成功率打了一個大問號。

由Salesforce AI Research主導開發的MCP-Universe基準測試，首次以連接真實伺服器、涵蓋導航、金融分析、3D設計等六大領域、共231項任務，全面檢驗16款大型語言模型（LLM）在企業應用的實戰表現，從最新的GPT-5到DeepSeek-V3都在測試之列。

測試結果顯示， 即使是最先進的 LLM（如 GPT-5、Grok-4、Claude-4.0-Sonnet），在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44% ，顯示現有模型在長上下文、多工具、跨領域等挑戰下表現有限，而其他多數模型成功率低於 20%。

以最新推出的GPT-5為例，雖在金融分析領域完成率達67.5%，在3D設計任務也超過五成（52.63%），但在導航（33.3%）與瀏覽器自動化（35.9%）等複雜多步驟任務上，失敗率反而居高不下，與宣傳中的「全能」形象形成鮮明對比。

而在特定測試項目上，Grok-4 在瀏覽器自動化（41.03%）與網頁搜尋（41.82%）具競爭力。Claude 4.0 Sonnet 則在金融（55%）表現突出；表現最佳的開源模型則為GLM-4.5（由中國AI新創Z.ai開發），任務成功率達24.68%，但與頂級商用模型仍有明顯差距。

若以效率來看，o3 完成成功任務的平均步數最少（AS 4.82），顯示較高行動效率；但整體成功率不及 GPT-5、Grok-4。

測試結果顯示，即使是最先進的 LLM（如 GPT-5、Grok-4、Claude-4.0-Sonnet），在 MCP-Universe 的真實任務中成功率僅 43.72%、33.33%、29.44%。

註1 ：以上數據皆取自論文表格（Table 3、Table 4）。
註2 ：AE 為平均評估器得分（Average Evaluator score），可理解成 AI 完成任務時，答對了多少要求的平均分數。分數越高，代表 AI 不只答對大方向，連細節也做得好；AS 則為成功任務的平均步數，原則上越低代表效率越高。
註3 ：對於一款優秀 AI 的理想狀況是：AS 低的同時 SR 和 AE 都高，才是又快又準的好 AI。

代理AI能力仍有限，4大瓶頸有哪些？

MCP-Universe 的評測不再讓 AI 自評，而是以「執行結果」為唯一標準，分別設有格式、靜態資料、動態資料三類評估。多數模型在格式規範上表現優異，亦即 AI 必須按照題目或系統要求，輸出特定的格式、欄位、順序或資料型態。

例如，Anthropic 的 Claude-4.0 Sonnet 在格式規範的合規率接近 98%，但一旦面對需要「查詢即時股價」、「路線規劃」等動態資訊，成功率即跌至四至六成。

GPT-5 在動態任務中的表現雖領先同儕，成功率仍僅 65.9%，也就是每三次就有一次失敗。模型在多步推理、長上下文維持、與不熟悉工具互動時常出現執行錯誤。例如，在 Yahoo Finance 伺服器查詢股價時，模型經常將應填兩個不同日期的欄位填成同一天，導致任務失敗。

總結來說，AI 代理在真實應用場景下的可靠性，主要受到以下幾個關鍵瓶頸限制：

一、長上下文挑戰
隨著任務步驟增加，AI 需要記住和處理的資訊量（token 數）急速膨脹，容易導致資訊遺失、上下文溢出，進而影響推理與決策品質。
二、工具不熟悉
AI 代理常常不熟悉 MCP 伺服器或外部工具的參數、使用方式與回傳格式，容易出現操作錯誤或無法正確完成任務。
三、跨域適應困難
當任務橫跨多個領域（如地圖、財務、程式碼等），AI 代理難以靈活切換規則與知識，導致表現不穩定或失誤率上升。
四、格式與內容雙重要求
雖然多數模型能遵守格式規範，但在內容正確性（如資料查詢、推理結果）上仍有明顯落差，這也影響了可靠性。

代理AI落地仍是未竟之志

報告同時揭示，AI 代理（Agent）所採用的架構與工具組合對效能有明顯影響。例如，ReAct（由 Meta 開發的前端 JavaScript 框架）框架在多數情境下優於 Cursor Agent，僅在瀏覽器自動化等少數場景例外。而 OpenAI 自家 Agent SDK 在金融、設計領域的表現也優於通用框架。

更值得注意的是，當任務中加入無關伺服器、增加工具雜訊後，模型成功率會大幅下滑，凸顯現有 AI 在「工具協作」與「抗干擾」能力的不足。

整體而言，MCP-Universe 基準測試證實，現有大型語言模型雖在一般任務表現優異，但在真實多工具、多領域環境下仍有明顯不足。未來模型需加強四大瓶頸，才能真正落地於企業與產業場景。

＞延伸閱讀：「誰說不玩了？」宏達電靠AI眼鏡拔4根漲停，VIVE Eagle如何迎戰Meta、Google？

資料來源：Salesforce AI Research、digitalinformationworld

本文初稿為 AI 編撰，整理．編輯/ 李先泰

請更新您的瀏覽器啟用Javascript

數位時代

代理AI能力仍有限，4大瓶頸有哪些？

代理AI落地仍是未竟之志

更多理財相關文章

劉鏡清：下一代未來在AI 有矽光子台灣永遠第一大國

小米中國召回逾14萬顆行動電源 台灣同型號仍在售

3張千萬特別獎發票無人領！ 地點、門市曝光9／5到期

勞保局發錢「近10萬入帳」！符合資格一次給5個月 6筆津貼連發

查看更多數位時代

「同行都笑我傻，說賣電車很苦！」新購燃油機車降稅2000元，為何電動機車行笑不出來？

輝達拒付美政府15%抽成：若無正式法規，公司可繼續對中國銷售

一年挑戰30億營收！新光三越睽違12年打造台南最潮百貨，「小北門店」將攪動百貨版圖？

Google首席佈道師釋出AI工具懶人包：新手如何Vibe Coding？6種AI助手差在哪？

最新消息

Mercedes-Benz GLB、GLC 43 與 SL 43 新年式升級登場！

Mercedes-Benz GLB、GLC 43 與 SL 43 推新年式車型！

美股3大指數開低！ 那指慘跌1.27％

盤中速報 - 科林研發(LRCX-US)大跌5.01%，報98.88美元

福特六和推入主 Ford Kuga 享原廠保固與 6 萬豪禮等活動！

台灣保時捷啟用第 15 座保時捷高速充電站！

賴建信出席APEC 分享台灣投入200億美元強化電網

盤中速報 - 費城半導體大跌3.01%，報5676.65點

盤中速報 - 甲骨文(ORCL-US)大跌5.01%，報228.28美元

台積電遭低估？外資喊1740元 台股盤中創新高

存在燃燒風險！中國小米宣布召回14.6萬顆行動電源 同型號台灣官網仍有售

川普關稅持續發酵衝擊歐最大經濟體 德通膨升至2.1%、失業率攀升至6.4%

今彩539第114210期 頭獎槓龜

大樂透第114083期 頭獎槓龜

美國7月PCE年增率持穩於2.6% 核心PCE略增至2.9%

川普次子出席香港論壇 稱比特幣將漲到100萬美元

盤中速報 - 費城半導體大跌2%，報5736點

盤中速報 - 超微電腦(SMCI-US)大跌5.03%，報41.76美元

劉鏡清：有矽光子台灣永遠是第一大國(圖)

爆！違反重大訊息規定 「這家」公司挨罰5萬！

阿里巴巴推新晶片 中企搶攻自主技術拼不再依賴輝達

貿協董事長黃志芳出席家庭日(圖)

〈美股早盤〉主要指數開低 PCE符合預期但Fed降息仍受關稅疑慮牽制

盤中速報 - 歐特克(ADSK-US)大漲10.54%，報318.89美元

盤中速報 - 費城半導體大跌1.62%，報5758.14點

盤中速報 - 邁威爾科技(MRVL-US)大跌16.61%，報64.4美元

台股尾盤下殺翻黑小跌3點 台積電收平盤1160元

輝達黃仁勳：川普瞭解全球AI使用美國標準 有助贏得競爭

7張發票中3千元 超商女店長竟被約談！國稅局挨批擾民回應了

小米行動電源有燃燒風險！中國急召回14.6萬顆、台灣也有賣

莊正賢:輝達供應鏈 看1檔本益比10倍 新奇兵概念股

莊正賢:輝達供應鏈 看1檔本益比10倍 新奇兵概念股

蘇威元:一檔華碩金孫股 Jetson Thor題材 主打AI醫療機器人

蘇威元:一檔華碩金孫股 Jetson Thor題材 主打AI醫療機器人

Pixel 10 標配 12GB RAM，但至少 3GB 都被 AI 吃了

〈財報〉螞蟻集團獲利大減六成 投入AI與海外拓展承壓

金檢報告：銀行不動產放款有缺失 開戶審查待加強

瞄準南漂年輕族商機 新光三越台南小北門店祭3招搶客

印度第2季經濟成長率7.8% 優於預期

第二屆2025金肉獎頒獎典禮玩味登場 老饕競拍吃播短片 大啖菲瑞牛肉入鏡比創意

請更新您的瀏覽器

小米中國召回逾14萬顆行動電源台灣同型號仍在售

3張千萬特別獎發票無人領！　地點、門市曝光9／5到期

勞保局發錢「近10萬入帳」！符合資格一次給5個月　6筆津貼連發

美股3大指數開低！　那指慘跌1.27％

賴建信出席APEC　分享台灣投入200億美元強化電網

台積電遭低估？外資喊1740元台股盤中創新高

存在燃燒風險！中國小米宣布召回14.6萬顆行動電源　同型號台灣官網仍有售

川普關稅持續發酵衝擊歐最大經濟體德通膨升至2.1%、失業率攀升至6.4%

今彩539第114210期　頭獎槓龜

大樂透第114083期　頭獎槓龜

美國7月PCE年增率持穩於2.6%　核心PCE略增至2.9%

川普次子出席香港論壇　稱比特幣將漲到100萬美元

爆！違反重大訊息規定　「這家」公司挨罰5萬！

阿里巴巴推新晶片中企搶攻自主技術拼不再依賴輝達

台股尾盤下殺翻黑小跌3點台積電收平盤1160元

輝達黃仁勳：川普瞭解全球AI使用美國標準有助贏得競爭

7張發票中3千元超商女店長竟被約談！國稅局挨批擾民回應了

莊正賢:輝達供應鏈看1檔本益比10倍新奇兵概念股

莊正賢:輝達供應鏈看1檔本益比10倍新奇兵概念股

蘇威元:一檔華碩金孫股 Jetson Thor題材主打AI醫療機器人

蘇威元:一檔華碩金孫股 Jetson Thor題材主打AI醫療機器人

〈財報〉螞蟻集團獲利大減六成投入AI與海外拓展承壓

金檢報告：銀行不動產放款有缺失　開戶審查待加強

瞄準南漂年輕族商機　新光三越台南小北門店祭3招搶客

印度第2季經濟成長率7.8%　優於預期

第二屆2025金肉獎頒獎典禮玩味登場老饕競拍吃播短片大啖菲瑞牛肉入鏡比創意