根據 AI 研究機構 METR(Model Evaluation & Threat Research)發表的最新研究,AI 可完成的任務時長能力 (task time horizon,指AI 系統可有效完成的任務,所需時間的上限) ,約每 7 個月就翻倍成長。也就是說,AI 正在以驚人的速度進化。
根據 METR 的測試結果,先進的 AI 模型如 Claude 3.7,在特定基準(benchmark)上達成約 50% 成功率時,已能完成長達一小時的任務。
既然AI如此強大,為什麼「真實世界」的工作,似乎沒有變得更輕鬆?許多例行任務仍未自動化:每天許多「人工」email往返,專案進度追蹤依賴實體會議討論,甚至像安排會議、文件分類這類任務,也依然是人類工作者的日常。這讓人產生疑問: 既然 AI 已具備處理一小時長度任務的能力,為何還無法接手這些工作?
AI的限制1:現實任務多為複雜情境且不易拆解
根據 METR 研究結果,這個落差背後可歸因於AI的核心限制:AI 任務能力的表現高度依賴特定領域、成功率若需提升至實務標準會大幅壓縮任務時長、而現實任務本身則高度綁定多重情境且不易拆解,與單純的測試環境大不相同。這些因素彼此交織,使得在多數工作情境中, AI仍難以輕易取代人類的角色。
前述 AI 能力的推估來自特定軟體類任務測試,如 HCAST(Human-Centered AI Systems Testing)主要評估 AI 系統與人類互動時的有效性與適應性;RE-Bench(Reasoning Evaluation Benchmark)則檢驗模型在面對複雜邏輯推理任務時的表現精確度與邏輯一致性;SWAA Suite(Semantic Web Agent Assessment Suite)則用以評估 AI 代理在理解、處理與運用語義資訊上的能力。 這些測試多為封閉、低變動、目標明確的場境,與真實工作中的任務結構存在落差。
且研究指出,若選擇不同任務領域,推估結果會大幅變動。舉例而言,若以象棋為分析基準,1990 年代的 AI 已能操作數小時到數天長度的任務,但這顯然無法外推至職場中大多數工作。
此外,在測試平台OSWorld 的電腦操作任務中,人類平均表現為 73%,而目前頂尖 AI 僅有約 42%。反過來,在長文本理解任務中,AI 能有效處理比人類更大量的資訊。這說明 AI 的任務能力強烈依賴領域與任務類型。
AI的限制2:成功率的要求愈高,可處理的任務時長會跟著縮短
雖然 AI 在基準值任務上能以約 50% 成功率完成一小時任務,但這樣的準確率難以應用於實際工作情境。根據 METR 模型,當成功率需求提高至 80% 時,AI 能處理的任務時長將降至約 15 分鐘;若進一步推估至 99% 的準確率,可處理的時長可能低於一分鐘。
在高風險領域如自動駕駛,常需極高的準確率來避免重大錯誤。儘管研究也指出人類在一小時任務中的成功率僅約 50%,但人類的錯誤往往源於分心、資訊不足或中途放棄等非技術性原因,而 AI 的錯誤更常來自無法掌握上下文、缺乏必要資料或偏好理解。
這種結構性差異,使得 AI 若無法穩定達到高準確率,就難以被信賴用於更長任務或更關鍵的場景中。
AI的限制3:缺乏「上下文理解」,難以全面接管人類工作
AI 難以處理許多短期任務的原因之一,是這些任務實際上通常綁定在更大的工作流程中。例如「寫 email」這件事,看似可以自動化,但實際執行時涉及眾多隱含資訊:收件對象、對話上下文、寫信者意圖、任務進度與組織內共識等。
研究者列舉了下表中的數個實際 email 類型,並指出 AI 難以處理的關鍵原因:
email 類型 AI 無法自動處理的原因 有關潛在工作的邀請 + 聊天內容 AI 無法判斷使用者是否對該職位有興趣;也無法得知使用者的行程安排 針對上次專案對話的後續追蹤 AI 不知道先前對話的具體內容與專案細節 要求對特定作品或工作的回饋 AI 缺乏該領域的專業知識,無法提供具建設性的評論 回覆對 Epoch 研究領域有興趣的人的問題 AI 不清楚實際參與 Epoch 式研究的工作流程與經驗,也不了解內部如何運作
這些例子說明,雖然 AI 可生成語句通順的內容,但若無法掌握背景與偏好,就難以正確完成這些任務。若要解決這些問題,AI 系統可能需要具備對使用者偏好、任務歷史的長期記憶能力,以及存取更多個人化情境資料。
研究也指出,為了真正自動化這類任務,可能需建立更複雜的基礎設施來記錄對話與作業流程,這會涉及隱私、安全與社會規範的重大變動。
為什麼基準值成績不能代表 AI 真正能工作?
AI 能否勝任現實工作,與其在基準測試中的表現不一定對等。原始研究者指出,真實工作往往是綁在一起的混合任務,並非可獨立拆分的短期任務。即使 AI 能處理一秒或一分鐘的任務,若無法解讀整體上下文與任務脈絡,將無法勝任更長時間的工作。
METR 為此設計了一套「資料雜訊(messiness)指標」,用以評估現實任務的複雜度,包括是否存在人機互動、是否為動態環境、是否可自動評分等共 16 項因子。這顯示 benchmark 測試雖能追蹤 AI 能力增長趨勢,但無法完全反映真實工作場景的挑戰性。
工作任務不是一座又一做的孤島,而是交織成網絡的系統,只有真正理解任務之間的依賴關係,才能設計出具備實用價值的 AI 自動化系統。
資料來源:Epoch AI;本文初稿由 AI 協助整理,編輯:支琬清
延伸閱讀
AI 會是怎樣的工作者?研究實測:理解差、不熟工具,還會誤判完成任務
職稱不再重要了!AI 時代下「大校準潮」強襲,這一種人小心被淘汰
加入《經理人》LINE好友,每天學習商管新知