請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI 很聰明,為什麼還不能幫我們把工作做完?AI的3大核心限制

經理人月刊

更新於 05月21日07:20 • 發布於 05月21日05:00 • 支琬清

根據 AI 研究機構 METR(Model Evaluation & Threat Research)發表的最新研究,AI 可完成的任務時長能力 (task time horizon,指AI 系統可有效完成的任務,所需時間的上限) ,約每 7 個月就翻倍成長。也就是說,AI 正在以驚人的速度進化。

根據 METR 的測試結果,先進的 AI 模型如 Claude 3.7,在特定基準(benchmark)上達成約 50% 成功率時,已能完成長達一小時的任務。

既然AI如此強大,為什麼「真實世界」的工作,似乎沒有變得更輕鬆?許多例行任務仍未自動化:每天許多「人工」email往返,專案進度追蹤依賴實體會議討論,甚至像安排會議、文件分類這類任務,也依然是人類工作者的日常。這讓人產生疑問: 既然 AI 已具備處理一小時長度任務的能力,為何還無法接手這些工作?

AI的限制1:現實任務多為複雜情境且不易拆解

根據 METR 研究結果,這個落差背後可歸因於AI的核心限制:AI 任務能力的表現高度依賴特定領域、成功率若需提升至實務標準會大幅壓縮任務時長、而現實任務本身則高度綁定多重情境且不易拆解,與單純的測試環境大不相同。這些因素彼此交織,使得在多數工作情境中, AI仍難以輕易取代人類的角色。

前述 AI 能力的推估來自特定軟體類任務測試,如 HCAST(Human-Centered AI Systems Testing)主要評估 AI 系統與人類互動時的有效性與適應性;RE-Bench(Reasoning Evaluation Benchmark)則檢驗模型在面對複雜邏輯推理任務時的表現精確度與邏輯一致性;SWAA Suite(Semantic Web Agent Assessment Suite)則用以評估 AI 代理在理解、處理與運用語義資訊上的能力。 這些測試多為封閉、低變動、目標明確的場境,與真實工作中的任務結構存在落差。

且研究指出,若選擇不同任務領域,推估結果會大幅變動。舉例而言,若以象棋為分析基準,1990 年代的 AI 已能操作數小時到數天長度的任務,但這顯然無法外推至職場中大多數工作。

此外,在測試平台OSWorld 的電腦操作任務中,人類平均表現為 73%,而目前頂尖 AI 僅有約 42%。反過來,在長文本理解任務中,AI 能有效處理比人類更大量的資訊。這說明 AI 的任務能力強烈依賴領域與任務類型。

AI的限制2:成功率的要求愈高,可處理的任務時長會跟著縮短

雖然 AI 在基準值任務上能以約 50% 成功率完成一小時任務,但這樣的準確率難以應用於實際工作情境。根據 METR 模型,當成功率需求提高至 80% 時,AI 能處理的任務時長將降至約 15 分鐘;若進一步推估至 99% 的準確率,可處理的時長可能低於一分鐘。

在高風險領域如自動駕駛,常需極高的準確率來避免重大錯誤。儘管研究也指出人類在一小時任務中的成功率僅約 50%,但人類的錯誤往往源於分心、資訊不足或中途放棄等非技術性原因,而 AI 的錯誤更常來自無法掌握上下文、缺乏必要資料或偏好理解。

這種結構性差異,使得 AI 若無法穩定達到高準確率,就難以被信賴用於更長任務或更關鍵的場景中。

AI的限制3:缺乏「上下文理解」,難以全面接管人類工作

AI 難以處理許多短期任務的原因之一,是這些任務實際上通常綁定在更大的工作流程中。例如「寫 email」這件事,看似可以自動化,但實際執行時涉及眾多隱含資訊:收件對象、對話上下文、寫信者意圖、任務進度與組織內共識等。

研究者列舉了下表中的數個實際 email 類型,並指出 AI 難以處理的關鍵原因:

email 類型 AI 無法自動處理的原因 有關潛在工作的邀請 + 聊天內容 AI 無法判斷使用者是否對該職位有興趣;也無法得知使用者的行程安排 針對上次專案對話的後續追蹤 AI 不知道先前對話的具體內容與專案細節 要求對特定作品或工作的回饋 AI 缺乏該領域的專業知識,無法提供具建設性的評論 回覆對 Epoch 研究領域有興趣的人的問題 AI 不清楚實際參與 Epoch 式研究的工作流程與經驗,也不了解內部如何運作

這些例子說明,雖然 AI 可生成語句通順的內容,但若無法掌握背景與偏好,就難以正確完成這些任務。若要解決這些問題,AI 系統可能需要具備對使用者偏好、任務歷史的長期記憶能力,以及存取更多個人化情境資料。

研究也指出,為了真正自動化這類任務,可能需建立更複雜的基礎設施來記錄對話與作業流程,這會涉及隱私、安全與社會規範的重大變動。

為什麼基準值成績不能代表 AI 真正能工作?

AI 能否勝任現實工作,與其在基準測試中的表現不一定對等。原始研究者指出,真實工作往往是綁在一起的混合任務,並非可獨立拆分的短期任務。即使 AI 能處理一秒或一分鐘的任務,若無法解讀整體上下文與任務脈絡,將無法勝任更長時間的工作。

METR 為此設計了一套「資料雜訊(messiness)指標」,用以評估現實任務的複雜度,包括是否存在人機互動、是否為動態環境、是否可自動評分等共 16 項因子。這顯示 benchmark 測試雖能追蹤 AI 能力增長趨勢,但無法完全反映真實工作場景的挑戰性。

工作任務不是一座又一做的孤島,而是交織成網絡的系統,只有真正理解任務之間的依賴關係,才能設計出具備實用價值的 AI 自動化系統。

資料來源:Epoch AI;本文初稿由 AI 協助整理,編輯:支琬清

延伸閱讀

AI 會是怎樣的工作者?研究實測:理解差、不熟工具,還會誤判完成任務
職稱不再重要了!AI 時代下「大校準潮」強襲,這一種人小心被淘汰
加入《經理人》LINE好友,每天學習商管新知

查看原始文章

更多理財相關文章

01

台積帶旺嘉義房市 在地嘆:田中央單價近40萬誰買?

ETtoday新聞雲
02

付錢進辦公室、加購請主管罵人?中國青年失業潮下的荒誕:「假裝上班公司」如何因應社會焦慮而生?

Cheers 快樂工作人
03

川普「投資換關稅」成形 法人:台灣挾台積電三大條件、稅率望轉佳

太報
04

台積電要小心?Intel 14A製程吸引蘋果、輝達關注 明年恐正面交鋒

CTWANT
05

「台股下半年是雲霄飛車行情!」分析師預估半導體關稅落在這區間

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 0

沒有留言。

最新消息

《公寓條例》30年後回看,董建宏:啟動老宅延壽計畫,讓城市不空洞

住展

盤中速報 - REI Network大跌9.97%,報0.02美元

anue鉅亨網

盤中速報 - Measurable Data Token大跌10.8%,報0.04美元

anue鉅亨網

盤中速報 - IDEX大漲14.13%,報0.03458美元

anue鉅亨網

盤中速報 - MANTRA大跌10.5%,報0.27美元

anue鉅亨網

盤中速報 - 哈希圖大漲9.93%,報0.289美元

anue鉅亨網

AI十大建設點名低軌衛星+光通訊 「這檔」台股黑馬EPS上看17.5元

CTWANT

30年治理再檢視,徐燕興:公寓制度將進化為韌性社區基礎

住展

台積電危險了?傳英特爾14A製程蘋果有興趣

NOWnews 今日新聞

盤中速報 - Measurable Data Token大跌14.9%,報0.04美元

anue鉅亨網

引領台灣健康科技邁向全球 八馬集團打造全方位照護藍圖

新頭殼

陸機器人「拳擊賽」開打! 遭飛踢當場倒地

TVBS

人民日報:中國在瑞典與美國會談中展現誠意與堅定原則

anue鉅亨網

不顧川普施壓 專家估聯準會再度暫緩降息

中央通訊社

首購族花1100萬買「900萬的房」!專家曝「養套殺」手法

民視新聞網

7/31領紅包!首批退稅入帳 362萬人領逾585億元創新高

CTWANT

台灣中油:明(28)日起 汽、柴油價格各調漲0.1元

青年日報

宇樹科技推出低於6000美元人形機器人R1!價格創新低掀市場震撼

anue鉅亨網

不是輝達!美股狂飆連5天創高 阮慕驊曝「成交量之王」是這公司:上帝也瘋狂

風傳媒

博弘第二季合併財報,預計8/4提報董事會

MoneyDJ理財網

實威第二季財報,預計8/4提報董事會

MoneyDJ理財網

張溫德:社區是治理細胞,別讓它困在三十年前的法規裡

住展

台塑石化:汽柴油28日起各調漲0.1元

中央通訊社

中國工業企業6月利潤續跌4.3%!上半年整體下降1.8%反映通縮壓力

anue鉅亨網

美股大開狂歡派對! 華爾街示警「3跡象」恐泡沫化

CTWANT

2025世界人工智能大會(WAIC)上海世博中心(圖)

中央通訊社

世界人工智能大會兩岸論壇 趙世通致詞(2)(圖)

中央通訊社

世界人工智能大會兩岸論壇 趙世通致詞(1)(圖)

中央通訊社

726大罷免大翻車!海外學者:賴清德必須找到某種途徑與民眾接觸

anue鉅亨網

WAIC兩岸論壇 國台辦談科技也要扯「一中原則」

中央通訊社

印度被控協助俄羅斯?出口軍用爆炸物奧克托今惹制裁疑雲

anue鉅亨網
影音

台南最強景點帶動房價 「國華友愛商圈」年漲15.6%

華視影音

台南最強景點帶動房價 「國華友愛商圈」年漲15.6%

華視新聞

中國6月工業企業利潤負成長 製造業拉動降幅縮小

中央通訊社

國際油價上漲 汽、柴油各調漲0.1元

台灣好新聞

當名廚楊柏偉遇上德國百年廚具WMF:理想的料理風味在家就能實現!

Zeek玩家誌

俄羅斯莫斯科恢復直飛北韓航班!首航平壤機票迅速售罄

anue鉅亨網

加油要快! 中油:明起汽柴油各調漲0.1元

民視新聞網

加油動作快! 明起汽、柴油價各調漲0.1元

CTWANT

國外匯款系統大升級!領公股銀之先 一銀「核心微服務」應用平台上線

anue鉅亨網