請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI 很會考試,卻是個滿雷的員工?專家:別再看學術成績,你該做的是「面試」它

經理人月刊

更新於 11月25日04:59 • 發布於 11月25日04:00 • 支琬清

近年來,AI 模型在各大「學術」表現上屢創佳績,在大規模多任務語言理解(MMLU-Pro)等測驗上取得的高分,似乎預示 AI 已具備超越人類的智力。然而,這些分數是否等同於實際的「即戰力」?

一份最新的學術研究與專家分析指出,AI 在研究導向測驗上的進展,與在真實世界中創造經濟價值的能力之間,存在巨大的鴻溝。

AI 智力的真相 —— 會考試不等於會做事

AI 專家伊森・莫利克(Ethan Mollick)在文章中直指,以學術表現來評估 AI 的做法充滿缺陷。他認為,大家甚至「不知道這些測驗到底在測量什麼」。

他舉例,MMLU-Pro 這類熱門測驗包含了「直立人的平均顱腔容量」或「Cheap Trick 樂團 1979 年現場專輯的命名地點」等冷僻問題。答對這些問題能證明 AI 具備何種能力?答案是「不知道」。

莫利克進一步分析,這些測驗至少存在 3 大問題:首先是「測驗污染」,許多測驗的答案早已公開,AI 模型可能在訓練過程中就已經「背過」答案;其次是「未校準」,沒有人知道分數從 84% 進步到 85% 是否等同於 40% 進步到 41% 的難度;最後,這些測驗完全忽略企業真正在乎的技能,如寫作能力、商業建議或同理心。

面試 AI 的 2 種方法:「憑感覺」與專業評估

莫利克主張,企業必須像面試員工一樣「面試」AI,他將這種面試分為 2 種層次。

對於個人使用者,可以「憑感覺」進行測試。例如他自己會要求 AI 畫出「水獺搭飛機」,或編寫出「遙遠未來星艦的控制面板」。這些看似古怪的測試,能幫助個人感受到不同模型的風格與對世界的理解程度。

然而,對於企業而言,莫利克推薦更嚴謹的「真實世界基準」。他引用 OpenAI 近期發布的 GDPval 論文,這份研究邀請平均 14 年經驗的各行業專家,設計出需耗時 4 到 7 小時才能完成的複雜專案,再交由 AI 和其他人類專家執行。

GDPval 結果顯示,AI 能力「參差不齊」:在軟體開發和個人理財等領域,頂尖 AI 已超越人類專家;但在藥劑師、工業工程師和房地產經紀人等領域,AI 則遠遠落後。

除了技能參差不齊,莫利克更強調,不同的 AI 擁有不同的個性與偏見。他設計了一項「無人機配送酪梨服務」的商業點子,並讓多個 AI 模型評估可行性(1-10 分)。結果顯示,AI 的「個性」差異巨大:Grok 認為這是個「很棒的主意」,而 Claude 4.5 和 GPT-5 則表示懷疑。

莫利克警告,這種差異絕非小事,當這種決策規模放大時,一個始終更具風險偏好的 AI 顧問,會將組織引導至完全不同的方向。

AI 的終極面試:能否完成 240 項真實專案?

另一份名為《遠距勞動指數:衡量 AI 對遠距工作的自動化程度》(暫譯,原文為 Remote Labor Index: Measuring AI Automation of Remote Work)的最新研究,則對 AI 進行一場迄今為止最嚴苛、最接近真實世界的「面試」。

研究人員指出,傳統測驗要麼過於集中在軟體工程,要麼任務過於簡化,無法反映勞動市場的廣泛性與複雜性。RLI 因此橫空出世,測驗內容包含 240 個真實專案,均來自 Upwork 等自由工作者平台。每個專案都包含客戶的簡報、輸入文件以及人類專家交付的「高品質成品」。這個測試並非集中在 AI 擅長的軟體或寫作,而是橫跨 23 個工作類別,包含 3D 產品渲染、建築規畫、遊戲開發、動態影片製作等複雜任務。

成果出爐:所有 AI 表現慘不忍睹,自動化程度最高僅 2.5%!

RLI 的評分標準極為嚴格:由人類評估員扮演理性的客戶,判斷 AI 交付的成品是否與人類的高品質標準一樣好,且是否會被認定已完成委託工作。研究顯示,目前所有 AI 代理(Agents)的「自動化程度」都慘不忍睹。

  • Manus: 2.5%
  • Grok 4: 2.1%
  • Sonnet 4.5: 2.1%
  • GPT-5: 1.7%
  • ChatGPT agent: 1.3%
  • Gemini 2.5 Pro: 0.8%

結果表明,儘管 AI 在學術測驗上表現亮眼,但它們距離自主處理真實、複雜、具有經濟價值的遠端工作,仍有極遠的距離。

AI 哪裡沒做好?45.6% 品質低劣、35.7% 交付不全

RLI 的研究人員進一步對 AI 的失敗案例進行分析,歸納出 AI 交付的成品被「退件」的 4 大主因,其中「品質低劣」是最大問題:

  • 品質低劣(Poor quality):
    45.6% 的交件不符專業標準。例如,提交了「兒童畫作般的圖形」、使用了「像機器人的聲音」,或是在 3D 渲染中,不同視角的房屋外觀竟不一致。

  • 不完整(Incomplete)
    35.7% 的交件未達到關鍵要求。例如,客戶要求 8 分鐘的影片,AI 卻只給了 8 秒鐘。

  • 檔案損壞(Corrupted files)
    17.6% 的交件是空白或無法使用的檔案。

  • 前後不一致(Inconsistencies)
    14.8% 的交件在不同檔案間存在矛盾。

當然也有極少數的成功案例,研究發現,AI 成功完成的專案,主要集中在「創意性」任務,例如音訊編輯、為復古電玩創造音效、生成萬聖節廣告圖像,以及編寫簡單的互動式數據圖表。

AI 未必能幫到你的工作,要像面試員工一樣測試它的真本事

綜合莫利克的「AI 面試」倡議 與 RLI 研究:AI 的智力並非全面性,而是呈現「時好時壞的高水準」。學術測驗的高分,掩蓋了 AI 在執行真實工作時的無力。

對於個人與企業而言,當務之急或許不是盲目導入 AI,而是要學會先「面試」它 —— 設計符合自身需求的真實任務,以辨識出模型在特定任務上的真實能耐。

資料來源:One useful thingRemote Labor Index:Measuring AI Automation of Remote Work;本文初稿由 AI 協助整理,編輯:支琬清

延伸閱讀

AI 很聰明,為什麼還不能幫我們把工作做完?AI 的 3 大核心限制
AI 會是怎樣的工作者?研究實測:理解差、不熟工具,還會誤判完成任務
加入《經理人》LINE好友,每天學習商管新知

查看原始文章

更多理財相關文章

01

台積電產能隱憂4/熊本廠虧損、南京廠授權到期何解? 台積電回應曝光

鏡週刊
02

回歸省多少、回饋多少 台電取消最低獎勵金

NOWNEWS今日新聞
03

台積電產能隱憂1/熊本二廠動土2個月傳停工超敏感 台積電三緘其口有苦衷

鏡週刊
04

房價愈打愈高?七都10大漲幅行政區出爐 「這區最扯」年漲56.5%

CTWANT
05

中國人、台灣人最愛買日本不動產 觸及國安與經濟警戒,高市內閣要開始「這樣」管了

風傳媒
06

AI發展引求職條件變化 網友激辯「學歷重要還是技能重要?」

LINE TODAY
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...