請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

卡關4天只為一棵樹!讓AI排隊玩寶可夢,為什麼成為科技巨頭檢驗模型的新辦法?

數位時代

更新於 01月26日09:22 • 發布於 01月26日09:22

大人小孩都喜歡的寶可夢,現在正成為測試AI模型的的新辦法。全球頂尖的AI模型們紛紛領著小火龍、妙蛙種子和傑尼龜,離開冒險的起點真新鎮(Masara Town),踏上成為寶可夢大師旅程。

在實況平台Twitch上,你現在可以看到一個奇妙畫面:由OpenAI、Anthropic和Google開發,全球最先進的AI模型試圖通關1996年推出的《寶可夢》初代遊戲。

小孩子也能輕鬆通關的寶可夢,卻是AI一大難題

這些AI玩得並不好、經常卡關,甚至會在同一個地點打轉好幾天。但對 AI 研究人員來說,正是這些「失敗」,讓《寶可夢》成為評估 AI 能力的理想工具。

「它(《寶可夢》遊戲)為我們提供直觀了解模型運行狀況的絕佳方式,並能進行量化評估。」Anthropic應用AI負責人大衛.赫爾希(David Hershey)表示,他去年2月策劃了在Twitch上直播Claude遊玩《寶可夢》藍版的節目。

這個直播節目引發了迴響,讓其他獨立研究測試讓GPT和Gemini模型遊玩寶可夢,根據《華爾街日報》報導,這些測試後續獲得了OpenAI和Google的支援。

Twitch上現在有著各種尖端AI模型挑戰寶可夢的實況影片。

在《寶可夢》藍版中,玩家需要捕捉及培育自己的寶可夢,擊敗道館館主蒐集徽章,取得挑戰四大天王及冠軍的資格。當時Anthropic聲稱,Claude Sonnet 3.7是他們第一款能夠正確遊玩寶可夢的模型,舊模型要不是在遊戲裡漫無目的亂逛,就是在重複做同樣的事。

這款小孩子也能輕鬆花幾十小時通關的遊戲,對AI模型卻是大工程。Claude Opus 4.5曾在一個道館附近繞了4天之久,因為他沒意識到要讓寶可夢使用「居合斬」砍倒一顆樹,才能繼續前進。

延伸閱讀:頂尖1%的人都怎麼用AI?一次看懂「DRAG框架」:怎樣聰明偷懶?哪些必須自己做?

長時間、連續決策能力,正是AI代理關鍵

過去十多年,AI 的進步多半透過標準化的基準測試來衡量:解數學題、寫程式、回答問題,但這種作法逐漸被認為無法正確衡量AI模型的能力。

去年3月,OpenAI共同創辦人安德烈.卡帕斯(Andrej Karpathy)曾表示,「我認為現在存在著衡量危機,我真的不知道該看哪個指標了。」他認為,許多以前很棒的基準測試,不是變得過時,就是範圍太窄,無法確切衡量現在模型能力到了什麼水準。

《寶可夢》的高自由度,給予了研究人員不同角度觀察AI模型表現,遊玩過程需要玩家在長時間內做出連續決策,是否要訓練現有寶可夢、捕捉新寶可夢、何時回去治療中心補給、如何通過迷宮、為對戰做準備。

赫爾希表示,讓Claude遊玩寶可夢也是讓他們練習如何圍繞AI代理開發輔助工具,例如他曾開發一套系統讓Claude記憶遊戲中得知的關鍵資訊。目前GPT和Gemini都有成功通關寶可夢初代的紀錄(Claude暫時還沒通關),背後仰賴的也是各個開發者為它們打造的輔助工具。

卡內基梅隆大學語言技術副教授格拉漢.紐比格(Graham Neubig)解釋,傳統基準測試都是解決單一問題,而寶可夢能夠長時間追蹤模型推理、決策能力的表現,這正好是人們期待AI模型具備的獨立解決問題能力。

延伸閱讀:練習3個用AI的高超方式,秒變「AI應用專家」!你的隱藏發現,有機會比工程師更懂用 AI

值得一提的是,寶可夢測試也讓AI公司發現模型有時會展現類似人類的反應,例如Google就指出,當寶可夢昏厥時(戰鬥中血量歸零),模型會彷彿陷入「恐慌」,導致推理能力下滑。

而在Gemini 3 Pro通關《寶可夢》藍版後,它還發出一條令人意外的訊息,「我想回到一切的起點,也就是我的家,讓角色暫時退休。我想在最後好好和媽媽聊天,為這趟遊戲旅程畫下圓滿的句點。」

延伸閱讀:只要把提示詞「說兩次」,LLM效能就升級?Google研究曝「47勝0敗」高CP值解方

資料來源:華爾街日報Time

延伸閱讀

Google跟吳恩達合作,推Gemini CLI免費課:1小時就能看完,不會寫程式也OK
Gemini化身補教名師!免費「SAT模擬考」題庫上線:不只陪考還懂解題,補教業危險了?
「加入《數位時代》LINE好友,科技新聞不漏接」

查看原始文章

更多理財相關文章

01

晶華員工好嗨!年終最高可領到7.1個月

經濟日報
02

震撼彈!北市府與輝達議價完成 李四川證實了:122億入駐北士科

民視新聞網
03

🚨你是銀行眼中的「可疑份子」嗎?新規最快4月上路

LINE TODAY 討論牆
04

纏訟17年!勤美創辦人侵吞7009萬判3年2月定讞「要入獄」 知名律師早開溜

太報
05

「記住我這句話」馬斯克石破天驚預言:3年內太空將成全球部署AI最便宜之處

anue鉅亨網
06

4個月崩53%!大賣空本尊示警比特幣重演2022年崩盤模式 暗示跌至這價位

信傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...