請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

國際

「太難了,我不想了啦」蘋果研究質疑AI推理模型能力,在複雜問題面前「準確率歸零」

DQ 地球圖輯隊

更新於 06月11日21:19 • 發布於 06月11日12:13 • 陳愷昀

地球一瞬,世界各地正發生這些大小事。

註:本文為單一事件快訊報導,非深度文章

Photo: Mohamed Nohassi

在即將舉辦全球開發者大會(WWDC)前夕,蘋果公司提出一份研究報告,對目前最先進的AI推理模型能力提出質疑。研究指出,大型推理模型(LRMs)在面對高複雜度問題時,準確率會「完全崩潰」,甚至出現反常的思考退縮現象,顯示當前AI系統在推理與泛化能力上可能遭遇根本瓶頸。這份研究引發業界高度關注,有專家直言「任何認為LLMs就是實現AGI捷徑的人,都在自欺欺人。」警告當前AI技術發展可能已進入瓶頸。

Photo: Apple

蘋果研究:遇到難題就崩潰

就在全球科技公司熱烈競逐通用人工智慧(AGI)之際,蘋果公司(Apple Inc.)發布的一份研究報告卻給這場競賽潑了桶冷水。該研究顯示,即使是目前最先進的推理型AI模型,也在面對稍具挑戰性的複雜問題時「全面崩潰」,無法產出正確解答,甚至出現反常的思考行為。

這篇名為《思考的幻象》(The Illusion of Thinking)的研究指出,當所謂的大型推理模型(Large Reasoning Models, LRMs)被要求解決高複雜度問題時,其解題能力會迅速瓦解,準確率最終跌至零。更令人驚訝的是,研究團隊在某些情況下即使直接提供能正確解題的演算公式,模型仍未能得出正確答案。

根據衛報報導,本篇研究所測試的模型包括OpenAI的o3、Google的Gemini Thinking、Anthropic的Claude 3.7 Sonnet Thinking,以及DeepSeek-R1等市面上的知名AI系統。

根據研究觀察,當推理模型逼近其能力極限時,非但沒有增加邏輯推理的努力,反而出現「減少推理嘗試」的行為。這種看似反直覺的現象,代表模型在難題面前並不會自我調整或強化推理過程,反而像是「放棄思考」。

研究團隊認為,這顯示目前AI系統存在根本性的規模侷限,難以跨越從特定任務到更廣泛推理能力的門檻,也暴露了AI尚無法進行「可泛化的推理」(generalisable reasoning)。

Photo: Apple Inc.

不只看「答案對不對」,還看「AI是怎麼思考的」

研究團隊使用可控的邏輯拼圖環境(controllable puzzle environments)來測試模型推理極限:透過一系列邏輯推理拼圖(如河川過渡、漢諾塔塔),並將問題複雜度分級控制(低、中、高)。每個環境維持相同邏輯結構,但改變組合(如增加塔層、高度),精確操控「複合性」變數。設計的測試包括經典的邏輯謎題,如「渡河問題」與「河內塔問題」,這些需要模型進行多步推理與規劃。研究人員特別設計,讓題目區分成「簡單、中等、困難」三種難度。

很多人都只看AI最後答案對不對,但這篇研究不僅記錄最終答案是否正確,更完整蒐集模型產出的「中間推理過程」,也就是 token-by-token 的推理路徑,研究人員希望看到:

AI是怎麼一步一步思考的?它中間有沒有邏輯錯誤?它是繼續努力思考,還是中途放棄?

Photo: Apple Inc.

研究人員讓「有思考過程的AI」(LRM)和「一般AI」(LLM)一起解題,如果題目很簡單:一般AI解題速度比較快、更正確;在中等難度的題目中,LRM雖然仍能找到正確解法,但過程中經常先探索錯誤方向後才修正,研究說明這代表了其「思考過程」並不穩定,耗費大量資源卻效率不彰;而一旦複雜度再往上提升、增加變項或步驟數,LRM與LLM都出現準確率急劇下降、甚至完全答錯的情況。

研究人員發現,當題目越來越難的時候,這些AI模型接近其推理極限時,非但沒有加強分析,反而減少推理嘗試。有些AI剛開始會「寫一大堆思考過程」(就像人在紙上列很多步驟),但後來卻突然「不想寫了、放棄了」,就好像AI覺得「太難,我不想想了」。這就讓研究人員懷疑:這些AI的思考是不是只是『裝』出來的?它們可能只是「模仿人類思考的樣子」,但其實不是真的在運用邏輯。

研究報告中寫道:「當模型接近其準確率崩潰臨界點時,反直覺地開始減少推理努力,儘管問題難度正在上升。」這種異常的行為讓研究團隊深感擔憂。

Photo: Apple Inc.

專家直言:「認為LLMs就是實現AGI捷徑的人,都在自欺欺人。」

必須提醒的是,這場研究測試的「邏輯拼圖環境」是人為設計的,雖然有助於控制變數,但是否能完全代表真實世界的推理任務,還需其他研究驗證。且這份研究報告雖然來自 Apple有其份量與影響力,但仍尚未經過學界完整的審查程序(如 NeurIPS、ICLR、ACL 等)也還未發表於頂級會議或期刊(目前僅為 research paper,非 peer-reviewed)。但這份研究報告仍引起多方關注:

根據衛報報導,美國美國心理學家、認知科學家,同時也是AI專家——蓋瑞.馬庫斯(Gary Marcus)在其Substack通訊中評論這份研究為「相當致命」,並指出那些認為大型語言模型(LLMs)能夠直接帶來人類層級智慧的觀點,可能過於樂觀。他寫道:「任何認為LLMs就是實現AGI捷徑的人,都在自欺欺人。」

同樣地,英國薩里大學(University of Surrey)人工智慧研究所的安德魯.羅高伊斯基(Andrew Rogoyski)也指出,這份研究揭示業界可能陷入發展死胡同。他說:「這些模型雖然能處理中低複雜度問題,但一旦問題更難,它們就徹底『失控』,這顯示目前的AI技術路線可能已經碰到極限。」

衛報也就此份研究聯繫了Anthropic、Google和 DeepSeek詢問意見。ChatGPT的開發公司OpenAI拒絕回應。

Photo: Alex Knight

蘋果的策略是什麼?

蘋果這篇論文的發布時間也耐人尋味——正值公司備受矚目的全球開發者大會(WWDC)前夕。

根據Futurism報導,儘管近年AI已成科技業核心戰場,蘋果卻一直被視為起步較晚、進展緩慢的玩家。其自家AI系統「Apple Intelligence」至今尚未在所有裝置上推出,但目前推出速度不如 Google、Microsoft 等競爭對手。因此,有分析認為 Apple 藉此研究論文,試圖降低市場對其 WWDC AI 發表的期待,轉而強調模型「推理能力的極限」。

但此篇報 告也提出另一種可能:蘋果可能正試圖重塑其AI戰略定位,從一味追趕轉為扮演「批判者」與「標準制定者」的角色。透過揭示現有AI模型的盲點,蘋果希望開啟一場關於AI能力與責任的深層討論——或許,我們不只是問「AI能做到什麼」,更要問「它真的理解了什麼」。

加入 DQ地球圖輯隊 LINE Notify ,一起看透全世界

延伸閱讀:
為什麼AI的回答總是喜歡拍馬屁?ChatGPT:你問得很好馬斯克預測通用人工智慧明年年底將問世 圖靈獎得主楊立昆:差得遠呢!

參考資料:
Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study findsApple Researchers Just Released a Damning Paper That Pours Water on the Entire AI IndustryApple questions capabilities of AI reasoning models in new research paperThe Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

查看原始文章

更多國際相關文章

01

沖繩石垣島麥當勞重新開幕! 與那國島民:不用拿護照到台灣了

CTWANT
02

曼谷捷運乘客炸屎臭爆!白衣阿姨衛生紙一手抓起救全車 網讚英雄

TVBS
03

恐慌返鄉潮!10萬柬埔寨人急撤泰國 「家當全搬」人海沒盡頭

TVBS
04

10天前拍下骨瘦照片 加薩5個月大女嬰終死於母親懷中

太報
05

馬斯克一聲令下改寫戰況 「星鏈網路被切斷」釀烏軍包圍戰失敗

CTWANT
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 12

wonder
大語言模型以年紀來看它還是個嬰兒,所有人都正在努力堆高算力讓模型的能力提升 蘋果潑這冷水會不會太早🤣 酸葡萄,今年肯定不用期待Apple AI能有什麼水準了
06月12日00:50
Tien
自己做不出來就變高級酸
06月12日05:38
harpoon
因為是選擇大部分人會做的選擇
06月12日07:04
牧文
“ 根據研究觀察,當推理模型逼近其能力極限時,非但沒有增加邏輯推理的努力,反而出現「減少推理嘗試」的行為。這種看似反直覺的現象,代表模型在難題面前並不會自我調整或強化推理過程,反而像是「放棄思考」。” 直覺是人類才有的東西,因為牽涉到至今仍然是神祕地帶的腦部運作。強求AI像柯南一樣靈光一閃就推演出結論豈不是緣木求魚? 個人曾經養過一隻會說話的鸚鵡。當教牠超過理解範圍的東西時,牠就開始反抗學習。如果AI是模擬人的產物,說不定AI躺平的意思就是在向真正的人類求援?是不是?
06月12日01:44
Yuchieh_林
問題是蘋果做不出AI 這是不是在放消息呢
06月11日23:29

顯示全部

最新消息

特朗普斡旋泰柬沖突:呼籲停火 邊境戰火仍未止

德國之聲

印度神廟踩踏至少8死!誤傳高壓電線墜落引恐慌 駭人畫面曝光

TVBS
影音

批評川普的代價?史蒂芬柯貝爾《深夜秀》將停播!節目面臨財務壓力還是淪「政治祭品」? 【TODAY 看世界|人物放大鏡】

TODAY 看世界

國台辦批大罷免 陸委會:沒民主經驗無權錯誤解讀

中央通訊社

快逃啊! 烏俄各派逾200架無人機互轟 地面民眾哭喊目擊

TVBS

菲律賓政治拳賽 警察總長為粉絲簽名(圖)

中央通訊社

26歲男打遊戲突發腦出血!右半身癱瘓險死 日常生活「3壞習慣」釀禍

CTWANT

杜特蒂子為父復仇戰 菲警察總長擂台上等嘸人

中央通訊社

泰柬交火第4天!10萬人返鄉如「逃難現場」

民視新聞網

緩解人道危機 以軍宣布加薩3地戰術性停火

中央通訊社

恐慌返鄉潮!10萬柬埔寨人急撤泰國 「家當全搬」人海沒盡頭

TVBS

5月大加薩女嬰瘦成皮包骨餓死母懷中 母訴:死多少孩子世界才醒?

TVBS

濟州航空空難 最新調查:墜機前一具發動機仍可運作

路透社

川普呼籲停火 泰柬清晨仍傳激烈交火

路透社

連兩天狀況! 美航起落架起火、西南航急墜152m 都是B-737

TVBS

印女昏倒坐救護車! 送醫途中遭多名男子「輪流性侵」

CTWANT

川普「蘇格蘭之子」訪當地遭抗議 蘇格蘭71%討厭川普高於全英

太報

川普深夜介入調停無效 泰柬第4天清晨交火持續升溫

上報

川普對等關稅倒數!「這國」稱進展順利 爆出談判一團亂

TVBS

莫斯科平壤恢復直航班機

路透社

艾班尼斯:澳洲鬆綁美牛肉進口 並非川普促成

路透社

結婚不到48小時!新娘捲款131萬火速跑路 腹中娃也是別人的種

CTWANT

關稅戰後首次!美國高級商務團本週擬訪中 波音高層隨行

太報

有片/土耳其野火肆虐 第四大城遭受「世界末日」威脅

太報

川普點頭內幕曝光!日美關稅協議談判 東京甩「進口美國米」致勝籌碼

新頭殼

專論》前美國國防部長對川普建言:與中國競爭獲勝的6大關鍵因素

新頭殼

艾班尼斯:澳洲鬆綁美牛肉進口 並非川普促成

中央通訊社

不用拿護照到台灣了!石垣島麥當勞新開幕

NOWnews 今日新聞

拍下CEO演唱會偷情畫面! 27歲女爆紅「還清236萬債務」曝下一步

CTWANT

柬埔寨少將上前線「被泰國軍轟殺」!成首位身亡高官

三立新聞網

專家曝洗衣機「1溫度」殺菌!用溫水浪費錢 這狀況恐越洗越髒

TVBS

激烈槍戰! 3歹徒闖伊朗司法大樓掃射 6死20傷

TVBS

結合5G&AI 北京公園「魚臉辨識」上線 防外來物種入侵

TVBS

睽違數十年 莫斯科平壤恢復直航

中央通訊社

以情報單位社群帳號曝 伊朗最高領袖哈米尼「整天睡覺吸毒」

TVBS

閃避戰鬥機 客機急速下降 西南航空多名乘客被拋飛撞艙頂

Yahoo奇摩即時新聞

台積電美國建晶圓廠受阻 美財長洩1大原因籲監管:快放行

TVBS

施壓首相承認巴勒斯坦國 英在野小黨揚言強推法案

中央通訊社

【更新】加薩飢荒報告增國際壓力 以色列恢復物資空投、暫停3地戰鬥

太報

Coldplay演唱會「成大型抓姦現場」 最大贏家是她!27歲女賺進235萬台幣

鏡週刊