「太難了，我不想了啦」蘋果研究質疑AI推理模型能力，在複雜問題面前「準確率歸零」

更新於 06月11日21:19 • 發布於 06月11日12:13 • 陳愷昀

地球一瞬，世界各地正發生這些大小事。
註：本文為單一事件快訊報導，非深度文章

Photo: Mohamed Nohassi

在即將舉辦全球開發者大會（WWDC）前夕，蘋果公司提出一份研究報告，對目前最先進的AI推理模型能力提出質疑。研究指出，大型推理模型（LRMs）在面對高複雜度問題時，準確率會「完全崩潰」，甚至出現反常的思考退縮現象，顯示當前AI系統在推理與泛化能力上可能遭遇根本瓶頸。這份研究引發業界高度關注，有專家直言「任何認為LLMs就是實現AGI捷徑的人，都在自欺欺人。」警告當前AI技術發展可能已進入瓶頸。

Photo: Apple

蘋果研究：遇到難題就崩潰

就在全球科技公司熱烈競逐通用人工智慧（AGI）之際，蘋果公司（Apple Inc.）發布的一份研究報告卻給這場競賽潑了桶冷水。該研究顯示，即使是目前最先進的推理型AI模型，也在面對稍具挑戰性的複雜問題時「全面崩潰」，無法產出正確解答，甚至出現反常的思考行為。

這篇名為《思考的幻象》（The Illusion of Thinking）的研究指出，當所謂的大型推理模型（Large Reasoning Models, LRMs）被要求解決高複雜度問題時，其解題能力會迅速瓦解，準確率最終跌至零。更令人驚訝的是，研究團隊在某些情況下即使直接提供能正確解題的演算公式，模型仍未能得出正確答案。

根據衛報報導，本篇研究所測試的模型包括OpenAI的o3、Google的Gemini Thinking、Anthropic的Claude 3.7 Sonnet Thinking，以及DeepSeek-R1等市面上的知名AI系統。

Apple questions capabilities of AI reasoning models in new research paper https://t.co/jF4nynGjBW

根據研究觀察，當推理模型逼近其能力極限時，非但沒有增加邏輯推理的努力，反而出現「減少推理嘗試」的行為。這種看似反直覺的現象，代表模型在難題面前並不會自我調整或強化推理過程，反而像是「放棄思考」。

研究團隊認為，這顯示目前AI系統存在根本性的規模侷限，難以跨越從特定任務到更廣泛推理能力的門檻，也暴露了AI尚無法進行「可泛化的推理」（generalisable reasoning）。

Photo: Apple Inc.

不只看「答案對不對」，還看「AI是怎麼思考的」

研究團隊使用可控的邏輯拼圖環境（controllable puzzle environments）來測試模型推理極限：透過一系列邏輯推理拼圖（如河川過渡、漢諾塔塔），並將問題複雜度分級控制（低、中、高）。每個環境維持相同邏輯結構，但改變組合（如增加塔層、高度），精確操控「複合性」變數。設計的測試包括經典的邏輯謎題，如「渡河問題」與「河內塔問題」，這些需要模型進行多步推理與規劃。研究人員特別設計，讓題目區分成「簡單、中等、困難」三種難度。

很多人都只看AI最後答案對不對，但這篇研究不僅記錄最終答案是否正確，更完整蒐集模型產出的「中間推理過程」，也就是 token-by-token 的推理路徑，研究人員希望看到：

AI是怎麼一步一步思考的？它中間有沒有邏輯錯誤？它是繼續努力思考，還是中途放棄？

Photo: Apple Inc.

研究人員讓「有思考過程的AI」（LRM）和「一般AI」（LLM）一起解題，如果題目很簡單：一般AI解題速度比較快、更正確；在中等難度的題目中，LRM雖然仍能找到正確解法，但過程中經常先探索錯誤方向後才修正，研究說明這代表了其「思考過程」並不穩定，耗費大量資源卻效率不彰；而一旦複雜度再往上提升、增加變項或步驟數，LRM與LLM都出現準確率急劇下降、甚至完全答錯的情況。

研究人員發現，當題目越來越難的時候，這些AI模型接近其推理極限時，非但沒有加強分析，反而減少推理嘗試。有些AI剛開始會「寫一大堆思考過程」（就像人在紙上列很多步驟），但後來卻突然「不想寫了、放棄了」，就好像AI覺得「太難，我不想想了」。這就讓研究人員懷疑：這些AI的思考是不是只是『裝』出來的？它們可能只是「模仿人類思考的樣子」，但其實不是真的在運用邏輯。

研究報告中寫道：「當模型接近其準確率崩潰臨界點時，反直覺地開始減少推理努力，儘管問題難度正在上升。」這種異常的行為讓研究團隊深感擔憂。

Photo: Apple Inc.

專家直言：「認為LLMs就是實現AGI捷徑的人，都在自欺欺人。」

必須提醒的是，這場研究測試的「邏輯拼圖環境」是人為設計的，雖然有助於控制變數，但是否能完全代表真實世界的推理任務，還需其他研究驗證。且這份研究報告雖然來自 Apple有其份量與影響力，但仍尚未經過學界完整的審查程序（如 NeurIPS、ICLR、ACL 等）也還未發表於頂級會議或期刊（目前僅為 research paper，非 peer-reviewed）。但這份研究報告仍引起多方關注：

根據衛報報導，美國美國心理學家、認知科學家，同時也是AI專家——蓋瑞．馬庫斯（Gary Marcus）在其Substack通訊中評論這份研究為「相當致命」，並指出那些認為大型語言模型（LLMs）能夠直接帶來人類層級智慧的觀點，可能過於樂觀。他寫道：「任何認為LLMs就是實現AGI捷徑的人，都在自欺欺人。」

同樣地，英國薩里大學（University of Surrey）人工智慧研究所的安德魯．羅高伊斯基（Andrew Rogoyski）也指出，這份研究揭示業界可能陷入發展死胡同。他說：「這些模型雖然能處理中低複雜度問題，但一旦問題更難，它們就徹底『失控』，這顯示目前的AI技術路線可能已經碰到極限。」

衛報也就此份研究聯繫了Anthropic、Google和 DeepSeek詢問意見。ChatGPT的開發公司OpenAI拒絕回應。

Photo: Alex Knight

蘋果的策略是什麼？

蘋果這篇論文的發布時間也耐人尋味——正值公司備受矚目的全球開發者大會（WWDC）前夕。

根據Futurism報導，儘管近年AI已成科技業核心戰場，蘋果卻一直被視為起步較晚、進展緩慢的玩家。其自家AI系統「Apple Intelligence」至今尚未在所有裝置上推出，但目前推出速度不如 Google、Microsoft 等競爭對手。因此，有分析認為 Apple 藉此研究論文，試圖降低市場對其 WWDC AI 發表的期待，轉而強調模型「推理能力的極限」。

但此篇報告也提出另一種可能：蘋果可能正試圖重塑其AI戰略定位，從一味追趕轉為扮演「批判者」與「標準制定者」的角色。透過揭示現有AI模型的盲點，蘋果希望開啟一場關於AI能力與責任的深層討論——或許，我們不只是問「AI能做到什麼」，更要問「它真的理解了什麼」。

加入 DQ地球圖輯隊 LINE Notify ，一起看透全世界

延伸閱讀：
為什麼AI的回答總是喜歡拍馬屁？ChatGPT：你問得很好馬斯克預測通用人工智慧明年年底將問世　圖靈獎得主楊立昆：差得遠呢！

參考資料：
Advanced AI suffers ‘complete accuracy collapse’ in face of complex problems, study finds Apple Researchers Just Released a Damning Paper That Pours Water on the Entire AI Industry Apple questions capabilities of AI reasoning models in new research paper The Illusion of Thinking: Understanding the Strengths and Limitations of Reasoning Models via the Lens of Problem Complexity

留言 12

wonder

大語言模型以年紀來看它還是個嬰兒，所有人都正在努力堆高算力讓模型的能力提升蘋果潑這冷水會不會太早🤣 酸葡萄，今年肯定不用期待Apple AI能有什麼水準了

06月12日00:50

Tien

自己做不出來就變高級酸

06月12日05:38

harpoon

因為是選擇大部分人會做的選擇

06月12日07:04

牧文

“ 根據研究觀察，當推理模型逼近其能力極限時，非但沒有增加邏輯推理的努力，反而出現「減少推理嘗試」的行為。這種看似反直覺的現象，代表模型在難題面前並不會自我調整或強化推理過程，反而像是「放棄思考」。” 直覺是人類才有的東西，因為牽涉到至今仍然是神祕地帶的腦部運作。強求AI像柯南一樣靈光一閃就推演出結論豈不是緣木求魚？個人曾經養過一隻會說話的鸚鵡。當教牠超過理解範圍的東西時，牠就開始反抗學習。如果AI是模擬人的產物，說不定AI躺平的意思就是在向真正的人類求援？是不是？

06月12日01:44

Yuchieh_林

問題是蘋果做不出AI 這是不是在放消息呢

06月11日23:29