蘋果研究揭示：主流 AI 推理模型其實根本不會思考

更新於 2小時前 • 發布於 7小時前 • NewMobileLife

蘋果日前發表的一篇新研究報告 The Illusion of Thinking，對當前備受期待的 AI 推理模型潑下一盆冷水。這份研究指出，當大型推理模型（Large Reasoning Models, LRM）面對愈加複雜的邏輯難題時，竟然會「徹底崩潰」，甚至選擇中途放棄解題。

應對簡單題目表現不及 LLM

根據這份研究，儘管 OpenAI o1 與 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 和 Google Gemini Flash Thinking 等模型在中等難度題目中表現不錯，但在簡單題目的表現卻比 LLM 更差。一旦題目難度上升，這些模型竟然會完全「崩潰」，準確率降至零，並主動停止推理。

研究使用的測試題目，包括知名的 Tower of Hanoi（河內塔）、跳棋、運河渡河問題（如狐狸、雞與穀物的經典題型）與積木堆疊，這些都是人類在數學課上常見的經典邏輯遊戲。照理說，一旦掌握解法後，即使增加元素也只是重複應用邏輯。但這些 LRM 模型卻在進行到一定複雜度時完全崩解。

愈難愈不想「思考」

研究人員發現一個令人費解的現象：當題目難度增加，這些模型原本會投入更多思考資源（token），但一旦接近其極限門檻時，模型反而減少推理努力，甚至直接「放棄思考」。即使研究人員提供了演算法提示，讓模型只需照步驟執行，準確率依然無明顯改善。

研究如此指出：「所有推理模型在面對複雜度上升時，都呈現類似的表現模式：準確率逐步下降，並在達到模型特定的複雜門檻後完全崩潰（準確率為零）。」即使提升運算資源也無法突破這一限制。

「思考幻覺」背後

這份研究也為蘋果過去相對保守的 AI 佈局提供了一些線索。儘管 Apple Intelligence 已於 WWDC 推出，但相較於 Google、Samsung 等對 AI 功能大量前置於裝置中的積極策略，蘋果明顯採取不同方向。這可能說明蘋果為何在 LLM 與 LRM 熱潮中始終維持距離——因為他們早已看見這些模型的思考極限。

這也呼應了研究中一段頗具哲思的總結：「AI 模型在數學與程式領域表現出色，但面對真正複雜問題時，它們展現出的，其實只是『思考的幻覺』。」