蘋果研究揭示:主流 AI 推理模型其實根本不會思考
蘋果日前發表的一篇新研究報告 The Illusion of Thinking,對當前備受期待的 AI 推理模型潑下一盆冷水。這份研究指出,當大型推理模型(Large Reasoning Models, LRM)面對愈加複雜的邏輯難題時,竟然會「徹底崩潰」,甚至選擇中途放棄解題。
應對簡單題目表現不及 LLM
根據這份研究,儘管 OpenAI o1 與 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 和 Google Gemini Flash Thinking 等模型在中等難度題目中表現不錯,但在簡單題目的表現卻比 LLM 更差。一旦題目難度上升,這些模型竟然會完全「崩潰」,準確率降至零,並主動停止推理。
研究使用的測試題目,包括知名的 Tower of Hanoi(河內塔)、跳棋、運河渡河問題(如狐狸、雞與穀物的經典題型)與積木堆疊,這些都是人類在數學課上常見的經典邏輯遊戲。照理說,一旦掌握解法後,即使增加元素也只是重複應用邏輯。但這些 LRM 模型卻在進行到一定複雜度時完全崩解。
愈難愈不想「思考」
研究人員發現一個令人費解的現象:當題目難度增加,這些模型原本會投入更多思考資源(token),但一旦接近其極限門檻時,模型反而減少推理努力,甚至直接「放棄思考」。即使研究人員提供了演算法提示,讓模型只需照步驟執行,準確率依然無明顯改善。
研究如此指出:「所有推理模型在面對複雜度上升時,都呈現類似的表現模式:準確率逐步下降,並在達到模型特定的複雜門檻後完全崩潰(準確率為零)。」即使提升運算資源也無法突破這一限制。
「思考幻覺」背後
這份研究也為蘋果過去相對保守的 AI 佈局提供了一些線索。儘管 Apple Intelligence 已於 WWDC 推出,但相較於 Google、Samsung 等對 AI 功能大量前置於裝置中的積極策略,蘋果明顯採取不同方向。這可能說明蘋果為何在 LLM 與 LRM 熱潮中始終維持距離——因為他們早已看見這些模型的思考極限。
這也呼應了研究中一段頗具哲思的總結:「AI 模型在數學與程式領域表現出色,但面對真正複雜問題時,它們展現出的,其實只是『思考的幻覺』。」
AGI 路漫漫
這項研究對於 AGI 樂觀主義者而言可謂一記警鐘,卻也不代表 AI 無法推理。正如 AI 專家 Gary Marcus 在其網誌指出:「普通人類在面對 8 層河內塔時也會失誤。」這項研究雖未對比人類在同樣問題上的表現,但至少點出目前模型的瓶頸與錯覺。
Gary Marcus 進一步評論:「這份報告顯示,無論你如何定義 AGI,LLM 目前仍無法取代傳統的、經過良好定義的演算法。」AI 不是萬能的解答,但也不是全然無用,它只是還在學習,還沒能做到真正「思考」。
NewMobileLife 網站:https://www.newmobilelife.com
留言 0