請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

蘋果研究揭示:主流 AI 推理模型其實根本不會思考

流動日報

更新於 2小時前 • 發布於 7小時前 • NewMobileLife

蘋果日前發表的一篇新研究報告 The Illusion of Thinking,對當前備受期待的 AI 推理模型潑下一盆冷水。這份研究指出,當大型推理模型(Large Reasoning Models, LRM)面對愈加複雜的邏輯難題時,竟然會「徹底崩潰」,甚至選擇中途放棄解題。

應對簡單題目表現不及 LLM

根據這份研究,儘管 OpenAI o1 與 o3、DeepSeek R1、Claude 3.7 Sonnet Thinking 和 Google Gemini Flash Thinking 等模型在中等難度題目中表現不錯,但在簡單題目的表現卻比 LLM 更差。一旦題目難度上升,這些模型竟然會完全「崩潰」,準確率降至零,並主動停止推理。

研究使用的測試題目,包括知名的 Tower of Hanoi(河內塔)、跳棋、運河渡河問題(如狐狸、雞與穀物的經典題型)與積木堆疊,這些都是人類在數學課上常見的經典邏輯遊戲。照理說,一旦掌握解法後,即使增加元素也只是重複應用邏輯。但這些 LRM 模型卻在進行到一定複雜度時完全崩解。

愈難愈不想「思考」

研究人員發現一個令人費解的現象:當題目難度增加,這些模型原本會投入更多思考資源(token),但一旦接近其極限門檻時,模型反而減少推理努力,甚至直接「放棄思考」。即使研究人員提供了演算法提示,讓模型只需照步驟執行,準確率依然無明顯改善。

研究如此指出:「所有推理模型在面對複雜度上升時,都呈現類似的表現模式:準確率逐步下降,並在達到模型特定的複雜門檻後完全崩潰(準確率為零)。」即使提升運算資源也無法突破這一限制。

「思考幻覺」背後

這份研究也為蘋果過去相對保守的 AI 佈局提供了一些線索。儘管 Apple Intelligence 已於 WWDC 推出,但相較於 Google、Samsung 等對 AI 功能大量前置於裝置中的積極策略,蘋果明顯採取不同方向。這可能說明蘋果為何在 LLM 與 LRM 熱潮中始終維持距離——因為他們早已看見這些模型的思考極限。

這也呼應了研究中一段頗具哲思的總結:「AI 模型在數學與程式領域表現出色,但面對真正複雜問題時,它們展現出的,其實只是『思考的幻覺』。」

AGI 路漫漫

這項研究對於 AGI 樂觀主義者而言可謂一記警鐘,卻也不代表 AI 無法推理。正如 AI 專家 Gary Marcus 在其網誌指出:「普通人類在面對 8 層河內塔時也會失誤。」這項研究雖未對比人類在同樣問題上的表現,但至少點出目前模型的瓶頸與錯覺。

Gary Marcus 進一步評論:「這份報告顯示,無論你如何定義 AGI,LLM 目前仍無法取代傳統的、經過良好定義的演算法。」AI 不是萬能的解答,但也不是全然無用,它只是還在學習,還沒能做到真正「思考」。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章

OpenAI、Anthropic、Google 頂尖模型隨你用 Lovable 周末限時免費任試

流動日報

OpenAI 聯合創辦人 Ilya Sutskever 預言:人類必須準備好迎接這個「史上最不尋常的時代」

流動日報

Meta 豪擲 150 億美元加速通用人工智能 AGI 佈局

流動日報
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 0

沒有留言。

最新內容

XPower MAGNETO 10 與 MagDigita² 熱賣升級,全新半固態電池系列 7 月登場…

KONGGOK | 港角

豐富多彩!CCTV4精品節目展示

PR Newswire 美通社

ValueLabs 宣佈計劃成為自主智能時代的企業操作系統

PR Newswire 美通社

Apple Watch Series 13 傳將搭載血糖監測功能

流動日報

十年跬步,志在千里----荃信生物十週年慶典系列活動隆重舉行

PR Newswire 美通社

OpenAI 強化 ChatGPT Search 支援圖像搜尋及強化長對話

流動日報

蘋果 Terminal 大改造 macOS Tahoe 帶來二十年來首次視覺更新

流動日報

消委會|網絡安全軟件測試 23款Windows及macOS防毒軟件評分一覽

am730

全新三消手遊《LINE 天外消消樂》正式上線 慶祝活動送特別頭像、外框與道具

LINE TODAY

如何取得免費 EDU 電郵領取學生專享優惠?

流動日報

華為攜手SchneiTec建成全球首個獲TÜV南德認證的構網型儲能項目

PR Newswire 美通社

巴黎航展以色列展區遭封 法方稱違規展示攻擊性武器

VOCO News

「餓狼傳説 City of the Wolves」DLC角色「安迪·博加德」將於6月24日發佈!角色預告片已公開

Saiga NAK

孫耀達博士工程師獲任應科院行政總裁下月履新

PR Newswire 美通社

Samsung 618優惠高達71折兼送XBOX S24 Ultra、Z Flip6手機減過千

am730

Apple即將開放CarPlay影片播放功能 車主停車時可睇片

am730

羅馬仕ROMOSS尿袋疑因易爆炸自燃 北京多間大學禁用

am730

在全國 400 個地點進行夏日冒險!針對小學生的體驗型教育課程「目標是!成為寶可夢訓練師!」將於2025年夏季開跑

Saiga NAK

萬達電影與IMAX深化戰略合作 再簽27家影院協議

PR Newswire 美通社

Redmi K80 Ultra現身Geekbench跑分庫 旗艦級配置提前曝光

am730

REJECT迎接世界最大的挑戰!鬥陣特攻官方大賽「OWCS JAPAN Stage2 Playoffs」將於6月17日在東京舉行

Saiga NAK

SAMSUNG Galaxy Z Fold7與Flip7發布日期曝光

am730

TOMY Group子公司T-ARTS將於8月推出新系列手辦「PERIHAPI!」作為Gacha(R)引入日本60週年紀念企劃首彈

PR Newswire 美通社

新華絲路:銀川助力中國葡萄酒產業走向世界

PR Newswire 美通社

電動車|吉利汽車GEELY EX5 7月首批交付 九龍灣陳列室6月試業

am730

AsiaPay攜手麥當勞推出整合線上支付方案 提升台灣消費者的支付體驗

PR Newswire 美通社

和譽醫藥依帕戈替尼完成治療肝細胞癌的注冊性臨床試驗首例患者給藥

PR Newswire 美通社

海信作為官方合作伙伴慶祝國際足聯俱樂部世界杯™開幕

PR Newswire 美通社

助品牌走向國際! 雅詩蘭黛老董Leonard Lauder辭世 享壽92歲

VOCO News

SAMSUNG Galaxy Z Fold7 與 Flip7 發佈日期曝光!

Mobile Magazine

2025年首季全球穿戴設備市場增長10.5% HUAWEI 躍居榜首!

Mobile Magazine

如何使用 HONOR 400 系列的 “AI 擴圖”功能??

Mobile Magazine

亞盛醫藥多項研究亮相,耐立克R治療Ph+ ALL潛力明顯|直擊EHA 2025

PR Newswire 美通社

Questex舉辦的IHIF Asia為全球酒店業領袖呈現純正亞洲交流體驗

PR Newswire 美通社

Stavian Chemical躋身2025年ICIS全球化工分銷商百強榜單前15名

PR Newswire 美通社

告別投資困惑:Theinvestmedia.com 憑藉八年專業經驗,打造香港最受信賴的開戶優惠比較及實戰投資教學平台

PR Newswire 美通社

Apple HomeOS 與相關硬體有望於 2026 年 WWDC 前亮相

流動日報