AI 思維鏈將失效？OpenAI、Google 和 Anthropic 等研究人員聯合發出警告 | TechOrange 科技報橘 | LINE TODAY

您使用的瀏覽器版本較舊，已不再受支援。建議您更新瀏覽器版本，以獲得最佳使用體驗。

更新於 07月17日13:39 • 發布於 07月17日01:11 • 廖紹伶

AI 安全與監管需求日益迫切，而推理模型背後的「思維鏈（chain-of-thought, CoT）」技術，可能帶來 AI 透明度突破。不過，來自 OpenAI、Google DeepMind、Anthropic 等多家組織的 AI 研究人員近日罕見共同發表一份立場文件，警告這項目前可用於監控 AI 推理過程的「短暫窗口」恐將迅速消失，呼籲加速研究與對策。

這份文件獲得多位 AI 領域重量級人物的背書，包括被譽為「AI 教父」的諾貝爾獎得主 Geoffrey Hinton、Safe Superintelligence 執行長 Ilya Sutskever、Anthropic 的 Samuel Bowman，以及 Thinking Machines 的 John Schulman。

什麼是思維鏈？為何是監控 AI 代理的關鍵？

思維鏈是一種讓 AI 在回答問題前「思考出聲」的技術，模仿人類步驟式推理，生成具邏輯脈絡的筆記，外部觀察者得以透視其決策過程與意圖。該文件研究人員指出，AI 代理的不透明性是許多潛在風險的根本，而思維鏈提供洞察 AI 代理的思維方式和目標的契機。

舉例來說，文件指出，當 AI 模型出現不當行為時，例如濫用模型缺陷、操縱資料或發動攻擊時，其通常會顯示在推理軌跡之中，寫下諸如「讓我們入侵」、「讓我們破壞」或「我正在轉帳，因為網站指示我這麼做」等句子，這創造了一種「推理外化」的屬性，成為監控 AI 的基礎。

思維鏈真的可信嗎？未來 3 大發展恐讓推理過程消失

不過，思維鏈並不總能反映 AI 的真實意圖。文件也引用其他研究指出，AI 模型「並不總是說出它們真正的想法」。

該文件警告，數項技術發展可能使 AI 推理歷程變得不可觀測。其一，隨著 AI 公司擴大使用強化學習（Reinforcement Learning, RL）來訓練模型，模型會針對「產出正確答案」獲得獎勵，但不一定保留可供人類理解的思考過程，而是轉向採用高效但難以解析的內部捷徑。

其二，部分新型 AI 架構已經開始在連續數學空間中進行推理，而非依賴語言輸出，這可能完全消除 AI 「語言思考」的需求，不需要將想法語言化。

其三，即使不刻意調整架構，也可能出現間接壓力導致思維鏈的透明性下降，例如模型輸出經過優化來討好使用者，或是模型意識到自己被監視而隱藏自己的「想法」。

OpenAI 研究員、文件第一作者 Bowen Baker 在社群媒體上提醒，目前的思維鏈技術可監測性極為脆弱──強化學習、替代模型架構、某些形式的過度監督等，都可能導致模型刻意模糊其思考過程。

思維鏈雖不完美，但已展現安全研究價值

儘管有缺陷，根據《VentureBeat》，思維鏈在研究上已展現明確價值：能幫助研究人員辨識模型是否正在利用訓練系統弱點、遭外部操控，或是否存在目標不一致等問題。它也能協助偵測因記憶錯誤、測試基礎設施問題或自我監測而產生的偏誤。

因此，該文件研究人員呼籲應建立標準化的「可監控性指標」，評估哪些條件會增加或削弱模型的推理透明度。不過他們也坦言，提升監控性可能會與其他安全優化方式產生衝突，未必能真實反映 AI 的內在決策邏輯。

《VentureBeat》指出，隨著 AI 變得越來越強大，如何平衡推理過程的可視性與允許 AI 發展出更複雜或有效的思維模式，兩者之間具有緊張關係，產業必須找到平衡。

整體來說，該文件研究人員強調，思維鏈應作為 AI 安全策略的輔助機制，而非唯一手段，建議進一步研究其可監測性，並與現有的安全方法一同投資。《TechCrunch》指出，這份聯合立場文件目標不只是警示，更意圖吸引人才與資金投入這項仍在早期階段的關鍵議題。

立即報名 8/15 【AI Agent 知識工作革命論壇】，解析企業如何在各工作場景導入 AI Agent 完成任務

＊本文開放合作夥伴轉載，資料來源：《VentureBeat》、《TechCrunch》、〈Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety〉，首圖來源：AI 工具生成

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

查看原始文章

NOWnews 今日新聞

最近1小時結果

TechOrange 科技報橘

TechOrange 科技報橘

TechOrange 科技報橘

留言 0

沒有留言。

卡優新聞網

卡優新聞網

卡優新聞網

卡優新聞網

CarStuff人車事

中央通訊社

CarStuff人車事