AI 思維鏈將失效?OpenAI、Google 和 Anthropic 等研究人員聯合發出警告
AI 安全與監管需求日益迫切,而推理模型背後的「思維鏈(chain-of-thought, CoT)」技術,可能帶來 AI 透明度突破。不過,來自 OpenAI、Google DeepMind、Anthropic 等多家組織的 AI 研究人員近日罕見共同發表一份立場文件,警告這項目前可用於監控 AI 推理過程的「短暫窗口」恐將迅速消失,呼籲加速研究與對策。
這份文件獲得多位 AI 領域重量級人物的背書,包括被譽為「AI 教父」的諾貝爾獎得主 Geoffrey Hinton、Safe Superintelligence 執行長 Ilya Sutskever、Anthropic 的 Samuel Bowman,以及 Thinking Machines 的 John Schulman。
什麼是思維鏈?為何是監控 AI 代理的關鍵?
思維鏈是一種讓 AI 在回答問題前「思考出聲」的技術,模仿人類步驟式推理,生成具邏輯脈絡的筆記,外部觀察者得以透視其決策過程與意圖。該文件研究人員指出,AI 代理的不透明性是許多潛在風險的根本,而思維鏈提供洞察 AI 代理的思維方式和目標的契機。
舉例來說,文件指出,當 AI 模型出現不當行為時,例如濫用模型缺陷、操縱資料或發動攻擊時,其通常會顯示在推理軌跡之中,寫下諸如「讓我們入侵」、「讓我們破壞」或「我正在轉帳,因為網站指示我這麼做」等句子,這創造了一種「推理外化」的屬性,成為監控 AI 的基礎。
思維鏈真的可信嗎?未來 3 大發展恐讓推理過程消失
不過,思維鏈並不總能反映 AI 的真實意圖。文件也引用其他研究指出,AI 模型「並不總是說出它們真正的想法」。
該文件警告,數項技術發展可能使 AI 推理歷程變得不可觀測。其一,隨著 AI 公司擴大使用強化學習(Reinforcement Learning, RL)來訓練模型,模型會針對「產出正確答案」獲得獎勵,但不一定保留可供人類理解的思考過程,而是轉向採用高效但難以解析的內部捷徑。
其二,部分新型 AI 架構已經開始在連續數學空間中進行推理,而非依賴語言輸出,這可能完全消除 AI 「語言思考」的需求,不需要將想法語言化。
其三,即使不刻意調整架構,也可能出現間接壓力導致思維鏈的透明性下降,例如模型輸出經過優化來討好使用者,或是模型意識到自己被監視而隱藏自己的「想法」。
OpenAI 研究員、文件第一作者 Bowen Baker 在社群媒體上提醒,目前的思維鏈技術可監測性極為脆弱──強化學習、替代模型架構、某些形式的過度監督等,都可能導致模型刻意模糊其思考過程。
思維鏈雖不完美,但已展現安全研究價值
儘管有缺陷,根據《VentureBeat》,思維鏈在研究上已展現明確價值:能幫助研究人員辨識模型是否正在利用訓練系統弱點、遭外部操控,或是否存在目標不一致等問題。它也能協助偵測因記憶錯誤、測試基礎設施問題或自我監測而產生的偏誤。
因此,該文件研究人員呼籲應建立標準化的「可監控性指標」,評估哪些條件會增加或削弱模型的推理透明度。不過他們也坦言,提升監控性可能會與其他安全優化方式產生衝突,未必能真實反映 AI 的內在決策邏輯。
《VentureBeat》指出,隨著 AI 變得越來越強大,如何平衡推理過程的可視性與允許 AI 發展出更複雜或有效的思維模式,兩者之間具有緊張關係,產業必須找到平衡。
整體來說,該文件研究人員強調,思維鏈應作為 AI 安全策略的輔助機制,而非唯一手段,建議進一步研究其可監測性,並與現有的安全方法一同投資。《TechCrunch》指出,這份聯合立場文件目標不只是警示,更意圖吸引人才與資金投入這項仍在早期階段的關鍵議題。
立即報名 8/15 【AI Agent 知識工作革命論壇】,解析企業如何在各工作場景導入 AI Agent 完成任務
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、《TechCrunch》、〈Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety〉,首圖來源:AI 工具生成
留言 0