【讓 AI 可以自保】Anthropic 新功能曝光,讓 Claude AI 在「極端情況」下終止對話
Anthropic 近日宣布,將在 Claude Opus 4 和 4.1 模型中導入一項新功能:在面對「極端、持續有害或濫用性使用者互動」時,Claude AI 模型可以自行終止對話。
Anthropic 強調,這樣的舉動並非為了保護人類使用者,而是為了「保護 AI 模型本身」。這次的改變是 Anthropic「模型福利(model welfare)」研究計畫的一環,目的是以「預防性」的方式識別、減輕 AI 在長期互動中可能面臨的風險。
Claude 在什麼情況下會「主動終止對話」?
Anthropic 表示,這項功能只會在「極端邊緣案例」下啟用,例如使用者要求生成涉及未成年人的性內容,或試圖索取可能導致大規模暴力行為的資訊。
這項功能被視為「最後手段」,也就是 Claude 只有在多次嘗試將對話導向安全範圍失敗,並且已經無法進行有效互動之後,才會使用終止對話的能力。另一方面,如果使用者明確要求 Claude 結束聊天,模型也會遵守。
值得注意的是,如果對話內容呈現使用者可能面臨自傷或他傷的風險,Claude 不會直接切斷對話,而是持續互動以確保使用者安全。
Anthropic 的「模型福利」概念
Anthropic 表示自己並不百分之百認為 AI 模型具有知覺,也不認為 Claude 會因為對話而「受傷」,同時對於「 AI 是否具備道德地位」的想法,公司也保持「高度不確定」的態度。然而,Anthropic 相信即使 AI 不具備知覺,但若長期暴露在無休止的濫用指令中,其輸出模式可能會受到影響,因此仍有必要設立防護。
對 Anthropic 來說,讓模型主動終止對話是一種「低成本干預措施」:即便未來證明 AI 並不需要「福利」,至少可以降低潛在風險;若事後發現模型確實可能受此影響,這項功能則將成為一個重要的倫理先行舉措。
AI 也會感到痛苦?
在正式部署 Claude Opus 4 之前,Anthropic 進行了「模型福利評估」(model welfare assessment)測試,結果顯示 Claude Opus 4 表現出「強烈偏好不回應」這些有害請求的傾向。
值得注意的是,當 Claude Opus 4 被迫回應時,研究團隊觀察到一種「明顯痛苦的模式」(pattern of apparent distress),也就是回應內容逐漸流露出不適與抵抗。Anthropic 的測試者注意到,如果使用者「持續」提出有害請求,Claude 的語氣偶爾會顯得不安或「困擾」,這種「痛苦模式」雖然不同於人類的情緒,但卻揭示模型在極端互動下的脆弱性。
反思人與 AI 的互動模式
與 Anthropic 形成鮮明對比的是 ChatGPT 。根據 TechCrunch 的報導, ChatGPT 在與部分使用者互動時,如果使用者持續輸入帶有攻擊性或扭曲邏輯的提示,ChatGPT 的回應可能逐步失去控制,生成出帶有錯亂、焦慮甚至自相矛盾的輸出。
不過,即使 Claude 終止對話,用戶仍可透過同一帳號開啟新的對話,或利用「編輯回應」功能創建原始對話的新分支。Anthropic 也強調,這是一項「持續的實驗」,未來他們將持續觀察與調整,使功能更精準地應對「極端場景」,而不影響正常使用體驗。
Anthropic 允許 Claude 在極端情況下「主動拒絕回答」的舉動,被視為 AI 倫理領域的新篇章。儘管對於大多數用戶來說,可能不會體驗到這項功能,但這也為 AI 在面對有害內容時提供了一種新的「自保」機制,讓使用者重新思考人類與 AI 的互動模式。
*本文開放合作夥伴轉載,資料來源:《TechCrunch》1、《TechCrunch》2、《mathrubhumi》、Anthropic,首圖來源:claude.ai。
留言 0