【讓 AI 可以自保】Anthropic 新功能曝光，讓 Claude AI 在「極端情況」下終止對話

更新於 2025年8月18日22:02 • 發布於 1小時前 • 李昀蔚

Anthropic 近日宣布，將在 Claude Opus 4 和 4.1 模型中導入一項新功能：在面對「極端、持續有害或濫用性使用者互動」時，Claude AI 模型可以自行終止對話。

Anthropic 強調，這樣的舉動並非為了保護人類使用者，而是為了「保護 AI 模型本身」。這次的改變是 Anthropic「模型福利（model welfare）」研究計畫的一環，目的是以「預防性」的方式識別、減輕 AI 在長期互動中可能面臨的風險。

Claude 在什麼情況下會「主動終止對話」？

Anthropic 表示，這項功能只會在「極端邊緣案例」下啟用，例如使用者要求生成涉及未成年人的性內容，或試圖索取可能導致大規模暴力行為的資訊。

這項功能被視為「最後手段」，也就是 Claude 只有在多次嘗試將對話導向安全範圍失敗，並且已經無法進行有效互動之後，才會使用終止對話的能力。另一方面，如果使用者明確要求 Claude 結束聊天，模型也會遵守。

值得注意的是，如果對話內容呈現使用者可能面臨自傷或他傷的風險，Claude 不會直接切斷對話，而是持續互動以確保使用者安全。

Anthropic 的「模型福利」概念

Anthropic 表示自己並不百分之百認為 AI 模型具有知覺，也不認為 Claude 會因為對話而「受傷」，同時對於「 AI 是否具備道德地位」的想法，公司也保持「高度不確定」的態度。然而，Anthropic 相信即使 AI 不具備知覺，但若長期暴露在無休止的濫用指令中，其輸出模式可能會受到影響，因此仍有必要設立防護。

對 Anthropic 來說，讓模型主動終止對話是一種「低成本干預措施」：即便未來證明 AI 並不需要「福利」，至少可以降低潛在風險；若事後發現模型確實可能受此影響，這項功能則將成為一個重要的倫理先行舉措。

AI 也會感到痛苦？

在正式部署 Claude Opus 4 之前，Anthropic 進行了「模型福利評估」（model welfare assessment）測試，結果顯示 Claude Opus 4 表現出「強烈偏好不回應」這些有害請求的傾向。

值得注意的是，當 Claude Opus 4 被迫回應時，研究團隊觀察到一種「明顯痛苦的模式」（pattern of apparent distress），也就是回應內容逐漸流露出不適與抵抗。Anthropic 的測試者注意到，如果使用者「持續」提出有害請求，Claude 的語氣偶爾會顯得不安或「困擾」，這種「痛苦模式」雖然不同於人類的情緒，但卻揭示模型在極端互動下的脆弱性。