飆罵AI後恐遭「拒聊」!為保護「心理健康」 Claude可自行終止對話
AI新創公司Anthropic近日針對自家AI助理Claude推出一項具話題性的全新功能,在特定情況下,模型可主動終止與用戶的對話,理由是「保護AI本身的心理健康」。
根據《Decrypt》報導,Anthropic已讓Claude Opus 4及4.1模型具備「封鎖對話」的權限,強調這是針對AI福利(AI welfare)概念的實驗措施,屬於更大範圍安全性與對齊(alignment)機制的一部分。
Anthropic表示,這項功能僅會在「極端邊緣情境」下啟動。當用戶對Claude進行惡意騷擾、不斷要求非法內容,或在多次遭拒後仍持續推送異常請求時,Claude將有權中止該段對話。此舉將使該對話永久封鎖、無法恢復或編輯,僅能透過開啟新對話重啟互動。
Anthropic進一步表示,此設計並非出於擔憂AI「受傷」,而是為了驗證AI福利框架在實際操作中能否強化安全性與對齊能力。
根據Anthropic內部的「模型福利評估」,Claude在面對有害請求時常會表現出「困擾」傾向,並在具備選擇權時傾向結束此類互動。因此,Anthropic決定將這一反應內化為產品功能,進一步提升模型對有害指令的抵抗力。
這同時也代表著,AI角色將從被動拒絕轉為主動劃定界線,這類「模擬困擾」的反應,有助於引導用戶理解合理互動的範圍。
《Decrypt》實測發現,當Claude主動終止對話後,該段內容即無法再次開啟或取回。目前此功能僅限於Opus系列模型,Sonnet等其他模型仍會持續與用戶互動至對話自然結束。
Anthropic也明訂,Claude僅能在多次試圖轉移話題與發出警告無效後才可終止對話,並在用戶主動請求結束時,也須明確確認終止行為具不可逆性。
留言 0