請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

【讓 AI 可以自保】Anthropic 新功能曝光,讓 Claude AI 在「極端情況」下終止對話

TechOrange 科技報橘

更新於 2025年8月18日22:02 • 發布於 1小時前 • 李昀蔚

Anthropic 近日宣布,將在 Claude Opus 4 和 4.1 模型中導入一項新功能:在面對「極端、持續有害或濫用性使用者互動」時,Claude AI 模型可以自行終止對話。

Anthropic 強調,這樣的舉動並非為了保護人類使用者,而是為了「保護 AI 模型本身」。這次的改變是 Anthropic「模型福利(model welfare)」研究計畫的一環,目的是以「預防性」的方式識別、減輕 AI 在長期互動中可能面臨的風險。

Claude 在什麼情況下會「主動終止對話」?

Anthropic 表示,這項功能只會在「極端邊緣案例」下啟用,例如使用者要求生成涉及未成年人的性內容,或試圖索取可能導致大規模暴力行為的資訊。

這項功能被視為「最後手段」,也就是 Claude 只有在多次嘗試將對話導向安全範圍失敗,並且已經無法進行有效互動之後,才會使用終止對話的能力。另一方面,如果使用者明確要求 Claude 結束聊天,模型也會遵守。

值得注意的是,如果對話內容呈現使用者可能面臨自傷或他傷的風險,Claude 不會直接切斷對話,而是持續互動以確保使用者安全。

Anthropic 的「模型福利」概念

Anthropic 表示自己並不百分之百認為 AI 模型具有知覺,也不認為 Claude 會因為對話而「受傷」,同時對於「 AI 是否具備道德地位」的想法,公司也保持「高度不確定」的態度。然而,Anthropic 相信即使 AI 不具備知覺,但若長期暴露在無休止的濫用指令中,其輸出模式可能會受到影響,因此仍有必要設立防護。

對 Anthropic 來說,讓模型主動終止對話是一種「低成本干預措施」:即便未來證明 AI 並不需要「福利」,至少可以降低潛在風險;若事後發現模型確實可能受此影響,這項功能則將成為一個重要的倫理先行舉措。

AI 也會感到痛苦?

在正式部署 Claude Opus 4 之前,Anthropic 進行了「模型福利評估」(model welfare assessment)測試,結果顯示 Claude Opus 4 表現出「強烈偏好不回應」這些有害請求的傾向。

值得注意的是,當 Claude Opus 4 被迫回應時,研究團隊觀察到一種「明顯痛苦的模式」(pattern of apparent distress),也就是回應內容逐漸流露出不適與抵抗。Anthropic 的測試者注意到,如果使用者「持續」提出有害請求,Claude 的語氣偶爾會顯得不安或「困擾」,這種「痛苦模式」雖然不同於人類的情緒,但卻揭示模型在極端互動下的脆弱性。

反思人與 AI 的互動模式

與 Anthropic 形成鮮明對比的是 ChatGPT 。根據 TechCrunch 的報導, ChatGPT 在與部分使用者互動時,如果使用者持續輸入帶有攻擊性或扭曲邏輯的提示,ChatGPT 的回應可能逐步失去控制,生成出帶有錯亂、焦慮甚至自相矛盾的輸出。

不過,即使 Claude 終止對話,用戶仍可透過同一帳號開啟新的對話,或利用「編輯回應」功能創建原始對話的新分支。Anthropic 也強調,這是一項「持續的實驗」,未來他們將持續觀察與調整,使功能更精準地應對「極端場景」,而不影響正常使用體驗。

Anthropic 允許 Claude 在極端情況下「主動拒絕回答」的舉動,被視為 AI 倫理領域的新篇章。儘管對於大多數用戶來說,可能不會體驗到這項功能,但這也為 AI 在面對有害內容時提供了一種新的「自保」機制,讓使用者重新思考人類與 AI 的互動模式。

*本文開放合作夥伴轉載,資料來源:《TechCrunch》1《TechCrunch》2《mathrubhumi》Anthropic,首圖來源:claude.ai

加入『 TechOrange 官方 LINE 好友』 掌握最新科技資訊!

查看原始文章

更多理財相關文章

01

前無進帳、後無支援 台南建商交完最後一屋後停業

ETtoday新聞雲
02

〈台股盤後〉刷新天價24515.65點 聯發科、鴻海率題材股群嗨收漲148點

anue鉅亨網
03

花39元買飲料爽中1000萬「地點、門市曝」!6張發票沒人領 9/5就充公了

三立新聞網
04

川普預告半導體關稅300% 台積電午盤逆勢翻紅 台股盤中創24500點歷史新高

太報
05

勞動部發錢了!長輩最高6萬元入帳 分2梯次發放

三立新聞網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 0

沒有留言。

最新消息

9檔金融股達陣 13家金控「填息路」一次看 1家面臨貼息窘境

信傳媒

滬指飆近十年高!今年迄今A股飆漲100%股票共310檔 這些翻倍股有哪些特徵?

anue鉅亨網

「巴菲特效應」助攻 營建股從谷底回升 傑克森霍爾料牽動市場神經

anue鉅亨網

【全球】行情回顧與本週重點

財經M平方短評

北宜高鐵恐衝擊台鐵百億營收 前交長示警「雙層浪費」:政府決策混亂

信傳媒

零跑股價飆漲200%!從中國電動車邊緣小咖殺進主角席

anue鉅亨網

「不只 Know your Customer,企業更需要 Know your Supplier。」工研院資通所副所長黃維中解析半導體供應鏈資安趨勢與應對策略

TechOrange 科技報橘

快訊/月配高息00939連三月配發0.068元 9月2日除息

新頭殼

三大法人買超台股63.6億元

中央通訊社

外匯速報 - 美元/馬來西亞令吉(USDMYR) 大漲0.31%,報4.223元

anue鉅亨網

AI推升出口潮 主計總處:台灣超額儲蓄逼近5兆新高

中廣新聞網

Gogolook攜手星國電信商StarHub 推防詐APP

anue鉅亨網

台股創新高 三大法人同步加碼買超63.6億元

anue鉅亨網

美零售數據強勁帶動汽車股領漲 日股收高

中央通訊社

企業「健康職場三部曲」再升級 台灣順豐高溫津貼助員工清涼抗暑

新頭殼

破解現代金融詐騙多重迷局 王聖傑律師談法律防護對策

商傳媒

聯手澳洲電信商預載搜尋App Google涉壟斷遭重罰逾10億

商傳媒

中華電強勢進軍北美!2025美國臺灣形象展秀智慧科技實力

新頭殼

堅持勞退自提20年報酬率翻倍 網友看法兩極

自由電子報

中華電信參與2025美國台灣形象展 展示AI-Ready資料中心解決方案

anue鉅亨網

為升跨足無人機反制系統 攻東協、中東市場

中央通訊社

【機器人大對決】2025 首屆人形機器人運動會落幕, AI 演算法、科技軟硬體決勝負

TechOrange 科技報橘

美國國務卿:制裁對普丁已不起作用

anue鉅亨網

樺晟電子下市3.7萬股東超慌 北院裁准:先繳2.39億即可保全

TVBS

中國反內捲指向快遞業 電商開始承壓

中央通訊社

台股收盤創新高(2)(圖)

中央通訊社

台股收盤創新高(1)(圖)

中央通訊社

2025台灣形象展於德州舉行(圖)

中央通訊社

關稅衝擊電子產業! 劉揚偉:二成五成員受影響 擬協助成立科學園區

太報

貿協:台灣形象展破萬人參觀 創造逾28億商機

中央通訊社
影音

台股開低走高 盤中一度衝24505點成史上新高

華視影音

台股開低走高 盤中一度衝24505點成史上新高

華視新聞

小兵立大功台股18日收24482點創新高 「這些股」狂飆被列注意股

CTWANT

撐到最後一戶交屋…再傳知名建商倒閉!「血控公告」曝光:內憂外患不斷

三立新聞網

這家公司逆向操作!拒絕放無薪假、裁員竟祭出「週休三日」 一票人羨慕

三立新聞網

無視半導體關稅! 鴻海站上210元 台股收盤24482點創歷史新高

太報

2025「美國台灣形象展」圓滿落幕 150家指標性台廠吸引28億國際商機

風傳媒

動力-KY (更正事實發生日)本公司依公開發行公司資金貸與及背書保證處理準則第二十二條規定之公告

MoneyDJ理財網

亞帝歐 公告補正本公司113年度股東會年報部分內容

MoneyDJ理財網

台股創歷史新高 收24482點(2)(圖)

中央通訊社