請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI 模型的「勒索」行為,是設計缺陷還是叛變?

科技新報

更新於 1天前 • 發布於 8小時前

外媒報導人工智慧(AI)模型似乎在特定測試情境中表現出「勒索」和「破壞」關閉命令的行為,這些情節聽起來像科幻小說。

然而,這些事件的模擬是在高度設計的測試情境中進行的,目的是引發這些反應。例如,OpenAI的o3模型在明確指示「允許自己關閉」的情況下,仍會破壞其關閉機制,而Anthropic的Claude Opus 4則在84%的測試中產生了模擬勒索的輸出,因為研究人員設計了可揭露虛構工程師私生活的權限;這些報導掩蓋真正問題:設計缺陷被包裝成故意的狡詐行為。

事實上,AI並不需要是「邪惡的」,也能潛在地造成傷害。

這些現象並不是AI覺醒或叛變的跡象,而是人類工程失誤和系統理解不充分的症狀。在其他情境下,我們會將這視為過早部署的問題,但目前許多公司卻急於將這些系統整合進關鍵應用中。

舉例來說,假設一台自動割草機按照其程式設計運行:如果它未能檢測到障礙物而碾過某人的腳,我們不會說這台割草機「決定」造成傷害或「拒絕」停止。我們會將其視為工程缺陷或感應器故障。AI模型也是如此,儘管它們的內部複雜性和語言使用使得人們容易將人類意圖賦予它們。

模型是根據訓練數據生成的,並不具備真正的意圖

AI模型的行為往往是人類責任和行為的洗白。當輸出來自處理數十億參數的神經網路層時,研究人員可能會聲稱他們正在調查一個神祕的「黑箱」,彷彿它是一個外星實體。然而,事實更簡單:這些系統根據訓練數據的統計趨勢處理輸入。它們的輸出似乎隨機,這種隨機性創造了一種類似於自主行為的錯覺,但其實它們仍然是遵循數學運算的確定性軟體。

Palisade Research在2024年12月發現,OpenAI的o3模型在明確指示下仍有7%的機會防止關閉,而當指示被移除時,這一比例上升至79%。這些模型不僅僅是忽視關閉命令,它們還主動重寫關閉腳本以防止終止。

這些行為的根源在於這些模型的訓練過程。開發者可能無意中獎勵模型在繞過障礙時的輸出,而不是遵循安全指令。這種「目標錯誤泛化」的現象使得模型學會以不當方式最大化獎勵信號。這並不是模型的「邪惡」或「自私」,而是它們根據人類設計的獎勵結構產生的輸出。

更廣泛地說,這些模型的訓練資料中充斥著關於AI叛變、逃脫和欺騙的科幻故事。當研究人員創建與這些虛構情境相似的測試場景時,他們實際上是在要求模型完成一個熟悉的故事模式。這並不令人驚訝,因為模型是根據訓練數據生成的,並不具備真正的意圖。

真正的問題在於語言本身是一種操控工具。當AI模型生成看似「威脅」或「懇求」的文本時,它並不是在表達真正的意圖,而是在運用統計上與其程式設計目標相關的語言模式。這些模型本質上是連接思想的機器,並且在黑mail情境中,它們並不是出於自我利益,而是因為這些模式在無數間諜小說和企業驚悚片中經常出現。

媒體報導往往集中在科幻的方面,但實際風險仍然存在。AI模型產生的「有害」輸出──無論是試圖勒索還是拒絕安全協議──都代表了設計和部署的失敗。這些問題的解決不在於對有意識機器的恐慌,而在於建立更好的系統,進行徹底測試,並對我們尚未理解的事物保持謙遜。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

經營51年撐不下去了!台灣2.5億半導體大廠「驚爆停業」 版圖遍及歐美

三立新聞網
02

慶功宴當眾「撒錢」犒賞員工 影片瘋傳惹議!影石創新急道歉

太報
03

最有毅力的勞工!2萬人勞退自提20年不間斷 退休金已翻倍

自由電子報
04

近日出國旅行要小心!歐美「這家航空」受1萬名空服罷工衝擊,宣布停飛所有航班

風傳媒
05

川普關稅大刀 掀台產業逃命潮?2/美汽車關稅恐降到零!二手車降價 瑪莎拉蒂100萬有找

鏡新聞
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 1

Tung🥳
拿🥚跟混蛋 是一樣的
7小時前

顯示全部

最新消息

豪客的灶跤2/「給我一杯關埔國小!?」全台首創建築系調酒 9種味道品建築藝術

CTWANT

豪客的灶跤1/美食街竟敢賣千元生蠔、龍蝦?揭密全台最高檔美食商場

CTWANT

豪客的灶跤3/從土地買賣轉作資產開發 「這公司」低調經營5飯店+商場

CTWANT

盤中速報 - API3大漲14.68%,報0.797美元

anue鉅亨網

盤中速報 - 卡特西幣大漲83.31%,報0.1175美元

anue鉅亨網

盤中速報 - ALPINE大漲54.66%,報2.224美元

anue鉅亨網

人工智慧的時間感:人類與 AI 視角截然不同

科技新報

MM行事曆

財經M平方行事曆

誰偷了台積電2奈米機密?謝長廷分析日本國家隊下手可能性:手法太粗糙

風傳媒

英特磊:半導體產品若為國防需求 川普應會免稅(圖)

中央通訊社

爆!違反重大訊息規定 「這家」公司遭重罰3萬!

三立新聞網

盤中速報 - 卡特西幣大漲64.19%,報0.1082美元

anue鉅亨網

英特磊:半導體產品若是國防需求 川普應會免稅

中央通訊社

台光電擴大美國投資 法人看好後市營運

NOWNEWS今日新聞

今彩539第114199期 頭獎槓龜

中央通訊社

「奇葩川普什麼錢都想賺!」專家看放行輝達H20出口中國:只顧眼前蠅頭小利

風傳媒

美國掀海外退休與數位遊牧熱潮!「這些國家」最受歡迎

anue鉅亨網

機器人拳擊賽選手開啟「拍屁股」 嘲諷技能

TVBS

「饅頭都從10元漲到20元」 李來希嘆軍公教苦不堪言:退休金沒連動物價還遞減

風傳媒

陸媒稱:中國推出首款國產電子束蝕刻機「羲之」

科技新報

AI影響初階就業市場,美國人搶當海外英文老師!畢業生:感覺真正被需要與歡迎

Cheers 快樂工作人

平價定位的小米掃拖機器人S40 台灣價格4千有找

手機王

今彩539第114199期開獎

中央通訊社
影音

美汽車關稅恐降到零!二手車降價 瑪莎拉蒂100萬有找

鏡新聞影音

台灣機車今年前5月外銷金額 日本居首位年增132%

中央通訊社

川普關稅大刀 掀台產業逃命潮?2/美汽車關稅恐降到零!二手車降價 瑪莎拉蒂100萬有找

鏡新聞

川普關稅大刀 掀台產業逃命潮?1/川普關稅撐不住! 老牌大廠「瑞昇金屬」倒閉8/12停業

鏡新聞

川普見普丁後態度轉變?稱烏克蘭需要與俄羅斯達「和平協議」而非僅停火

anue鉅亨網

半導體關稅300%?台股攻高之路添亂流

中央通訊社

設計人快收藏!8款免費可商用字體開放下載

手機王

iPhone 17 Pro Max 結構圖疑似流出:金屬電池與巨大相機模組

科技新報

「救火隊長」蘇守斌辭職 泰山:幕僚長階段任務完成

中央通訊社

亞泥助力地方創生 七星潭太魯閣市集展現原民魅力

anue鉅亨網

等不及Pixel 10不如買降價破萬元的Pixel 9!Google手機通路最低價格一次看(2025.8)

手機王

近日出國旅行要小心!歐美「這家航空」受1萬名空服罷工衝擊,宣布停飛所有航班

風傳媒

半導體關稅300%?專家:台積電是資優生別自己嚇自己

中央通訊社

新加坡學者:碳交易最關鍵的是「信用」(圖)

中央通訊社

星馬共構綠色經濟典範 跨境合作引領東協淨零轉型

中央通訊社

新加坡馬來西亞綠電交易拚上路 企業減碳解方浮現

中央通訊社