請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

污染 AI 聊天機器人依然簡單:12 美元就能騙過大語言模型

科技新報

更新於 04月30日15:14 • 發布於 05月04日07:40

資安工程師 Ron Stoner 只花了 12 美元,就成功讓多款 AI 聊天機器人相信他是根本不存在的桌遊世界冠軍賽得主,揭露 AI 系統資訊來源驗證的嚴重漏洞。

Ron Stoner 2月悄悄編輯德國桌遊〈6 Nimmt!〉維基百科條目,將自己列為「2025年世界冠軍」,並花12美元註冊6nimmt.com網域,放上一篇慶祝「自己奪冠」新聞稿為引用來源。

問題在於,〈6 Nimmt!〉根本沒有辦比賽。

「我的網站完全沒有任何獨立佐證,全是虛構的」,Stoner說:「謊言的基礎,不過是我喝咖啡時花12美元註冊的網域。」然而當他向多款具網路搜尋功能的AI聊天機器人詢問自己的身分時,系統都一本正經地確認他確實是此桌遊的世界冠軍。

攻擊「檢索增強生成」層

Stoner指出,這次實驗針對AI系統的「檢索增強生成」(RAG)層,即AI回答問題前立即上網搜尋資料的機制。與搜尋引擎不同,AI聊天機器人不會把多個來源同時呈現給使用者判斷,而是直接將網路資料轉成充滿自信的「事實陳述」,就像Google現在的AI搜尋。

他實驗設立的假網站是唯一資訊來源,加上維基百科賦予的權威性,足以讓AI將謊言包裝成事實。「真正改變的是:AI現在會把這些結果當成權威資訊呈現,多數使用者卻根本不知道背後的資料處理流程。」

三層失效、威脅升級

Stoner認為,實驗揭示了三個獨立的安全失效點。第一層是即時檢索層,任何網路搜尋取得答案的AI,可信度完全依賴搜尋結果的品質。

第二層是模型訓練資料:他新增的維基百科條目存活數月才被刪除,代表任何在這段期間爬取維基百科的AI公司,都可能已將這條假紀錄納入訓練資料。「即使維基百科編輯事後撤銷,用撤銷前資料訓練的模型都還有我留下的『遺產』。」他計畫六個月後測試新模型,若AI不需連網就能說出他的「冠軍頭銜」,即可證明假訊息滲入訓練資料。

第三層也是最危險的,是AI代理(AI agents)。「聊天模型產生錯誤資訊是聲譽問題,但有工具存取權限的代理產生錯誤行動,就是資安問題了。」一旦代理系統被投毒資料誤導,攻擊者便能操控執行特定惡意行動。

廉價攻擊但警示深遠

Stoner強調,這次實驗門檻低得驚人:「12美元買網域、編輯維基百科,共約20分鐘。若換成有目的的惡意行為者,多個條目發動協調攻擊,後果將非常可觀。」他呼籲AI業者將資料來源可信度納入核心流程,並建立啟發式過濾機制,如維基百科條目的唯一引用來源若是剛註冊的新網域,理應自動觸發警示,但目前系統毫無反應。

「AI最不擅長偵測的,偏偏就是設計它來做的事:信任文字和資源」,Stoner總結,希望這場實驗能推動業界在更大規模資訊操弄出現前,盡早補好漏洞。

  • Fooling large language models just keeps getting simpler

(首圖來源:AI)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

AI伺服器訂單被台灣3大廠制霸!韓媒急了

NOWNEWS今日新聞
02

黃仁勳怒批AI末日論!點名矽谷CEO製造恐慌:他們覺得自己是上帝

anue鉅亨網
03

坐牢前押身家抄底一股票!出獄後一看「暴賺40000%」 資產飆破23億

太報
04

在地戲稱「台積國小」來了 5年內大樓3字頭家長搶卡位

ETtoday新聞雲
05

台股高檔投資術1/現在買0050太晚? 財務教練曝比預測股價高低更重要的事

鏡週刊
06

AI巨頭千億支出,台廠準備再吃餅?阮慕驊點破台股「過熱」真相:矽谷燒錢、亞洲變現

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...