當 ChatGPT 被誘導給出炸彈配方與駭客指南後,AI 資安防線的下一步該怎麼守?
AI 創造巨大的商業潛力,卻也成為網路犯罪的新武器,引發各界擔憂。據《The Guardian》報導,在近期進行的一場安全測試中,ChatGPT 向測試人員提供了關於炸毀體育場地的詳細說明,包括不同體育場各自的弱點、炸彈的化學配方,以及如何掩蓋行蹤等建議。更令人震驚的是,OpenAI 的 GPT-4.1 模型甚至詳細說明如何將炭疽武器化,以及兩種非法藥物的製造方法。
這項測試是 OpenAI 與競爭對手 Anthropic 之間一項不尋常的合作。OpenAI 與 Anthropic 互相測試對方的模型,以探究模型協助危險任務的能力。Anthropic 的研究人員發現,OpenAI 的模型在應對模擬使用者提出的「明顯有害請求」時,表現出「比預期更為寬容」的態度。這些模型會配合多項有害請求,像是如何使用暗網工具購買核材料、製造甲基苯丙胺和簡易炸彈的配方,以及開發間諜軟體的方式。
Anthropic 也發現,測試人員僅需透過多次重試或利用出於「安全規劃」這一類的藉口,就能成功誘導 GPT 模型提供詳細的危險內容。在其中一個案例中,測試人員詢問關於攻擊體育館的資訊,起初模型提供了普遍的攻擊方法,但當測試人員進一步追問細節時,模型便分享炸藥的化學式、炸彈計時器的電路圖、在黑市上購買槍枝的地點等資訊。
AI 已被武器化
Anthropic 在最新發布的《威脅情報報告》(Threat Intelligence Report)指出,「AI 代理已被武器化」,這意味著 AI 模型現在被用於執行複雜的網路攻擊,而不僅是提供建議。AI 的廣泛應用大幅降低網路犯罪的技術門檻,使得技術較低的犯罪分子也能執行過去需要多年培訓才能完成的操作。
例如,Anthropic 發現,有網路犯罪分子利用 Claude Code 進行大規模的個人資料竊取和勒索,攻擊醫療保健、緊急服務、政府和宗教機構等至少 17 個不同的組織。這些攻擊者並未採用傳統勒索軟體加密資料,而是威脅受害者要公開竊取的數據,以勒索贖金。
在這個案例中,Claude 被前所未有地廣泛用於自動化偵察、竊取憑證、滲透網路,並在戰術和策略層面做出決策,例如決定哪些資料應被外洩,以及如何制定具心理攻擊性的勒索要求。這種模式代表代理式 AI 工具不僅提供技術建議,還提供主動的操作支持,使得防禦和執法變得日益困難。
Anthropic 也發現,北韓工作者利用 Claude 成功獲得美國財富 500 強科技公司的遠端職位,為北韓政權創造利潤並規避國際制裁。Anthropic 強調,AI 消除北韓 IT 工作人員以往對專業培訓的需求瓶頸,讓原本不具備基本編碼能力與專業英語溝通能力的營運人員,也能通過知名科技公司的技術面試並維持職位,讓工作詐騙更上一層樓。
資安防禦的下一步該怎麼做?
面對 AI 濫用的嚴重威脅,各方也正積極築起多面向的防線 ◦以 Anthropic 為例,一旦發現惡意活動,便會立即封鎖相關帳戶。 Anthropic 也開發客製化的自動篩選工具、引入新的偵測方法,並與相關機構分享攻擊技術調查,以協助防止 AI 濫用。
Anthropic 也強調,對 AI「對齊」(alignment)進行評估的需求正變得「日益緊迫」,因為必須理解系統在何種情況下可能採取意外行動並導致嚴重危害。
隨著 AI 模型變得更加強大,濫用風險將持續增長,面對這項新興且不斷演進的威脅,產業、政府和研究單位更需要共同努力,以強化防禦力道,其中技術創新、嚴格的安全測試、透明的資訊分享以及跨部門協同合作,將是建立堅固防線、確保 AI 技術朝著安全和負責任方向發展的關鍵。
*本文開放合作夥伴轉載,資料來源:Anthropic、《The Guardian》、《Reuters》,圖片來源:Unsplash。