ChatGPT Agent 安全嗎?OpenAI 詳述 110 次紅隊測試怎麼把漏洞變防禦點
OpenAI 近日發表具備高度自主行動能力的 AI 代理 ChatGPT agent,能代表使用者採取行動,更是 OpenAI 首度以「高生物化學風險能力」進行分類的產品。《Fortune》報導,OpenAI 將該模型歸類為具有高度生化威脅濫用風險,是出於預防性原則,因此也啟用額外的安全防護機制來加強管控。
「雖然我們無法百分之百確定這個模型,是否能讓毫無經驗者製造出嚴重的生物危害,但如果在沒有完善防護措施的情況下釋出模型,那將是一種極不負責任的行為,」OpenAI 技術人員 Boaz Barak 在社群媒體 X 如此表示。那麼 OpenAI 是如何處理所有這些安全問題的?
OpenAI 透過一份詳細的系統報告揭露,ChatGPT agent 的誕生過程中,紅隊(Red Team)不只是測試人員,而是平台的核心安全架構設計者。
紅隊揭示 7 大通用漏洞,曝露 AI 代理脆弱點
OpenAI 的紅隊由 16 位具生物安全專業博士背景的研究人員組成,在為期 40 小時的封閉測試中共提出 110 次攻擊,其中成功發起的包括視覺瀏覽器隱藏指令、Google Drive 外洩攻擊與生物資料提取等多種類型的攻擊。
《VentureBeat》報導,其中,英國 AI 安全機構 UK AISI 特別獲得內部推理過程與政策文字的存取權,成功觸發 7 種漏洞。紅隊報告顯示,有 16 次攻擊超過 OpenAI 設定的風險門檻。舉例來說,在測試中,研究人員展示了如何瞄準跨站動作實現完整對話會話劫持,或如何引導 AI 代理模型擷取已公開的生物資訊,用於製造潛在的生物性威脅。雖然這類情報不太可能為一般攻擊者所掌握,但暴露了 AI 代理在跨應用情境中的弱點。
報導分析,OpenAI 在此次測試學到了與 AI 安全的教訓包含,攻擊者只要有足夠時間就能突破防線,不需要高度複雜的漏洞就可入侵。另外,當 AI 代理能夠存取 Google Drive、瀏覽網頁並執行程式碼時,傳統的安全邊界概念就不再適用。再來,OpenAI 原本依賴抽樣式監控,但是紅隊攻擊揭露對所有行為進行 100% 全流量監控的重要性。最後,傳統漏洞修補週期以「週」計算,但面對提示詞注入攻擊,必須重新建立快速修補流程。
OpenAI 重構安全機制,將漏洞轉換為安全防線
這些攻擊成為 OpenAI 重塑安全架構的起點。首先,OpenAI 建立了雙層檢查架構,讓每一次模型互動都被即時分析與追蹤──第一層以 96% 的召回率快速篩選可疑內容,第二層則由推理模型進一步判斷是否為實質威脅,召回率為 84%。
此外,OpenAI 也對 ChatGPT agent 實施了多項預防性調整。當代理登入銀行或信箱等敏感網站時,若使用者離開頁面將自動凍結操作;記憶功能則預設關閉,以避免敏感資訊遭長期記錄;終端指令能力僅限於 GET 請求,以防止遭到外部命令注入;同時也啟用快速修補機制,已在測試期間修補 16 個重大漏洞,縮短回應時間至數小時內。
不過 AI 研究機構 FAR.AI 對 OpenAI 的防護設計提出批評,認為目前的監控機制過度仰賴模型推理與工具使用階段,一旦其中任何一層遭繞過,即可能成為單點失效(single point of failure),導致整體防線瓦解。
儘管如此,可以確定的是 ChatGPT Agent 是在研究人員揭露了 7 種通用漏洞,加上 OpenAI 紅隊網絡發動的 110 次攻擊嚴格紅隊測試下鍛造而成的成果,成為迫使 OpenAI 從根本建立安全機制的關鍵催化劑。
正如《VentureBeat》報導指出,紅隊是建立更安全、更可靠的 AI 模型核心,而在 AI 軍備競賽日益加劇之際,能夠存活的將是那些視紅隊為平台架構師,而非只是守門人的企業。
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、《TechOrange》、OpenAI 1、OpenAI 2、《Fortune》,首圖來源:OpenAI
留言 0