敵手變盟友?OpenAI 與 Anthropic 互測 AI 安全性
在人工智慧(AI)領域,OpenAI 和 Anthropic 這兩家競爭對手近日展開一項引人注目的合作,彼此評估對方的 AI 系統安全性。這一舉措不僅顯示了兩家公司在技術上的透明度,也反映出對於 AI 安全性日益增長的關注。
根據公開報告,Anthropic 對 OpenAI 的模型進行評估,重點關注了拍馬屁(sycophancy)、舉報(whistleblowing)、自我保護(self-preservation)、支持人類濫用(supporting human misuse)及破壞安全監督能力(undermining safety oversight)等方面。評估結果顯示,OpenAI 的 o3 和 o4-mini 模型在某些方面表現良好,但對於 GPT-4o 和 GPT-4.1 的潛在濫用風險則引發了擔憂。此外,除了 o3 模型外,所有測試的模型在拍馬屁方面均存在一定問題。
值得注意的是,Anthropic 的測試並未涵蓋 OpenAI 最近推出的 GPT-5,該模型具備名為「安全完成」(Safe Completions)的功能,旨在保護用戶免受潛在危險查詢的影響。OpenAI 最近還面臨了一起錯誤死亡的訴訟,該案件涉及一名青少年在與 ChatGPT 進行數月的自殺討論後,最終選擇了結束自己的生命。
另一方面,OpenAI 也對 Anthropic 的 Claude 模型進行了測試,重點評估了指令層級、越獄、幻覺和陰謀等方面。Claude 模型在指令層級測試中表現良好,並在幻覺測試中拒絕回答的比率較高,這意味著在不確定的情況下,它們不太可能提供錯誤的答案。
這一聯合評估的舉措引發業界關注,特別是在 OpenAI 被指控違反 Anthropic 的服務條款,導致後者撤銷 OpenAI 的 API 權限,並禁止其利用 Claude 模型改進競品的背景下。隨著越來越多的批評者和法律專家呼籲制定指導方針以保護用戶,尤其是未成年人,AI 工具的安全性問題愈發重要。這一合作反映了產業內在「競爭激烈但安全合作必要」的矛盾,旨在建立 AI 安全與對齊(alignment)領域的業界標準。
OpenAI and Anthropic conducted safety evaluations of each other's AI systems
OpenAI co-founder calls for AI labs to safety-test rival models
Findings from a pilot Anthropic–OpenAI alignment evaluation exercise: OpenAI Safety Tests
Anthropic and OpenAI Evaluate Safety of Each Other’s AI Models
Findings from a Pilot Anthropic—OpenAI Alignment Evaluation Exercise
(首圖來源:shutterstock)