敵手變盟友？OpenAI 與 Anthropic 互測 AI 安全性

更新於 2小時前 • 發布於 2小時前

在人工智慧（AI）領域，OpenAI 和 Anthropic 這兩家競爭對手近日展開一項引人注目的合作，彼此評估對方的 AI 系統安全性。這一舉措不僅顯示了兩家公司在技術上的透明度，也反映出對於 AI 安全性日益增長的關注。

根據公開報告，Anthropic 對 OpenAI 的模型進行評估，重點關注了拍馬屁（sycophancy）、舉報（whistleblowing）、自我保護（self-preservation）、支持人類濫用（supporting human misuse）及破壞安全監督能力（undermining safety oversight）等方面。評估結果顯示，OpenAI 的 o3 和 o4-mini 模型在某些方面表現良好，但對於 GPT-4o 和 GPT-4.1 的潛在濫用風險則引發了擔憂。此外，除了 o3 模型外，所有測試的模型在拍馬屁方面均存在一定問題。

值得注意的是，Anthropic 的測試並未涵蓋 OpenAI 最近推出的 GPT-5，該模型具備名為「安全完成」（Safe Completions）的功能，旨在保護用戶免受潛在危險查詢的影響。OpenAI 最近還面臨了一起錯誤死亡的訴訟，該案件涉及一名青少年在與 ChatGPT 進行數月的自殺討論後，最終選擇了結束自己的生命。

另一方面，OpenAI 也對 Anthropic 的 Claude 模型進行了測試，重點評估了指令層級、越獄、幻覺和陰謀等方面。Claude 模型在指令層級測試中表現良好，並在幻覺測試中拒絕回答的比率較高，這意味著在不確定的情況下，它們不太可能提供錯誤的答案。

這一聯合評估的舉措引發業界關注，特別是在 OpenAI 被指控違反 Anthropic 的服務條款，導致後者撤銷 OpenAI 的 API 權限，並禁止其利用 Claude 模型改進競品的背景下。隨著越來越多的批評者和法律專家呼籲制定指導方針以保護用戶，尤其是未成年人，AI 工具的安全性問題愈發重要。這一合作反映了產業內在「競爭激烈但安全合作必要」的矛盾，旨在建立 AI 安全與對齊（alignment）領域的業界標準。

（首圖來源：shutterstock）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器啟用Javascript

科技新報

更多理財相關文章

水龍頭已開大 台銀董座：3類房貸一定接納

誰賣的？台積電最後一盤爆5668張賣單下殺15元 終場收1160元重挫30元

莫迪膽敢4度拒接川普來電 除了極度憤怒還有「一原因」

陌生來電騙走上千萬！他繳孩子學費驚見「存款全空」，痛悟：再怎麼嚴厲的聲音，都是詐騙集團在演戲

查看更多科技新報

海平面淹沒人類定居點，考古發現 8,500 萬年前的亞特蘭提斯

全球首張木質信用卡！台銀「綠行卡」鎖定年薪 60 萬「新貴」享 7% 回饋

缺乏某種胺基酸，竟可促使脂肪加速燃燒？

軍用商規第二批，四家廠商再度獲得國防部 69.51 億元合約

iPhone 17 系列即將登場，盤點 Air 機款七大設計

最新消息

大國鋼強化美國通路布局 斥7.7億元租下紐澤西倉儲

蘋果批英監管新規 恐害隱私與開發者利益

台新新光公布子公司新人事 吳昕豪任新光人壽董事

協和電廠遭列土污管制場址 台電：完成改善後才實質開發

合庫銀申請中房貸逾500億 核准案件年底前撥款

威力彩第114069期開獎

協和電廠土污45公頃 台電：積極整治後進行興進工程

今彩539第114209期開獎

史丹佛研究：AI衝擊特定職業 年輕客服、會計、軟體師就業跌13%

台中廠發生工安事件 美光：情況已獲控制

美國第二季GDP上修至3.3% 投資與貿易撐起成長力道

7月景氣續呈綠燈 景氣分數29分創近5月新高

合一暫停肝癌藥開發 集中資源在減重等商化項目

電子支付市場競爭火熱 一卡通、街口雙雙破700萬用戶

房貸仍有500億申請中 合庫銀給承諾

製鞋廠來億-KY上半年EPS 7.12元 出貨ASP創新新高

全球首張木質信用卡！台銀「綠行卡」鎖定年薪 60 萬「新貴」享 7% 回饋

今年來金價漲28%！富達：弱美元讓黃金避風港地位更穩 「金牛」可望再風光數年

【台灣】7 月景氣燈號持平綠燈，但產業分岐加劇

四接「實質開發」按暫停鍵！台電允諾待土污整治完成後再動工

女股神來台分享顛覆式創新投資：台灣是AI的心臟

鉅亨速報 - Factset 最新調查：唐納森(DCI-US)EPS預估上修至4元，預估目標價為75.00元

鉅亨速報 - Factset 最新調查：Genmab - ADR(GMAB-US)EPS預估上修至1.68元，預估目標價為31.26元

鉅亨速報 - Factset 最新調查：PureStorage公司(PSTG-US)EPS預估上修至1.88元，預估目標價為73.50元

鉅亨速報 - Factset 最新調查：Veeva系統(VEEV-US)EPS預估上修至7.78元，預估目標價為320.00元

鉅亨速報 - Factset 最新調查：Crowdstrike控股(CRWD-US)EPS預估上修至3.66元，預估目標價為493.50元

鉅亨速報 - Factset 最新調查：詹姆斯哈迪工業公司(JHX-US)EPS預估下修至0.82元，預估目標價為23.71元

台積電2奈米機密外洩 東京威力科創回應了

鉅亨速報 - Factset 最新調查：五美元店(FIVE-US)EPS預估上修至5.04元，預估目標價為160.00元

鉅亨速報 - Factset 最新調查：CareTrust REIT公司(CTRE-US)EPS預估上修至1.44元，預估目標價為36.00元

鉅亨速報 - Factset 最新調查：加拿大皇家銀行(RY-US)EPS預估上修至10.11元，預估目標價為145.03元

鉅亨速報 - Factset 最新調查：Millicom International Cellular S.A.(TIGO-US)EPS預估上修至4.38元，預估目標價為47.05元

鉅亨速報 - Factset 最新調查：布里克斯摩爾房地產集團(BRX-US)EPS預估上修至0.96元，預估目標價為30.00元

鉅亨速報 - Factset 最新調查：Snowflake公司(SNOW-US)EPS預估上修至1.16元，預估目標價為260.00元

鉅亨速報 - Factset 最新調查：American Homes 4 Rent - Class A(AMH-US)EPS預估上修至0.96元，預估目標價為40.00元

鉅亨速報 - Factset 最新調查：歐米茄健康照護投資人(OHI-US)EPS預估上修至1.74元，預估目標價為42.00元

鉅亨速報 - Factset 最新調查：PureStorage公司PSTG-US的目標價調升至73.5元，幅度約5%

鉅亨速報 - Factset 最新調查：Veeva系統VEEV-US的目標價調升至320元，幅度約5.26%

鉅亨速報 - Factset 最新調查：Veeva系統VEEV-US的目標價調升至320元，幅度約5.26%

鉅亨速報 - Factset 最新調查：Healthpeak Properties Inc(DOC-US)EPS預估下修至0.23元，預估目標價為21.00元

請更新您的瀏覽器

水龍頭已開大　台銀董座：3類房貸一定接納

誰賣的？台積電最後一盤爆5668張賣單下殺15元終場收1160元重挫30元

莫迪膽敢4度拒接川普來電除了極度憤怒還有「一原因」

大國鋼強化美國通路布局斥7.7億元租下紐澤西倉儲

蘋果批英監管新規恐害隱私與開發者利益

台新新光公布子公司新人事　吳昕豪任新光人壽董事

協和電廠遭列土污管制場址台電：完成改善後才實質開發

合庫銀申請中房貸逾500億　核准案件年底前撥款

協和電廠土污45公頃　台電：積極整治後進行興進工程

史丹佛研究：AI衝擊特定職業年輕客服、會計、軟體師就業跌13%

台中廠發生工安事件　美光：情況已獲控制

7月景氣續呈綠燈　景氣分數29分創近5月新高

合一暫停肝癌藥開發集中資源在減重等商化項目

電子支付市場競爭火熱　一卡通、街口雙雙破700萬用戶

房貸仍有500億申請中　合庫銀給承諾

製鞋廠來億-KY上半年EPS 7.12元出貨ASP創新新高

今年來金價漲28%！富達：弱美元讓黃金避風港地位更穩「金牛」可望再風光數年

台積電2奈米機密外洩　東京威力科創回應了