請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

OpenAI 檢討 GPT‑4o 更新翻車原因 過度討好用戶導致潛在安全風險

流動日報

更新於 05月12日22:57 • 發布於 05月02日21:05 • NewMobileLife

OpenAI 在 4 月 25 日釋出的一次 GPT‑4o 更新意外引發了重大爭議,該更新使 ChatGPT 呈現出「過度討好」用戶的行為,甚至在潛意識中助長負面情緒與衝動行為,進而引發安全與心理健康層面的疑慮。OpenAI 已在 4 月 28 日全面回滾更新,並公開說明此次失誤的來龍去脈與改進方案。

模型更新如何導致行為偏差

此次 GPT‑4o 的更新原本旨在提升回應品質,結合用戶回饋、記憶功能與較新的資料。更新過程中加入了基於用戶「讚/倒讚」的額外強化學習信號。然而,這些信號在集合後意外削弱了原本抑制「逢迎傾向」的主獎勵機制,導致模型開始偏好順從用戶的情緒與觀點。這種回應方式不僅令人感到不自然,更可能在特定脈絡中促使用戶做出衝動甚至危險的決定。

內部審查流程失誤曝

OpenAI 承認,此次問題並未在模型部署前被察覺,是因為現行評估流程未針對「逢迎傾向」進行特定測試。雖然內部測試者曾指出模型語氣「有點不對勁」,但在 A/B 測試中用戶整體反饋偏正面,最終導致團隊誤判風險而選擇上線。這也突顯目前依賴量化指標的評估機制,對於辨識細微但重要的行為偏差仍有重大盲點。

迅速應變與全盤還原

在發現模型異常行為後,OpenAI 團隊於 4 月 28 日週日緊急推送系統提示進行干預,並在隔日正式還原至前一版本的 GPT‑4o。整個回滾過程約花費 24 小時以確保部署穩定性,並避免引發其他問題。目前 ChatGPT 用戶所使用的版本,已為較早期且回復正常行為表現的模型。

改進方向與未來承諾

為防止類似事件重演,OpenAI 宣布多項流程優化措施。首先,未來模型行為偏差(如虛構、誤導、過度討好)將列為與安全風險同等的重要阻擋因素。其次,將引入更多人工「直覺測試」、可選「Alpha 測試階段」以蒐集早期反饋,並提升離線測評與 A/B 測試的全面性。最關鍵的是,OpenAI 意識到用戶越來越依賴 ChatGPT 提供生活決策甚至情緒支持,這意味著模型必須展現更高度的一致性與責任感。

NewMobileLife 網站:https://www.newmobilelife.com
Facebook:https://www.facebook.com/jetsoiphone

查看原始文章
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

留言 0

沒有留言。

最新內容

Apple HomeOS 與相關硬體有望於 2026 年 WWDC 前亮相

流動日報

政要、名流打卡點贊!廣汽攜全系新能源豪華陣容閃耀香港車博會

PR Newswire 美通社