OpenAI 新研究找到 AI 幻覺來源,或能解決這最大問題
最新研究,OpenAI 探討大型語言模型(如 GPT-5)和聊天機器人(如 ChatGPT)為何會出現「幻覺」,並減少幻覺的可行方法。OpenAI 定義,幻覺是指「語言模型產生看似合理但錯誤的陳述」。儘管技術漸漸進步,這問題仍是大型語言模型的最大挑戰,且目前無法解決。
研究員舉例,詢問常用聊天機器人Adam Tauman Kalai博士論文標題時,得到三種錯誤答案。詢問生日,AI又回答三個錯誤日期,讓人對AI聊天機器人為何如此自信講出錯誤答案非常疑惑。
幻覺產生部分源於預訓練過程,模型只關心預測下個單字,沒有附加真實或虛假標籤,模型只能看到流暢字句等正面例子,必須近似整體分佈。研究員表示,拼寫和括號錯誤會隨模型規模擴大消失,因為這類模式有高度一致性,與低頻率隨機知識不同;但隨機低頻率事實(如寵物生日)無法用模式預測,故導致幻覺產生。
然而,研究解決方案並不限初始預訓練,而更關注大型語言模型評估方法。研究員認為,目前評估模型雖然不會直接導致幻覺,卻「設下錯誤獎勵」。他們將評估與隨機猜測的多選測試比較,猜對機會可能讓人認為是運氣好,不回答卻是零分。
研究員建議,模型評估需對錯誤自信表現給予更嚴重懲罰,不確定性較輕懲罰,並對適當表達不確定性給予部分分數。只引入幾個新不確定性意識測試不夠,基於準確性評估需更新,以便計分方式有效抑制模型亂回答。
研究員警告,如果主要計分系統繼續獎勵運氣好的猜對回答,模型就只會學到如何猜題。此研究不僅說明AI幻覺根源,也為將來AI模型評估找尋新方法。OpenAI數據,GPT-5幻覺率比前代GPT-4降低約45%~80%,不僅降低幻覺率,還提升推理力與多模態,能理解並處理圖片與文字混合訊息。
OpenAI執行長Sam Altman稱GPT-5「讓用戶有和博士級專家對話的感覺」,強調智慧層級提升。
(首圖來源:shutterstock)