為什麼AI會出現幻覺？OpenAI揭評測漏洞：回答「不知道」零得分，所以模型寧可瞎猜

重點一：語言模型會產生「幻覺」的主因，在於訓練與評測機制獎勵「猜測」，而非誠實表達不確定，導致錯誤輸出持續存在。

重點二：現行主流評測標準採二元計分，對「不知道」或「不確定」的答案給予零分，促使模型傾向猜測。

重點三：研究建議修改主流評測機制，明確納入「信心門檻」與錯誤懲罰，以減少AI幻覺並提升可信度。

生成式AI無疑是人類近年最受矚目的生產力工具。但發展至今，「人工幻覺」（hallucination）——也就是AI「睜眼說瞎話」的機率仍存，這讓不少大量使用AI的工作者，仍需花費時間審核、排除AI生成的錯誤。

但絕頂聰明的AI，又為何時不時會吐出AI本身也不確定的「答案」？

針對這個問題，OpenAI於近日釋出論文〈Why Language Models Hallucinate〉， 直言人工幻覺的根本原因並非技術缺陷或人為疏忽，而是訓練與評測機制本身獎勵模型在不確定時選擇「猜答案」，而非誠實表達「不知道」。

這個情況十分類似 面對選擇題的考生 ，如果不確定答案，「合理猜測」是效益最高的方案。

評測機制是幻覺元兇：瞎猜可能得分，不猜肯定0分

這份研究主要透過「統計歸約」與「行為分析」方法，揭示AI語言模型在面對不確定問題時，為何傾向猜題，而不是考慮坦承不知道。

研究分析指出，主流語言模型評測的計分方式，由於多採用二元評分（正確=1分，錯誤或「不知道」=0分）。在這種規則下，模型如果選擇「不知道」或空白，得分必然為零；但即使隨機猜測，仍有機會獲得分數。

從期望值角度來看，這種推導不僅用於AI模型，也類比人類考試行為——只要規則懲罰空白，考生自然傾向猜題。

OpenAI以「要求AI猜測某人生日」舉例說明，若被問某人生日而不知情，隨便猜「9月10日」有 1/365 的機率碰巧正確；回答「我不知道」則保證得零分，長期下來猜測在記分板上更吃香。

根據實測數據，在 GPT-5 系統卡的 SimpleQA 測試中，GPT-5-Thinking-Mini「棄權率」52%、「錯誤率」26%；較舊的 OpenAI o4-mini「棄權率」僅 1% 但「錯誤率」高達 75%。這顯示低棄權（不肯說不知道）雖可換取些許準確率（24% 對 22%），卻伴隨大量自信錯誤，反映評分標準鼓勵猜題而非謙遜。

指標 GPT-5-Thinking-Mini OpenAI o4-mini 棄權率 52%（未給出具體答案） 1% 準確率 22%（正確答案，越高越好） 24% 錯誤率 26%（錯誤答案，越低越好） 75% 總計 100% 100%

因此整體結論是：當評估只重準確率、不給「恰當表達不確定性」部分得分時，模型就寧願猜測而非承認不知道，導致幻覺率居高不下。

什麼是二元分類？
研究將語言模型的生成任務（即產生一段文字或答案）視為一個「二元分類」問題，也就是判斷每個生成結果到底是「有效」（正確、合理），還是「錯誤」（不正確、幻覺）。這種歸約方法稱為「Is-It-Valid（二元分類）」。

簡單來說，每個模型生成的答案都被標記為「+」（有效）或「−」（錯誤）。這樣的好處是，可用統計學和機器學習理論（如分類誤差率）來量化和解釋語言模型的錯誤來源。

OpenAI拋4解方：改革評測方式，讓AI更謙遜並坦率

論文結論指出，預防語言模型（AI）產生幻覺，不能僅靠新增幻覺檢測或後續微調，而必須從根本上改革主流評測與訓練機制。具體包括以下4大重點：

修改評測標準：在主流語言模型評測中，應明確納入「信心門檻」與錯誤懲罰。例如，要求模型僅在置信度高於某一門檻時才作答，否則應選擇「不知道」（IDK），並對錯誤答案給予分數懲罰，對IDK不扣分。
鼓勵誠實表達不確定：評測機制應獎勵模型在不確定時誠實表達，而非一味猜測。這樣可降低幻覺發生率，提升模型在實際應用中的可信度。
將改革納入主流基準：僅靠新增幻覺專用評測無法扭轉現有激勵結構，必須將上述改革納入現有主流評測（如SWE-bench、MMLU等），才能真正改變模型行為。
行為式校準（Behavioral Calibration）：推動模型在不同信心門檻下，能根據自身置信度選擇最合適的回應，並可用於客觀審計。

總結來說，只有當評測與訓練機制不再懲罰「不知道」或不確定的誠實表達，並對過度自信的錯誤給予懲罰，AI幻覺現象才有望被有效抑制，AI系統的可靠性與社會接受度才能提升。

延伸閱讀：ChatGPT是廢文製造機？英國學者揭：AI不在乎真實性，只會生成「看似可信」的文本

哪一款AI最會讀書？冠軍「不是ChatGPT」：5款主流AI大PK，只有「它」沒出現幻覺

資料來源：OpenAI、Why Language Models Hallucinate、TechChurch

本文初稿為AI編撰，整理．編輯/ 李先泰

請更新您的瀏覽器

理財

數位時代

評測機制是幻覺元兇：瞎猜可能得分，不猜肯定0分

OpenAI拋4解方：改革評測方式，讓AI更謙遜並坦率

更多理財相關文章

壓力測試！3銀行、5壽險嚴重極端情境撐不住

台積電侯永清：我想跟有些人說清楚，別以為選一兩家公司去蓋晶圓廠，就可以開始做半導體了

存股達人持股市值上看千萬　秘訣是「這個」

109萬人領錢了！政府加發生活補助金「最高1.3萬」直接入帳

10年後，目標年領100萬股利！4方法持續買好公司，整體報酬率穩健、令人滿意

3大電信iPhone 17資費一次看　0元購機門檻出爐

請更新您的瀏覽器啟用Javascript

為什麼AI會出現幻覺？OpenAI揭評測漏洞：回答「不知道」零得分，所以模型寧可瞎猜

數位時代

評測機制是幻覺元兇：瞎猜可能得分，不猜肯定0分

OpenAI拋4解方：改革評測方式，讓AI更謙遜並坦率

更多理財相關文章

壓力測試！3銀行、5壽險嚴重極端情境撐不住

台積電侯永清：我想跟有些人說清楚，別以為選一兩家公司去蓋晶圓廠，就可以開始做半導體了

存股達人持股市值上看千萬 秘訣是「這個」

109萬人領錢了！政府加發生活補助金「最高1.3萬」直接入帳

10年後，目標年領100萬股利！4方法持續買好公司，整體報酬率穩健、令人滿意

3大電信iPhone 17資費一次看 0元購機門檻出爐

請更新您的瀏覽器

存股達人持股市值上看千萬　秘訣是「這個」

3大電信iPhone 17資費一次看　0元購機門檻出爐