請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI自信滿滿給出錯誤答案 OpenAI:語言模型幻覺恐難根治

商傳媒

更新於 09月08日07:45 • 發布於 09月08日07:44 • service@sunmedia.tw (商傳媒 SUN MEDIA)

商傳媒|記者責任編輯/綜合外電報導

OpenAI近日發表最新研究,聚焦於大型語言模型(LLM)如GPT-5與ChatGPT仍存在「幻覺」(hallucinations)等問題提出建議。科技媒體《TechCrunch》報導,這份研究指出,儘管近年已透過技術迭代、有效降低錯誤生成,但「生成看似合理卻不正確的內容」仍是所有大型語言模型的根本挑戰,且很可能無法根治。

研究團隊舉例,當他們詢問某款廣泛使用的聊天機器人「Adam Tauman Kalai博士論文題目」時,系統分別給出三個答案,全數錯誤,隨後再問其生日,得到三個不同日期,仍然全錯;團隊指出,這種「自信卻錯誤」的回答,正是語言模型典型的「幻覺」模式。

研究指出,訓練機制是產生「幻覺」的原因之一,大型語言模型的預訓練過程,主要任務是「預測下一個字」,資料中並沒有標示真偽。換言之,模型大量接觸的是流暢語言的「正樣本」,必須近似語言分布,卻缺乏判斷事實真假的訊號。

拼字或括號因規律明顯,可隨規模放大而減少錯誤;但如「某人寵物生日」這類低頻且任意的知識,無法靠語言模式推導,因此容易出現幻覺。

此外,研究團隊強調,癥結不只在訓練,而在於「評估方式」設下錯誤誘因。目前模型多以「答對率」作為主要指標,這類機制鼓勵模型在不知道答案時「亂猜」,因為猜對還有分數,不答則必定零分。

OpenAI建議,評估方式應比照SAT等考試,引入「錯誤扣分」或「不作答給部分分數」的概念。也就是說,系統若表達「不確定」或「不知道」時,應得到正向分數,而非僅獎勵正確率。研究報告直言:「若主流排行榜繼續獎勵幸運猜中,模型就會持續學習猜測。」

研究人員呼籲,產業需全面調整評估標準,而非僅在部分測試中加入「不確定性評估」;唯有將「懲罰過度自信產生的錯誤」納入核心評測,才能真正降低幻覺生成的頻率,避免模型因分數導向而「硬猜」成性。

查看原始文章

更多理財相關文章

01

產品遭美國海關暫扣! 巨大發緊急聲明:影響營收約4%~5%

中廣新聞網
02

快訊/經濟部證實自行車龍頭巨大公司涉不當勞動 即日起遭美國暫時禁止進口

太報
03

南非更名並降等台灣駐處 經濟部「回敬」晶片出口管制

商傳媒
04

捲入「台版馬多夫」保盛豐詐騙案 華南永昌投信累虧逾資本額1/2 

太報
05

0050持續霸榜、穩坐ETF存股王!00878、00919…高股息ETF的存股信心消失中?

Smart智富月刊
06

台股新高26307點、台積電1340元還能上車?他公式拆解:2330有400元空間、指數推升力3千點

今周刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...