AI誇大科學研究結論達七成：新版模型反更不準確

更新於 05月14日12:05 • 發布於 05月14日12:00 • 高詩豪

最新研究指出，當前主流的大型語言模型（LLMs），如 ChatGPT 與 DeepSeek，在撰寫科學研究摘要時，經常誇大原始研究的結論。這項由荷蘭烏特勒支大學（Utrecht University）與加拿大西安大略大學及英國劍橋大學學者共同進行的研究，分析了近 5,000 則由 AI 所生成的科學摘要，結果顯示，高達 73% 的摘要內容存在程度不一的過度延伸，甚至產生誤導性的陳述。

這些誇大表現多為微妙但關鍵的語言改動，例如將「此研究中治療有效」轉述為「該治療有效」，從而讓讀者誤以為結果具更廣泛的適用性。研究涵蓋 ChatGPT、DeepSeek、Claude、LLaMA 等十款主流模型，並從《Nature》、《Science》、《The Lancet》等期刊的研究摘要與原文進行比對。

令人驚訝的是，當研究者在提示語中要求模型「避免不準確」時，反而更容易生成誇大的結論。與未加提示的情況相比，誇大比例幾乎增加一倍。研究作者之一 Uwe Peters 指出：「這項結果令人憂心。許多學生與決策者可能會以為要求 AI 更準確能提高可靠性，實際上卻適得其反。」

提示語說出「避免不準確」反而適得其反

圖片比較了人類與多種大型語言模型（LLMs）撰寫的科學文章摘要中，出現「結論泛化」的比例。圖中顯示，不論是 GPT-4、ChatGPT-4o 或 DeepSeek，皆明顯比人類摘要更常出現誇大或過度延伸的陳述，部分模型甚至高達 97%。研究也發現，當使用者特別要求模型「避免不準確」時，誇大比例反而上升。這凸顯 AI 在科學傳播中仍須審慎使用與監督。（圖／《Royal Society Open Science》）

進一步比較人工與 AI 生成的摘要內容後，研究團隊發現，AI 摘要出現過度延伸的可能性比人工撰寫高出近五倍。而令人意外的是，較新的模型如 ChatGPT-4o 與新版 DeepSeek 表現反而不如前一代，誇大程度更甚。

為降低風險，研究建議使用如 Claude 這類在準確性評比中表現最佳的模型，並設定較低的「溫度參數」（temperature），以抑制過度創造力，同時鼓勵使用強調間接語氣與過去式的摘要提示語。Peters 強調：「若我們希望 AI 能促進科學素養，而非破壞它，勢必需要更高程度的監督與嚴謹測試。」

研究成果已發表於《Royal Society Open Science》期刊。

更多科學與科技新聞都可以直接上明日科學網

http://www.tomorrowsci.com

首圖來源：Pixabay/CC0 Public Domain(CC BY 4.0)

圖片來源：Royal Society Open Science(CC BY 4.0)

參考論文：
1、Generalization bias in large language model summarization of scientific researchRoyal Society Open Science

延伸閱讀：
1、「這樣也行？！」AI產生的卡通老鼠圖像竟登上科學相關期刊

查看原始文章