請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

AI誇大科學研究結論達七成:新版模型反更不準確

明日科學

更新於 05月14日12:05 • 發布於 05月14日12:00 • 高 詩豪

最新研究指出,當前主流的大型語言模型(LLMs),如 ChatGPT 與 DeepSeek,在撰寫科學研究摘要時,經常誇大原始研究的結論。這項由荷蘭烏特勒支大學(Utrecht University)與加拿大西安大略大學及英國劍橋大學學者共同進行的研究,分析了近 5,000 則由 AI 所生成的科學摘要,結果顯示,高達 73% 的摘要內容存在程度不一的過度延伸,甚至產生誤導性的陳述。

這些誇大表現多為微妙但關鍵的語言改動,例如將「此研究中治療有效」轉述為「該治療有效」,從而讓讀者誤以為結果具更廣泛的適用性。研究涵蓋 ChatGPT、DeepSeek、Claude、LLaMA 等十款主流模型,並從《Nature》、《Science》、《The Lancet》等期刊的研究摘要與原文進行比對。

令人驚訝的是,當研究者在提示語中要求模型「避免不準確」時,反而更容易生成誇大的結論。與未加提示的情況相比,誇大比例幾乎增加一倍。研究作者之一 Uwe Peters 指出:「這項結果令人憂心。許多學生與決策者可能會以為要求 AI 更準確能提高可靠性,實際上卻適得其反。」

提示語說出「避免不準確」反而適得其反

圖片比較了人類與多種大型語言模型(LLMs)撰寫的科學文章摘要中,出現「結論泛化」的比例。圖中顯示,不論是 GPT-4、ChatGPT-4o 或 DeepSeek,皆明顯比人類摘要更常出現誇大或過度延伸的陳述,部分模型甚至高達 97%。研究也發現,當使用者特別要求模型「避免不準確」時,誇大比例反而上升。這凸顯 AI 在科學傳播中仍須審慎使用與監督。(圖/《Royal Society Open Science》)

進一步比較人工與 AI 生成的摘要內容後,研究團隊發現,AI 摘要出現過度延伸的可能性比人工撰寫高出近五倍。而令人意外的是,較新的模型如 ChatGPT-4o 與新版 DeepSeek 表現反而不如前一代,誇大程度更甚。

為降低風險,研究建議使用如 Claude 這類在準確性評比中表現最佳的模型,並設定較低的「溫度參數」(temperature),以抑制過度創造力,同時鼓勵使用強調間接語氣與過去式的摘要提示語。Peters 強調:「若我們希望 AI 能促進科學素養,而非破壞它,勢必需要更高程度的監督與嚴謹測試。」

研究成果已發表於《Royal Society Open Science》期刊。

更多科學與科技新聞都可以直接上 明日科學網

http://www.tomorrowsci.com

首圖來源:Pixabay/CC0 Public Domain(CC BY 4.0)

圖片來源:Royal Society Open Science(CC BY 4.0)

參考論文:
1、Generalization bias in large language model summarization of scientific researchRoyal Society Open Science

延伸閱讀:
1、「這樣也行?!」AI產生的卡通老鼠圖像 竟登上科學相關期刊

查看原始文章

更多理財相關文章

01

AI時代不再留情!微軟CEO親揭殘酷真相:我們賺很多錢 但你們還是得走

三立新聞網
02

台灣無人機出口暴增近7.5倍! 不是烏克蘭 「這國」是最大買家.....

新頭殼
03

金管會ETF新規 專家:高股息要掰了?

NOWnews 今日新聞
04

蔡明忠組團破局/難擋剪線潮雪崩另謀出路 蔡明忠組寬頻聯軍抗中華電信失利

鏡週刊
05

歐盟開給川普一張空頭支票!7500億美元能源協議是癡人說夢,雙方到底有何盤算

風傳媒
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 1

Kevin
可能是ChatGPT-4o加入了比較多的感情因子 所以變得比較容易誇大 😵😵😵
05月15日07:28

顯示全部

最新消息

友華醫藥與健康雙引擎並進 持續拓展海外市場

anue鉅亨網

豐趣科技完成1.8億元增資案 拚未來3年內營收翻倍

anue鉅亨網

【台灣】6月景氣燈號如期回落,AI獨撐經濟

財經M平方短評

摩根士丹利看好香港房市回暖 點名增持2檔股票

anue鉅亨網

〈台股開盤〉關稅大限逼近 急殺逾300點 電子、塑化成重災區

anue鉅亨網

盤中速報 - 合正(5381)大漲7.01%,報23.65元

anue鉅亨網

Meta推智慧錶瞄準AI影像應用?挑戰Apple Watch龍頭地位

商傳媒

盤中速報 - 其他電子類指數類股表現疲軟,跌幅2.18%,總成交額28.79億

anue鉅亨網

盤中速報 - 大略-KY(4804)股價拉至漲停,漲停價7.49元,成交242張

anue鉅亨網

阿里山、101、日月潭都有它!豐趣科技完成1.8億元募資,雄獅、Klook持續加碼

數位時代

航運警報!胡賽武裝「第四階段」升級:與以色列港口往來企業船隻全列攻擊名單!

優分析

別讓你的生活故事藏在手機裡 臺北移工學校邀請移工掀起創作浪潮

商傳媒

Perplexity創辦人揭密:沒人脈、沒有天才頭腦,他是怎麼打造出「Google眼中釘」的?

數位時代

能源|避戰共識升溫、供應風險升高,油價為何連兩日漲?

優分析

汽車工業|歐盟汽車出口仍面臨15%高關稅,德國車廠恐損失數10億美元

優分析

盤中速報 - 其他電子類股表現疲軟,跌幅2%,總成交額123.30億

anue鉅亨網

盤中速報 - 塑膠工業類股表現疲軟,跌幅2.15%,總成交額47.36億

anue鉅亨網

不讓中國獨霸稀土金雞母 川普政府考慮與緬甸獨立軍合作

anue鉅亨網

關稅大限將至台灣還未放榜 美股交易清淡台股29日早盤跌逾300點

CTWANT

弘塑轉投資傳捷報,micro bump量產、X-ray搶進HBM、特化品火力全開

財訊快報

AI應用前景旺,碩網掛牌首日股價一度大漲110%,看好H2旺季效益

財訊快報

台南高雄停班停課 SOGO、新光三越正常營業

中央通訊社

鉅亨買幣速報 - 以太幣(ETH)24小時成交量超過24.32億美元,LTO Network(LTO)24小時漲幅達54.8%

anue鉅亨網

受惠3D/2.5D先進封裝需求旺盛,弘塑產能滿載,訂單能見度達明年H1

財訊快報

俄羅斯宣布:全面禁止汽油出口 確保國內供應

anue鉅亨網

【全球】關稅談判更新:美歐達成貿易協議

財經M平方短評

盤中速報 - 長園科(8038)急拉3.31%報40.55元,成交890張

anue鉅亨網

盤中速報 - 新盛力(4931)急拉3.26%報111.5元,成交11,487張

anue鉅亨網

盤中速報 - 玻璃陶瓷類股表現疲軟,跌幅2.68%,總成交額14.99億

anue鉅亨網

盤中速報 - 化學股價指數類股表現疲軟,跌幅2.22%,總成交額4.60億

anue鉅亨網

碩網掛牌上櫃 飆漲逾100% 中籤戶現賺至少6萬元

anue鉅亨網

〈房產〉房市市調:全台Q2推案量萎縮、價硬挺 降價「看得到吃不到」

anue鉅亨網

盤中速報 - 鑫創(3259)急跌-4.75%報21.2元,成交11張

anue鉅亨網

盤中速報 - 興泰(1235)急拉3.04%報62.9元,成交1張

anue鉅亨網

盤中速報 - 新盛力(4931)大跌7.26%,報108.5元

anue鉅亨網

盤中速報 - 宏易(4530)急跌-3.23%報12.6元,成交2張

anue鉅亨網

住院3天花1萬元,醫療險竟理賠12萬?3個建議,把保費花在刀口上!

商周財富網

國產署5年釋出25公頃國有土地 推動社福設施與公共建設遍及全台

住展

收入有限、支出無限...上有老、下有小如何理財?教你每個月至少存下「這數字」

商周財富網

關稅開獎激勵美元 新台幣早盤貶破29.6字頭、下挫近1角

太報