請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

科技

研究指 LLM 模型 Benchmark 存在重大缺陷  無法反映真實能力

流動日報

更新於 11月15日23:54 • 發布於 11月08日21:43 • NewMobileLife

一項新的國際研究指出,大型語言模型 (LLM) Benchmark 存在重大問題,顯示大多數目前的評估方法存在嚴重缺陷。研究人員審查了來自頂級 AI 會議的 445 篇基準測試論文後發現,幾乎所有基準測試都存在根本性的方法論問題。

定義不明與人工任務

研究發現,基準測試的定義往往模糊不清或存在爭議。雖然 78% 的基準測試定義了其測量內容,但其中近一半的定義模糊或具爭議性。諸如「推理」、「對齊」和「安全」等關鍵術語常未被定義,導致結論不可靠。此外,41% 的基準測試使用人工任務,其中 29% 完全依賴這類任務。只有約 10% 的測試使用實際反映模型應用方式的真實世界任務。

採樣不良與資料重複

採樣是目前 LLM 基準測試的另一個主要弱點。約 39% 的測試依賴便利採樣,其中 12% 完全採用此方式。資料重複使用也相當普遍。大約 38% 的基準測試重複使用來自人工測試或現有來源的資料,許多測試更是嚴重依賴其他基準測試的資料集。這種做法可能會扭曲結果。大多數基準測試也缺乏嚴謹的統計分析。超過 80% 的測試使用精確匹配分數,但只有 16% 應用統計檢定來比較模型。

改善之道與評估挑戰

研究團隊為未來的發展指明了方向:精確定義每個基準測試的測量內容,並設定清晰具體的界線。資料集的選擇應出於刻意,而非僅基於方便。強大的統計方法和不確定性估計對於有意義的模型比較至關重要。儘管存在缺陷,基準測試仍是 AI 研究的基礎。然而,隨著大型語言模型日益複雜且相關利害關係提升,弱點或誤導性基準測試的風險也隨之增加。若缺乏更嚴格的標準和完全的透明度,將無法區分真正的進步與僅為通過測試而優化的結果。

NewMobileLife 網站:https://www.newmobilelife.com

查看原始文章
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...