研究指 LLM 模型 Benchmark 存在重大缺陷　無法反映真實能力

一項新的國際研究指出，大型語言模型 (LLM) Benchmark 存在重大問題，顯示大多數目前的評估方法存在嚴重缺陷。研究人員審查了來自頂級 AI 會議的 445 篇基準測試論文後發現，幾乎所有基準測試都存在根本性的方法論問題。

定義不明與人工任務

研究發現，基準測試的定義往往模糊不清或存在爭議。雖然 78% 的基準測試定義了其測量內容，但其中近一半的定義模糊或具爭議性。諸如「推理」、「對齊」和「安全」等關鍵術語常未被定義，導致結論不可靠。此外，41% 的基準測試使用人工任務，其中 29% 完全依賴這類任務。只有約 10% 的測試使用實際反映模型應用方式的真實世界任務。

採樣不良與資料重複

採樣是目前 LLM 基準測試的另一個主要弱點。約 39% 的測試依賴便利採樣，其中 12% 完全採用此方式。資料重複使用也相當普遍。大約 38% 的基準測試重複使用來自人工測試或現有來源的資料，許多測試更是嚴重依賴其他基準測試的資料集。這種做法可能會扭曲結果。大多數基準測試也缺乏嚴謹的統計分析。超過 80% 的測試使用精確匹配分數，但只有 16% 應用統計檢定來比較模型。

改善之道與評估挑戰

研究團隊為未來的發展指明了方向：精確定義每個基準測試的測量內容，並設定清晰具體的界線。資料集的選擇應出於刻意，而非僅基於方便。強大的統計方法和不確定性估計對於有意義的模型比較至關重要。儘管存在缺陷，基準測試仍是 AI 研究的基礎。然而，隨著大型語言模型日益複雜且相關利害關係提升，弱點或誤導性基準測試的風險也隨之增加。若缺乏更嚴格的標準和完全的透明度，將無法區分真正的進步與僅為通過測試而優化的結果。

NewMobileLife 網站：https://www.newmobilelife.com

請更新您的瀏覽器

科技

流動日報

定義不明與人工任務

採樣不良與資料重複

改善之道與評估挑戰

請更新您的瀏覽器啟用Javascript

研究指 LLM 模型 Benchmark 存在重大缺陷 無法反映真實能力

流動日報

定義不明與人工任務

採樣不良與資料重複

改善之道與評估挑戰

請更新您的瀏覽器

研究指 LLM 模型 Benchmark 存在重大缺陷　無法反映真實能力