蘋果研究：古老生產力技巧同樣有益於 LLM 訓練

更新於 1小時前 • 發布於 1小時前

蘋果研究團隊最新發表的一項研究指出，大型語言模型（LLM）在檢查自身工作時，若導入檢查清單式的回饋機制，能顯著提升表現。這項研究不僅挑戰了傳統強化學習方法的主流做法，也為未來 AI 助手的可靠性開啟新方向。

早先在 LLM 完成訓練後，研究人員通常會透過「來自人類回饋的強化學習」（Reinforcement Learning from Human Feedback，RLHF）進一步提升模型品質。這種方式仰賴人工標註者對模型回覆給予正向或負向評價，讓模型逐步學會何種答案最能獲得肯定。然而 RLHF 仍存在被模型「投機取巧」的風險，例如產生表面正確卻未真正解決問題的輸出。

在這份研究中，蘋果團隊提出一種名為「來自檢查清單回饋的強化學習」（Reinforcement Learning from Checklist Feedback，RLCF）的新方法。研究人員設計出一套由具體項目組成的檢查清單，並以 0–100 分制衡量回應的符合程度。與其他對齊技術相比，RLCF 是唯一在五個主要基準測試中皆有進步的方法，例如在 FollowBench 提升 4 個百分點、在 InFoBench 提升 6 個百分點、在 Arena-Hard 勝率提升 3 個百分點。

這種提升對於 AI 助手特別重要。研究指出，隨著越來越多人將語言模型整合進日常任務，使用者期望這些助手能準確執行多步驟的複雜指令。當模型在「指令跟隨」上表現更好，用戶信任感便能提升，進而將更多高難度需求交給 AI 處理。

值得注意的是，檢查清單本身也不是人工逐條編制，而是由另一個大型模型生成。蘋果研究人員基於既有方法，創建了涵蓋 13 萬條指令的「WildChecklists」資料集，並透過多個不同規模的 Qwen2.5 模型產生候選回應，再由更大型的教師模型逐項打分，最後將分數作為學生模型微調的獎勵信號。

研究顯示，當檢查清單生成與評分系統設計完善時，模型在某些基準測試中的表現可提升高達 8.2%。不僅如此，RLCF 在多項測試中也優於其他替代方法，進一步證實這項機制的有效性。

不過研究團隊也坦言此方法仍有限制，RLCF 主要針對「複雜指令的跟隨」場景，對於其他應用領域不一定適用；此外，方法仰賴更強大的模型作為「裁判」去調整較小的模型，也意味著需要額外的計算資源。更重要的是，RLCF 並未針對「安全對齊」設計，因此不能解決所有風險問題。

即便如此，蘋果的研究仍提出了一種新穎而簡單的改進方式，為語言模型在實用性與可靠性上的提升提供了新思路。隨著未來 AI 助手逐漸具備自主決策與代理能力，如何精準執行複雜指令將成為人機互動的核心，而檢查清單式回饋有望成為其中的關鍵工具。

（首圖來源：Image by Freepik）

立刻加入《科技新報》LINE 官方帳號，全方位科技產業新知一手掌握！

請更新您的瀏覽器啟用Javascript

科技新報

更多理財相關文章

上櫃銅箔大廠驚爆內鬼 20項機密製程遭外流

每日手抄股價練功 平民阿伯「專抓強勢股」滾出上億身家

牛皮成飆股2／網友喊「下座護國神山」差一字 台達電二代十年磨劍翻身站上AI浪尖

存股族看過來！無懼高股息ETF降息風 專家點名這檔ETF年化配息率上看10%

查看更多科技新報

川普警告中國：確保稀土磁鐵供應，否則關稅高達 200%

準確預測海平面上升，30 年前氣候模型預示未來不妙

美國海軍演習中現身抗干擾光纖無人機，烏克蘭戰場的電子戰新利器

台股 ETF 受益人數單週大增 12 萬人！資金湧入卡位 10 檔高人氣主被動 ETF

日本開發效能提升百倍下一代富岳超級電腦，晶片生產依賴台積電先進製程加值

最新消息

外資轉賣145億元提款金融及傳產股 反手加碼電子族群

研華展示輝達機器人大腦技術(圖)

8月製造業生產增速趨緩 經濟部：AI商機將成下半年支撐力道

元大台灣50（0050）過去十年多報酬逾300%，但有一檔ETF，報酬是它的3倍以上？是哪檔市值型、還是槓桿型ETF呢？｜佑佑，峰哥｜人人都能學會

師承林全 業者：鄭亦麟不像幕僚、更像老闆

「芝蔴街」母公司財報未交 最快這天下櫃

三商美邦壽傳出售 金管會澄清未接獲函報、駁斥高層懇談說法

今日召開董事會 台智電：解任鄭亦麟總經理

川普動作挑戰Fed獨立性 美債殖利率曲線陡升

研華入列輝達Jetson Thor合作廠商 推整機系統及機器人套件新品

和三商壽懇談後才決定出售？ 金管會駁斥

川普警告中國：確保稀土磁鐵供應，否則關稅高達 200%

法國政局風暴 總理貝魯預算案引發倒閣危機 歐元區財政前景黯淡

泓德能源總座交保 公司：靜待司法調查

總經理涉收賄遭聲押 台智電：解任職務營運不受影響

Apple 首款摺疊 iPhone 傳出 2026 年登場，Touch ID 捲土重來？

日產遭賓士脫手持股 股價重挫逾6%

金管會：未收到三商壽函報資料 是否出售屬商業考量

鄭亦麟涉收賄遭聲押 台智電解除其總經理職務

Google 頭大！Tensor G5 處理器 GPU 表現不佳恐影響 Pixel 10 系列銷售

談綠能弊案 傳郭智輝稱「真正大尾還未浮出」！經濟部回應了

中國宣布深入實施「AI+行動」 要求各地確保見效

39歲辭職JP Morgan！余鎮文3大投資心法，揭曉高報酬關鍵...

輝達推最新機器人平台 達明：9月有機會採用 Jetson Thor 架構模組

台聚：第3季EVA供過於求可望緩解(圖)

〈台幣〉鮑爾放鴿題材淡化 放量貶逾1角收30.555元

禾榮科宣布與佳世達南京明基醫院簽訂合作協議(圖)

永豐金估央行最快年底降息 台幣留意這報告

升值曇花一現！新台幣回貶1.05角 收30.555元

禾榮科海外布局啟航 攜手佳世達集團建置BNCT中心

泓德能源總座100萬元交保！ 公司正式發聲了

首爾又要頭痛了！川普不只繼續施壓南韓「多繳保護費」，就連美軍基地土地都想「順便拿走」

川普與通膨憂慮雙重夾擊 日本公債殖利率創歷史新高

金管會：新華泰富若未補交財報 最快明年1/2終止上櫃

快訊／台智電今開董事會 解任鄭亦麟總經理一職

關稅戰嚇壞消費信心！7月零售倒退嚕 汽機車批發零售衰退近2成

發行穩定幣 金管會證實有銀行正研議中

凱基證搶啖美股交易市場 下單APP即時美股四大功能升級

宜鼎成為輝達機器人大腦首波合作夥伴

國泰技術雙主軸系列活動開跑 9/24全新首推未來保險體驗日 10月技術年會接棒

請更新您的瀏覽器

上櫃銅箔大廠驚爆內鬼　20項機密製程遭外流

每日手抄股價練功　平民阿伯「專抓強勢股」滾出上億身家

牛皮成飆股2／網友喊「下座護國神山」差一字　台達電二代十年磨劍翻身站上AI浪尖

存股族看過來！無懼高股息ETF降息風　專家點名這檔ETF年化配息率上看10%

外資轉賣145億元提款金融及傳產股反手加碼電子族群

8月製造業生產增速趨緩　經濟部：AI商機將成下半年支撐力道

師承林全　業者：鄭亦麟不像幕僚、更像老闆

「芝蔴街」母公司財報未交　最快這天下櫃

三商美邦壽傳出售金管會澄清未接獲函報、駁斥高層懇談說法

今日召開董事會　台智電：解任鄭亦麟總經理

川普動作挑戰Fed獨立性美債殖利率曲線陡升

研華入列輝達Jetson Thor合作廠商推整機系統及機器人套件新品

和三商壽懇談後才決定出售？金管會駁斥

法國政局風暴總理貝魯預算案引發倒閣危機歐元區財政前景黯淡

泓德能源總座交保　公司：靜待司法調查

總經理涉收賄遭聲押　台智電：解任職務營運不受影響

日產遭賓士脫手持股　股價重挫逾6%

金管會：未收到三商壽函報資料　是否出售屬商業考量

鄭亦麟涉收賄遭聲押台智電解除其總經理職務

談綠能弊案　傳郭智輝稱「真正大尾還未浮出」！經濟部回應了

中國宣布深入實施「AI+行動」要求各地確保見效

輝達推最新機器人平台達明：9月有機會採用 Jetson Thor 架構模組

〈台幣〉鮑爾放鴿題材淡化放量貶逾1角收30.555元

永豐金估央行最快年底降息　台幣留意這報告

升值曇花一現！新台幣回貶1.05角收30.555元

禾榮科海外布局啟航　攜手佳世達集團建置BNCT中心

泓德能源總座100萬元交保！　公司正式發聲了

川普與通膨憂慮雙重夾擊日本公債殖利率創歷史新高

金管會：新華泰富若未補交財報　最快明年1/2終止上櫃

快訊／台智電今開董事會解任鄭亦麟總經理一職

關稅戰嚇壞消費信心！7月零售倒退嚕汽機車批發零售衰退近2成

發行穩定幣金管會證實有銀行正研議中

凱基證搶啖美股交易市場下單APP即時美股四大功能升級

國泰技術雙主軸系列活動開跑　 9/24全新首推未來保險體驗日 10月技術年會接棒