請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

蘋果研究:古老生產力技巧同樣有益於 LLM 訓練

科技新報

更新於 1小時前 • 發布於 1小時前

蘋果研究團隊最新發表的一項研究指出,大型語言模型(LLM)在檢查自身工作時,若導入檢查清單式的回饋機制,能顯著提升表現。這項研究不僅挑戰了傳統強化學習方法的主流做法,也為未來 AI 助手的可靠性開啟新方向。

早先在 LLM 完成訓練後,研究人員通常會透過「來自人類回饋的強化學習」(Reinforcement Learning from Human Feedback,RLHF)進一步提升模型品質。這種方式仰賴人工標註者對模型回覆給予正向或負向評價,讓模型逐步學會何種答案最能獲得肯定。然而 RLHF 仍存在被模型「投機取巧」的風險,例如產生表面正確卻未真正解決問題的輸出。

在這份研究中,蘋果團隊提出一種名為「來自檢查清單回饋的強化學習」(Reinforcement Learning from Checklist Feedback,RLCF)的新方法。研究人員設計出一套由具體項目組成的檢查清單,並以 0–100 分制衡量回應的符合程度。與其他對齊技術相比,RLCF 是唯一在五個主要基準測試中皆有進步的方法,例如在 FollowBench 提升 4 個百分點、在 InFoBench 提升 6 個百分點、在 Arena-Hard 勝率提升 3 個百分點。

這種提升對於 AI 助手特別重要。研究指出,隨著越來越多人將語言模型整合進日常任務,使用者期望這些助手能準確執行多步驟的複雜指令。當模型在「指令跟隨」上表現更好,用戶信任感便能提升,進而將更多高難度需求交給 AI 處理。

值得注意的是,檢查清單本身也不是人工逐條編制,而是由另一個大型模型生成。蘋果研究人員基於既有方法,創建了涵蓋 13 萬條指令的「WildChecklists」資料集,並透過多個不同規模的 Qwen2.5 模型產生候選回應,再由更大型的教師模型逐項打分,最後將分數作為學生模型微調的獎勵信號。

研究顯示,當檢查清單生成與評分系統設計完善時,模型在某些基準測試中的表現可提升高達 8.2%。不僅如此,RLCF 在多項測試中也優於其他替代方法,進一步證實這項機制的有效性。

不過研究團隊也坦言此方法仍有限制,RLCF 主要針對「複雜指令的跟隨」場景,對於其他應用領域不一定適用;此外,方法仰賴更強大的模型作為「裁判」去調整較小的模型,也意味著需要額外的計算資源。更重要的是,RLCF 並未針對「安全對齊」設計,因此不能解決所有風險問題。

即便如此,蘋果的研究仍提出了一種新穎而簡單的改進方式,為語言模型在實用性與可靠性上的提升提供了新思路。隨著未來 AI 助手逐漸具備自主決策與代理能力,如何精準執行複雜指令將成為人機互動的核心,而檢查清單式回饋有望成為其中的關鍵工具。

(首圖來源:Image by Freepik

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

上櫃銅箔大廠驚爆內鬼 20項機密製程遭外流

NOWNEWS今日新聞
02

每日手抄股價練功 平民阿伯「專抓強勢股」滾出上億身家

太報
03

牛皮成飆股2/網友喊「下座護國神山」差一字 台達電二代十年磨劍翻身站上AI浪尖

CTWANT
04

存股族看過來!無懼高股息ETF降息風 專家點名這檔ETF年化配息率上看10%

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
轉發 (0)
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

最新消息

外資轉賣145億元提款金融及傳產股 反手加碼電子族群

anue鉅亨網

研華展示輝達機器人大腦技術(圖)

中央通訊社

8月製造業生產增速趨緩 經濟部:AI商機將成下半年支撐力道

中廣新聞網
影音

元大台灣50(0050)過去十年多報酬逾300%,但有一檔ETF,報酬是它的3倍以上?是哪檔市值型、還是槓桿型ETF呢?|佑佑,峰哥|人人都能學會

商周財富網

師承林全 業者:鄭亦麟不像幕僚、更像老闆

NOWNEWS今日新聞

「芝蔴街」母公司財報未交 最快這天下櫃

NOWNEWS今日新聞

三商美邦壽傳出售 金管會澄清未接獲函報、駁斥高層懇談說法

anue鉅亨網

今日召開董事會 台智電:解任鄭亦麟總經理

NOWNEWS今日新聞

川普動作挑戰Fed獨立性 美債殖利率曲線陡升

anue鉅亨網

研華入列輝達Jetson Thor合作廠商 推整機系統及機器人套件新品

anue鉅亨網

和三商壽懇談後才決定出售? 金管會駁斥

中央廣播電臺

川普警告中國:確保稀土磁鐵供應,否則關稅高達 200%

科技新報

法國政局風暴 總理貝魯預算案引發倒閣危機 歐元區財政前景黯淡

anue鉅亨網

泓德能源總座交保 公司:靜待司法調查

NOWNEWS今日新聞

總經理涉收賄遭聲押 台智電:解任職務營運不受影響

中央通訊社

Apple 首款摺疊 iPhone 傳出 2026 年登場,Touch ID 捲土重來?

三嘻行動哇 Yipee!

日產遭賓士脫手持股 股價重挫逾6%

中央通訊社

金管會:未收到三商壽函報資料 是否出售屬商業考量

中央通訊社

鄭亦麟涉收賄遭聲押 台智電解除其總經理職務

中央廣播電臺

Google 頭大!Tensor G5 處理器 GPU 表現不佳恐影響 Pixel 10 系列銷售

科技新報

談綠能弊案 傳郭智輝稱「真正大尾還未浮出」!經濟部回應了

太報

中國宣布深入實施「AI+行動」 要求各地確保見效

中央通訊社

39歲辭職JP Morgan!余鎮文3大投資心法,揭曉高報酬關鍵...

CMoney

輝達推最新機器人平台 達明:9月有機會採用 Jetson Thor 架構模組

anue鉅亨網

台聚:第3季EVA供過於求可望緩解(圖)

中央通訊社

〈台幣〉鮑爾放鴿題材淡化 放量貶逾1角收30.555元

anue鉅亨網

禾榮科宣布與佳世達南京明基醫院簽訂合作協議(圖)

中央通訊社

永豐金估央行最快年底降息 台幣留意這報告

NOWNEWS今日新聞

升值曇花一現!新台幣回貶1.05角 收30.555元

太報

禾榮科海外布局啟航 攜手佳世達集團建置BNCT中心

中央通訊社

泓德能源總座100萬元交保! 公司正式發聲了

中廣新聞網

首爾又要頭痛了!川普不只繼續施壓南韓「多繳保護費」,就連美軍基地土地都想「順便拿走」

風傳媒

川普與通膨憂慮雙重夾擊 日本公債殖利率創歷史新高

anue鉅亨網

金管會:新華泰富若未補交財報 最快明年1/2終止上櫃

中央通訊社

快訊/台智電今開董事會 解任鄭亦麟總經理一職

太報

關稅戰嚇壞消費信心!7月零售倒退嚕 汽機車批發零售衰退近2成

太報

發行穩定幣 金管會證實有銀行正研議中

中央廣播電臺

凱基證搶啖美股交易市場 下單APP即時美股四大功能升級

anue鉅亨網

宜鼎成為輝達機器人大腦首波合作夥伴

理財周刊

國泰技術雙主軸系列活動開跑  9/24全新首推未來保險體驗日 10月技術年會接棒

太報