用過時資料訓練語言模型的「AI 時光機」,能否準確預測現在?
富比士專欄作者蘭斯·艾略特(Lance Eliot) 5 日撰文指出,AI 業界又興起以「過時資料」訓練大型語言模型(LLM)的逆潮流。Nick Levine、David Duvenaud、Alec Radford 4 月發表的論文,推出用 1930 年以前資料訓練的 talkie-1930-13b-base,讓使用者彷彿穿越回 20 世紀初。
模型只有 130 億參數,屬小型語言模型(SLM),以 2,600 億 token 的 1931 年前英語文本訓練,涵蓋書籍、報紙、期刊、專利與判例法。團隊選擇 1930 年是因之前作品於美國已進入公共領域。相較之下,主流 LLM 多以 10 兆至 15 兆 token 訓練,參數均超過 1,500 億。
Eliot 稱之為「AI 時光機」。他提醒並非真能還原過去,因以下理由:1. 版權日期可能誤植;2. 早年論文可能後期又修訂,混入新資訊;3. 調校時可能要求 AI 避開 1930 年前常見但現代視為不當的字詞;4. 可取得的數位化歷史文獻僅佔極小比例,本身就有抽樣偏差。
實測顯示,模型不知二次大戰、原子彈、智慧手錶、行動電話等後世產物;要它「預測未來」回答多半模糊,僅能勉強解讀為某場大戰或科幻發明。Eliot 原本期望 talkie 能反推現代 LLM 能否預見 2030、2040 年代趨勢,結果不太樂觀。另請模型「發明」1930 年後的機器,也只能停在概念階段。
Eliot 結論認為,研究意義在探索資料規模與性質如何形塑 LLM。他提醒教育界,若讓學生用此類模型回顧歷史,務必先說明侷限性。他文末引用富蘭克林名言「失去的時間永遠找不回來」,期望 AI 真能讓人類從歷史汲取教訓。
(首圖來源:shutterstock)