打造「數位超人」! 美媒揭秘OpenAI的野心: 讓AI為你搞定一切
2022 年,當 Hunter Lightman 以研究員身份加入 OpenAI 後不久,便見證了同事們推出 ChatGPT,該產品後來成為史上成長最快的產品之一。與此同時,Lightman 在一個團隊中默默耕耘,致力於教導 OpenAI 的模型解決高中數學競賽題。如今,這個名為 MathGen 的團隊被視為 OpenAI 打造 AI 推理模型這一行業領先舉措的關鍵力量。AI 推理模型正是能像人類一樣在電腦上完成任務的 AI 代理的核心技術。
《TechCrunch》報導,OpenAI 的模式如今仍遠非完美,最新的 AI 系統仍會出現「幻覺」,代理在處理複雜任務時也力不從心,但 OpenAI 的最先進模型在數學推理方面已有顯著進步,一款模型最近在國際數學奧林匹克競賽中獲得金牌。
OpenAI 認為,這些推理能力將遷移到其他學科,最終為其一直夢寐以求的通用代理人提供動力。
ChatGPT 的誕生純屬意外,但 OpenAI 的代理是該公司多年來精心努力的成果。OpenAI 執行長奧特曼曾表示,最終只需向電腦提出需求,它就會完成所有任務,這些能力被稱為代理,代理所帶來的好處將是巨大的。
OpenAI 推理模型與代理人的發展和強化學習 (RL) 技術密切相關。2016 年,OpenAI 成立約一年後,Google DeepMind 以其開發的 AI 系統 AlphaGo 擊敗世界冠軍,引發全球關注。當時,OpenAI 首批員工之一 Andrej Karpathy 就開始思考利用強化學習創造能使用電腦的 AI 代理,不過 OpenAI 花了數年才開發出必要模型與技術。
2018 年,OpenAI 推出首個大語言模型 GPT,催生出 ChatGPT,但基礎數學是其弱點,直到 2023 年,OpenAI 取得突破,將大語言模型、強化學習與測驗時運算技術結合,引進「思維鏈」方法,提升 AI 處理數學問題的表現,促成 o1 開發,其能力可為 AI 代理提供動力,Lightman 稱這是研究生涯最激動時刻之一。
OpenAI 憑藉 AI 推理模型探索出改進 AI 模型的新方向,即在模型後期訓練投入更多計算資源,讓模型回答問題時擁有更充足的時間與處理能力。
2023 年,當 Strawberry 取得突破後,OpenAI 很快就成立了由 Daniel Selsam 領銜的「代理」團隊,該團隊工作是開發 o1 推理模型專案的一部分。開發 o1 需投入大量人才及 GPU 資源,在 OpenAI,研究者要透過展示突破性成果來取得資源,其研究自下而上,o1 有證據後就獲得推進。
2024 年底,部分 AI 實驗室發現傳統預訓練擴展回報遞減,AI 領域動力較多源自於推理模式進步。
對於 AI 推理的定義雖有爭議,但研究人員認為當下對其理解尚淺,仍需深入研究。來自 OpenAI、Anthropic 和 Google DeepMind 的一群 AI 研究人員在最近的一份立場文件中一致認為,如今人們對 AI 推理模型的理解還不夠深入,需要更多的研究,現在就斷言這些模型內部到底在發生什麼,可能還為時過早。
目前,市場上的 AI 代理在定義明確、可驗證的領域 (如編碼) 表現最佳,但在處理複雜、主觀任務時卻力不從心。
當被問及代理在主觀任務方面的限制時,Lightman 稱這是資料問題,一些研究正在想辦法在可驗證性較低的任務上進行訓練。
幫助創建國際數學奧林匹克模型和 o1 的 OpenAI 研究員 Noam Brown 表示,OpenAI 擁有新的通用強化學習技術,能教授 AI 模型不易驗證的技能,該公司正是透過這種方式建構了在國際數學奧林匹克競賽中獲得金牌的模型。這類 AI 模型正變得日益受到歡迎,進步速度快得驚人,OpenAI 希望這些技術能提高模型效能,在 GPT-5 模型中體現出來,也希望產品更易於使用,描繪出 ChatGPT 終極版本的圖景。
OpenAI 無疑在幾年前引領了 AI 產業,但如今正面臨一大批強勁的對手,且問題不再只是能否實現代理化的未來,而是能否在競爭對手之前做到這一點。
更多鉅亨報導
留言 0