Meta 加入 AI「世界模型」大戰，發表 V-JEPA 2 聚焦機器人與自駕車應用

更新於 06月12日19:06 • 發布於 06月12日11:06 • 廖紹伶

實體 AI 的技術正持續爆發，Meta 在 6/11 宣布推出新 AI 開源模型 V-JEPA 2，並稱之為「世界模型」，可以更好地理解 3D 環境和物體運動。

Meta 表示，V-JEPA 2 是一個擁有 12 億個參數的 AI 模型，透過超過 100 萬小時的影片訓練而成。值得關注的是，Meta 宣稱 V-JEPA 2 可用於「零樣本」（zero-shot）機器人控制規劃，讓機器人能在新環境中與不熟悉的物件互動。

什麼是「世界模型」？

人類天生具備的生理直覺，例如打球時會預判球的方向，或穿越陌生區域時懂得閃避障礙物，長期以來是機器人難以習得的能力。Meta 表示，世界模型可幫助機器人在行動前預想後果，具備理解、預測與規劃能力。

《CNBC》報導指出，世界模型可以從物理世界的邏輯中汲取靈感，並在模型中模擬現實，讓 AI 能以更像人類的方式學習。Meta 特別聚焦於世界模型在送貨機器人、自動駕駛汽車的應用。

為什麼 V-JEPA 2 可以實現「零樣本」控制？

Meta 表示，影片是豐富且容易取得的資料來源，V-JEPA 2 採兩階段訓練流程，不需要額外的人工標註程序。第一階段 V-JEPA 2 從超過 100 萬小時和 100 萬張圖像中學習，在這時習得物理互動的模式；第二階段導入動作條件學習，只運用 62 小時的機器人控制資料，讓模型在預測結果時就將動作納入考量。如此一來，就能建立出用於動作規劃和控制的 AI 模型。

事實上，機器人技術面臨的挑戰之一是訓練資料缺乏。Meta AI 科學家 Yann LeCun 在一段影片中說明：「我們認為，世界模型將開啟機器人領域的新時代，讓現實世界中的 AI 代理能協助處理家務與各種實體任務，且不需仰賴龐大的機器人訓練資料量。」

Meta 表示，在內部測試中，該模型表現出了良好的推廣到新物體和新環境的能力，在從未見過的環境中執行拾取和放置任務成功率在 65% 到 80% 之間。此外，V-JEPA 2 模型在運算速度上比同樣專攻實體 AI 的 NVIDIA Cosmos 模型快上 30 倍。不過，Meta 目前可能是依據與 NVIDIA 不同的基準來評估自家模型效能。

世界模型成為 AI 界新焦點

《CNBC》觀察，世界模型正在成為 AI 界新寵，研究人員的焦點不再侷限於生成式 AI 應用背後的大型語言模型（LLM）。除了 Meta 有新進展，Google DeepMind 也一直在開發自己的世界模型 Genie，AI 先驅電腦科學家李飛飛成立的新創 World Labs 將打造大型世界模型，目前已融資 2.3 億美元。NVIDIA 一直是實體 AI 的倡議者，日前也發表了世界基礎模型 Cosmos。

Meta 表示，V-JEPA 2 的程式碼和模型檢查點已公開，提供商業與研究用途，希望藉此打造更廣泛的研究社群，推進該領域發展，最終打造出能改變 AI 與實體世界互動方式的世界模型。

＊本文開放合作夥伴轉載，資料來源：《CNBC》、Meta 1、Meta 2、《TechOrange》、《The Robot Report》，首圖來源：Unsplash

加入『 TechOrange 官方 LINE 好友』掌握最新科技資訊！

查看原始文章