NVIDIA 機器人技術三大更新!新 Cosmos Reason 模型要讓機器「更像人」
NVIDIA 持續深入機器人 AI 模型的訓練領域,在 SIGGRAPH 大會上宣布,針對機器人開發者推出三大技術更新:全新的 AI 世界基礎模型(World Foundation Models)、Omniverse 函式庫,以及新一代 AI 運算基礎設施 NVIDIA RTX Pro 伺服器和 NVIDIA DGX Cloud。其中最受矚目的,是一款專為物理 AI 應用與機器人設計的 70 億參數「推理」視覺語言模型 Cosmos Reason。
根據 NVIDIA 公布數據,Cosmos 世界基礎模型下載量已突破 200 萬次,讓開發人員可以使用文字、圖像和影片提示來產生用於大規模訓練機器人的各種資料。此次發表的新版本 Cosmos Reason 則進一步加入「推理」能力,透過先驗知識、物理理解和常識,讓機器人與視覺 AI 代理能像人類一樣分析情境、判斷下一步行動。
從資料整理到行動決策
Cosmos Reason 和既有的視覺語言模型(VLM)有何差異?NVIDIA 在官方部落格表示,自 OpenAI 推出 CLIP 模型以來,視覺語言模型(VLM)已廣泛應用於物件與模式識別等電腦視覺任務,但仍難以處理多步驟任務、含糊情境或全新經驗,而 Cosmos Reason 的設計正是為了突破這些限制。這種能力對於需要連續決策的場景——例如機器人任務規劃或自駕車路徑預測——尤其關鍵。
根據 NVIDIA,Cosmos Reason 可以用於資料管理與標註、機器人規劃與推理,以及影片分析 AI 代理,讓系統在面對複雜指令時,能拆解成可執行的步驟並作出符合常識的判斷,即使處於陌生環境也能正確行動。影片分析方面,它能在海量影像資料中搜尋、總結並進行原因分析。
在技術上,Cosmos Reason 採用監督式微調(SFT)與強化學習結合,專注於實體 AI 任務的訓練,讓基礎模型性能提升逾 15%,在機器人與自駕應用的多項基準測試中取得平均 65.7 分的表現。開發者可從 Hugging Face 下載模型檢查點,並透過 GitHub 取得推論與後訓練程式碼,進行自訂化開發。
NVIDIA 舉例,其自家機器人團隊和 NVIDIA DRIVE 已使用 Cosmos Reason 進行資料篩選、過濾和標註,以及 VLA 模型的後訓練工作。叫車巨頭 Uber 則使用該模型為自動駕駛訓練數據進行標註,以及加上說明文字。麥格納則在自家 City Delivery 平台開發中採用 Cosmos Reason,為車輛的長期軌跡規劃器加入對世界的理解能力。
加速模擬與資料生成的完整生態
除了 Cosmos Reason,NVIDIA 宣布將推出 Cosmos Transfer-2,可從 3D 模擬場景或空間控制輸入加速生成寫實的合成資料,並提供速度更快的精簡版本,可將 70 個步驟簡化成一步。讓開發者能在 RTX PRO 伺服器上高速運行。這些功能已被 Lightwheel、Moon Surgical、Skild AI 等公司用來在虛擬環境中模擬多樣化條件,加速物理 AI 訓練。
在 3D 世界重建方面,新推出的 Omniverse NuRec 函式庫採用光線追蹤 3D Gaussian Splatting 技術,讓開發者能利用感測器資料重建和模擬真實世界,並已整合至開源模擬平台 CARLA。Boston Dynamics、Figure AI、Hexagon 及 Amazon Devices & Services 等業者已開始採用 Omniverse 庫等技術,加速 AI 機器人開發與製造解決方案落地。
雲端與本地運算兼備的基礎設施
為支援上述高需求應用,NVIDIA 也推出 RTX PRO Blackwell 伺服器,為訓練、合成資料生成、機器人學習和模擬等每個機器人開發工作負載提供單一架構;並在 Microsoft Azure Marketplace 推出 DGX Cloud,提供開發者雲端管理平台,簡化基礎架構的編排和管理。
NVIDIA Omniverse 和模擬技術副總裁 Rev Lebaredian 表示,電腦圖形與 AI 的融合,正在從根本上改變機器人產業,結合可擴展且物理精確的模擬與 AI 推理,將推動下一代機器人與自動駕駛車的誕生。
*立即報名 8/15 【AI Agent 知識工作革命論壇】,解析企業如何在各工作場景導入 AI Agent 完成任務
*本文開放合作夥伴轉載,資料來源:《TechCrunch》、NVIDIA 1、NVIDIA 2,首圖來源:Unsplash
留言 0