字節跳動發表通用機器人 AI 模型 GR-3,用 3 設計搶攻機器人「大腦」
除了美國,中國企業也積極進軍 AI 機器人「大腦」領域。字節跳動旗下 Seeds 正式發表通用機器人模型 GR-3──這是一款大規模的 VLA (視覺-語言-動作)模型,主打能理解抽象概念的語言指令、精細操作柔性物體,具備面對新物體與新環境的通用能力。同時,Seeds 也展示一款搭載該模型的雙臂移動機器人 ByteMini。
GR-3:能處理柔性物體,執行多步驟任務
字節跳動表示,GR-3 是邁向打造通用機器人「大腦」的重要一步,強調與傳統大量機器人軌跡訓練的 VLA 模型不同, GR-3 只需少量的人類資料微調就能遷移至新任務、認識新物體。
舉例來說,該團隊透過 VR (虛擬實境)裝置蒐集人類操作資料,在針對新物品的操作任務中,只需每件物品的 10 條人類操作軌跡,就能將模型成功率從不到 60% 提升至 80%以上。
GR-3 另一亮點是「長序列任務」與「柔性物體操作」能力。字節跳動表示,在實驗中,GR-3 能完成包括整理餐桌、掛衣服等多步驟任務,並且準確依照語言指令逐步執行。在複雜的掛衣任務中,GR-3 能控制機器人雙臂共同操作持續變形的柔性物體,並且識別、整理不同的衣物。
GR-3 如何擁有這些能力?
根據字節跳動,GR-3 的能力來自三項關鍵設計。首先是融合語言理解、動作規劃與視覺辨識的「機器人大腦」。GR-3 採用新型 Mixture-of-Transformers(MoT)網路架構,將視覺-語言模組與動作生成模組,形成一個參數規模達 40 億的端到端大模型。動作生成模組則採用 Diffusion Transformer(DiT),結合 Flow-Matching 技術與 RMSNorm 正規化,提升對長序列語言指令的反應與穩定性。
這樣的設計,能讓 GR-3 能像人類一樣,先透過視覺與語言接收外界資訊,再即時規劃對應行動。例如在看見餐桌、聽見「收拾」指令後,GR-3 能自動完成「打包剩菜 → 收拾餐具 → 倒垃圾」的連續操作序列。
第二是多元化的模型訓練方法。GR-3 結合三大來源進行學習,包括:透過 VR 裝置蒐集的用戶授權人類操作軌跡、透過遙控操作方式蒐集高品質機器人真機操作資料,以及公開的大規模視覺語言資料來學習抽象語意。
第三,為了讓 GR-3 模型能夠在真實場域中發揮最大效能,字節跳動同步設計雙臂行動機器人 ByteMini 作為專屬載體。ByteMini 擁有 22 個全身自由度與無偏置的 7 自由度機械臂,並採用球型手腕結構,可靈活執行細部操作。除此,字節跳動強調 ByteMini 全身運動控制系統能產生更平滑、柔順的動作軌跡,並在手腕、頭部搭載多顆攝影鏡頭,強化感知能力。
根據字節跳動,其後續將擴大模型規模、訓練資料量,並導入強化學習技術,突破目前模仿學習方法的侷限。
*立即報名 8/13【製造業資安論壇】,解析如何實踐「Security Native 資安原生」確保供應鏈的安全與穩定
留言 0