請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經|小米(01810)開源首代機械人VLA大模型

Fortune Insight

更新於 02月12日05:17 • 發布於 02月12日05:17 • Fortune Insight

小米(01810)正式發布並開源首代機械人VLA(Vision-Language-Action)大模型Xiaomi-Robotics-0。

該模型擁有47億參數,核心解決了傳統VLA模型推理延遲、真機動作不連貫的行業痛點,兼具視覺語言理解與高性能即時執行能力,可在消費級顯卡上實現即時推理,在模擬測試和真機任務中均刷新多項SOTA成績。

小米技術在官方微信表示,Xiaomi-Robotics-0採用主流的Mixture-of-Transformers(MoT)架構,通過「視覺語言大腦(VLM)+動作執行小腦(Action Expert)」的組合,實現「感知-決策-執行」的高效閉環,兼顧通用理解與精細動作控制。

其中,「視覺語言大腦」以多模態VLM大模型為底座,負責理解人類的模糊指令(如「請把毛巾疊好」),並從高清視覺輸入中捕捉空間關係;「動作執行小腦」嵌入多層Diffusion Transformer(DiT),不直接輸出單一動作,而是生成一個「動作塊」(Action Chunk),並通過流匹配(Flow-matching)技術確保動作的精準度。

為避免模型學動作丟失基礎理解能力,小米設計了「跨模態預訓練+後訓練」的兩階段訓練方法,讓模型既懂常識又精通體力活。

小米已將Xiaomi-Robotics-0的技術主頁、開源代碼、模型權重全量開放,相關資源可分別在GitHub、Hugging Face等平台獲取。

Subscribe FORTUNE INSIGHT Telegram:
http://bit.ly/2M63TRO

Subscribe FORTUNE INSIGHT YouTube channel:
http://bit.ly/2FgJTen

查看原始文章

財經|雷軍:新一代SU7預計4月上市

Fortune Insight

科技|小米POCO M8 5G香港正式開售: 45W快充+5000萬像素鏡頭

Fortune Insight

財經|小米(01810)副董事長減持 累計出售不超過20億美元股份

Fortune Insight
查看更多
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...