美國新創 Skild AI 發表機器人共享大腦,為何敢稱「真正的」機器人模型?
日前獲得亞馬遜、NVIDIA、軟銀與三星投資的美國機器人新創 Skild AI,在 29 日正式發表核心產品「Skild Brain」。這是一款幾乎能在任何機器人上運行的通用 AI 模型,包含從工廠機器手臂、四足機器狗到人形機器人,並讓機器人更像人類一樣思考、導航和回應。
在演示影片中,Skild Brain 驅動的機器人可以爬樓梯、在推擠下保持平衡,並在雜亂環境中拾取物品。根據 Skild AI 最新說明,這項技術具備與人共處的安全性,因為它在訓練過程中強調低力度操作,並對人類互動具高度適應能力,《Technical.ly》報導觀察,這在其他 AI 模型中比較少見,或是還做得不夠好。
Skild AI 總裁暨共同創辦人 Abhinav Gupta 在社群平台 X 分享,他最喜歡的是機器人爬樓梯時被人拉扯的演示場景,「要知道,爬樓梯比跳舞或模仿功夫動作還難,因為這不是單純的自由空間行動,而是需要依賴視覺進行精確控制。」
Skild AI 強調真本事,不是「灑點資料」的 VLM
Skild AI 在官方部落格指出,打造機器人 AI 模型的最大挑戰之一,是缺乏大規模的機器人數據,但是使用硬體收集真實世界的資料速度慢且成本高昂,因此許多研究人員和競爭對手迴避了這個問題,直接拿現成的視覺語言模型(VLM),再加上一點點、不到 1% 的機器人實際操作的資料改裝,就聲稱是機器人基礎模型。
「但這樣真的是機器人基礎模型嗎?」Skild AI 質疑,大型語言模型確實懂得很多語意上的資訊,但缺乏真正落地可操作的動作常識,只能執行「拿起來、放過去」這類簡單任務。Skild AI 表示,自家獨特之處在於能夠獲得足夠的資料來訓練 AI 模型,打造「真正的」機器人基礎模型,而不是「偽裝的 VLM」。
那麼,Skild AI 怎麼取得夠大量的動作數據並達到通用性?Skild AI 指出,所謂的「大規模」資料,不是幾百萬或幾十億筆資料,而是必須累積到「兆級」數據。
他們除了運用團隊在自監督學習與模仿學習領域的研究成果,還採用兩階段訓練法:先以大規模模擬場景與網路人類動作影片進行預訓練,再透過實際部署後回傳的資料微調模型,使模型能跨平台學習並具備適應能力。此外,該模型採用階層式架構:高階決策系統負責導航與動作規劃,低階控制系統則轉換為具體關節與馬達指令,能在多種機型中通用,甚至包括模擬人類動作。
從使用端蒐集數據,同步打造「共享大腦」
Skild AI 共同創辦人 Abhinav Gupta 告訴《Reuters》,客戶部署的機器人會將運作過程中的數據回傳給 Skild Brain,進一步強化其技能,這就像打造一個「共享大腦」的機制。
根據《Reuters》報導,Skild 的客戶包括 LG 集團旗下的 IT 解決方案部門 LG CNS,以及其他未具名、活躍於物流與工業應用領域的合作夥伴。
Skild AI 目標是打造一套可通用於各種機器人與任務的機器人大腦,已於今年 4 月完成 B 輪募資,金額高達 5 億美元,估值一舉攀升至 47 億美元。這家來自匹茲堡的新創公司僅創立兩年,背後投資者還包括 Menlo Ventures、Sequoia Capital 以及亞馬遜創辦人貝佐斯本人。
Skild AI 表示,接下來接下來的一個月內,將深入介紹演示影片中展示的各項能力,說明他們的基礎模型如何透過持續訓練與演算法創新變得更加強大,以及模型在過程中自然發展出的新行為或能力。
- 立即報名 8/15 【AI Agent 知識工作革命論壇】,解析企業如何在各工作場景導入 AI Agent 完成任務
*本文開放合作夥伴轉載,資料來源:《Reuters》、《Technical.ly》、Skild AI、Abhinav Gupta,首圖來源:擷取自 Skild AI
留言 0