Google 搭建無限乒乓對戰場 兩隻 AI 機械臂自我進化不間斷
Google DeepMind 正在英國倫敦南方上演一場堪比體壇馬拉松的機械對決——兩隻由人工智能驅動的機械臂正進行著一場「無限延長賽」的乒乓球對打。這場對打從 2022 年開啟,至今仍未停歇,目標不是決出勝負,而是透過持續競爭來不斷學習與優化策略。研究人員希望藉此打造出能作為人形機器人「大腦」的通用人工智能模型,未來能部署至家庭、工廠等各種現實場景中。
機械臂持續對戰
這對由 DeepMind 開發的機械臂在比賽中互相學習,藉由強化學習模型調整策略,讓每一次揮拍都成為進化的基礎。雖然目前這些機械臂仍無法擊敗進階人類選手,但在面對初學者時已具壓倒性優勢,與中階選手對戰時勝率約為五成,展現出「堅實的業餘人類表現」。這與 2010 年 John Isner 與 Nicolas Mahut 那場持續三天的網球史詩戰役相比,雖無比分終點,但意義上卻更加深遠。
從協作練習邁向競技實戰
一開始,研究人員設計的是讓機械臂進行協作回合,以建立基本的對打能力。然而隨著進展,工程師調整參數讓雙方試圖得分,結果反而導致回合大多迅速結束,顯示 AI 在處理新戰術時仍有遺忘舊策略的問題。為了解決這點,團隊引入真人對手讓機械臂進行對打,透過人類變化多端的打法與回球軌跡,顯著提升了機械臂的穩定性與策略多樣性。根據統計,機械臂在與人類進行的 29 場比賽中贏下了 45%,對中階玩家更達到 55% 的勝率。
Google Gemini 加入訓練流程
除了真人對打,DeepMind 還導入 Google Gemini 的視覺語言模型,讓這位「AI 教練」分析機械臂的影片表現,並提供如「將球打向右側」或「打出靠近網前的淺球」等策略性指令。這樣的反饋機制讓機械臂能在每一場比賽後即時調整打法,進一步提升實戰表現。
乒乓成為完美測場
選擇乒乓球作為訓練環境並非巧合。這項運動兼具高速反應、策略思維與精細運動控制,早自 1980 年代便成為機器人研究的經典測試場。對於要在現實中執行如搬運、協作等多樣任務的通用型機器人來說,能在乒乓球場上學會動態適應與決策的 AI 模型,正好對應未來所需的技能集。
雖然人形機器人如 Boston Dynamics 的 Atlas 已展示過驚人的動作能力,但那類展示多半高度腳本化,難以應付複雜多變的真實環境。DeepMind 的研究人員認為,若這種 AI 對戰學習方式能進一步擴展,或許將迎來機器人界的「ChatGPT 時刻」,讓人工智能從緩慢笨拙邁向真正有用。
NewMobileLife 網站:https://www.newmobilelife.com