請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

「沒有空間智慧,人工智慧就不完整」AI教母李飛飛的大世界模型是什麼?

遠見雜誌

更新於 06月11日09:43 • 發布於 06月11日07:51 • 傅莞淇

想打造「實體AI」,就得讓人工智慧(AI)掌握空間智慧。有「AI教母」之稱的李飛飛,正透過新創公司「World Labs」推進「大型世界模型」的願景。為何她相信空間智慧是補完人工智慧能力的關鍵拼圖?這樣的世界模型初期應用何在?AI的物理轉向,能啟動比大語言模型更廣泛的影響力嗎?

大語言模型(LLM)的發展,以自然語言為溝通基礎,根本性地改變了人與電腦互動的方式。新一波「實體AI」的願景,則想重新定義機器與物理世界互動的方式。

2024年成立新創公司「World Labs」的史丹佛大學教授李飛飛,近日接受a16z及No Priors播客專訪,分享團隊正在打造的「大型世界模型」(LWM)的願景。她指出,空間智慧在演化中扮演要角,動物及人類都擁有這樣的智慧,「沒有空間智慧,人工智慧就不完整。」

李飛飛已在人工智慧領域耕耘數十年,在電腦視覺領域有關鍵貢獻。尤其是透過打造「ImageNet」這個大規模的圖像資料庫,證明了數據在AI研發中的重要性。她也曾任Twitter董事會獨立成員、Google Cloud AI/ML首席科學家。

從視覺轉向空間智慧,是李飛飛研發生涯的自然一步。她解釋,自己長年研究視覺能力,「不需要LLM的出現,來說服我LWM是重要的。」但LLM的突破與進展,「確實讓我們感到距離LWM更近一步。」

在演化過程中,生物演化出眼睛這樣的器官接收光線,開始以視覺認識自己身處的世界,並逐漸對外在環境產生理解、推理並與之互動的能力,也就是更強大的智慧能力,可稱為「空間智慧」。透過經驗,生物對世界的物理原則有所理解,能夠在世界中導航、行動。這也是現前的AI還無法完整掌握的能力。

目前,大語言模型等AI模型展現的語言能力縱然令人印象深刻,但語言能力只是人類智慧的一個部分。就次序來說,在發展出語言能力之前,人類就已經透過空間智慧與實體世界互動,例如閃避障礙物、接住拋擲的物件等。

李飛飛解釋,語言適合傳遞思想與資訊,但對於人類所在的立體物理世界來說,語言不是最適合的編碼方式。從DNA螺旋結構到蛋白質折疊,語言不足以完整捕捉所有的實體事物結構。她表示,「語言並不存在(自然)世界中,而是被生成出來的。」

人工智慧的快速進展,讓科學家們更加大膽地追求過往看似遙遠的目標。李飛飛認為,AI已大致能掌握語言能力。她決定自己投入研發,解決「空間智慧」這個難題。

掌握空間智慧,才能開啟多元實體應用

World Labs在成立幾個月間,便成功融資2.3億美元。投資方包括Andreessen Horowitz、NEA、Radical Ventures,以及諸多業界知名人士,如貝尼奧夫(Marc Benioff)、施密特(Eric Schmidt)、辛頓(Geoffrey Hinton)、霍夫曼(Reid Hoffman)與卡帕西(Andrej Karpathy)等人。

對李飛飛來說,空間智慧不只是能夠認識外在世界,也包括能在腦中重建、理解這個立體世界,也才能規劃自己在世界中的行動。即使是人類,也需要訓練才能掌握這種能力。例如,要能閉上眼睛、在腦中精準重構遠方所見的建築物形狀及體量,可能只有建築師能做得精準。

打造空間智慧的難度相當高,可從自駕車的研發見得。科學家已在此領域耕耘將近20年,仍未開發出足夠理想的系統。但若要在物理世界中真正釋放人工智慧的潛能,空間智慧是必須克服的挑戰。也因此,若能打造出足夠完整的空間智慧,有望對實體世界帶來比LLM更大的影響。

目前的多模態模型可以生成文字、影像與影片,但它們依然是平面的。而世界模型生成的是空間。這個空間裡的物件符合幾何、物理原理,使用者可以與之互動、進行創造。

World Labs便正在打造一個可以掌握空間智慧,生成立體世界的基礎模型,期望後續開啟各種多元應用。

世界模型訓練不易,細部控制、介面設計都是難題

目前,訓練世界模型有兩種主流進路。一種是以影片為基礎,類似於用過去的影像幀與使用者輸入,預測未來的影像幀,藉此讓模型習得一致性等物理性質。這種作法的優點是現存大量高品質的影片資料可用於訓練,但模型對空間互動的掌握度可能不及World Labs採用的進路,也就是用文字或影像指令生成原生的3D再現。

採用3D原生法,World Labs已經研發出從單幅影像生成3D環境的技術。但這種作法的一大挑戰,是高品質的3D資料數量相當有限,而且標記不易進行。李飛飛承認,即使我們每分每秒都活在立體世界中,立體資料很難形式化傳遞。

此外,諸如修改生成場景中的特定物件、動態性地調整天氣條件等控制問題,以及根據不同專業需求,將模型能力整合進入工作流程的介面問題,也都還是尚待解決之挑戰。

為此,從電腦視覺、擴散模型,到資料與機器學習基礎建設等領域,World Labs已召集一批多元專業背景人才,合作破解空間智慧。其中也包括共同研發了神經輻射場(NeRF)的米爾登霍爾(Ben Mildenhall)。NeRF是一種神經網路模型,可使用空間定位和立體渲染,從一系列的2D影像生成完整的3D場景。

創意工作者將是首波受益者,無限元宇宙是遠程願景

就初期應用來說,李飛飛認為世界模型將對創意工作者很有幫助。就像現在LLM大幅加速了程式設計師的工作效能,有了可生成3D空間的世界模型後,工業設計師、遊戲開發者、電影製作人與建築師等職業的工作流程都能更加簡易、快速。

例如,透過指令與影像,電影製作人就可創建虛擬場景測試氛圍感受,機器工程師可在虛擬醫院裡訓練照護機器人,城市規劃師也可模擬城市景觀與基礎設施。

中長期而言,機器人發展也將獲益良多。李飛飛直言,「我毫不懷疑,人類將會進入一個與機器(人)共存的時代。但不只是人型機器人,而是各種形式、形狀的機器。」

各種實體化的機器智慧,都需要具備空間智慧,才能與實體世界中的其他行為者互動、協作。李飛飛認為,機器人可能更是一個系統整合的挑戰,需要高度多模態的系統,包括現在較受到忽視的觸覺能力;這在精細操作上可能相當重要。

遠程展望,世界模型可望開啟全新體驗的可能性,打造出無限個可即時互動的虛擬世界,讓人類突破現實世界體驗的局限。有如《一級玩家》(Ready Player One)中的「綠洲」,每個人都能在虛擬世界中探索、創造自己獨特的故事。

李飛飛在訪談中表示,如果能做出這樣的世界模型,她會想進入引擎或洗碗機內部,親眼看見它們運作的過程。

AI賦能人類,創造者更能無懼追夢

自身也是創業者的李飛飛,給其他創業者及科學家的建議是:保持無所畏懼(fearless)的心態。她解釋,無懼是一種巧妙的心理狀態,介於瘋狂妄想與理智無畏之間。如果太過理智,就會缺少挑戰非常龐大問題的勇氣。但若太過瘋狂,也很難踩對步伐。

她認為,無懼的外顯特質是充滿創意、具有野心,不害怕不確定性與未知。這也是李飛飛成立World Labs,挑戰空間智慧這個龐大難題的心態。

AI能力突飛猛進,讓人類得以用更快、更簡易的方式執行既有任務,或甚至是做到過去做不到的事。跨越「被AI取代」的焦慮,這可能是最好的「無懼追夢」的時代。

更多精采報導,歡迎加入《遠見》 Line官方帳號!

延伸閱讀:

查看原始文章

更多理財相關文章

01

【中獎清冊一次看】5-6月期統一發票開出17張特別獎 58元五金轉接頭中千萬獎

太報
02

不吹冷氣、「白飯+玉子燒」已是奢侈餐…他自創「每月零圓」生活法,45歲存到2千萬提早退休

幸福熟齡 X 今周刊
03

17.53億威力彩得主現身!三寶爸失眠2天 父子「大耳垂偏財運」資產配置曝光

鏡週刊
04

台灣關稅 20% 痛苦指數攀高峰!低毛利「九大產業」具高殺傷力

科技新報
05

跟著川普賺1/大而美法案助攻 這2檔ETF押到翻倍飆股今年狂噴

鏡週刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
查看更多

留言 0

沒有留言。

最新消息

台積電 2 奈米洩密案檢調介入調查,可能牽扯半導體設備大廠令業界震驚

科技新報

AI 基準測試平台 Kaggle Game Arena 登場,頂尖模型首戰西洋棋

科技新報

美6月貿易逆差縮小 進口商努力因應關稅影響

中央通訊社

微軟研究:這10種工作最危險!你中槍了嗎?

anue鉅亨網

顛覆刻板印象!Z世代最不愛全遠距工作 渴望面對面互動

anue鉅亨網

鉅亨速報 - Factset 最新調查:LATAM Airlines Group SA Sponsored ADR(LTM-US)EPS預估上修至4.43元,預估目標價為49.39元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Allison Transmission控股(ALSN-US)EPS預估下修至8.32元,預估目標價為102.50元

anue鉅亨網

鉅亨速報 - Factset 最新調查:派拉蒙全球(PARA-US)EPS預估上修至1.29元,預估目標價為11.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Rocket Lab USA IncRKLB-US的目標價調升至42.5元,幅度約13.33%

anue鉅亨網

開發冷板散熱技術!國碩自研「Di-Fin 直接成型鰭片技術」亮相

科技新報

「日本人型機器人之父」石黑浩確定來台!下月 SEMICON 登台開講

科技新報

盤中速報 - CFX大跌8.84%,報0.2082美元

anue鉅亨網

因應大電流供應挑戰,村田製作所 OCP 大秀高靈活電源管理解決方案

科技新報

合成生物學之父 George Church 演講!基因編輯神手分享 AI 生技製藥應用

科技新報

茂訊 本公司處分Mildef Group AB股票

MoneyDJ理財網

8/5~8/11 限定!LINE 貼圖《PP mini 小小企鵝》變身動畫主角快閃 2025 台灣文博會黑潮星樂園

ifans 林小旭

美降息前景不明 歐股收盤漲跌互見

中央通訊社

博通布局開放性資料中心網路方案,挑戰輝達 NVLink 與 NVSwitch 生態系

科技新報

交通部成立AI推動委員會 擘劃創新應用及治理

anue鉅亨網

〈房產〉現代化商辦需求提升中 新北市沿捷運開發以新莊最熱門

anue鉅亨網

馬來西亞關稅塵埃落定 戰略性外交換取19%稅率 但經濟提振有限

優分析

電視面板價格跌勢收斂,部分尺寸止穩

科技新報

杜邦上調全年展望 第二季業績強勁抵銷關稅衝擊

anue鉅亨網

鉅亨速報 - Factset 最新調查:CNH Industrial NV(CNH-US)EPS預估下修至0.61元,預估目標價為15.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:美卡多(MELI-US)EPS預估下修至47.77元,預估目標價為2,887.50元

anue鉅亨網

鉅亨速報 - Factset 最新調查:BWX科技(BWXT-US)EPS預估上修至3.61元,預估目標價為155.00元

anue鉅亨網

鉅亨速報 - Factset 最新調查:Wayfair公司(W-US)EPS預估上修至1.83元,預估目標價為81.00元

anue鉅亨網

台積電2奈米外洩  陸行之:應告Rapidus東京威力科創、至少拿20%技術股權

太報

鉅亨速報 - Factset 最新調查:BWX科技BWXT-US的目標價調升至155元,幅度約3.33%

anue鉅亨網

鉅亨速報 - Factset 最新調查:Antero Midstream CorpAM-US的目標價調升至18元,幅度約5.88%

anue鉅亨網

川普對普丁失去耐心 嗆油價再跌10美元俄就沒錢打仗

anue鉅亨網

外匯速報 - 美元/墨西哥披索(USDMXN) 大跌0.79%,報18.7447元

anue鉅亨網

倒數24小時!川普揚言對印度加徵更高關稅 施壓終止購買俄國原油

anue鉅亨網

盤中速報 - SuperRare大漲20.97%,報0.062美元

anue鉅亨網

盤中速報 - Bonk大跌8.19%,報0美元

anue鉅亨網

傳 SK 海力士 HBM4 報價大漲 70%,與 NVIDIA 追加談判陷膠著

科技新報

台股創5個月新高 AI族群.中小股齊衝下一步?上週ETF受益人增減看誰是人氣王?

民視新聞網
影音

台股創5個月新高 AI族群.中小股齊衝下一步?上週ETF受益人增減看誰是人氣王?

民視新聞影音

川普計畫對藥品先徵收「小額關稅」 一週內公布細節

優分析

MM行事曆

財經M平方行事曆