【馬斯克最強 AI Grok 4 登場】結合特斯拉、人形機器人計畫曝光,但信任問題未解
馬斯克旗下 AI 公司 xAI 於週三晚間發表兩款最新旗艦模型:Grok 4 與 Grok 4 Heavy。馬斯克將 Grok 4 稱為「全球最聰明的 AI」,強調它能解決許多現實世界中的艱難工程問題,而這些問題在網路與書籍上都找不到答案。他也表示,Grok 4 還會不斷進化。
Grok 4 宣稱最強 AI,基準測試超越 OpenAI、Google
Grok 4 為單代理推理模型,Grok 4 Heavy 則採用多代理架構,透過內部協作與綜合理解處理複雜任務。兩款模型皆針對推理能力優化,並支援工具整合、網頁搜尋、程式執行與多模態輸入。
據《TechCrunch》報導,xAI 宣稱 Grok 在多項基準測試中表現領先。在「人類最後的考試」(Humanity’s Last Exam)中,Grok 於不使用工具的情況下取得 24.5% 成績,勝過 Google Gemini 2.5 Pro(21.6%)與 OpenAI o3 高階版本(21%);結合工具後可達 44.4% 成績。
獨立分析機構 Artificial Analysis 在 Grok 4 正式發表前取得早期使用權,其評測顯示,Grok 4 在其 AI 能力指數中得分 73,領先 OpenAI o3(70)、Gemini 2.5 Pro(70)、Claude 4 Opus(64)與 DeepSeek R1 0528(68),在程式與數學領域整體表現也居於前列。
不過,《VentureBeat》指出,xAI 尚未公布 Grok 4 的模型卡與技術細節,使外界難以獨立驗證其效能。此外,Grok 4 每秒可產出 75 個 token,雖優於 Claude 4 Opus(66 token),但仍落後 Gemini 2.5 Flash(353 token)與 OpenAI o3(187 token)。上下文長度方面,Grok 4 支援 25.6 萬 token,優於 o3 與 Claude Sonnet 的 20 萬 token,但仍不及 GPT-4.1 與 Gemini Pro 的 100 萬 token 。
馬斯克的野心:Grok 將導入特斯拉與人形機器人
另外值得關注的是,馬斯克希望讓 Grok 透過人形機器人與世界互動。《The Verge》報導,馬斯克提到:「我預計 Grok 最遲在明年,甚至可能是今年底,就能發現真正有用的技術」、「它(Grok) 明年或許還會發現新的物理學,讓我們拭目以待吧」,暗指 Grok 可能在年底或明年初結合人形機器人。
xAI 發表會之後,馬斯克週四更在社群平台 X 發文表示,Grok AI 最遲將於下週導入特斯拉車輛。根據《Reuters》報導,馬斯克先前曾表示特斯拉車輛將搭載 Grok,但過去未曾透露具體時間表。
Grok 引爆信任爭議,模型是否可信成焦點
Grok 4 的發表在產業界引發兩極反應:一方面對其效能表現感到興奮,另一方面則批評更廣泛的信任問題。
《VentureBeat》報導,華頓商學院教授 Ethan Mollick 在 X 上評論,Grok 曾三度因為未經審查的政策變更,引發大規模倫理爭議,呼籲 xAI 若重視信任應更透明。他補充,「Grok 3 是很棒的模型,Grok 也許非常厲害,但現在已有很多很棒的模型,你真正需要的是『可以信任』的 AI。」
事實上,Grok 4 的發表正值輿論關注 Grok 不當行為之際。7/4 開始,Grok 被爆出現大量的反猶太與陰謀論回應──像是詢問猶太人在好萊塢的影響力時,聲稱帶有猶太姓氏的人符合「某種參與極端左派行動的模式」。《TechCrunch》實測 Grok 4,更發現該模型在回答爭議性問題時會參考馬斯克個人觀點──先在 X 上搜尋馬斯克的想法、然後在網路上搜尋馬斯克的觀點。
《華爾街日報》指出,Grok 的故事顯示玩弄 AI 黑盒子的風險,而管理原則的改變可能會導致難以預測的輸出結果,並強調 xAI 用來告訴 Grok 什麼是好答案、壞答案的「評估指標」也沒有公開。《Forbes》一則評論指出,xAI 發表會沒有針對 AI 安全風險提出任何因應策略,對於一個被定位為協助新藥研發、未來還將整合進機器人與自駕車的系統而言,這樣的忽略格外明顯。
募資已達百億美元,市場仍願押注 xAI
xAI 的爭議自今年 5 月就開始不斷延燒,但是外界罵歸罵似乎還是「願意給錢」。根據《CNBC》7 月初報導,xAI 已籌得總計 100 億美元的債務與股權資金,此輪資金為 xAI 提供更充足的資源,用以擴建基礎設施並持續開發旗下 AI 聊天機器人 Grok,與其 OpenAI、 Anthropic 在內的眾多對手競爭。
*本文開放合作夥伴轉載,資料來源:《VentureBeat》、Artificial Analysis、《Reuters》、《The Verge》、《TechCrunch》1、《TechCrunch》2、《Forbes》、《CNBC》,首圖來源:擷取自 xAI
留言 0