請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

財經

Sam Altman完勝馬斯克! GPT西洋棋碾壓Grok4 暴露LLM致命缺陷

CFTime

發布於 4小時前

Sam Altman完勝馬斯克!日前Google Kaggle Game Arena舉辦了一場備受矚目的AI西洋棋表演賽,Sam Altman 的 OpenAI o3 模型(已隨 GPT-5 發布而停止使用)以四比零的絕對優勢擊敗馬斯克的 xAI Grok 4 模型, GPT西洋棋碾壓Grok4,引發業界對大型語言模型(LLM)在專業遊戲領域能力的重新思考。

這場為期三天的比賽(8月5日至7日)別具特色,參賽的通用型聊天機械人,例如 OpenAI o3 和 xAI Grok 4,均未接受任何專業的西洋棋訓練,僅依靠從網路上學習到的知識進行比賽。 比賽結果顯示,這些號稱接近人類智慧水平的 AI,其西洋棋水平卻令人大跌眼鏡。世界西洋棋冠軍 Magnus Carlsen 將兩款 AI 的棋力評估為約 800 ELO,遠低於他本人 2839 分的 Elo 等級,甚至不如近期才學會規則的業餘玩家。 Carlsen 形容 AI 的表現為「在非常好的棋步和令人費解的連續棋步之間搖擺不定」,甚至戲稱 Grok 的走法像是「在玩國王山」。

AI西洋棋表演賽賽果。

比賽過程充斥著低級失誤。Grok 在首局比賽中輕易送出重要棋子,之後更在劣勢下持續交換棋子,雪上加霜。第二局比賽,Grok 嘗試執行「毒兵」策略卻抓錯棋子,導致皇后被俘。第三局比賽,Grok 建立了看似穩固的陣型,卻在中局連續損失多枚棋子。

值得注意的是,Grok 在與 o3 對決之前表現亮眼,甚至獲得西洋棋大師 Hikaru Nakamura 的讚譽:「客觀地說,Grok 到目前為止絕對是最好的。」 然而,在與 o3 的比賽中,Grok 的表現卻急轉直下。 儘管 o3 在第四局比賽早期也犯下重大失誤,但最終仍憑藉穩定的殘局處理能力取得勝利。 Nakamura 評論道:「Grok 在這些比賽中犯了太多錯誤,但 OpenAI 沒有。」

比賽結果與 Musk 在 X 平台上發表的言論形成鮮明對比。 他在 Grok 早期表現強勢後聲稱,其 AI 的西洋棋能力僅為「副作用」,xAI「幾乎沒有在西洋棋上下功夫」。 此番言論顯然與比賽結果相悖。

本次比賽與國際象棋大師 Levy Rozman 今年早些時候舉辦的比賽有所不同。Rozman 的比賽中,AI 頻頻出現違規走法、棋子召喚和錯誤計算等問題,最終由專門設計的西洋棋 AI Stockfish 奪冠,當時 Altman 的 AI 也在半決賽中擊敗了 Musk 的 AI(2比0)。 而本次比賽則增加了規則,AI 若四次走非法棋步則直接判負,有效避免了此類情況。 Google 的 Gemini 模型則獲得第三名。

比賽結果顯示,即使是號稱接近人類智慧水平的 LLM,在需要專業知識和策略的遊戲領域仍然存在明顯的局限性。 Carlsen 指出,AI 更擅長計算已損失的棋子數量,而非實際將死對手,理解物質優勢卻無法將其轉化為勝利。 這也再次提醒人們,儘管 AI 技術快速發展,但距離真正的人工智慧仍有相當的距離。 目前,AI 對人類的威脅,至少在西洋棋領域,尚不足為慮。

Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...

最新內容

港股收市升643點重上25000 ATM升4至6%騰訊音樂飊15%

商台新聞

吸引人才|施永青反對花資源鼓勵生育 香港只需人口政策吸人才 倡降低永久居民門檻至5年

BossMind

【美股事務所】迫鮑SIR減息美股全線上升美股強弩之末?|期權 UAL DAL NVDA CRWV TSLA CRCL|彭偉新 2025-08-13|菠蘿包工作室 BoLoo Finance

郭思治工作室

普華永道料中國娛樂媒體業年複合增長4.5% 高於全球平均

商台新聞

菲林巨頭柯達Kodak恐成歷史 資金流枯竭無力償還39億債務

am730

財經|中國商務部對歐盟兩家銀行列入反制清單

Fortune Insight

黃竹坑站Blue Coast擬日內上載價單 提供不少於56伙

on.cc 東網

豪宅SHOUSON PEAK連錄2宗撻訂 旋即勁減4成重售 創項目歷史新低

易發睇樓團

彭博:恒大清盤人與瑞銀及中信證券合作 為恒大物業尋找買家

商台新聞

內地股市收市造好 深證成指升逾1%

商台新聞

貴租難頂!屯門租客擲410萬買豫豐花園兩房 上手5年蝕近120萬|二手樓成交

am730

首季香港及內地樓價按年跌6.5%及7.5% 表現全球最差

on.cc 東網

彭博:港金融業興旺 美資投行憂華府針對

商台新聞

美股港股狂潮🍾潛力股大揭秘⭐️騰訊市值新篇😃8月13日星期三黃德几 DickieFinance事UpYouTube channel證券投資分析證書課程😎九月新班現正招生😍查詢熱線2116 3060🎊

黃德几 Dickie投資得機 Finance事Up

金管會辦ETF投資博覽會 高雄10/17首度登場

中天新聞網

本地|香港電腦節8.22會展開鑼 設逾800個展位

Fortune Insight

小米升近3% 上季重奪東南亞智能手機市場No.1

on.cc 東網

尖沙咀FILA、G2000、Brand Off商舖大執位 FILA月租70萬入駐美麗華

易發睇樓團

財經|金管總局:貸款經辦銀行須聚焦8類消費行業

Fortune Insight

南向資金淨流入逾9100億 券商指港股仍具配置價值

商台新聞

內地生合租叠茵庭兩房 預繳一年錢 月租1.3萬元

on.cc 東網

啟德本月租盤成交近百宗 啟德海灣低層一房月租1.55萬|半新盤租賃

am730

美國經濟|美通脹降溫減息預期升溫 特朗普再施壓降息 威脅對鮑威爾起訴

BossMind

王興興:AI水平不足成機械人最大難題 距離入屋仍比較遠

on.cc 東網

實戰應用2:機械人行業選股

HKMoneyClub

國際|美俄峰會據報阿拉斯加美軍基地舉行

Fortune Insight

【多相】每日逾10組客爭睇!靚裝兩房765萬沽 4年跌價百萬

on.cc 東網

摩通:快手為最被低估AI股 外賣業務屬輕資產模式

商台新聞

機組人員想買東環海景高層戶遭截糊 後睇中單邊園景兩房蝕讓盤唔諗即買|二手樓成交

am730

特朗普轟高盛關稅預測「睇錯市」 嘲CEO不如專注做DJ

am730

特朗普要求高盛撤換經濟學家 建議蘇德巍專注做DJ

商台新聞

張曦嵐:港股升勢持續 有望再戰呢個位...

on.cc 東網

瑞士百達:美股看好銀行板塊 AI股不容錯過

on.cc 東網

瑞士百達:港股後市呈現高估值和高流動情況

on.cc 東網

內地據報約談騰訊等科企 了解採購英偉達H20晶片原因

on.cc 東網

人工智能|AI初創Perplexity蛇吞象 高達345億美元收購Chrome 金額遠超公司估值近倍

BossMind

亞視澄清業務方向 終止佔收益四成布料加工業務 續停牌(更新)

am730

以太幣突破4600美元!機構瘋狂囤幣,ETF流入創歷史記錄

HKMoneyClub

AI初創「蛇吞象」?Perplexity擬斥2700億收購Chrome 挑戰Google霸權

am730

渣打推基金投資平台SC Invest 入場門檻100元

on.cc 東網