【華為晶片卡關】DeepSeek 曾爆紅震撼矽谷,新 AI 模型傳延後推出
《Financial Times》報導,中國 AI 公司 DeepSeek 因無法使用華為晶片完成新模型的訓練,延後了新模型的推出時程,凸顯北京取代美國科技的政策在實務上仍有限制。
三位知情人士向《Financial Times》透露,DeepSeek 在今年 1 月推出 R1 模型後,曾在官方鼓勵下,改採華為的昇騰處理器,而非使用 NVIDIA 系統。然而,該新創在利用昇騰晶片訓練 R2 模型時,不斷遭遇技術問題,最後只能改用 NVIDIA 晶片進行訓練,僅在推論(inference)階段使用華為晶片。
華為晶片技術遇瓶頸,DeepSeek R2 延後上市
《Financial Times》提及,這些問題是導致 R2 從原定 5 月延後發表的主因,使 DeepSeek 在競爭中失去先機。所謂「訓練」是指模型從大量資料中學習的過程;而「推論」則是指利用已訓練好的模型來進行預測或生成回應,例如回答聊天機器人的提問。
DeepSeek 的困境顯示,中國自製晶片在關鍵任務上仍落後美國同業,反映中國在追求科技自給自足的過程中所面臨的挑戰。
先前《Financial Times》曾報導,北京方面已要求中國科技公司必須說明購買 NVIDIA H20 晶片的理由,以此推動採用華為與寒武紀等國產替代品。然而產業人士指出,中國晶片與 NVIDIA 產品相比,在穩定性、晶片間連線速度以及軟體支援方面都有差距。
兩位知情人士向《Financial Times》表示,華為曾派工程團隊進駐 DeepSeek 協助使用昇騰晶片開發 R2 模型,但即便有華為團隊在場,DeepSeek 仍未能在昇騰晶片上完成功的訓練。據悉,DeepSeek 仍在與華為合作,嘗試讓該模型在推論階段相容昇騰晶片。
中國 AI 發展受限?DeepSeek 面臨成長考驗
DeepSeek 的中國 AI 應用程式曾經震撼矽谷,一夜之間,DeepSeek-R1 飆升至美國 Apple 應用程式排行榜的免費下載榜首。該公司當時宣稱,新推出的聊天機器人可與 ChatGPT 媲美,而且開發成本僅為 ChatGPT 的一小部分。
這些說法加上應用程式的突然爆紅,使晶片巨頭 NVIDIA 市值一天蒸發約 6,000 億美元,跌幅達 17%,創下美國股市單一股票單日最大市值損失紀錄。
然而《BBC》指出,AI 的發展看似又回到過去熟悉的路徑,仰賴更多資料中心、更多晶片,以及更多電力。換句話說,DeepSeek 對既有格局的衝擊並未持續太久。
澳洲雪梨科技大學副教授 Marina Zhang 說明,DeepSeek 現在面臨維持成長動能的挑戰,該公司下一款產品 DeepSeek-R2 傳出延後推出,原因之一便是高階晶片供應短缺。由此可見,「除了營運上的挫折,DeepSeek 也受到美國與中國企業的激烈競爭影響,」Marina Zhang 表示。
模型本質可替換,專家樂觀看待稱「成長陣痛期」
加州大學柏克萊分校 AI 研究員 Ritwik Gupta 則表示,「模型本質上是可以輕易替換的商品」,不少開發者已經改用阿里巴巴的 Qwen3 系列,他近一步指出,Qwen3 採用了 DeepSeek 的核心理念,例如具備推理能力的訓練演算法,且優化了使用效率。
Ritwik Gupta 長期追蹤華為的 AI 生態系,他認為華為在使用昇騰晶片進行訓練時正處於「成長陣痛期」,預期這家中國的「領頭企業」終會適應。「現在沒看到用華為訓練的頂尖模型,不代表未來不可能有。」Ritwik Gupta 補充。
*本文開放合作夥伴轉載,資料來源:《Financial Times》、《BBC》,圖片來源:Unsplash。
留言 0