DeepSeek新AI模型因華為難產 凸顯中國晶片技術仍差輝達一截
在去年推出具有高成本效益人工智慧模型,猶如武林高手般橫空出世而廣受全球矚目的中國新創企業深度求索(DeepSeek),原本計畫在今年5月時推出新版的R2模型,但金融時報揭露,該公司由於使用華為研製的昇騰系列晶片,而非全球主流輝達晶片進行訓練,因此不斷遭遇技術困境,從而使R2模型的發表一再延期,凸顯出美國晶片禁令,以及中國晶片技術的瓶頸。
金融時報(FT)指出,根據3名知情人士說法,DeepSeek在今年元月推出R1模型之後,受到監管當局敦促採用華為(Huawei)所研製的昇騰(Ascend)晶片,取代搭載輝達(NVIDIA)晶片的平台,然而這樣的決策,使得DeepSeek在進行R2模型訓練時不斷面臨著技術問題,從而使該公司決定重拾輝達晶片進行訓練,並且以華為晶片進行推理,但這樣的轉折讓DeepSeek無法在原定的5月推出新版模型,從而在產業競爭之中屈居下風。
報導指出,人工智慧(AI)的訓練,主要是模型透過大型資料庫進行學習,推理則是使用現有的訓練用模型,進行預測或是產生回應(例如聊天機器人的回覆)等相關行為訓練。
因此,報導認為DeepSeek新模型研發所面臨的困境,似乎凸顯出在美國晶片禁令之下,中國自主研發、試圖取代競爭者的產品,在關鍵應用方面仍有明顯的差距,從而在實現技術自給自足的道路上,正面臨著重大挑戰。業界人士指出,與輝達產品相比,中國研製的晶片穩定性明顯不足,且晶片之間通訊的速度較慢,軟體能力也差了一截。
根據2名知情人士說法,為了解決技術問題,華為派遣了工程師組成的團隊前往DeepSeek公司,協助R2模型的開發,雖然DeepSeek創辦人梁文鋒對於R2模型進展遲滯感到不滿,但即便有工程團隊進駐,DeepSeek仍然無法成功使用華為晶片進行訓練,且雙方迄今仍在努力合作解決問題。
對此,加州大學柏克萊分校(University of California, Berkeley)AI研究員古普塔(Ritwik Gupta)指出,在AI市場之中,模型是很容易被汰換的商品,且目前很多開發者都在使用阿里巴巴所推出、相較之下更加強大且更靈活的Qwen3,該模型使用了DeepSeek包括訓練用的演算法等概念,使其具備推理能力,但同時也進行了許多調整,使其更富有效率。
因此古普塔認為,雖然DeepSeek使用華為晶片進行訓練時面臨了「生長痛」,但是該公司最終將會找出應對之道。
顯示全部
留言 2