DeepSeek新AI模型因華為難產　凸顯中國晶片技術仍差輝達一截

更新於 1小時前 • 發布於 1小時前 • 王能斌

DeepSeek在開發新版AI模型時，遵循北京指示使用華為昇騰晶片進行訓練，未料卻導致問題重重，使該公司在與同業的競爭中落後。（資料照片／美聯社）

在去年推出具有高成本效益人工智慧模型，猶如武林高手般橫空出世而廣受全球矚目的中國新創企業深度求索（DeepSeek），原本計畫在今年5月時推出新版的R2模型，但金融時報揭露，該公司由於使用華為研製的昇騰系列晶片，而非全球主流輝達晶片進行訓練，因此不斷遭遇技術困境，從而使R2模型的發表一再延期，凸顯出美國晶片禁令，以及中國晶片技術的瓶頸。

金融時報（FT）指出，根據3名知情人士說法，DeepSeek在今年元月推出R1模型之後，受到監管當局敦促採用華為（Huawei）所研製的昇騰（Ascend）晶片，取代搭載輝達（NVIDIA）晶片的平台，然而這樣的決策，使得DeepSeek在進行R2模型訓練時不斷面臨著技術問題，從而使該公司決定重拾輝達晶片進行訓練，並且以華為晶片進行推理，但這樣的轉折讓DeepSeek無法在原定的5月推出新版模型，從而在產業競爭之中屈居下風。

報導指出，人工智慧（AI）的訓練，主要是模型透過大型資料庫進行學習，推理則是使用現有的訓練用模型，進行預測或是產生回應（例如聊天機器人的回覆）等相關行為訓練。

因此，報導認為DeepSeek新模型研發所面臨的困境，似乎凸顯出在美國晶片禁令之下，中國自主研發、試圖取代競爭者的產品，在關鍵應用方面仍有明顯的差距，從而在實現技術自給自足的道路上，正面臨著重大挑戰。業界人士指出，與輝達產品相比，中國研製的晶片穩定性明顯不足，且晶片之間通訊的速度較慢，軟體能力也差了一截。

根據2名知情人士說法，為了解決技術問題，華為派遣了工程師組成的團隊前往DeepSeek公司，協助R2模型的開發，雖然DeepSeek創辦人梁文鋒對於R2模型進展遲滯感到不滿，但即便有工程團隊進駐，DeepSeek仍然無法成功使用華為晶片進行訓練，且雙方迄今仍在努力合作解決問題。

對此，加州大學柏克萊分校（University of California, Berkeley）AI研究員古普塔（Ritwik Gupta）指出，在AI市場之中，模型是很容易被汰換的商品，且目前很多開發者都在使用阿里巴巴所推出、相較之下更加強大且更靈活的Qwen3，該模型使用了DeepSeek包括訓練用的演算法等概念，使其具備推理能力，但同時也進行了許多調整，使其更富有效率。

因此古普塔認為，雖然DeepSeek使用華為晶片進行訓練時面臨了「生長痛」，但是該公司最終將會找出應對之道。

查看原始文章