請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

跌破眼鏡?中國DeepSeek公布R1訓練成本僅29.4萬美元

商傳媒

更新於 09月19日07:56 • 發布於 09月19日07:56 • service@sunmedia.tw (商傳媒 SUN MEDIA)

商傳媒|記者責任編輯/綜合外電報導

喧騰一時的中國AI新創DeepSeek罕見公開其核心模型訓練細節,根據《路透》報導,DeepSeek在《自然(Nature)》期刊最新發表的論文中指出,其推理導向模型R1僅耗資29.4萬美元即完成訓練,遠低於美國同業動輒上億美元的成本,再度引發業界關注美中在AI賽局中的定位。

論文進一步披露,DeepSeek旗下R1訓練使用512顆輝達(Nvidia)專為中國市場設計的H800晶片,總訓練時間約80小時;DeepSeek補充文件也首度坦承持有輝達A100晶片,運用在研發初期的小模型實驗中。

美國政府之前質疑DeepSeek可能取得受到出口管制的H100晶片,但輝達與DeepSeek均聲稱,正式使用的是合法管道取得的H800晶片。DeepSeek具備A100超算叢集的消息,恐怕將再次引發美方關注。

美國AI龍頭OpenAI執行長阿特曼(Sam Altman)2023年曾指出,其基礎模型訓練成本「遠高於1億美元」,儘管未公布具體數字;但相較於DeepSeek的低成本策略,已大大顛覆外界對AI發展門檻的認知。

DeepSeek今年1月推出低成本模型時,曾一度引發全球科技股大震盪,市場憂心其技術可能動搖輝達等AI巨頭的主導地位。自此之後,DeepSeek創辦人梁文峰便鮮少公開露面,僅偶爾發布產品更新。

此外,針對外界指控DeepSeek透過「模型蒸餾」(model distillation)複製OpenAI成果,DeepSeek尚未正面回應,僅強調蒸餾能降低成本並提升效能,有助擴大AI技術普及。文章中承認部分模型曾基於Meta開源的Llama進行蒸餾,而V3模型的訓練數據中亦包含大量OpenAI生成答案,但稱這屬於「間接獲取」,並非刻意行為。

美國官方與產業界仍對DeepSeek的真實技術來源存疑,但這次公開的低成本訓練數據,勢必將再次引發中國AI是否能以「高效能、低成本」路線,成功縮小與美國AI實力差距的激烈爭論。

查看原始文章

更多理財相關文章

01

產品遭美國海關暫扣! 巨大發緊急聲明:影響營收約4%~5%

中廣新聞網
02

快訊/經濟部證實自行車龍頭巨大公司涉不當勞動 即日起遭美國暫時禁止進口

太報
03

南非更名並降等台灣駐處 經濟部「回敬」晶片出口管制

商傳媒
04

捲入「台版馬多夫」保盛豐詐騙案 華南永昌投信累虧逾資本額1/2 

太報
05

0050持續霸榜、穩坐ETF存股王!00878、00919…高股息ETF的存股信心消失中?

Smart智富月刊
06

台股新高26307點、台積電1340元還能上車?他公式拆解:2330有400元空間、指數推升力3千點

今周刊
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...