DeepSeek抄襲OpenAI？是大外宣嗎？中國突破美國管制？一次看懂DeepSeek

更新於 04月15日04:10 • 發布於 02月07日04:01 • 陳竫詒

Deepeek挑戰了這幾年AI熱潮大家的信念，

一個是輝達在AI晶片的獨霸，會不會其實根本不需要那麼多高階的晶片，就可以做到？
一個是美國的主導地位，原來可以被小成本的後進者超越？美國阻止不了中國的創新？

同時，更帶出了許多疑問。

DeepSeek選在川普就職發表新模型，是不是大外宣？
中國AI這麼強嗎？
中國如何突破美國管制？
DeepSeek突破了什麼？技術真假為何？
真的不用輝達高階晶片嗎？
前身幻方量化在幹嘛？賺那麼多嗎？
和中國政府關係？
DeepSeek能走多遠
抄襲OpenAI？

DeepSeek是大外宣嗎？為什麼這個時候宣布新的模型？

「選擇在川普就職日發布新模型，是深思熟慮的結果，」國際研究中心（CSIS）研究員艾倫（Gregory C. Allen）表示，傳達訊息的時間和方式，就是中國政府希望大家都明白，出口管制沒有作用，美國不是人工智慧唯一的領先者。

這幾週發布的中國新模型，除了DeepSeek之外，還有好幾個。阿里巴巴的通義千問（Qwen）、騰訊的混元大模型，還有號稱比GPT-4o 低10 倍的MiniMax 01都趕在農曆過年前發布。

市場研究公司Constellation Research首席分析師Ray Wang認為，「這顯然是心理戰，」要在通用AI（AGI）的賽道脫穎而出難度太高，但是在效率上領先，就夠讓人驚艷。IDC的分析也有相同觀點，中國希望表明，在科技領域依然是不可忽視的力量。

中國AI這麼強嗎？

中國本來就不弱。根據中國信息通信研究所去年發布的白皮書，全球AI大語言模型數量已經達到1328個，其中36%來自於中國，僅次於美國。

人工智慧的發展三大要素，晶片、人才和數據資料。

中國政府積極培養相關人才。《BBC》指出，中國頂大正在創建快速成長的AI人才庫。

美國知名科技智庫「資訊科技與創新基金會」（ITIF），最新評比也佐證這個觀點。AI賽道上，中國在多數領域都落後美國，但在資料和應用上，得分遠遠超車。

美國晶片管制為什麼沒有用？

相對低階的晶片、幾乎只有十分之一的成本，打造出跟OpenAI效能差不多的模型，DeepSeek的問世，扎扎實實賞了美國政府一巴掌。

「美國的限制帶來了挑戰，但也激發創造力和韌性，」研究中國創新的雪梨科技大學副教授張越（Marina Zhang）指出，「迫使像DeepSeek這樣的中國企業，用更少的資源做更多的事，」

紐約大學教授加里馬庫斯（Gary Marcus）講得很直接，「我們不小心提高了他們的技術水準。」

「美國的出口管制，讓中國企業陷入了困境，」卡內基國際和平基金會研究員希恩（Matt Sheeha）表示，「因此必須用有限的算力來提高效率，」考慮到算力短缺，接下來會看到更多企業抱團合作。

DeepSeek到底突破了什麼？技術是真是假？

DeepSeek打破了這兩年AI軍備競賽中的大資本競爭，顯示小模型在經過適當的訓練，有機會超越大模型。

微軟執行長納德拉肯定DeepSeek「有一些真正的創新」。

DeepSeek發表了論文，提供了更多R1模型實際運作的細節。

美國智庫蘭德公司（Rand）研究員海姆（Lennart Heim）舉例，早期的ChatGPT就像是讀過所有館藏的圖書館管理員，當你問問題的時候，他會根據他看過的所有書籍來回答，這個過程耗時又耗能。但DeepSeek用了另一種方法，它的管理員沒有讀過所有的書，但接受了良好的訓練，可以在被問問題時，找到正確的書來回答。

同時透過優化「混合專家模型」（MOE），不需要一個全能的專家，而是分給多位各領域的專家，這樣每個專家的培訓時間都縮短了，減輕了晶片同時處理所有事情的需求

但這也使得訓練省錢，但回答時會花費更多的時間和精力。（看更多：DeepSeek訓練超省錢，但用起來竟更燒錢？）

DeepSeek可能用到了輝達高階晶片？

DeepSeek聲稱用相對低階的H800輝達晶片訓練模型，但這引發質疑，因為早在出口禁令之前，Scale AI執行長Alexandr Wang就表示，DeepSeek至少有5萬顆高階的H100晶片。

耶魯大學管理學院教授索南菲德（Jeffrey Sonnenfeld）認為，DeepSeek不是史普尼克時刻，就是波坦金時刻（Potemkin Moment），不是冷戰蘇聯的史普尼克衛星無預警發射成功，就是做做政治門面的騙局，依賴在出口禁令之前囤貨的輝達晶片，達到現在的成效。

國家證券（National Securities）首席策略師霍根（Art Hogan）對DeepSeek宣稱的突破持保留態度，「這可能就像一個高中生說他交了女友，但女友念別的學校。」不容易求證。

要拿到晶片老實說也不難。高端晶片的黑市有多活躍？「管道很多，不用擔心（貨源），」一位中國前三大大模型開發者意有所指。

《天下》2024年實地探查深圳華強北商圈，傳說中的AI晶片走私集散地，巷子內店家低聲說，「A100有現貨跟期貨，H100你下週再來看看，」店家當場拿出現貨，報價是海外市場的好幾倍。（看更多：體檢「中國2025」）

如果DeepSeek真的拿到了高端晶片，那就更支持了應該加強管制的論點。

幻方量化做量化投資的，為何要囤輝達晶片？

DeepSeek的前身，是2015年成立的幻方量化，創辦人梁文鋒年僅40歲，以AI驅動交易，早在量化交易的時代，就開始為了人工智慧項目，購買輝達GPU晶片。（看更多：DeepSeek創辦人梁文鋒，少年股神變AI大神）

當時擁有上萬輝達晶片的中國企業大概也就六家，其他五家都是大科技公司，要那麼多高階晶片幹嘛？幻方如果不是財力驚人，就是對於AI的投入信念驚人。

一位商業夥伴說，「第一次見到梁文鋒，他是一個髮型糟糕的書呆子，說要由一萬個晶片集群訓練自己的模型。我們並沒有認真對待他。」

DeepSeek錢從哪裡來？和中國政府的關係？

程式交易真的勝率高到讓幻方量化賺飽飽嗎？

根據《金融時報》，幻方量化的年化報酬率約13%，這在近年表現不佳的陸股，績效不錯。不過2021年幻方量化曾經因為績效不佳，公開向投資人道歉。中國監管單位2024年初也持續收緊對量化基金的管控。

2023年梁文鋒另外成立了DeepSeek，致力於開發大型語言模型。錢當然是來自於幻方量化賺的。

他當時表示，目標是不虧錢，但也不賺巨額利潤，純粹以研究為中心。梁文鋒接受媒體採訪時表示，很多人以為背後有什麼未知的商業邏輯，但主要就是好奇心的驅動。

DeepSeek與剛在中國春晚表演轉手帕扭秧歌的宇樹人形機器人，等6家新創，並稱為「杭州六小龍」。

梁文鋒還獲得了中國二把手李強的接見，參加了專家座談會。不過卡內基國際和平基金會研究員希恩接受《華盛頓郵報》採訪表示，政府的支持對DeepSeek來說是新鮮事，許多其他的中國新創獲得了政府的資金和合約。現在DeepSeek獲得世界和政府的關注，雖然可能獲得更多來自政府的資源，但也將受到大量的政府審查，這本身就是成本。

DeepSeek能走多遠？

一些行業專家表示，儘管 DeepSeek 具有成本優勢，但其低價位可能會虧損。運算能力也可能進一步落後於競爭對手。

梁文鋒受訪坦言，「資金從來不是問題，出口管制是。」

DeepSeek「蒸餾」自OpenAI？

DeepSeek不全然是橫空出世，OpenAI可能也貢獻了一把。

微軟和OpenAI正在調查，DeepSeek是否將OpenAI的專有模型，整合到自己的模型中。

川普新任命的AI和加密貨幣總監薩克斯（David Sacks）接受福斯採訪時表示，有大量證據表明DeepSeek運用OpenAI模型來幫助開發自己的技術。

OpenAI 向《金融時報》表示，已經看到一些「蒸餾」（distillation）的證據。

所謂「蒸餾」指得是用大模型產生的內容訓練其他模型，如同老師和學生的關係，老師擁有的龐大知識，可以快速轉換給學生，有效壓縮重量級模型。開發人員藉此讓小模型獲得好效能，可以更低的成本達成特定任務。

「蒸餾」是產業界常見的做法，問題是OpenAI現在並不是開源模型，如果DeepSeek真的這麼做了，那可能涉及違反智慧財產權的疑慮。

有些用戶發現，DeepSeek的回答，出現了「OpenAI」的字樣，例如回應，「根據OpenAI政策，我必須避免表示我有意識能力」一類的字眼。

（資料來源：FT、Bloomberg、WaPo、WSJ）

【延伸閱讀】

DeepSeek崛起，中國搶佔開源模型生態系？

心理學家：Z世代「報復性離職」的3個原因

● 更多內容，請見天下雜誌816期《人生的禮物》

留言 5

葉定宏

白癡媒體…openAI是閉源的….多讀點書好嗎？閉源的..閉源的…剽竊不了..沒得抄….所以別再黑deepseek.全世界的人都不會相信的..deepseek超級好用..全世界都在用..免費的..開源的.可以更改自己需要的參數訓練屬於自己公司的AI大模型👍👍👍👍👍👍👍

02月07日08:28

黃君華

習近平讓天才們有清淨的時間與空間專研學問！台灣政府應該儘快讓黨政軍黑幫毒蟲遠離校園不要讓台灣優秀的人才浪費在八掛抹黑寫假論文傳播假消息台積電只是一時 Deepseek 也是一時

02月07日08:17

Louis

希望中國重視AI的安全性

02月07日08:27

簡為邦 EnoChien

最後一段說出了 deepseek 就是抄襲的！ OpenAI 向《金融時報》表示，已經看到一些「蒸餾」（distillation）的證據。所謂「蒸餾」指得是用大模型產生的內容訓練其他模型，如同老師和學生的關係，老師擁有的龐大知識，可以快速轉換給學生，有效壓縮重量級模型。開發人員藉此讓小模型獲得好效能，可以更低的成本達成特定任務。「蒸餾」是產業界常見的做法，問題是OpenAI現在並不是開源模型，如果DeepSeek真的這麼做了，那可能涉及違反智慧財產權的疑慮。有些用戶發現，DeepSeek的回答，出現了「OpenAI」的字樣，例如回應，「根據OpenAI政策，我必須避免表示我有意識能力」一類的字眼。

02月07日10:55

文

這軟體能幹嘛的，沒幾人想用啊…

02月07日08:23