DeepSeek抄襲OpenAI?是大外宣嗎?中國突破美國管制?一次看懂DeepSeek
Deepeek挑戰了這幾年AI熱潮大家的信念,
- 一個是輝達在AI晶片的獨霸,會不會其實根本不需要那麼多高階的晶片,就可以做到?
- 一個是美國的主導地位,原來可以被小成本的後進者超越?美國阻止不了中國的創新?
同時,更帶出了許多疑問。
- DeepSeek選在川普就職發表新模型,是不是大外宣?
- 中國AI這麼強嗎?
- 中國如何突破美國管制?
- DeepSeek突破了什麼?技術真假為何?
- 真的不用輝達高階晶片嗎?
- 前身幻方量化在幹嘛?賺那麼多嗎?
- 和中國政府關係?
- DeepSeek能走多遠
- 抄襲OpenAI?
DeepSeek是大外宣嗎?為什麼這個時候宣布新的模型?
「選擇在川普就職日發布新模型,是深思熟慮的結果,」國際研究中心(CSIS)研究員艾倫(Gregory C. Allen)表示,傳達訊息的時間和方式,就是中國政府希望大家都明白,出口管制沒有作用,美國不是人工智慧唯一的領先者。
這幾週發布的中國新模型,除了DeepSeek之外,還有好幾個。阿里巴巴的通義千問(Qwen)、騰訊的混元大模型,還有號稱比GPT-4o 低10 倍的MiniMax 01都趕在農曆過年前發布。
市場研究公司Constellation Research首席分析師Ray Wang認為,「這顯然是心理戰,」要在通用AI(AGI)的賽道脫穎而出難度太高,但是在效率上領先,就夠讓人驚艷。IDC的分析也有相同觀點,中國希望表明,在科技領域依然是不可忽視的力量。
中國AI這麼強嗎?
中國本來就不弱。根據中國信息通信研究所去年發布的白皮書,全球AI大語言模型數量已經達到1328個,其中36%來自於中國,僅次於美國。
人工智慧的發展三大要素,晶片、人才和數據資料。
中國政府積極培養相關人才。《BBC》指出,中國頂大正在創建快速成長的AI人才庫。
美國知名科技智庫「資訊科技與創新基金會」(ITIF),最新評比也佐證這個觀點。AI賽道上,中國在多數領域都落後美國,但在資料和應用上,得分遠遠超車。
美國晶片管制為什麼沒有用?
相對低階的晶片、幾乎只有十分之一的成本,打造出跟OpenAI效能差不多的模型,DeepSeek的問世,扎扎實實賞了美國政府一巴掌。
「美國的限制帶來了挑戰,但也激發創造力和韌性,」研究中國創新的雪梨科技大學副教授張越(Marina Zhang)指出,「迫使像DeepSeek這樣的中國企業,用更少的資源做更多的事,」
紐約大學教授加里馬庫斯(Gary Marcus)講得很直接,「我們不小心提高了他們的技術水準。」
「美國的出口管制,讓中國企業陷入了困境,」卡內基國際和平基金會研究員希恩(Matt Sheeha)表示,「因此必須用有限的算力來提高效率,」考慮到算力短缺,接下來會看到更多企業抱團合作。
DeepSeek到底突破了什麼?技術是真是假?
DeepSeek打破了這兩年AI軍備競賽中的大資本競爭,顯示小模型在經過適當的訓練,有機會超越大模型。
微軟執行長納德拉肯定DeepSeek「有一些真正的創新」。
DeepSeek發表了論文,提供了更多R1模型實際運作的細節。
美國智庫蘭德公司(Rand)研究員海姆(Lennart Heim)舉例,早期的ChatGPT就像是讀過所有館藏的圖書館管理員,當你問問題的時候,他會根據他看過的所有書籍來回答,這個過程耗時又耗能。但DeepSeek用了另一種方法,它的管理員沒有讀過所有的書,但接受了良好的訓練,可以在被問問題時,找到正確的書來回答。
同時透過優化「混合專家模型」(MOE),不需要一個全能的專家,而是分給多位各領域的專家,這樣每個專家的培訓時間都縮短了,減輕了晶片同時處理所有事情的需求
但這也使得訓練省錢,但回答時會花費更多的時間和精力。(看更多:DeepSeek訓練超省錢,但用起來竟更燒錢?)
DeepSeek可能用到了輝達高階晶片?
DeepSeek聲稱用相對低階的H800輝達晶片訓練模型,但這引發質疑,因為早在出口禁令之前,Scale AI執行長Alexandr Wang就表示,DeepSeek至少有5萬顆高階的H100晶片。
耶魯大學管理學院教授索南菲德(Jeffrey Sonnenfeld)認為,DeepSeek不是史普尼克時刻,就是波坦金時刻(Potemkin Moment),不是冷戰蘇聯的史普尼克衛星無預警發射成功,就是做做政治門面的騙局,依賴在出口禁令之前囤貨的輝達晶片,達到現在的成效。
國家證券(National Securities)首席策略師霍根(Art Hogan)對DeepSeek宣稱的突破持保留態度,「這可能就像一個高中生說他交了女友,但女友念別的學校。」不容易求證。
要拿到晶片老實說也不難。高端晶片的黑市有多活躍?「管道很多,不用擔心(貨源),」一位中國前三大大模型開發者意有所指。
《天下》2024年實地探查深圳華強北商圈,傳說中的AI晶片走私集散地,巷子內店家低聲說,「A100有現貨跟期貨,H100你下週再來看看,」店家當場拿出現貨,報價是海外市場的好幾倍。(看更多:體檢「中國2025」)
如果DeepSeek真的拿到了高端晶片,那就更支持了應該加強管制的論點。
幻方量化做量化投資的,為何要囤輝達晶片?
DeepSeek的前身,是2015年成立的幻方量化,創辦人梁文鋒年僅40歲,以AI驅動交易,早在量化交易的時代,就開始為了人工智慧項目,購買輝達GPU晶片。(看更多:DeepSeek創辦人梁文鋒,少年股神變AI大神)
當時擁有上萬輝達晶片的中國企業大概也就六家,其他五家都是大科技公司,要那麼多高階晶片幹嘛?幻方如果不是財力驚人,就是對於AI的投入信念驚人。
一位商業夥伴說,「第一次見到梁文鋒,他是一個髮型糟糕的書呆子,說要由一萬個晶片集群訓練自己的模型。我們並沒有認真對待他。」
DeepSeek錢從哪裡來?和中國政府的關係?
程式交易真的勝率高到讓幻方量化賺飽飽嗎?
根據《金融時報》,幻方量化的年化報酬率約13%,這在近年表現不佳的陸股,績效不錯。不過2021年幻方量化曾經因為績效不佳,公開向投資人道歉。中國監管單位2024年初也持續收緊對量化基金的管控。
2023年梁文鋒另外成立了DeepSeek,致力於開發大型語言模型。錢當然是來自於幻方量化賺的。
他當時表示,目標是不虧錢,但也不賺巨額利潤,純粹以研究為中心。梁文鋒接受媒體採訪時表示,很多人以為背後有什麼未知的商業邏輯,但主要就是好奇心的驅動。
DeepSeek與剛在中國春晚表演轉手帕扭秧歌的宇樹人形機器人,等6家新創,並稱為「杭州六小龍」。
梁文鋒還獲得了中國二把手李強的接見,參加了專家座談會。不過卡內基國際和平基金會研究員希恩接受《華盛頓郵報》採訪表示,政府的支持對DeepSeek來說是新鮮事,許多其他的中國新創獲得了政府的資金和合約。現在DeepSeek獲得世界和政府的關注,雖然可能獲得更多來自政府的資源,但也將受到大量的政府審查,這本身就是成本。
DeepSeek能走多遠?
一些行業專家表示,儘管 DeepSeek 具有成本優勢,但其低價位可能會虧損。運算能力也可能進一步落後於競爭對手。
梁文鋒受訪坦言,「資金從來不是問題,出口管制是。」
DeepSeek「蒸餾」自OpenAI?
DeepSeek不全然是橫空出世,OpenAI可能也貢獻了一把。
微軟和OpenAI正在調查,DeepSeek是否將OpenAI的專有模型,整合到自己的模型中。
川普新任命的AI和加密貨幣總監薩克斯(David Sacks)接受福斯採訪時表示,有大量證據表明DeepSeek運用OpenAI模型來幫助開發自己的技術。
OpenAI 向《金融時報》表示,已經看到一些「蒸餾」(distillation)的證據。
所謂「蒸餾」指得是用大模型產生的內容訓練其他模型,如同老師和學生的關係,老師擁有的龐大知識,可以快速轉換給學生,有效壓縮重量級模型。開發人員藉此讓小模型獲得好效能,可以更低的成本達成特定任務。
「蒸餾」是產業界常見的做法,問題是OpenAI現在並不是開源模型,如果DeepSeek真的這麼做了,那可能涉及違反智慧財產權的疑慮。
有些用戶發現,DeepSeek的回答,出現了「OpenAI」的字樣,例如回應,「根據OpenAI政策,我必須避免表示我有意識能力」一類的字眼。
(資料來源:FT、Bloomberg、WaPo、WSJ)
【延伸閱讀】
● 更多內容,請見天下雜誌816期《人生的禮物》
顯示全部
留言 5