「AI 主導權轉向記憶體!」HBM 之父大膽猜測:NVIDIA 可能買記憶體公司,SanDisk、美光都在名單內
NVIDIA 執行長黃仁勳睽違15 年訪韓,上月30 日與三星電子董事長李在鎔和現代汽車集團董事長鄭義宣會面,加深在記憶體和AI 超級工廠(AI Megafactory)的合作。韓國KAIST 教授、HBM(高頻寬記憶體)之父Kim Jung-Ho 則在Youtube 節目上直言,「AI 時代的主導權,正從GPU 轉向記憶體!」有鑒於記憶體越來越重要,NVIDIA 可能會併購記憶體公司,如美光(Micron)或者SanDisk。
Kim Jung-Ho 表示,由於記憶體對於AI 領域重要性正在不斷提升,為了確保在AI 領域的領導地位,NVIDIA 很可能併購記憶體公司,例如美光或者SanDisk,而非規模較大的三星或SK 海力士。他也開玩笑表示,SanDisk 股價最近上漲,部分原因是資料中心對NAND Flash 的需求增加,而以SanDisk 的規模來說,更適合被收購。
SanDisk 在五天內上漲 4.3%,來到 199.33 美元。
事實上,記憶體瓶頸是未來在AI 推論時代下急需解決的問題,國際大廠如何解決這部分瓶頸,也將是相當重要的一環。粉絲專頁 Richard只談基本面-Richard's Research Blog 也表示,記憶體在GPU 封裝內的價值貢獻和整合的技術難度越來越高,NVIDIA 可能考慮買下或投資一家記憶體公司的說法,機率應該不是零。
走到AI 推論下,如何釋放記憶體瓶頸?
華為資料儲存產品副總裁躍峰在過去活動中曾表示,目前AI 推論面臨三大問題:「推不動」(輸入內容太長超出處理範圍)、「推得慢」(回應速度太慢)、「推得貴」(運算成本太高)。
記憶體需求主要分成HBM、DRAM 與SSD。其中,HBM 主要儲存實時記憶數據,容量約10GB~百GB 級,主要是極熱數據與即時對話;DRAM 做為短期記憶數據,容量約百GB~TB 級,主要是熱數據與多輪對話;SSD 長期記憶數據與外部知識,容量約TB 級到PB 級,主要是熱溫數據,如歷史對話、RAG 知識庫、語料庫。
(Source:智東西)
當來到AI 推論階段時,會用到一種類似人腦的「注意力機制」,包括記住查詢中重要的部分(Key)以及上下文中重要部分(Value),以便回答提示。
如果每處理一個新的Token(新詞),模型必須針對先前處理過的所有Token 重新計算每個詞的重要性(Key 與Value),以更新注意力權重,因此大語言模型(LLM)被加入一種稱為「KV 快取」(KV Cache)的機制,能將先前的重要資訊(Key 與Value)儲存在記憶體中,免去每次重新計算的成本,從而將Token 處理與生成速度提升數個數量級。
這也意味著,KV 快取是「AI 模型的短期記憶」,它能讓模型記住之前的問題中已經處理過的內容,如此一來,每次用戶重啟之前的討論或提出新問題時,就不必從頭開始重新計算,AI 也能隨時了解用戶說過的、推理過的、提供過的內容,並為這些更長、更深入的討論提供更快、更縝密的答案。
(首圖來源:Kaist)