記憶體、KV 快取成新戰場!SK 海力士、SanDisk、三星搶布局 HBF
韓國KAIST 教授、HBM(高頻寬記憶體)之父Kim Jung-Ho 則在Youtube 節目上直言,「AI 時代的主導權,正從GPU 轉向記憶體!」有鑒於記憶體越來越重要,NVIDIA 可能會併購記憶體公司,如美光(Micron)或者SanDisk。他也分享HBF(高頻寬快閃記憶體,High Bandwidth Flash)的重要性,預期明年 1、2 月會有新進度,2027 至2028 年將正式登場。
先前美系外資也提到,隨著傳統硬碟(HDD)供應可能自2026 年底至2027 年初出現瓶頸,近線儲存(Nearline SSD)方案有望加速導入,成為更具成本效益的替代選項。同時,HBF 被視為解決AI 叢集記憶體容量瓶頸的關鍵技術。
在上一篇文章中提到,AI 推論時代下記憶體容量變得更加重要,大廠如何有效運用記憶體,成為更關鍵的焦點。其中,KV 快取(key-value cache)做為AI 模型的短期記憶,也掌握著AI 回答的反應速度。也因此,Kim Jung-Ho 更認為HBF 有望成為下一代AI 時代的重要記憶體技術,將與HBM 並行發展,共同推動晶片大廠的業績成長。
HBF 是什麼?韓國記憶體雙雄如何佈局?
HBF 設計概念與HBM 相似,透過矽穿孔(TSV)將多層晶片堆疊連接,HBF 採用NAND 快閃記憶體進行堆疊,具備「容量更大、成本更具優勢」等特點。
Kim Joung-ho 指出,雖然NAND 的速度不及DRAM,但容量往往高出10 倍以上,若以數百層乃至數千層堆疊方式建構,能有效滿足AI 模型對龐大儲存的需求,可成為NAND 版本的HBM。在節目中,他更是預言「HBM 時代即將結束,HBF 時代要來了!」
Kim Joung-ho 預期,未來AI 的記憶體架構會變成多層式設計,像一整座智慧圖書館,其中GPU 內的SRAM 如同桌上筆記本,最快、但容量最小;HBM 則是桌邊的書架,可以用於快速運算;HBF 彷彿是地下圖書館,儲存AI 的深層知識,隨時補給HBM;至於雲端儲存則是公共圖書館,透過光纖連接資料中心。他也認為,未來GPU 將同時搭載HBM 與HBF,形成互補架構。
在HBF 進度部分,SanDisk 與SK 海力士正合作推動HBF,並推進HBF 的全球標準,目標2026 年供應樣品、2027 年量產;三星近期也加入戰局,著手展開HBF 產品的概念設計與初期開發。
受限記憶體供應短缺,華為從軟體下手釋放空間
由於中國很難獲得HBM 等關鍵資源,因此華為開發新軟體工具「統一快取管理器」(UCM),無需使用HBM 即可加速大型語言模型(LLM)的訓練與推理。值得注意的是,這款軟體也同樣以「KV 快取」(KV Cache)為中心的推理加速套件,主要是分級管理推論過程中產生的KV 快取記憶數據,擴大推理上下文視窗,實現高吞吐、低時延的推理體驗,並降低每Token 推理成本。
華為介紹,這款軟體會根據不同記憶體類型的延遲特性、各類AI 應用的延遲需求,將AI 資料分配在HBM、標準DRAM 與SSD 之間。
UCM 分為三部分,最上層是透過「連接生態」(Connector),靈活對接業界的多樣引擎與多元算力,如華為昇騰、NVIDIA 等;再來透過中層「記憶管理」(Accelerator),透過KV 快取動態多級管理,將演算法拆成適合快速運算的方式,使運算更高效;最後是「存儲協同」(Adapter),與專業共享儲存相結合的存取介面卡,以更高效的方式讀寫存儲資料,減少等待時間。
目前NVIDIA 支持的晶片新創公司Enfabrica 同樣從軟體下手,透過創新架構來降低記憶體成本,Enfabrica 利用自研的專用軟體,在AI 晶片與大量低成本記憶體之間進行數據傳輸,進而在保證資料中心性能的同時,有效控制了成本。
若為了解決記憶體瓶頸,NVIDIA 不排除進一步布局硬體領域,入股記憶體公司也在可能範圍內。尤其當前SanDisk 正積極投入HBF 研發與佈局,HBM 之父的觀點不無道理。
(首圖來源:shutterstock)