跨越 AI 記憶體牆:儲存階層的重新分配與 HBF 剖析
混合專家(MoE)架構雖能降低運算需求,但由於所有專家權重必須常駐顯存,Transformer 逐字生成特性也對記憶體頻寬提出高要求;同時,長文本應用 KV Cache 隨對話長度線性增長,龐大模型權重與動態增長的 KV Cache 分別皆對記憶體需求大幅增加,AI 運算瓶頸已從算力不足,轉向記憶體容量受限。
HBF兼具容量與成本優勢,溫數據驅動儲存階層重構
高頻寬記憶體(HBM)雖滿足速度需求,但難以兼具成本與容量平衡,透過CXL等新世代互連技術,將NAND重新定位為記憶體層級的延伸,由HBM專責即時性的熱數據,高頻寬快閃記憶體(HBF)則承接推理時代的海量溫數據需求。儲存階層的重新分配不只為了在容量與速度之間取得平衡,也可望優化總體AI硬體的成本效益。
▲ HBM與HBF規格對照。(Source:公開資料;拓墣產業研究院整理,2026.4)
先進封裝與NAND Flash固有特性為HBF商業化之關鍵
高頻寬快閃記憶體主要在解決AI推理應用的容量限制問題,HBF透過TSV堆疊與先進封裝可望實現TB級儲存,以滿足儲存模型權重與KV Cache等大容量數據需求,並最佳化大型模型推理的效能與成本。HBF有望基於HBM的製造經驗加速商業化,除了面臨先進封裝等製造的挑戰之外,亦需面對NAND Flash本身固有的特性挑戰。
(首圖來源:shutterstock)