請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

NVIDIA 多元產品分攻 AI 訓練、推理需求,迎戰 CSP 自研 ASIC 規模升級

科技新報

更新於 03月18日15:42 • 發布於 03月18日15:50

根據 TrendForce 最新 AI server 研究,在大型雲端服務供應商(CSP)加大自研晶片力道的情況下,NVIDIA 於 GTC 2026 大會改為著重各領域的 AI 推理應用落地,有別於以往專注雲端 AI 訓練市場。其推動 GPU、CPU 以及 LPU 等多元產品軸線分攻 AI 訓練、AI 推理需求,並藉由 Rack 整合方案帶動供應鏈成長。

TrendForce表示,隨著以Google、Amazon等CSP為首的自研晶片態勢擴大,預估ASIC AI server占整體AI server的出貨比例將從2026年的27.8%,上升至2030年的近40%。

為鞏固在AI市場的領導地位,NVIDIA採取的其中一項策略為積極推動GB300、VR200等整合CPU、GPU的整櫃式方案,強調可擴展至AI推理應用。本次在GTC發表的Vera Rubin被定義為高度垂直整合的完整系統,涵蓋七款晶片和五款機櫃。

觀察Rubin供應鏈進度,預計2026年第二季記憶體原廠可提供HBM4給Rubin GPU搭載使用,助NVIDIA於第三季前後陸續出貨Rubin晶片。至於NVIDIA GB300、VR200 Rack系統出貨進程,前者已於2025年第四季取代GB200成為主力,預估至2026年出貨占比將達近80%,而VR200 Rack約於2026年第三季底可望逐步展開出貨量能,後續發展仍須視ODM實際進度而定。

另外,AI從生成跨入代理模型時代,在生成Token的解碼(Decode)階段面臨嚴重的延遲與記憶體頻寬瓶頸。為此,NVIDIA整合Groq團隊技術,推出專為低延遲推理設計的Groq 3 LPU,單顆內建500MB SRAM、整機櫃可達128GB。

然而,LPU本身的記憶體容量無法容納Vera Rubin等級的龐大參數與KV Cache。NVIDIA因此於本次GTC提出「解耦合推理」(Disaggregated Inference)架構,透過名為Dynamo的AI工廠作業系統,將推理流水線一分為二:處理代理型AI時,須進行大量數學運算並儲存龐大KV Cache的Pre-fill、Attention運算階段,交由具備極高吞吐量與巨量記憶體的Vera Rubin執行。而受限於頻寬且對延遲極度敏感的解碼與Token生成階段,則直接卸載至擴充了巨量記憶體的LPU機櫃上。

在供應鏈進度上,第三代Groq LP30由Samsung代工,已進入全面量產階段,預計於2026年下半年正式出貨,未來更規畫於下一代Feynman架構中推出效能更高的LP40晶片。

(首圖來源:shutterstock)

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

鴻海跌破200元 郭台銘身價5天估蒸發339億

NOWNEWS今日新聞
02

川普:美國、伊朗可能在5天內達成協議 甚至更快

anue鉅亨網
03

震撼彈!Grab砸6億美元買下台灣foodpanda,東南亞超級App霸主為何相中台灣?

數位時代
04

手機別充電到100%!她改一設定「保護電池」 蘋果官方證實:延長壽命

CTWANT
05

美伊對話釋善意!川普一句話油價崩了 市場情緒瞬間反轉

anue鉅亨網
06

伊朗否認與美對話 稱川普是受到威脅後「撤退」

anue鉅亨網
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...