請更新您的瀏覽器

您使用的瀏覽器版本較舊,已不再受支援。建議您更新瀏覽器版本,以獲得最佳使用體驗。

理財

專為 AI 推論而生!NVIDIA 留一手底牌 Rubin CPX GPU,恐改變 ASIC 競爭格局?

科技新報

更新於 10月31日12:06 • 發布於 11月03日08:02

隨著生成式 AI 應用百花齊放,AI 推論(Inference)成為下一個主戰場,與 AI 訓練(Training)相比,推論更貼近終端應用,直接決定了 AI 技術能否落地與帶來實際價值。

事實上,AI 大神吳恩達早前 2023 年接受媒體採訪時曾表示,「我希望未來推論發生的場景能多於訓練,如此一來 AI 才會成功」,意味 AI 技術成功與推論應用的蓬勃程度相關,以及 AI 變現的場景很大一部分落在推論市場。

另一方面,一個大語言模型可能需要數週到數月時間進行訓練,一旦完成,它可以透過雲端或終端裝置,在全球被無數次用來生成文字、回答問題或翻譯語言。因此,推論的需求量和應用廣度通常遠超於訓練。

NVIDIA 推 Rubin CPX GPU,專為「長情境」AI 推論設計

面對推論市場的龐大商機,NVIDIA 宣布推出 Rubin CPX GPU,專為大規模情境推論打造新一代 GPU,將與 Rubin GPU 和 Vera CPU 協同工作,以加速特定的工作負載,預期 2026 年底上市。

NVIDIA 指出,NVIDIA Rubin CPX 可在處理長情境時提供最高效能與詞元收益,遠超當今系統設計所能承載的範疇。這讓 AI 程式碼助理從簡單的程式碼生成工具,轉型為可理解並最佳化大型軟體項目的複雜系統。

一般來說,AI 模型可能需要使用多達 100 萬個詞元來處理一小時內容的影片,這已達到傳統 GPU 運算的極限。Rubin CPX 將影片解碼器與編碼器,以及長情境推論處理技術整合至單一晶片,為影片搜尋與高品質生成影片等長格式應用。此外,Rubin CPX GPU 採用經濟實惠的單晶片設計,搭載強大的 NVFP4 運算資源,並經過最佳化,可為 AI 推論任務提供極高的效能與能源效率。

接著,本文綜合市場消息分享幾個亮點。

亮點一:CPX GPU 採用 GDDR7 而非 HBM 記憶體

目前大型 AI 模型的推論通常分為兩個階段,分別是「上下文階段」(Context Phase,即 Prefill)和「生成階段」(Generation Phase,即 Decode)。前者是運算密集型的初始階段,用來處理輸入並生成第一個輸出 token;後者則是模型基於已處理的上下文生成後續的 token。

簡單來說,上下文階段可以想像成 「閱讀理解」 的初始階段,需要大量運算,因為模型要處理所有資訊,建立大腦記憶庫,理解其中的意思,並準備好回答問題或生成內容;生成階段則是「開始作答」的階段,模型用第一階段建立的上下文記憶,一次生成一個字、詞或句子,生成階段主要依賴記憶體的存取速度,因為模型需要快速查找已理解的資訊來生成後續文字。

▲ NVIDIA 採分離式推論架構,透過GPU 功能將上下文階段和生成階段的工作負載保持一致。(Source:NVIDIA

NVIDIA 的 Rubin CPX GPU 主要就是專為長上下文推理而設計,這當中需要極高的運算吞吐量,來處理百萬以上 token 的上下文工作負載,因此需要充足、但頻寬不一定要很高的記憶體,傳統資料中心 GPU 雖然擁有大量 HBM 記憶體,可以處理這類工作負載,但在此任務上並不高效。

因此,第一個亮點是採用 128 GB GDDR7 記憶體,而非過去常使用的 HBM 記憶體,這能使這款 GPU 價格更實惠,且可加速處理要求最嚴苛、基於情境的工作負載。

至於第二階段主要受記憶體頻寬和互連限制,需要快速存取先前生成的 token 及注意力快取,因此可用傳統資料中心 GPU,如 Blackwell Ultra 或 Rubin GPU 的 HBM4 記憶體來高效處理這類任務。

雖然 GDDR7 頻寬遠低於 HBM3E 或 HBM4,但功耗更低、每 GB 成本大幅下降,且不需昂貴的 CoWoS 先進封裝技術,因此 Rubin CPX GPU 不僅比一般 Rubin 處理器便宜,且功耗大幅降低,使散熱設計更簡單。NVIDIA 也表示,每投資 1 億美元於 Rubin CPX,即能帶來高達 50 億美元的詞元收益,相當於投資回報率達 30 至 50 倍,對於客戶是相當具有吸引力的方案。

亮點二:Rubin CPX 沒有 NVLink,但提供高度擴展

NVIDIA 指出,Rubin CPX 提供多種配置選項,包括 Vera Rubin NVL144 CPX,可結合 NVIDIA Quantum‑X800 InfiniBand 橫向擴展運算架構,或者搭配採用 Spectrum-XGS 乙太網路技術和 ConnectX-9 SuperNIC 的 Spectrum-X 乙太網路平台整合。

▲ NVIDIA Vera Rubin NVL144 CPX 機架與機櫃,配備 Rubin Context GPU(Rubin CPX)、Rubin GPU,以及 Vera CPU。(Source:NVIDIA

為了支撐 Rubin CPX 的效能,NVIDIA 同步推出 PCIe Switch+CX8 I/O板,這是全球首款量產的 PCIe 6.0 規格 I/O 產品,將 PCIe Switch 晶片與 ConnectX-8 SuperNIC 整合於同一大板,搭載 9 個 PCIe 插槽與 8 個 NIC 連接器。

透過將 PCIe Switch 和 CX8 NIC 這兩個關鍵元件合而為一,這塊板子如同 AI 伺服器的「神經中樞」,把多個重要晶片整合在一起,簡化伺服器設計和零件數量,讓所有零組件都能以超高速互相溝通。

▲ 採用 ConnectX-8 SuperNIC 的傳統伺服器設計(左)與最佳化伺服器設計(右)的比較。(Source:NVIDIA

相較於訓練場景追求極高點對點頻寬的 NVLink,推論場景更重視在單機或多 GPU 伺服器中彈性分配資源與共享運算能力。透過 PCIe Switch,資料中心能更有效地管理 GPU 運算資源,以應對來自不同應用、不同模型的推論請求。

亮點三:軟硬體高度整合

在軟體方面,Rubin CPX 完全支援 NVIDIA 的 AI 生態系統,包括 CUDA 以及能提升效率的 Dynamo 平台、Nemotron 模型以及 NVIDIA AI Enterprise 套件等。

此外,AI 模型與產品的開發者不需要透過手動方式,將推論的「上下文階段」和「生成階段」在 GPU 之間進行分割,即可在 Rubin NVL144 CPX 機架級解決方案上運行。NVIDIA 建議使用其 Dynamo 軟體編排層,智能管理並將推論工作負載在不同類型的 GPU 上分配。NVIDIA 指出,Dynamo 還可以管理 KV 快取傳輸,將延遲降到最低。

這些軟體工具讓企業無論是在雲端、資料中心還是工作站,都能輕鬆地部署 AI 應用,再搭配 NVIDIA廣大的開發者社群和超過 6,000 種應用程式,可使 Rubin CPX 的硬體優勢迅速轉為實際的商業價值。

NVIDIA 執行長黃仁勳表示,Vera Rubin 平台將標誌著 AI 運算領域的又一次躍進,不僅推出新一代 Rubin GPU,更創造名為「CPX」的全新處理器類別。Rubin CPX 是首款專為大規模情境 AI 打造的 CUDA GPU,能讓模型同時處理具備數百萬個詞元的推理任務。

市場怎麼看 Rubin CPX GPU?

目前從業界反應來看,這顆晶片是否吃掉 ASIC 該切入的利基市場仍有待觀察,因為採用 GDDR7 記憶體,成本優勢相當明顯,加上軟硬體整合穩固,對於業界來說是相當有吸引力的選擇方案之一。

由於 Rubin CPX 被歸類為專用 GPU,對博通和 AMD 可能帶來許多壓力。業界人士指出,目前許多主要客戶仍在找尋做為 NVIDIA 的替代方案,主要是為了因應成本考量,而 Rubin CPX 的推出是否做為吸引,仍值得觀察,但對於想避免積極使用 NVIDIA 方案的客戶來說,仍可能會繼續原有路線。

(首圖來源:NVIDIA

立刻加入《科技新報》LINE 官方帳號,全方位科技產業新知一手掌握!

查看原始文章

更多理財相關文章

01

郭台銘母親辭世/鴻海原始金主初永真 曾助國民黨度過難關

鏡週刊
02

普發萬元商機大! 銀行火力全開''普發1萬變10萬''

民視新聞網
03

他50歲勞保一次領爽花光「還能工作有後路」…被資遣才驚覺4大國家補助全沒了:代價遠超過想像

幸福熟齡 X 今周刊
04

普發一萬來了!「1縣市」加碼抽獎 最高獨得百萬

EBC 東森新聞
05

普發1萬第二天!登記入帳衝170萬人 這4種狀況「恐無法入帳」

太報
06

郭台銘媽媽初永真辭世享嵩壽100歲 當年標會10萬助兒成就鴻海帝國

鏡新聞
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...
Loading...