同款 GPU 效能有詐,雲端運算深陷矽晶賭局
根據最新研究與市場補充資料,雲端租用 GPU 並非「同型號就同表現」。來自威廉與瑪麗學院(William & Mary)、傑佛遜實驗室(Jefferson Lab)與 Silicon Data 的測試顯示,即使是規格相同的 NVIDIA GPU,在不同雲端供應商與不同執行個體之間,實際運算與記憶體頻寬表現仍可能出現明顯落差,讓企業在租用 AI 運算能力時面臨一場「矽晶賭局」。
研究團隊以 SiliconMark 執行 6,800 次測試,抽樣 11 家雲端業者旗下 3,500 張 GPU,涵蓋 11 種 NVIDIA GPU 型號,其中最先進者為 H200 SXM。結果顯示,所有型號都存在效能波動;其中 259 張 H100 PCIe 的運算效能差異最高達 34.5%,253 張 H200 SXM 的記憶體頻寬差異則高達 38%。研究指出,這些差異不僅來自散熱方式、雲端業者設定與晶片使用狀況,更可能源自晶片本身的製造差異。
這項發現對 AI 雲端客戶尤其關鍵。補充資訊顯示,整個 GPU 雲端生態系正面臨運算能力吃緊,NVIDIA GPU 租用價格在短短 6 週內曾飆升超過 100%,也反映出市場需求強勁。研究與市場觀察都指向同一件事:在運算能力供不應求的情況下,企業不只要擔心租不租得到 GPU,也要擔心租到的 GPU 是否真能物有所值。
Silicon Data 創辦人暨執行長 Carmen Li 表示,這種現象自 2022 年以來就已被注意到,外界稱之為「矽晶彩票(Silicon Lottery)」。而對於租用者最務實的做法,是在拿到實際租用執行個體後立即自行跑基準測試,確認效能再與更大的資料庫比對,避免因單價較高的新款 GPU 卻跑不贏舊款而付出額外成本。Silicon Data 基礎設施主管 Jason Cornick 也建議,租用方應將基準測試納入採購流程,才能更準確評估雲端 GPU 的真實表現。
(首圖來源:shutterstock)