設計工具

Invalid input. Special characters are not supported.

AI

NVIDIA MGX 系統和美光儲存裝置的功耗效率

Ryan Meredith | 2025 年 3 月

AI 的資料中心功耗是一個熱門話題。例如,OpenAI 在其 2024 年的財務報告中稱,其最大的營運支出是電費

人工智慧(AI)系統架構凸顯了高用電量的驅動因素。標準的 AI 訓練系統是 8-GPU 系統,每個系統的電力需求高達 10 千瓦時。此外,還有來自不同伺服器供應商的 4-GPU NVIDIA HGX 平台。對於大規模 AI 訓練而言,這些電力需求是運行需要極大規模 GPU 叢集的業務的一部分。但對於較小的工作負載,情況又如何呢?

AI 無處不在

企業 AI 是迅速崛起的領域,由於專有業務資料部署到 AI 模型中,企業 AI 往往需要就地部署 AI 推理。領先的 AI 解決方案具備基本的大型語言模型(LLM),這些模型需要在本地企業資料上進行微調,以便它們能夠理解我們所有獨特的企業英文縮寫大雜燴。為了存取關鍵業務資料,這些模型需要在本地運行。

NVIDIA MGX

NVIDIA 推出 NVIDIA GH200 Grace Hopper 超級晶片,這是一款整合了以 Arm 為基礎的 CPU、LPDDR5X 和 NVIDIA H100 GPU 的工程系統。該系統旨在提供 NVIDIA GPU 的運算能力,同時最佳化系統中其他部分的效率。

我們最近測試了 Supermicro ARS-111GL-SHR,這是一款 1U NVIDIA GH200 系統,配備 72 核心 NVIDIA Grace CPU、480GB LPDDR5X 和搭載 96GB HBM3E 的 H100。該系統還配備了 NVIDIA BlueField-3 DPU,可連接四個美光 9550 NVMe E1.S SSD。

Nvidia 伺服器主機板

透過 BlueField-3 連接 NVMe,可在 1U NVIDIA MGX 系統中部署多達 8 個 NVMe SSD,提供可觀的每 GPU 儲存密度。

這種密集型平台對部署和系統配置提出了一些新的要求。使用 NVIDIA GH200,1U 內可以安裝兩個超級晶片,而在未來,以 NVIDIA Blackwell 為基礎的系統可以在 1U 機箱內安裝四個 GPU。

這些系統需要考慮一些要點:

  • 高密度系統需要液冷。
  • 需要使用 EDSFF 儲存裝置。對於 1U 系統,E1.S 規格尺寸 SSD 是最佳選擇,而對於 2U 系統,E3.S 則更為常見。
  • 儲存裝置效能密度變得非常重要。由於儲存裝置的物理空間不大,這些系統將採用少量最高效能的 SSD,如美光 9550。

這推動了對 PCIe Gen6 儲存裝置的需求。

搭載 NVIDIA GH200 的 NVIDIA MGX 平台到底效率有多高?

為了瞭解 NVIDIA GH200 與標準系統之間的效率差距,我們測試了兩台使用 NVIDIA GPUDirect Storage 和傳統 IO 路徑的伺服器。

NVIDIA GPUDirect Storage 允許 GPU 將資料路徑從 GPU 引導至 NVMe SSD,控制路徑資料仍流經 CPU 和 DRAM。如果沒有 GPUDirect Storage,所有資料都會流經 CPU 和 DRAM 反彈緩衝區,這會導致較大的瓶頸。

Nvidia GPU 資料

 

接受測試的兩個系統的規格如下:

  • Intel + NVIDIA H100 GPU 系統:Supermicro SYS-521GU-TNXR:2 個 Intel 8568Y+、48 核心、512GB DDR5、NVIDIA H100NVL-96GB HBM3 GPU PCIe Gen5 x16、美光 9550 PRO SSD。
  • NVIDIA GH200 Grace Hopper 系統:Supermicro ARS-111GL-SHR:NVIDIA GH200 Grace Hopper 超級晶片,搭載 480GB LPDDR5X、H100 96GB HBM3、NVIDIA BlueField-3(四個 PCIe Gen5 4 MCIO 連線至前端 E1.S)和美光 9550 PRO SSD。

Intel 和 NVIDIA 系統是目前許多企業部署 AI 的主要方式,即在標準伺服器中安裝 NVIDIA H100。NVIDIA GH200 為使用 H100 的運算能力提供了更有效的途徑。

隨機讀取工作負載圖表

 

測試的工作負載使用具有 256 個 Worker 和 40GB 檔案的 GDSIO 進行 4KB 隨機讀取。使用傳統路徑,NVIDIA GH200 的每瓦 MB/s 效率提高四倍。使用 NVIDIA GPUDirect Storage,Intel 系統的效率提高 10 倍,而 NVIDIA GH200 的效率提高 4 倍。總體而言,在使用 GDS 時,Intel 系統的能源效率比 NVIDIA GH200 高出 60%。

從系統平均耗電量來看,Intel 系統的平均功耗為 900 瓦,NVIDIA GH200 則為 350 瓦。

實現企業 AI 工作負載的高效途徑

搭載 NVIDIA 超級晶片的 MGX 系列系統是利用 NVIDIA GPU 獨特運算能力的具有功耗效率的方式。從美光元件的角度來看,我們使 LPDDR5X、H100 GPU 中的 HBM3E 以及 E1.S 和 E3.S 規格尺寸的美光 9550 NVMe SSD 成為該平台的最佳選擇。

NVIDIA GH200 系統現已從 Supermicro、HPE 等公司出貨。

儲存解決方案架構處長

Ryan Meredith

Ryan Meredith 是美光儲存業務部門的資料中心工作負載工程處長,負責測試新技術,幫助美光在 AI、NVMe-oF/TCP 以及全快閃記憶體軟體定義儲存技術等領域建立思想領導力和知名度。