美光近期公佈了在美光 9400 NVMe™ SSD 上使用 MLPerf Storage v0.5 的結果。這些結果突顯了高效能 NVMe SSD 在 AI 伺服器中作為本機快取記憶體的功能,而美光 9400 NVMe SSD 在此用例中表現極佳。然而,大多數 AI 訓練資料都不在本機快取記憶體中,而是存放在共用儲存裝置。對於 SC23,我們決定在由 30TB 美光 6500 ION NVMe SSD 驅動的 WEKA 儲存裝置叢集上測試 MLPerf Storage AI 工作負載。
WEKA 是專為 AI 工作負載設計的分散式平行檔案系統,我們希望瞭解 MLPerf Storage AI 工作負載如何在高效能 SDS 解決方案上進行擴充。結果很有啟發性,可以幫助我們針對目前的生成式 AI 系統提出規格建議,並揭示了未來 AI 儲存系統所需的龐大吞吐量。
先來快速複習一下 MLPerf Storage
MLCommons 維護並開發了六種不同的基準組合,並正在開發開放資料集,以支援未來最先進的模型研發。MLPerf Storage Benchmark Suite 是 MLCommons 基準組合的最新成員。
在特徵化 AI 訓練系統的儲存裝置工作負載時,MLPerf Storage 需要解決兩個挑戰:AI 加速器的成本和可用資料集的規模較小。
如需深入瞭解 MLPerf Storage 所產生的工作負載以及對基準的討論,請參閱我們先前的部落格文章:
接下來,讓我們看看接受測試的 WEKA 叢集
我的團隊成員 Sujit 在今年初寫了一篇貼文描述叢集在合成工作負載中的效能。完整的結果請參閱這篇貼文。
叢集由六個儲存裝置節點組成,每個節點的配置如下:
- Supermicro AS-1115CS-TNR
- 單插槽 AMD EPYC™ 9554P CP
- 64 核心/3.1 GHz 基礎頻率/3.75 GHz 加速頻率
- 384GB 美光 DDR5 DRAM
- 10 美光 30TB 6500 NVMe SSD
- 400 GbE 網路
此叢集合共提供 838 TB 的容量,對於高佇列深度的工作負載,可達 200 GB/秒。
最後,讓我們回顧一下此叢集在 MLPerf Storage 中的表現
簡短說明:由於尚未提交 MLPerf Storage 進行審核,因此此處呈現的結果尚未經過驗證。此外,MLPerf Storage 基準正作出變更,從 v0.5 變更至於 2024 年首次發佈的下一版本。此處呈列的資料乃使用 v0.5 版本所用的相同方法,(每位客戶擁有獨立資料集、獨立客戶以及客戶加速器共用一個障礙)。
MLPerf Storage 基準模擬 0.5 版本中的 NVIDIA® V100 加速器。NVIDIA DGX-2 伺服器 有 16 個 V100 加速器。在此測試中,我們顯示 WEKA 叢集支援的客戶數量,其中每名客戶模擬 16 個 V100 加速器,與 NVIDIA DGX-2 中相似。
此外, MLPerf Storage 基準 v0.5 採用兩種不同的模型:Unet3D 和 BERT。透過測試,我們發現 BERT 並不會產生顯著的儲存流量,因此在此我們將專注於 Unet3D 的測試。(Unet3D 是一種 3D 醫學影像模型)。
此圖顯示在特定客戶節點數量下,儲存系統的總吞吐量。請記住,每個節點有 16 個模擬加速器。此外,要視為 「成功」,既定數量的節點和加速器需要將加速器使用率維持在 90% 以上。如果加速器的使用率低於 90%,表示加速器存在等待資料的閑置時間。
此處,我們看到六節點的 WEKA 儲存裝置叢集支援 16 名客戶,每名客戶模擬 16 個加速器(總共 256 個模擬加速器)並達到 91 GB/s 的吞吐量。
這個效能相當於 16 個 NVIDIA DGX-2 系統(每個系統有 16 個 V100 GPU),一個六節點的 WEKA 叢集所支援的 AI 系統數量相當高。
V100 是 PCIe Gen3 GPU,NVIDIA GPU 的效能提升速度遠超平台與 PCIe 世代。在單節點系統中,我們發現此工作負載中模擬 NVIDIA A100 GPU 的速度快四倍。
按最高吞吐量 91 GB/s 計,我們可以估計這個 WEKA 部署可以支援 8 個 DGX A100 系統(每個系統有 8 個 A100 GPU)。
如進一步展望未來的 H100 / H200(PCIe Gen5)和 X100(PCIe Gen6),前沿的 AI 訓練伺服器將帶來大量的吞吐量。
就目前而言,WEKA 儲存裝置與美光 6500 NVMe SSD 在容量、效能與擴充性組合方面均是您 AI 工作負載的完美選擇。
敬請繼續關注我們對 AI 儲存裝置的探索工作!