次世代 AI 儲存裝置:Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro
在 2022 年超級運算大會上,Micron® 資料中心工作負載工程團隊、WEKA、AMD 和 Supermicro 聯手合作,率先在面向 AI 工作負載的 WEKA 分散式儲存解決方案中測試第四代 AMD EPYC 平台。
我們部署的解決方案運用最先進的硬體和軟體,並採用MLPerf™ Storage 裝置工作小組的全新基準以衡量其支援嚴苛 AI 工作負載的能力。
當我第一次在 LinkedIn 上發佈這項工作時,我了解到該小組是第一個大規模測試 MLPerf Storage 的小組,也是第一個在 AMD Genoa 處理器上測試 WEKA 的小組。Liran Zvibel(WEKA 聯合創始人暨技術長)表示,他很高興這個過程進行得如此順利,「第一次在全新平台(新的 PCIe® 匯流排、新 CPU 等)上運行」往往會遇到一些困難。
WEKA 第 4 版擴展了軟體定義儲存堆疊,以提高每個節點的可擴充性和效能,這對於利用下一代系統必不可少。據 WEKA 表示,它還:
是專為 NVMeTM 和現代網路設計的資料平台。
提高頻寬和 IOP 效能,同時減少延遲和元資料。
支援對本地或雲端資料進行廣泛的多重協定存取。
在處理混合工作負載和小檔案時,速度比本機磁碟更快,無需調整。
Supermicro 提供六套新的 AS-1115CS-TNR 系統用於 WEKA 叢集節點。這些平台利用第四代 AMD EPYC CPU 以及 PCIe® Gen5 背板。測試系統的具體情況如下:
AMD 第四代 EPYC 9654P CPU(96 核心)
12 條美光 DDR5 4800MT/s RDIMM
10 個美光 7450 NVMe SSD
2 個 NVIDIA® Connectx®-6 200Gbe NIC
我們利用美光 DDR5 DRAM 部署了該解決方案,與上一代 DDR4 相比,它的效能更高、吞吐量更大、傳輸速度更快。
我們還使用美光 7450 NVMe SSD — 採用美光 176 層和陣列下 CMOS(CuA)打造。它將高效能與卓越的服務品質相結合,提供卓越的應用程式效能和回應時間。
在網路方面,我們使用 NVIDIA ConnectX-6 200Gbe NIC,每個儲存節點 2 個 NIC,每個用戶端 1 個 NIC。我們建議在 PCIe Gen5 400Gbe NVIDIA ConnectX-7 NIC 可用時使用,以簡化網路配置和部署,並獲得相似效能。
基準結果
我們測試了 12 個產生負載的用戶端的 FIO 效能,以衡量最大系統吞吐量,在所有用戶端上將每個用戶端的佇列深度(QD)從 1 擴展到 32。
1MB 讀取速度達 142 GB/s,1MB 寫入速度達 103 GB/s。考慮到 WEKA 使用的糾刪碼 4+2 方案,寫入吞吐量非常驚人。這得益於第四代 AMD EPYC CPU 的極高運算效能和美光 DDR5 DRAM 的效能提升。
在隨機工作負載上,我們測量了 630 萬次 4KB 讀取 IOPS 和 170 萬次 4KB 隨機寫入 IOPS。這些反映了叢集出色的小型區塊隨機效能,美光 7450 NVMe SSD 的效能和延遲以及 WEKA 對優於本地小型區塊 NVMe 效能的關注使其得以實現。
AI/ML 工作負載:MLPerf Storage
MLPerf Storage 基準旨在測試多個模型 AI 訓練的實際儲存效能。它使用測量的睡眠時間來模擬 GPU 請求資料、處理資料然後請求下一批資料所需的時間。這些步驟會產生極度繁瑣的工作負載,儲存裝置將在短時間內達到最大吞吐量,然後進入睡眠狀態。這個 AI 基準有以下主要優點:
- 專注於 AI/ML 中的儲存影響
- 具有現實的儲存和預處理設置
- 無需 GPU 加速器即可執行
- 可根據種子資料為每個模型產生大型資料集
我們使用以下設定進行測試:
- MLPerf Storage v0.4(預覽版)
- 工作負載:醫學影像細分培訓
- 模型:Unet3D
- 種子資料:KiTS19 影像集
- 產生的資料集大小:2TB(500GB x 4)
- 架構:PyTorch
- 模擬 GPU:NVIDIA A100
該基準的重要一點是每個 MLPerf 程序代表一個執行 AI 訓練程序的 GPU。擴充 MLPerf Storage 程序可達到 45 GB/s 的最大吞吐量;但每個程序的效能在大約 288 個程序時開始下降。此資料點代表同時執行 Unet3D 醫學影像細分訓練程序的 288 個 NVIDIA A100 GPU,或相當於 36 個 NVIDIA DGX A100 系統!
您希望深入瞭解嗎?
請務必查看以下資源: