設計工具
應用程式

Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

Ryan Meredith | 2023 年 1 月

次世代 AI 儲存裝置:Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

在 2022 年超級運算大會上,Micron® 資料中心工作負載工程團隊、WEKAAMDSupermicro 聯手合作,率先在面向 AI 工作負載的 WEKA 分散式儲存解決方案中測試第四代 AMD EPYC 平台。

我們部署的解決方案運用最先進的硬體和軟體,並採用MLPerf™ Storage 裝置工作小組的全新基準以衡量其支援嚴苛 AI 工作負載的能力。

當我第一次在 LinkedIn 上發佈這項工作時,我了解到該小組是第一個大規模測試 MLPerf Storage 的小組,也是第一個在 AMD Genoa 處理器上測試 WEKA 的小組。Liran Zvibel(WEKA 聯合創始人暨技術長)表示,他很高興這個過程進行得如此順利,「第一次在全新平台(新的 PCIe® 匯流排、新 CPU 等)上運行」往往會遇到一些困難。

WEKA 第 4 版擴展了軟體定義儲存堆疊,以提高每個節點的可擴充性和效能,這對於利用下一代系統必不可少。據 WEKA 表示,它還:

是專為 NVMeTM 和現代網路設計的資料平台。

提高頻寬和 IOP 效能,同時減少延遲和元資料。

支援對本地或雲端資料進行廣泛的多重協定存取。

在處理混合工作負載和小檔案時,速度比本機磁碟更快,無需調整。

Supermicro 提供六套新的 AS-1115CS-TNR 系統用於 WEKA 叢集節點。這些平台利用第四代 AMD EPYC CPU 以及 PCIe® Gen5 背板。測試系統的具體情況如下:

AMD 第四代 EPYC 9654P CPU(96 核心)

12 條美光 DDR5 4800MT/s RDIMM

10 個美光 7450 NVMe SSD

2 個 NVIDIA® Connectx®-6 200Gbe NIC

我們利用美光 DDR5 DRAM 部署了該解決方案,與上一代 DDR4 相比,它的效能更高、吞吐量更大、傳輸速度更快。

我們還使用美光 7450 NVMe SSD — 採用美光 176 層和陣列下 CMOS(CuA)打造。它將高效能與卓越的服務品質相結合,提供卓越的應用程式效能和回應時間。

在網路方面,我們使用 NVIDIA ConnectX-6 200Gbe NIC,每個儲存節點 2 個 NIC,每個用戶端 1 個 NIC。我們建議在 PCIe Gen5 400Gbe NVIDIA ConnectX-7 NIC 可用時使用,以簡化網路配置和部署,並獲得相似效能。

黑色背景中顯示的美光 ssd 旁的 weka 裝置

基準結果

我們測試了 12 個產生負載的用戶端的 FIO 效能,以衡量最大系統吞吐量,在所有用戶端上將每個用戶端的佇列深度(QD)從 1 擴展到 32。

1m 循序讀取吞吐量綠色水平圖
1m 循序寫入綠色水平圖

1MB 讀取速度達 142 GB/s,1MB 寫入速度達 103 GB/s。考慮到 WEKA 使用的糾刪碼 4+2 方案,寫入吞吐量非常驚人。這得益於第四代 AMD EPYC CPU 的極高運算效能和美光 DDR5 DRAM 的效能提升。

4k 隨機讀取 iops 綠色水平圖
4k 隨機寫入 iops 綠色水平圖

在隨機工作負載上,我們測量了 630 萬次 4KB 讀取 IOPS 和 170 萬次 4KB 隨機寫入 IOPS。這些反映了叢集出色的小型區塊隨機效能,美光 7450 NVMe SSD 的效能和延遲以及 WEKA 對優於本地小型區塊 NVMe 效能的關注使其得以實現。

AI/ML 工作負載:MLPerf Storage

MLPerf Storage 基準旨在測試多個模型 AI 訓練的實際儲存效能。它使用測量的睡眠時間來模擬 GPU 請求資料、處理資料然後請求下一批資料所需的時間。這些步驟會產生極度繁瑣的工作負載,儲存裝置將在短時間內達到最大吞吐量,然後進入睡眠狀態。這個 AI 基準有以下主要優點:

  • 專注於 AI/ML 中的儲存影響
  • 具有現實的儲存和預處理設置
  • 無需 GPU 加速器即可執行
  • 可根據種子資料為每個模型產生大型資料集

我們使用以下設定進行測試:

  • MLPerf Storage v0.4(預覽版)
  • 工作負載:醫學影像細分培訓
  • 模型:Unet3D
  • 種子資料:KiTS19 影像集
  • 產生的資料集大小:2TB(500GB x 4)
  • 架構:PyTorch
  • 模擬 GPU:NVIDIA A100
顯示吞吐速度的綠色和藍色折線圖

該基準的重要一點是每個 MLPerf 程序代表一個執行 AI 訓練程序的 GPU。擴充 MLPerf Storage 程序可達到 45 GB/s 的最大吞吐量;但每個程序的效能在大約 288 個程序時開始下降。此資料點代表同時執行 Unet3D 醫學影像細分訓練程序的 288 個 NVIDIA A100 GPU,或相當於 36 個 NVIDIA DGX A100 系統!

您希望深入瞭解嗎?

請務必查看以下資源:

儲存解決方案架構處長

Ryan Meredith

Ryan Meredith 是美光儲存業務部門的資料中心工作負載工程處長,負責測試新技術,幫助美光在 AI、NVMe-oF/TCP 以及全快閃記憶體軟體定義儲存技術等領域建立思想領導力和知名度。