次世代 AI 儲存裝置：美光 SSD、WEKA、AMD EPYC 和 Supermicro

次世代 AI 儲存裝置：Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

在 2022 年超級運算大會上，Micron® 資料中心工作負載工程團隊、WEKA、AMD 和 Supermicro 聯手合作，率先在面向 AI 工作負載的 WEKA 分散式儲存解決方案中測試第四代 AMD EPYC 平台。

我們部署的解決方案運用最先進的硬體和軟體，並採用MLPerf™ Storage 裝置工作小組的全新基準以衡量其支援嚴苛 AI 工作負載的能力。

當我第一次在 LinkedIn 上發佈這項工作時，我了解到該小組是第一個大規模測試 MLPerf Storage 的小組，也是第一個在 AMD Genoa 處理器上測試 WEKA 的小組。Liran Zvibel（WEKA 聯合創始人暨技術長）表示，他很高興這個過程進行得如此順利，「第一次在全新平台（新的 PCIe® 匯流排、新 CPU 等）上運行」往往會遇到一些困難。

WEKA 第 4 版擴展了軟體定義儲存堆疊，以提高每個節點的可擴充性和效能，這對於利用下一代系統必不可少。據 WEKA 表示，它還：

是專為 NVMeTM 和現代網路設計的資料平台。

提高頻寬和 IOP 效能，同時減少延遲和元資料。

支援對本地或雲端資料進行廣泛的多重協定存取。

在處理混合工作負載和小檔案時，速度比本機磁碟更快，無需調整。

Supermicro 提供六套新的 AS-1115CS-TNR 系統用於 WEKA 叢集節點。這些平台利用第四代 AMD EPYC CPU 以及 PCIe® Gen5 背板。測試系統的具體情況如下：

AMD 第四代 EPYC 9654P CPU（96 核心）

12 條美光 DDR5 4800MT/s RDIMM

10 個美光 7450 NVMe SSD

2 個 NVIDIA^® Connectx^®-6 200Gbe NIC

我們利用美光 DDR5 DRAM 部署了該解決方案，與上一代 DDR4 相比，它的效能更高、吞吐量更大、傳輸速度更快。

我們還使用美光 7450 NVMe SSD — 採用美光 176 層和陣列下 CMOS（CuA）打造。它將高效能與卓越的服務品質相結合，提供卓越的應用程式效能和回應時間。

在網路方面，我們使用 NVIDIA ConnectX-6 200Gbe NIC，每個儲存節點 2 個 NIC，每個用戶端 1 個 NIC。我們建議在 PCIe Gen5 400Gbe NVIDIA ConnectX-7 NIC 可用時使用，以簡化網路配置和部署，並獲得相似效能。

基準結果

我們測試了 12 個產生負載的用戶端的 FIO 效能，以衡量最大系統吞吐量，在所有用戶端上將每個用戶端的佇列深度（QD）從 1 擴展到 32。

1MB 讀取速度達 142 GB/s，1MB 寫入速度達 103 GB/s。考慮到 WEKA 使用的糾刪碼 4+2 方案，寫入吞吐量非常驚人。這得益於第四代 AMD EPYC CPU 的極高運算效能和美光 DDR5 DRAM 的效能提升。

在隨機工作負載上，我們測量了 630 萬次 4KB 讀取 IOPS 和 170 萬次 4KB 隨機寫入 IOPS。這些反映了叢集出色的小型區塊隨機效能，美光 7450 NVMe SSD 的效能和延遲以及 WEKA 對優於本地小型區塊 NVMe 效能的關注使其得以實現。

AI/ML 工作負載：MLPerf Storage

MLPerf Storage 基準旨在測試多個模型 AI 訓練的實際儲存效能。它使用測量的睡眠時間來模擬 GPU 請求資料、處理資料然後請求下一批資料所需的時間。這些步驟會產生極度繁瑣的工作負載，儲存裝置將在短時間內達到最大吞吐量，然後進入睡眠狀態。這個 AI 基準有以下主要優點：

專注於 AI/ML 中的儲存影響
具有現實的儲存和預處理設置
無需 GPU 加速器即可執行
可根據種子資料為每個模型產生大型資料集

我們使用以下設定進行測試：

MLPerf Storage v0.4（預覽版）
工作負載：醫學影像細分培訓
模型：Unet3D
種子資料：KiTS19 影像集
產生的資料集大小：2TB（500GB x 4）
架構：PyTorch
模擬 GPU：NVIDIA A100

該基準的重要一點是每個 MLPerf 程序代表一個執行 AI 訓練程序的 GPU。擴充 MLPerf Storage 程序可達到 45 GB/s 的最大吞吐量；但每個程序的效能在大約 288 個程序時開始下降。此資料點代表同時執行 Unet3D 醫學影像細分訓練程序的 288 個 NVIDIA A100 GPU，或相當於 36 個 NVIDIA DGX A100 系統！

您希望深入瞭解嗎？

請務必查看以下資源：

儲存解決方案架構處長

Ryan Meredith

Ryan Meredith 是美光核心資料中心業務部門的資料中心工作負載工程處長，負責測試新技術，幫助美光在 AI、NVMe-oF/TCP 以及全快閃記憶體軟體定義儲存技術等領域強化領導地位和知名度。

產品總覽

搜尋、篩選和下載美光資料表

市場與產業總覽

AI 資料中心

合作夥伴總覽

瞭解並註冊參加美光的技術應用支援計畫 (TEP)

業務與支援總覽

聯絡美光業務支援人員

關於總覽

投資人關係總覽

瀏覽美光的投資人關係網站

最近的搜尋

Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

次世代 AI 儲存裝置：Micron® SSD、WEKA™、AMD EPYC™ 和 Supermicro

基準結果

AI/ML 工作負載：MLPerf Storage

您希望深入瞭解嗎？

Ryan Meredith