設計工具
AI

使用 Micron 9550 SSD,以更低的功耗更快地完成 AI 工作負載

Ryan Meredith | 2024 年 10 月

Micron 9550 高效能 SSD 改變了 AI 工作負載的遊戲規則。利用我們經過實戰驗證的美光 G8 NAND、領先的控制器以及 SSD 中所有關鍵元件的垂直整合,我們打造出效能一流、功耗更低的硬碟。

我的團隊在四種先進 AI 工作負載中測試了 Micron 9550 U.2 7.68TB 硬碟。結果證明,Micron 9550 是最適合 AI 系統的資料中心 SSD。


四種工作負載,同類最佳
 

9550 工作負載圖表


在所有用於測試的工作負載中,Micron 9550 不僅能更快地完成工作,而且平均功耗更低,這意味著可以節省大量的 SSD 能耗(工作負載時間 x 平均功耗)。讓我們詳細瞭解這些工作負載。
 

圖像神經網路訓練:大型加速器記憶體
 

大型加速器記憶體(BaM)和 GPU 主動直接儲存(GIDS)取代了 NVMe 驅動程式,並使用高 GPU 執行緒平行化來提高搭載 NVIDIA® H100 的 PCIe® Gen5 SSD 的效能。該工作負載需要我們測試過的最高效能小區塊輸入/輸出(IO)。

合成擴充測試圖

該合成測試與 FIO(靈活 IO)類似,但由 H100 GPU 啟動。在這項測試中,Micron 9550 達到 340 萬每秒讀寫次數(IOP)。我們還繪製了每瓦 IOP 圖表,從中可以看出 Micron 9550 的能源效率比競爭對手高出兩倍

如果用於真實的 AI 訓練工作負載會是什麼情況?

  • 更高的效能:在 H100 上訓練圖像神經網路時,將 BaM 與 Micron 9550 結合使用,效能提高了 33%,因為 SSD 的吞吐量提高了 60%。
  • 更低的 SSD 功耗:在功耗方面,Micron 9550 使用 16.6W 達到 290 萬 IOP,進而將完成工作所需的 SSD 能耗降低了 43%。
  • 更少的系統能耗:從系統功耗來看,Micron 9550 的速度和效率使系統總能耗降低了 29%

對於 BaM 之類的高效能、儲存型工作負載,Micron 9550 的功耗效率經過直接轉化,幫助資料中心降低系統能耗、節省電力並控制成本。
 

使用 MLPerf Storage 進行 Unet3D 醫學影像分割
 

MLPerf Storage 基準模擬 Unet3D AI 訓練工作負載,方法是按照醫學影像分割模型使用的精確大小布局檔案。然後,它使用 Tensorflow 和 Pytorch 處理這些檔案,並在 GPU 執行訓練操作時插入睡眠時間以模擬 GPU。該程序可以進行調整,以顯示不同 GPU 執行特定模型所需的吞吐量。

  • 更高的效能:我們看到效能提高了 5%,因為工作負載是大區塊繁重讀取,所有 SSD 的效能都差不多。這種 IO 模式是許多 AI 訓練工作負載的典型特徵。
  • 更低的 SSD 功耗:Micron 9550 的不同之處在於,它在實現 5% 效能提升的同時,平均 SSD 功耗降低了 32%。
  • 減少 SSD 能耗:更高的效能和更低的 SSD 平均功耗使該工作負載的 SSD 能耗降低了 35%。

在 SSD 層級節省功耗,可讓 AI 訓練伺服器的功耗預算更具彈性,並實現 GPU 密集設計。
 

使用 DeepSpeed ZeRO-Inference 進行大型語言模型推論
 

DeepSpeed ZeRO-Inference 旨在透過使用 SSD 進行智慧卸載,使不適合在主記憶體中工作的 LLM 能夠正常工作。

第一項測試顯示的是合成讀取和寫入,代表了 LLM 使用特定 SSD 時的最高效能。

在推論工作負載中,讀取更為常見。我們看到吞吐量提高了 15%,SSD 功耗降低了 27%,SSD 和系統能耗分別節省了 37% 和 19%。

寫入的情況要少得多,但在檢查點或檢索增強生成(RAG)工作負載中,仍會進行寫入。我們看到 Micron 9550 的吞吐量提高了 78%,而 SSD 的功耗降低了 22%,這使得 SSD 的能耗降低了 51%,系統能耗降低了 43%。

如果用於 Meta Llama 3 70B 會是什麼情況?

  • 效能略有提高:在配備兩個 NVIDIA L40S 推論加速器的系統上執行 Meta Llama 3 700 億參數模型時,使用 Micron 9550 的每秒符記數量略有增加,因為該工作負載 99% 是 256KB 隨機讀取,而所有接受測試的 SSD 在該 IO 模式下的效能都差不多。工作負載還受到 GPU 運算的約束。
  • 更低的 SSD 功耗:我們發現 Micron 9550 的 SSD 功耗降低了 19%,使得 SSD 的能耗降低了 21%。
  • 更少的系統能耗? 系統能耗並沒有受到很大影響,因為兩個 L40S 的能耗遠高於單個 SSD。在大規模部署的情況下,2% 的系統能耗節省仍然非常可觀。

Micron 9550 的功耗和能耗分別降低了 19% 和 21%,達到與 GPU 工作負載類似的效能水平。如果儲存子系統的功耗更低,系統架構師將有額外的功耗餘量,可以在推論系統中安裝更多的 GPU。
 

NVIDIA GPUDirect® Storage


最後,讓我們看看 NVIDIA GPUDirect Storage(GDS)。我們以不同的 IO 大小從 NVIDIA H100 GPU 生成 IO,直接從 Micron 9550 讀取資料,並繞過 CPU+DRAM 反彈緩衝區。

  • 更高的效能:吞吐量比競爭對手高出 9% 到 34%。Micron 9550 在處理小區塊 IO 時速度更快。隨著 IO 大小的增加,硬碟的效能會變得更加接近。
  • 更低的 SSD 功耗:Micron 9550 的功耗最多可降低 30%。
  • 減少 SSD 能耗:傳輸 1TB 資料時,Micron 9550 的能耗最多可減少 66%。


更高的效能、更低的 SSD 功耗、更少的能耗


從這四種 AI 工作負載可以看出一個明顯的模式:Micron 9550 功耗更低,效能卻更高,這意味著在 SSD 和系統層面節省了大量能源。

AI 工作負載不斷挑戰資料中心系統效能的極限,並開始對資料中心 SSD 提出極高效能要求。Micron 9550 正是為了應對這一新興挑戰而設計;工作負載效能就是最好的證明。

Director, Storage Solutions Architecture

Ryan Meredith

Ryan Meredith is director of Data Center Workload Engineering for Micron's Storage Business Unit, testing new technologies to help build Micron's thought leadership and awareness in fields like AI and NVMe-oF/TCP, along with all-flash software-defined storage technologies.