Micron 9550 高效能 SSD 改變了 AI 工作負載的遊戲規則。利用我們經過實戰驗證的美光 G8 NAND、領先的控制器以及 SSD 中所有關鍵元件的垂直整合,我們打造出效能一流、功耗更低的硬碟。
我的團隊在四種先進 AI 工作負載中測試了 Micron 9550 U.2 7.68TB 硬碟。結果證明,Micron 9550 是最適合 AI 系統的資料中心 SSD。
四種工作負載,同類最佳
在所有用於測試的工作負載中,Micron 9550 不僅能更快地完成工作,而且平均功耗更低,這意味著可以節省大量的 SSD 能耗(工作負載時間 x 平均功耗)。讓我們詳細瞭解這些工作負載。
圖像神經網路訓練:大型加速器記憶體
大型加速器記憶體(BaM)和 GPU 主動直接儲存(GIDS)取代了 NVMe 驅動程式,並使用高 GPU 執行緒平行化來提高搭載 NVIDIA® H100 的 PCIe® Gen5 SSD 的效能。該工作負載需要我們測試過的最高效能小區塊輸入/輸出(IO)。
該合成測試與 FIO(靈活 IO)類似,但由 H100 GPU 啟動。在這項測試中,Micron 9550 達到 340 萬每秒讀寫次數(IOP)。我們還繪製了每瓦 IOP 圖表,從中可以看出 Micron 9550 的能源效率比競爭對手高出兩倍。
如果用於真實的 AI 訓練工作負載會是什麼情況?
- 更高的效能:在 H100 上訓練圖像神經網路時,將 BaM 與 Micron 9550 結合使用,效能提高了 33%,因為 SSD 的吞吐量提高了 60%。
- 更低的 SSD 功耗:在功耗方面,Micron 9550 使用 16.6W 達到 290 萬 IOP,進而將完成工作所需的 SSD 能耗降低了 43%。
- 更少的系統能耗:從系統功耗來看,Micron 9550 的速度和效率使系統總能耗降低了 29%。
對於 BaM 之類的高效能、儲存型工作負載,Micron 9550 的功耗效率經過直接轉化,幫助資料中心降低系統能耗、節省電力並控制成本。
使用 MLPerf Storage 進行 Unet3D 醫學影像分割
MLPerf Storage 基準模擬 Unet3D AI 訓練工作負載,方法是按照醫學影像分割模型使用的精確大小布局檔案。然後,它使用 Tensorflow 和 Pytorch 處理這些檔案,並在 GPU 執行訓練操作時插入睡眠時間以模擬 GPU。該程序可以進行調整,以顯示不同 GPU 執行特定模型所需的吞吐量。
- 更高的效能:我們看到效能提高了 5%,因為工作負載是大區塊繁重讀取,所有 SSD 的效能都差不多。這種 IO 模式是許多 AI 訓練工作負載的典型特徵。
- 更低的 SSD 功耗:Micron 9550 的不同之處在於,它在實現 5% 效能提升的同時,平均 SSD 功耗降低了 32%。
- 減少 SSD 能耗:更高的效能和更低的 SSD 平均功耗使該工作負載的 SSD 能耗降低了 35%。
在 SSD 層級節省功耗,可讓 AI 訓練伺服器的功耗預算更具彈性,並實現 GPU 密集設計。
使用 DeepSpeed ZeRO-Inference 進行大型語言模型推論
DeepSpeed ZeRO-Inference 旨在透過使用 SSD 進行智慧卸載,使不適合在主記憶體中工作的 LLM 能夠正常工作。
第一項測試顯示的是合成讀取和寫入,代表了 LLM 使用特定 SSD 時的最高效能。
在推論工作負載中,讀取更為常見。我們看到吞吐量提高了 15%,SSD 功耗降低了 27%,SSD 和系統能耗分別節省了 37% 和 19%。
寫入的情況要少得多,但在檢查點或檢索增強生成(RAG)工作負載中,仍會進行寫入。我們看到 Micron 9550 的吞吐量提高了 78%,而 SSD 的功耗降低了 22%,這使得 SSD 的能耗降低了 51%,系統能耗降低了 43%。
如果用於 Meta Llama 3 70B 會是什麼情況?
- 效能略有提高:在配備兩個 NVIDIA L40S 推論加速器的系統上執行 Meta Llama 3 700 億參數模型時,使用 Micron 9550 的每秒符記數量略有增加,因為該工作負載 99% 是 256KB 隨機讀取,而所有接受測試的 SSD 在該 IO 模式下的效能都差不多。工作負載還受到 GPU 運算的約束。
- 更低的 SSD 功耗:我們發現 Micron 9550 的 SSD 功耗降低了 19%,使得 SSD 的能耗降低了 21%。
- 更少的系統能耗? 系統能耗並沒有受到很大影響,因為兩個 L40S 的能耗遠高於單個 SSD。在大規模部署的情況下,2% 的系統能耗節省仍然非常可觀。
Micron 9550 的功耗和能耗分別降低了 19% 和 21%,達到與 GPU 工作負載類似的效能水平。如果儲存子系統的功耗更低,系統架構師將有額外的功耗餘量,可以在推論系統中安裝更多的 GPU。
NVIDIA GPUDirect® Storage
最後,讓我們看看 NVIDIA GPUDirect Storage(GDS)。我們以不同的 IO 大小從 NVIDIA H100 GPU 生成 IO,直接從 Micron 9550 讀取資料,並繞過 CPU+DRAM 反彈緩衝區。
- 更高的效能:吞吐量比競爭對手高出 9% 到 34%。Micron 9550 在處理小區塊 IO 時速度更快。隨著 IO 大小的增加,硬碟的效能會變得更加接近。
- 更低的 SSD 功耗:Micron 9550 的功耗最多可降低 30%。
- 減少 SSD 能耗:傳輸 1TB 資料時,Micron 9550 的能耗最多可減少 66%。
更高的效能、更低的 SSD 功耗、更少的能耗
從這四種 AI 工作負載可以看出一個明顯的模式:Micron 9550 功耗更低,效能卻更高,這意味著在 SSD 和系統層面節省了大量能源。
AI 工作負載不斷挑戰資料中心系統效能的極限,並開始對資料中心 SSD 提出極高效能要求。Micron 9550 正是為了應對這一新興挑戰而設計;工作負載效能就是最好的證明。