- US - English
- China - 简体中文
- India - English
- Japan - 日本語
- Malaysia - English
- Singapore - English
- Taiwan – 繁體中文
輸入無效。不支援特殊字元。
推論將成為最常見的資料中心工作負載,這一點毋庸置疑。隨著 NVIDIA H100 在資料中心的迅速普及,以及 NVIDIA DGX B200 進入非 NVL72 系統,我們正見證運算能力的爆炸式增長。
透過對比不同 PCIe® 世代的頻寬擴大與運算能力的增長,我們發現,PCIe 從 Gen3 到 Gen6 增長了 8 倍,而 GPU FLOPS 在同一時期增長了 37.5 倍。
我們還發現,過去四年,訓練叢集的平均 FLOPS 增加了 905 倍,而訓練資料集的資料點在同一時期增加了 2,500 倍。

儘管推論一直是且將繼續是運算密集型工作負載,但其對快速儲存裝置的依賴正在迅速顯現。推理模型將推動 LLM 的實用性、準確性和資源要求條件的大幅提升。序列長度的增加推動了 LLM 系統設計的創新,透過將 KV 快取儲存到磁碟而非清空並重新運算,系統變得更加高效。這將促使企業用於推論的 GPU 本機系統面臨更高的效能要求。
我們關注這一趨勢已經有一段時間,並研發出 Micron 9550 這款具有極高效能的 SSD。高 IOP 和功耗效率與這些新興工作負載相得益彰。
例如,我們使用 Microsoft DeepSpeed ZeRO-Inference,對 Micron 9550 與領先的競爭產品進行測試,發現 Micron 9550 的讀取速度提高了 15%,平均功耗降低了 27%,從而使 SSD 能耗降低了 37%,系統總能耗降低了 19%。
雖然寫入在推論工作負載中只佔很小一部分,但 SSD 之間的差異卻極為明顯。Micron 9550 的速度快 78%,而平均功耗卻低 22%。這意味著,Micron 9550 只用一半的能耗就完成了推論工作,而整個系統的能耗最終降低了 43%。
隨著運算的爆炸式增長和推論領域令人驚歎的實用創新,儲存裝置也需要跟上步伐。資料中心 SSD 的研發需要很長時間;NAND 製造、ASIC 設計、功率、散熱等對 AI 系統中儲存裝置的最終效能至關重要。多年來,作為研發 Micron 9550 和其他新一代資料中心 SSD 工作的一部分,美光一直致力於測試 AI 工作負載量。我們知道,要為未來的 AI 工作負載量提供合適的硬碟,我們今天必須走在時代的最前線。

測試詳情:
DeepSpeed ZeRO AIO 讀取——從 GPU 的 DeepSpeed 資料庫中模擬合成工作負載。
測試系統:2x Intel Xeon Platinum 8568Y+、768GB DDR5 DRAM、2x NVIDIA L40S GPU
競爭產品是 PCIe Gen5 高效能資料中心 SSD,規格和目標用例與 Micron 9550 相似。
資料來自 850 次測試,耗時 446 小時。