設計工具

Invalid input. Special characters are not supported.

儲存裝置

美光 9400 NVMe SSD 是適用於 AI 儲存裝置的頂級 PCIe Gen4

Wes Vaske | 2023 年 9 月

根據其網站,MLCommons 於 2018 年啟動,「……以加速機器學習創新並擴大其對社會的積極影響……」 如今,MLCommons 維護和開發了 6 個不同的 AI 基準套件,且目前正開發開放資料集以支援未來最先進的 AI 工作負載模型開發。MLPerf Storage 基準套件是基準系列的最新成員。

作為 MLCommons Storage 工作小組的成員,我協助開發了 AI 基準測試規則和流程,以有效確保基準測試結果對研究人員、客戶和供應商等都有意義,並且我們剛剛發布了第一輪提交報告,包括美光 9400 SSD 的結果。

但為什麼我們需要一個專門針對 AI 工作負載的新 AI 基準公用程式?

特徵化 AI 訓練系統的儲存裝置工作負載面臨兩個獨特的挑戰,MLPerf Storage 基準套件旨在解決這兩個挑戰:AI 加速器的成本和可用資料集的規模較小。

第一個很明顯,AI 加速器可能是昂貴、複雜的運算系統,大多數儲存裝置供應商沒有足夠的 AI 系統來分析其產品在儲存裝置解決方案中的可擴展性。

第二個問題是,與 AI 產業常用的資料集相比,公開可用的資料集很小。雖然 MLCommons 及其參與者可用的資料集可能高達 150 GB,但生產中使用的資料集通常為 10 到 100 TB。現代伺服器可以輕鬆擁有 1 到 2 TB 的 DRAM,其作用是在第一個訓練週期之後將小型基準資料集快取在系統記憶體中,然後從 DRAM 中的資料執行後續運行。但由於其大小,生產資料集不會出現相同的行為。

MLPerf Storage 透過模擬以 CPU 為基礎的標準伺服器中的加速器解決了第一個問題。在底層,MLPerf Storage 使用與常用工作負載(pytorch、tensorflow 等)相同的 AI 工作負載框架,但 MLPerf 透過運行配有實際 AI 加速器的系統真實工作負載,繞過具有實驗發現的「睡眠時間」的平台運算部分。

模擬加速器與真實加速器的比較表明,AI 工作負載非常相似。

MLPerf Storage 透過建立與實際生產資料集相似但複製得更大的資料集來解決第二個問題。此 AI 基準測試支援各種資料儲存技術,例如檔案系統和物件儲存,以及多種資料類型,例如序列化 numpy 陣列、TFRecord 檔案、HDF5 檔案等。

除解決這些問題之外,在先前與 John Mazzie 合作的部落格文章中,我們還展示了用於訓練的 AI 工作負載比許多人預期的更加複雜——AI 工作負載既具有突發性,又對延遲敏感。

MLPerf Storage 基準套件是一項優良的工具,可在不需仰賴昂貴 AI 加速器的情況下,模擬真實訓練工作負載,並支援符合實際應用情境的資料集大小,有效驗證 AI 儲存系統的效能。

現在我們很自豪地宣布,美光 9400 NVMe SSD 在 3D 醫療影像基準(Unet3D)中支援 17 倍加速器。這意味著每秒 41 個樣本或 6.1 GB/s 的 IO 輸送量。

憑藉這項易於運行且代表真實訓練環境的 AI 基準測試,美光資料中心工作負載工程團隊將展示不同儲存裝置和解決方案的相關資料,以便我們妥善瞭解如何調整和設計 AI 儲存裝置以提高加速器利用率。

欲瞭解有關美光 9400 NVMe SSD 如何助力您業務的更多資訊,請立即與我們的業務支援團隊聯絡

美光 9400 NVMe SSD 美光 9400 NVMe SSD

SMTS 系統效能工程師

Wes Vaske

Wes Vaske 是 Micron Technology 的資深技術人員(SMTS),以及系統效能工程師。憑藉著在儲存解決方案和 AI 基礎架構方面的深厚經驗,Wes 在推動美光的資料人工智慧和機器學習功能中扮演了關鍵角色。他以在進行 AI 訓練系統基準測試和最佳化儲存裝置效能,以滿足次世代 GPU 需求方面的專業知識而聞名。加入美光之前,Wes 曾擔任 Dell 的系統工程師。他擁有愛荷華州立大學的學士學位。