根據其網站,MLCommons 於 2018 年啟動,「……以加速機器學習創新並擴大其對社會的積極影響……」 如今,MLCommons 維護和開發了 6 個不同的基準套件,且目前正開發開放資料集以支援未來最先進的模型開發。MLPerf Storage 基準套件是基準系列的最新成員。
作為 MLCommons Storage 工作小組的成員,我協助開發了基準測試規則和流程,以幫助確保基準測試結果對研究人員、客戶和供應商等都有意義,並且我們剛剛發佈了第一輪提交報告,包括 美光 9400 SSD 的結果。
但為什麼我們需要一個專門針對 AI 工作負載的新基準公用程式?
特徵化 AI 訓練系統的儲存裝置工作負載面臨兩個獨特的挑戰,MLPerf Storage 基準套件旨在解決這兩個挑戰:AI 加速器的成本和可用資料集的規模較小。
第一個很明顯,AI 加速器可能是昂貴、複雜的運算系統,大多數儲存裝置供應商沒有足夠的 AI 系統來分析其產品在儲存裝置解決方案中的可擴展性。
第二個問題是,與 AI 產業常用的資料集相比,公開可用的資料集很小。雖然 MLCommons 及其參與者可用的資料集可能高達 150 GB,但生產中使用的資料集通常為 10 到 100 TB。現代伺服器可以輕鬆擁有 1 到 2 TB 的 DRAM,其作用是在第一個訓練週期之後將小型基準資料集快取在系統記憶體中,然後從 DRAM 中的資料執行後續運行。但由於其大小,生產資料集不會出現相同的行為。
MLPerf Storage 透過模擬以 CPU 為基礎的標準伺服器中的加速器解決了第一個問題。在底層,MLPerf Storage 使用與常用工作負載(pytorch、tensorflow 等)相同的 AI 框架,但 MLPerf 透過運行配有實際 AI 加速器的系統真實工作負載,繞過具有實驗發現的「睡眠時間」的平台運算部分。
模擬加速器與真實加速器的比較表明,工作負載非常相似。
MLPerf Storage 透過建立與實際生產資料集相似但複製得更大的資料集來解決第二個問題。此基準測試支援各種資料儲存技術,例如檔案系統和物件存儲,以及多種資料類型,例如序列化 numpy 陣列、TFRecord 檔案、HDF5 檔案等。
除解決這些問題之外,在先前與 John Mazzie 合作的部落格文章中,我們還展示了 AI 訓練工作負載比許多人預期的更加複雜——工作負載既具有突發性,又對延遲敏感。
MLPerf Storage 基準套件是鍛鍊儲存系統的好方法,它可以代表真實的 AI 訓練工作負載,無需昂貴的 AI 加速器,同時也支援代表真實資料集的資料集大小。
現在我們很自豪地宣佈,美光 9400 NVMe SSD 在 3D 醫療影像基準(Unet3D)中支援 17 倍加速器。這意味著每秒 41 個樣本或 6.1 GB/s 的 IO 輸送量。
憑藉這項易於運行且代表真實 AI 訓練環境的基準測試,美光資料中心工作負載工程團隊將展示不同儲存裝置和解決方案的相關資料,以便我們更好地瞭解如何調整和設計儲存裝置以提高加速器利用率。