設計工具

AI 需要我們擁有的所有快速資料中心儲存裝置

Ryan Meredith | 2024 年 6 月

「把你所有的培根和雞蛋都給我。 

等等……我擔心你聽成,『給我很多培根和雞蛋。』 我說的是,把你所有的培根和雞蛋都給我。」 

 ——Ron Swanson

把培根和雞蛋換成大容量 NVMe™ SSD,你就能清楚瞭解當前資料中心儲存裝置市場的現況。AI 正在消耗我們所有的培根和雞蛋,而且胃口越來越大。 

在本篇部落格中,我將討論短期內加速 AI 儲存裝置消耗的三大因素。

  1. AI 加速器正在……加速。
  2. 業界採用生成式 AI:不再有冷資料。
  3. 透過儲存裝置軟體創新最佳化總體擁有成本(TCO)。

AI 工作負載不需要快速儲存裝置,我們的老式 HDD 平台足以勝任。

沒錯,許多 AI 工作負載被設計成使用大區塊讀取,大多是循序讀取,這是 HDD 的最佳使用情境。但那是在使用 Gen3 和 Gen4 AI 加速器的情況下,隨著 NVIDIA H100 等 Gen5 AI 加速器的廣泛部署以及業界為 B100 及更高版本做好準備,HBM 的頻寬增長速度將遠遠超過資料中心系統架構。

在這張圖表中,我比較了 1 個 AI 運算單元的頻寬、1 個加速器的 HBM 頻寬、1 個 CPU 在 1 個 8 通道 DPC 下的 DRAM 頻寬、4 個 NVMe SSD 的頻寬以及 24 個 EAMR HDD 在最大傳輸速率下的頻寬。我之所以選擇 24 個 HDD,是因為與 NVMe SSD 相比,HDD 通常需要以 6 比 1 的比例超額配置,才能滿足頻寬要求。我還選擇了最大傳輸速率來模擬 HDD 的最佳情況。請注意,Y 軸刻度為對數 2。

由於 HBM 的發展,AI 加速器的運算能力正在迅速提高。這一趨勢不會放緩,HBM 頻寬與 DRAM 和 NVMe SSD 之間的差距每一代都在擴大。 

這一加速正在推動歷史上以 HDD 為基礎的 AI 工作負載轉向大容量 NVMe 儲存裝置,如美光 6500 ION。隨著 H100 級 GPU 終於開始供貨,並部署到更多的企業環境中,我們看到許多客戶都出現了這種情況。 

隨著 AI 加速器功能的進步推動通用儲存裝置使用案例的發展,更快的儲存裝置將能夠應對新興的 AI 工作負載。 

業界採用生成式 AI:不再有冷資料 

雖然 LLM 等生成式 AI 模型的初始建立和訓練是由少數組織在大規模 AI 系統叢集上完成的,但內部推論和微調的日常使用案例正在推動大多數公司採用 AI 系統。 

採用經過訓練的模型(如聊天機器人),然後在公司的專有資料上對模型進行微調,已開始成為一種常見的做法。在美光,我們正在使用各種以聊天機器人為重點的工具,以及根據我們的資料進行訓練的代碼生成工具。由於這些訓練資料的敏感性,微調必須在公司內部完成,並保留在本地基礎設施中。 

訓練資料最有可能儲存在哪裡? 通常,我們將訓練資料分散儲存在不同廠商製造的 HDD 儲存硬體。過去,常見的資料流程是從熱層 (SSD) 到溫層(帶有 SSD 快取的 HDD)到冷層(慢速 HDD,可能處於斷電狀態)到歸檔(磁帶)。隨著 AI 模型的發展,新模型將需要在專有資料上反覆重新訓練,這意味著從冷層和冷層以下提取資料將削弱有效微調的能力。儲存資料的溫度層正在上升,進而推動更快、更大容量儲存系統的採用。 

透過儲存裝置軟體創新最佳化總體擁有成本(TCO) 

要使生成式 AI 使用案例可行,有效率地利用 AI 系統至關重要。大型語言模型規模龐大,需要使用大量的 HBM 和 DRAM。在許多情況下,最佳做法是向 LLM 投入越來越多的叢集 AI 資源,以盡快完成訓練。在微調或大規模推論等情況下,以時間為代價,用較少的硬體解決較大的問題集,將是控制總體擁有成本(TCO)的正確選擇。 

這種最佳化方法正在推動創新型 AI 儲存軟體堆疊的發展,以有效利用快速 NVMe SSD 來擴充 HBM 或 DRAM,並最佳化資料路徑。以下是我們測試過的幾個範例: 

所有的培根和雞蛋 

AI 工作負載對儲存裝置的要求一直落後於 HBM 和記憶體。過去 8 年,每一代 AI 加速器的效能都比上一代提升了五倍以上。早期的 AI 工作負載受到運算資源和記憶體頻寬的限制,但隨著 GPU 的快速發展,大多數 AI 工作負載遲早都需要某種形式的 SSD 儲存裝置。 

隨著生成式 AI 成為常見的企業工作負載,有效率地微調和訓練解決方案正在推動儲存裝置軟體的創新。高效能 NVMe SSD 可以發揮「慢速」記憶體的作用,進而有效利用昂貴而稀有的 AI 系統資源。 

美光正在與我們的產業合作夥伴密切合作,以瞭解 AI 工作負載的獨特要求。我們對自家的技術在整個 AI 系統架構、HBM、記憶體和資料中心儲存裝置中的發展潛力感到無比興奮。 

Director, Storage Solutions Architecture

Ryan Meredith

Ryan Meredith is director of Data Center Workload Engineering for Micron's Storage Business Unit, testing new technologies to help build Micron's thought leadership and awareness in fields like AI and NVMe-oF/TCP, along with all-flash software-defined storage technologies.