「把你所有的培根和雞蛋都給我。
等等……我擔心你聽成,『給我很多培根和雞蛋。』 我說的是,把你所有的培根和雞蛋都給我。」
——Ron Swanson
把培根和雞蛋換成大容量 NVMe™ SSD,你就能清楚瞭解當前資料中心儲存裝置市場的現況。AI 正在消耗我們所有的培根和雞蛋,而且胃口越來越大。
在本篇部落格中,我將討論短期內加速 AI 儲存裝置消耗的三大因素。
- AI 加速器正在……加速。
- 業界採用生成式 AI:不再有冷資料。
- 透過儲存裝置軟體創新最佳化總體擁有成本(TCO)。
AI 工作負載不需要快速儲存裝置,我們的老式 HDD 平台足以勝任。
沒錯,許多 AI 工作負載被設計成使用大區塊讀取,大多是循序讀取,這是 HDD 的最佳使用情境。但那是在使用 Gen3 和 Gen4 AI 加速器的情況下,隨著 NVIDIA H100 等 Gen5 AI 加速器的廣泛部署以及業界為 B100 及更高版本做好準備,HBM 的頻寬增長速度將遠遠超過資料中心系統架構。
在這張圖表中,我比較了 1 個 AI 運算單元的頻寬、1 個加速器的 HBM 頻寬、1 個 CPU 在 1 個 8 通道 DPC 下的 DRAM 頻寬、4 個 NVMe SSD 的頻寬以及 24 個 EAMR HDD 在最大傳輸速率下的頻寬。我之所以選擇 24 個 HDD,是因為與 NVMe SSD 相比,HDD 通常需要以 6 比 1 的比例超額配置,才能滿足頻寬要求。我還選擇了最大傳輸速率來模擬 HDD 的最佳情況。請注意,Y 軸刻度為對數 2。
由於 HBM 的發展,AI 加速器的運算能力正在迅速提高。這一趨勢不會放緩,HBM 頻寬與 DRAM 和 NVMe SSD 之間的差距每一代都在擴大。
這一加速正在推動歷史上以 HDD 為基礎的 AI 工作負載轉向大容量 NVMe 儲存裝置,如美光 6500 ION。隨著 H100 級 GPU 終於開始供貨,並部署到更多的企業環境中,我們看到許多客戶都出現了這種情況。
隨著 AI 加速器功能的進步推動通用儲存裝置使用案例的發展,更快的儲存裝置將能夠應對新興的 AI 工作負載。
業界採用生成式 AI:不再有冷資料
雖然 LLM 等生成式 AI 模型的初始建立和訓練是由少數組織在大規模 AI 系統叢集上完成的,但內部推論和微調的日常使用案例正在推動大多數公司採用 AI 系統。
採用經過訓練的模型(如聊天機器人),然後在公司的專有資料上對模型進行微調,已開始成為一種常見的做法。在美光,我們正在使用各種以聊天機器人為重點的工具,以及根據我們的資料進行訓練的代碼生成工具。由於這些訓練資料的敏感性,微調必須在公司內部完成,並保留在本地基礎設施中。
訓練資料最有可能儲存在哪裡? 通常,我們將訓練資料分散儲存在不同廠商製造的 HDD 儲存硬體。過去,常見的資料流程是從熱層 (SSD) 到溫層(帶有 SSD 快取的 HDD)到冷層(慢速 HDD,可能處於斷電狀態)到歸檔(磁帶)。隨著 AI 模型的發展,新模型將需要在專有資料上反覆重新訓練,這意味著從冷層和冷層以下提取資料將削弱有效微調的能力。儲存資料的溫度層正在上升,進而推動更快、更大容量儲存系統的採用。
透過儲存裝置軟體創新最佳化總體擁有成本(TCO)
要使生成式 AI 使用案例可行,有效率地利用 AI 系統至關重要。大型語言模型規模龐大,需要使用大量的 HBM 和 DRAM。在許多情況下,最佳做法是向 LLM 投入越來越多的叢集 AI 資源,以盡快完成訓練。在微調或大規模推論等情況下,以時間為代價,用較少的硬體解決較大的問題集,將是控制總體擁有成本(TCO)的正確選擇。
這種最佳化方法正在推動創新型 AI 儲存軟體堆疊的發展,以有效利用快速 NVMe SSD 來擴充 HBM 或 DRAM,並最佳化資料路徑。以下是我們測試過的幾個範例:
- 大型加速器記憶體:該研究專案能夠替換 NVMe 驅動程式,以便 AI 加速器直接存取 NVMe SSD。目前可與 GNN 工作負載配合使用,並能從最快的 NVMe SSD 中榨取每一點小區塊 I/O 效能。
- DeepSpeed ZeRO-Inference:該軟體可將用於推論的 kv 快取卸載到 NVMe SSD,進而在大規模推論工作負載中有效率地利用系統 GPU、記憶體和儲存裝置。
- NVIDIA GPUDirect Storage:該技術能夠繞過 CPU 反彈緩衝,實現從 GPU 到 NVMe SSD 儲存裝置的資料路徑。大幅提升繁忙系統的儲存效能。
所有的培根和雞蛋
AI 工作負載對儲存裝置的要求一直落後於 HBM 和記憶體。過去 8 年,每一代 AI 加速器的效能都比上一代提升了五倍以上。早期的 AI 工作負載受到運算資源和記憶體頻寬的限制,但隨著 GPU 的快速發展,大多數 AI 工作負載遲早都需要某種形式的 SSD 儲存裝置。
隨著生成式 AI 成為常見的企業工作負載,有效率地微調和訓練解決方案正在推動儲存裝置軟體的創新。高效能 NVMe SSD 可以發揮「慢速」記憶體的作用,進而有效利用昂貴而稀有的 AI 系統資源。
美光正在與我們的產業合作夥伴密切合作,以瞭解 AI 工作負載的獨特要求。我們對自家的技術在整個 AI 系統架構、HBM、記憶體和資料中心儲存裝置中的發展潛力感到無比興奮。