1. 記憶體和儲存裝置是 AI 平台的關鍵推動因素
由於資料對 AI 至關重要,因此 GTC 2024 的關鍵主題是對 AI 工作負載中記憶體和儲存裝置效能和容量的需求日益增長。隨著 AI 模型的大小和複雜度不斷增加,它們需要以更快的速度處理和儲存更多資料,並降低延遲。這為傳統記憶體和儲存架構帶來了挑戰,可能會成為 AI 效能和效率的瓶頸。為了解決這項挑戰,美光展示了其記憶體和儲存解決方案組合,這些解決方案旨在最佳化 AI 平台的資料流和可用性。其中包括:
- 美光 HBM3E 8 層堆疊 24GB 和 12 層堆疊 36GB 立方體的業界領先的效能和能源效率。美光 HBM3E 8 層堆疊 24GB 現已量產,並將於 2024 日曆年第二季成為 NVIDIA H200 GPU 出貨的一部分
- 美光 CZ120 CXL™ 記憶體模組提供所需的容量、頻寬和彈性,以加速 AI 和記憶體內工作負載
- 美光 9000 和 7000 系列 SSD 在 3D 醫療影像基準測試 Unet3D 中支援多達 17 個 GPU
- 與競爭對手以容量為主的 SSD 相比,美光 6000 系列 SSD 可將 AI 資料湖擷取量提升高達 48%1
- 真實世界實驗室結果顯示美光的技術如何改善 AI 訓練和推論,包括 LLM、電腦影像、GNN 等
美光在整個資料堆疊(近記憶體、主記憶體、擴充記憶體、SSD 資料快取和網絡資料湖)中利用這些記憶體和儲存解決方案,協助加速 AI 革命,讓 AI 平台能夠更快、更有效率地處理更多資料。
2. AI 是 PCIe® Gen5 的殺手級用例
GTC 2024 的另一個亮點是採用 PCIe Gen5 介面的全新 NVIDIA B100 加速器。PCI Express 標準是連接高效能 CPU、GPU、SSD 和網絡卡的最廣泛使用介面。PCIe Gen5 的頻寬是 Gen4 的兩倍,每個通道的資料傳輸率高達 32GT/s。這是 AI 工作負載的改變型產品,可受惠於更高的資料輸送量。
然而,為了充分利用資料中心內 PCIe Gen5 的潛力,連接到介面的裝置也必須能夠支援更高的速度和更低的延遲。這就是美光 PCIe Gen5 SSD 的用武之地。
NVIDIA、Dell 和美光最近合作,展示美光 PCIe Gen5 SSD、大型加速器記憶體2 (BaM)、NVIDIA H100 加速器和 PowerEdge 伺服器的優勢。相關展示顯示,與 Gen4 相比,將 GNN 訓練模型卸載至 PCIe Gen5 高效能 SSD 時,圖形神經網絡訓練時間縮短了 50%。
此測試亦顯示 NVIDIA H100 (Gen5) 的效能比 A100 (Gen4) 提升 5 倍。經過 5 倍的 GPU 效能改善,儲存裝置需要快速進步才能跟上腳步。一般的深度學習建議 (DLRM) 工作負載將產生 10 到 100 的佇列深度,讀取 128K 到 512K 區塊。在 Gen5 SSD 上,這通常會達到約 14GB/s 的最大硬碟輸送量。有了 AI 模型卸載,小區塊效能變得極為重要。以上詳述的 GNN 演示可在超過 1,000 個佇列深度讀取 4K 區塊,輕鬆達到最快 PCIe Gen5 SSD 的最大隨機讀取輸送量。
在美光的 PCIe Gen5 技術展示中,我們不僅展示出每秒 14GB 的循序輸送量,而且隨機讀取 3,300,000 IOPS。在 4K 工作負載中,輸送量可達到每秒 13.2GB,比現今市場上的競爭產品快 22% 到 32%。
透過提供如此高效能和高效率,美光的 PCIe Gen5 SSD 可以讓 AI 平台充分運用全新 NVIDIA 加速器的強大功能,進而加快購買 AI 硬體,並獲得更好的投資回報。
3. 網絡資料湖在高容量 SSD 上部署的次數越來越多
GTC 2024 的第三次觀察是將網絡資料湖部署在 SSD 而非 HDD 上,以儲存和存取 AI 應用程式產生和消耗的大量資料。網絡資料湖是大型且分散的資料存放庫,透過 InfiniBand 或乙太網路等網絡連接到 AI 平台。網絡資料湖為 AI 資料提供可擴充且靈活的儲存容量,讓資料在不同平台和使用者之間分享和協作,但也帶來了資料傳輸速度和密度方面的挑戰,這大大影響了總體擁有成本 (TCO) 的計算。
為了克服這些挑戰,許多 AI 使用者和開發人員選擇使用高容量 SSD,例如美光 6500 ION 而非 HDD,以建立和操作其網絡資料湖。這種 SSD 類別在網絡資料湖方面比 HDD 具有多種優勢,例如:
- 資料擷取和處理速度更快,可縮短 AI 型的訓練和推論時間和成本。PCIe Gen4 SSD 可提供每秒 6.8GB 的循序讀取效能和每秒超過 5.7GB 的循序寫入效能1,速度比 HDD 快得多,其循序讀取和寫入效能只能低於每秒 300 MB3。這表示這些高容量 SSD 處理資料的速度比 HDD 快 22 倍以上,因此可以大幅加速 AI 工作流程和成果。
- 資料密度更高、功耗更低,可降低 TCO 並改善網絡資料湖的效率。SSD 每部硬碟的儲存資料容量為 30.72TB,為每立方英吋 4.8TB,比現今密度最高的 24TB 近線 HDD 快上五倍4。這意味著 SSD 可以在更少的空間內儲存更多資料,從而降低網絡資料湖的硬體和基礎架構成本。
總之,GTC 2024 是一場精彩的盛會,展示了 AI 產業的最新創新和趨勢,以及美光的記憶體和儲存解決方案如何推動 AI 革命。我們很榮幸能成為 NVIDIA 的合作夥伴,並期待繼續合作,為 AI 生態系統作出貢獻。