設計工具
儲存裝置

2024 年 NVIDIA GTC 的三大要點

Alvaro Toledo | 2024 年 4 月

NVIDIA 的 GPU 技術大會 (GTC) 是 AI 產業中最受期待的活動之一,展示 GPU 運算、深度學習、電腦視覺等領域的最新創新和趨勢。今年,GTC 2024 於 3 月 18 日至 21 日舉行,並舉辦超過 900 場來自該領域專家和領導者的演講、主題演講、示範和研討會。美光作為 NVIDIA 的合作夥伴,在這場活動中深獲驕傲,強調我們的記憶體和儲存解決方案如何推動新一代 AI 平台和應用程式。以下是 GTC 2024 的三項關鍵觀察結果,這些觀察結果證明了記憶體和儲存裝置在 AI 生態系統中的重要性。
 

1. 記憶體和儲存裝置是 AI 平台的關鍵推動因素
 

由於資料對 AI 至關重要,因此 GTC 2024 的關鍵主題是對 AI 工作負載中記憶體和儲存裝置效能和容量的需求日益增長。隨著 AI 模型的大小和複雜度不斷增加,它們需要以更快的速度處理和儲存更多資料,並降低延遲。這為傳統記憶體和儲存架構帶來了挑戰,可能會成為 AI 效能和效率的瓶頸。為了解決這項挑戰,美光展示了其記憶體和儲存解決方案組合,這些解決方案旨在最佳化 AI 平台的資料流和可用性。其中包括:

  • 美光 HBM3E 8 層堆疊 24GB 和 12 層堆疊 36GB 立方體的業界領先的效能和能源效率。美光 HBM3E 8 層堆疊 24GB 現已量產,並將於 2024 日曆年第二季成為 NVIDIA H200 GPU 出貨的一部分
  • 美光 CZ120 CXL™ 記憶體模組提供所需的容量、頻寬和彈性,以加速 AI 和記憶體內工作負載
  • 美光 9000 和 7000 系列 SSD 在 3D 醫療影像基準測試 Unet3D 中支援多達 17 個 GPU
  • 與競爭對手以容量為主的 SSD 相比,美光 6000 系列 SSD 可將 AI 資料湖擷取量提升高達 48%1
  • 真實世界實驗室結果顯示美光的技術如何改善 AI 訓練和推論,包括 LLM、電腦影像、GNN 等

 


美光在整個資料堆疊(近記憶體、主記憶體、擴充記憶體、SSD 資料快取和網絡資料湖)中利用這些記憶體和儲存解決方案,協助加速 AI 革命,讓 AI 平台能夠更快、更有效率地處理更多資料。
 

2. AI 是 PCIe® Gen5 的殺手級用例
 

GTC 2024 的另一個亮點是採用 PCIe Gen5 介面的全新 NVIDIA B100 加速器。PCI Express 標準是連接高效能 CPU、GPU、SSD 和網絡卡的最廣泛使用介面。PCIe Gen5 的頻寬是 Gen4 的兩倍,每個通道的資料傳輸率高達 32GT/s。這是 AI 工作負載的改變型產品,可受惠於更高的資料輸送量。

然而,為了充分利用資料中心內 PCIe Gen5 的潛力,連接到介面的裝置也必須能夠支援更高的速度和更低的延遲。這就是美光 PCIe Gen5 SSD 的用武之地。

NVIDIA、Dell 和美光最近合作,展示美光 PCIe Gen5 SSD、大型加速器記憶體2 (BaM)、NVIDIA H100 加速器和 PowerEdge 伺服器的優勢。相關展示顯示,與 Gen4 相比,將 GNN 訓練模型卸載至 PCIe Gen5 高效能 SSD 時,圖形神經網絡訓練時間縮短了 50%。
 


此測試亦顯示 NVIDIA H100 (Gen5) 的效能比 A100 (Gen4) 提升 5 倍。經過 5 倍的 GPU 效能改善,儲存裝置需要快速進步才能跟上腳步。一般的深度學習建議 (DLRM) 工作負載將產生 10 到 100 的佇列深度,讀取 128K 到 512K 區塊。在 Gen5 SSD 上,這通常會達到約 14GB/s 的最大硬碟輸送量。有了 AI 模型卸載,小區塊效能變得極為重要。以上詳述的 GNN 演示可在超過 1,000 個佇列深度讀取 4K 區塊,輕鬆達到最快 PCIe Gen5 SSD 的最大隨機讀取輸送量。
 


在美光的 PCIe Gen5 技術展示中,我們不僅展示出每秒 14GB 的循序輸送量,而且隨機讀取 3,300,000 IOPS。在 4K 工作負載中,輸送量可達到每秒 13.2GB,比現今市場上的競爭產品快 22% 到 32%。
 


透過提供如此高效能和高效率,美光的 PCIe Gen5 SSD 可以讓 AI 平台充分運用全新 NVIDIA 加速器的強大功能,進而加快購買 AI 硬體,並獲得更好的投資回報。
 

3. 網絡資料湖在高容量 SSD 上部署的次數越來越多
 

GTC 2024 的第三次觀察是將網絡資料湖部署在 SSD 而非 HDD 上,以儲存和存取 AI 應用程式產生和消耗的大量資料。網絡資料湖是大型且分散的資料存放庫,透過 InfiniBand 或乙太網路等網絡連接到 AI 平台。網絡資料湖為 AI 資料提供可擴充且靈活的儲存容量,讓資料在不同平台和使用者之間分享和協作,但也帶來了資料傳輸速度和密度方面的挑戰,這大大影響了總體擁有成本 (TCO) 的計算。

為了克服這些挑戰,許多 AI 使用者和開發人員選擇使用高容量 SSD,例如美光 6500 ION 而非 HDD,以建立和操作其網絡資料湖。這種 SSD 類別在網絡資料湖方面比 HDD 具有多種優勢,例如:

  • 資料擷取和處理速度更快,可縮短 AI 型的訓練和推論時間和成本。PCIe Gen4 SSD 可提供每秒 6.8GB 的循序讀取效能和每秒超過 5.7GB 的循序寫入效能1,速度比 HDD 快得多,其循序讀取和寫入效能只能低於每秒 300 MB3。這表示這些高容量 SSD 處理資料的速度比 HDD 快 22 倍以上,因此可以大幅加速 AI 工作流程和成果。
  • 資料密度更高、功耗更低,可降低 TCO 並改善網絡資料湖的效率。SSD 每部硬碟的儲存資料容量為 30.72TB,為每立方英吋 4.8TB,比現今密度最高的 24TB 近線 HDD 快上五倍4。這意味著 SSD 可以在更少的空間內儲存更多資料,從而降低網絡資料湖的硬體和基礎架構成本。

 


總之,GTC 2024 是一場精彩的盛會,展示了 AI 產業的最新創新和趨勢,以及美光的記憶體和儲存解決方案如何推動 AI 革命。我們很榮幸能成為 NVIDIA 的合作夥伴,並期待繼續合作,為 AI 生態系統作出貢獻。

 

VP & GM, Data Center and Storage

Alvaro Toledo

Alvaro is Vice President and General Manager of Data Center Storage at Micron. He is responsible for strategy, product and technology roadmaps, technical customer engagement, and profit and loss (P&L) for data center storage.

Alvaro earned a bachelor’s degree in computer science from National University and an MBA from the Haas School of Business at the University of California, Berkeley.