- US - English
- China - 简体中文
- India - English
- Japan - 日本語
- Malaysia - English
- Singapore - English
- Taiwan – 繁體中文
輸入無效。不支援特殊字元。
我們自豪地宣佈 AI 基礎架構效能的重要里程碑:使用 NVIDIA SCADA 編程模型、Micron 9650 PCIe® Gen6 SSD、Broadcom PEX90000 PCIe Gen6 交換器和 H3 Platform Falcon 6048 PCIe Gen6 伺服器,成功實現 2.3 億 IOPS。
可擴充加速資料存取 (SCADA) 是安全編程模型和技術堆疊,首次提出於《BaM 系統架構中的 GPU 發起式按需高吞吐量儲存裝置存取》。這是 NVIDIA、美光等企業共同推動的重大儲存生態計劃,旨在定義和實施新型基礎架構,用於存取超出本地記憶體限制的巨量資料集,透過使用基於 NVMe 的載入/儲存操作來防止記憶體不足錯誤,同時將儲存控制轉移至可信的 DPU,以保持高效能並保護共享資料免受受損運算節點的影響。
該成果彰顯了 GPU 驅動的儲存編排與次世代互連技術及全球最快 SSD 的協同威力。
您可在 SC25 展會的美光展位(3516 號)現場體驗該示範,詳情請見本部落格末尾。
Micron 9650:全球最快的 SSD
Micron 9650 SSD 不僅追求極致效能,更透過速度、能效與互操作性的均衡融合,為次世代 AI 和 HPC 工作負載提供強大支撐。作為美光於 2025 年 FMS(美光推出業界首創 SSD 系列,助力 AI 革命)發佈的全球首款 PCIe Gen6 SSD,不僅實現突破性的吞吐量和 IOPS,更支援強健的生態系統整合。過去兩年間,美光與 PCIe Gen6 生態鏈合作夥伴緊密協作,開展了全面的互通性測試,為今年的大規模應用鋪平道路。Micron 9650 採用 PCIe Gen6 架構,專為 NVIDIA SCADA 等 GPU 驅動環境打造,並針對小區塊運作進行最佳化。
NVIDIA SCADA 大幅提升吞吐量以擴充 AI 工作負載
SCADA(可擴充加速資料存取)體現了 NVIDIA 對 GPU 驅動儲存操作的願景,透過在 GPU 與儲存裝置間建立直接連接,繞過傳統 CPU 瓶頸,加速兩者間的資料傳輸。SCADA 是 NVIDIA 多年研究和工程設計的成果,它使 GPU 能夠直接協調 NVMe 事務,為小區塊工作負載提供前所未有的吞吐量和 IOPS,這對於擴充圖神經網路(用於藥物發現、社交網路、知識圖譜)等 AI 工作負載至關重要。有關 SCADA 的更多資訊,請參閱 NVIDIA 在 FMS 2025 大會上的示範文稿:《推進次世代 AI 工作負載的記憶體和儲存架構》。
Broadcom 與 H3:尖端伺服器平台實戰
H3 Falcon 6048 PCIe Gen6 伺服器與 Broadcom 的 PEX90000 PCIe Gen6 交換機系列整合,為此協同架構提供動力。這些 PCIe Gen6 交換器提供超低延遲、高頻寬和卓越的連接埠密度,可在 GPU 和 NVMe 裝置之間實現強大的可擴充性和無縫互連。
PCIe Gen6 交換器部署在 H3 Platform Falcon 6048 伺服器中,該系統將加速器和儲存裝置整合為單一 PCIe Gen6 最佳化架構。它支援 44 個 E1.S Micron 9650 SSD,每個都透過 PCIe Gen6 x4 連接。H3 的先進遙測和診斷功能簡化了大規模 AI 架構管理,而與 CPU、GPU、SSD(特別是 Micron 9650)、網卡和重定時器的廣泛互通性測試則確保了可靠、無憂的部署。
示範:2.3 億 IOPS 實測
我們的 SC25 示範不僅是技術驗證——更是里程碑式突破。使用 H3 Platform 的 Falcon 6048 伺服器,其配置包括:
- 44 個 Micron 9650 PCIe Gen6 SSD(E1.S,7.68 TB)
- 3 個搭載 NVL 96GB HBM3 的 NVIDIA H100 PCIe Gen5 GPU
- 1 個 Intel PCIe Gen5 CPU
- 3 個 Broadcom PEX90000 PCIe Gen6 系列交換器(每個 144 個通道)
我們透過 SOL 基準 SCADA 工作負載實現 2.3 億 512B 隨機讀取 IOPS。該基準測試衡量了 GPU 執行緒從一組 SSD 存取資料時可實現的隨機 IOPS。此效能水平展現了從 1 個到 44 個 SSD 的線性擴充能力,驗證了 GPU 驅動 IO 與 PCIe Gen6 基礎架構的協同價值。
我們對 sol 基準測試進行調整,使用三個實例,其中分佈 44 個裝置,256 次迭代(每佇列對 I/O * 512)和 8 個佇列對,以獲得最高效能。
為什麼它對 AI 和 HPC 很重要
隨著 AI 模型複雜度提升及資料在推論階段的使用量增加,儲存裝置可能面臨效能瓶頸。SCADA 顛覆傳統模式,讓 GPU 透過儲存裝置直接驅動 IO,從而降低延遲並最大化頻寬利用率。結合 PCIe Gen6 高效能 SSD,此架構可為向量資料庫、圖形神經網路和大規模推論管道等工作負載提供即時資料存取能力。
現場觀看
歡迎蒞臨聖路易斯 SC25 展會(11 月 18 日至 20 日)的美光展位(展位號:3516),親身體驗這項突破性技術。我們將提供:
- 系統架構與效能指標的動畫示範
- 開放式 H3 Falcon 6048 伺服器系統,展示 Micron 9650 SSD、NVIDIA H100 GPU 和 DDR5 DRAM 的硬體堆疊。
- Broadcom PEX90000 PCIe Gen6 系列交換器的硬體樣機。
- 現場專家將深入探討 SCADA 系統、PCIe Gen6 技術、Broadcom PCIe 交換器與美光 SSD 如何共同塑造 AI 基礎架構的未來。