設計工具
應用

利用美光 DDR5 和第 4 代 AMD EPYC 處理器增強 HPC 工作負載量

Krishna Yalamanchi, Sudharshan Vazhkudai | 2022 年 11 月

AMD 和美光合作的目標是在用戶端和資料中心平台上提供同級最佳的使用者體驗。為此,兩家公司在奧斯汀設有聯合伺服器實驗室,致力於確保我們減少驗證伺服器記憶體的時間,並在驗證和啟動過程中執行聯合工作負載量測試。隨著美光 DDR5 資料中心記憶體和第 4 代 AMD EPYCTM 處理器正式出貨,在本篇部落格文章我們將探討使用這兩種產品搭配,以執行一些常見 HPC 工作負載量的基準結果。

高效能運算(HPC)的工作負載歷來是全球最快速超級電腦的領域。這些通常是大規模的資料密集型工作負載,分散為數百萬個平行運作的作業,使用的資料量以 TB 計。這些複雜的工作負載主要用於解決人類最具挑戰性的問題:天氣和氣候模擬;地震建模;化學、物理和生物分析等。

隨著電腦架構的進步,這些工作負載越來越常被託管在非常龐大且「向外擴展」的高效能伺服器叢集中。這些叢集需要最新且最強大的運算、光纖、記憶體和儲存裝置基礎架構,才能滿足這類關鍵工作負載的可擴充性、低延遲和效能需求。雖然伺服器 CPU 在效能和吞吐量方面有所成長,但過去幾年來,DDR4 記憶體提供的頻寬已成為瓶頸。記憶體頻寬不足,無法滿足越來越多的高效能需求。

美光 ddr5 資訊

美光 DDR5 記憶體和採用第 4 代 AMD EPYC 處理器的全新 AMD Zen 4 伺服器架構改變了這一點。現在,伺服器 CPU 和記憶體可以達到更好的平衡,為要求最嚴苛的工作負載解鎖效能和效率。無論是在內部或雲端,美光 DDR5 記憶體都能幫助組織更快地獲得這些見解。請參考以下幾個使用最新的 AMD Zen 4 96 核心 CPU 和業界標準的 HPC 工作負載基準測試美光 DDR5 時得到的效能結果。我們所有的測試結果都顯示效能提升了兩倍。

使用 STREAM 的美光 DDR5 + 第 4 代 AMD EPYC 處理器,讓記憶體頻寬加倍

STREAM1 是一款簡單且業界知名的基準工具,用於測量高效能運算電腦記憶體頻寬。此工具可擷取高效能運算系統的峰值記憶體頻寬

用於此工作負載的軟體堆疊

  • Alma 9 Linux 核心 5.14
  • STREAM.f  11-29-2021 發行版本
顯示美光 ddr5 提供更多頻寬的條形圖

測試設定

  • DDR4 系統第 3 代 AMD EPYC 處理器,64 核心及 3.7 GHz;DDR4 3200 MHz 系統2 完全配備 64GB RDIMM
  • DDR5 系統第 4 代 AMD EPYC 處理器,96 核心及 3.7 GHz;DDR5 4800 MHz 系統3 完全配備 64GB RDIMM

測試結果

  • 為單插槽 DDR5 系統提供雙倍每秒 378 GB 的記憶體頻寬
  • 此結果表示顧客可以執行更大型的人工智慧/機器學習(AI/ML)專案,或利用 DDR5 的記憶體頻寬增加進行更多 HPC 運算。
顯示 ddr5 與 ddr4 相對收益的條形圖

利用美光 DDR5,天氣研究和預測(WRF)4 的運行速度達兩倍快

此 HPC 工作負載代碼供天氣和氣候社群使用,該模型廣泛用於氣象應用。WRF 通常在支援高浮點處理、高記憶體頻寬和低延遲網路的傳統 HPC 架構上表現良好。為此,我們選擇了 2.5 公里橫向解析度的美國本土(Continental United States, CONUS)。

用於此工作負載的軟體堆疊

  • Alma 9 Linux 核心 5.14
  • WRF 2.3.5 和 4.3.3
  • Open MPI v4.1.1

測試設定

  • DDR4 系統第 3 代 AMD EPYC 處理器,64 核心及 3.7 GHz;DDR4 3200 MHz 系統2 完全配備 64GB RDIMM
  • DDR5 系統第 4 代 AMD EPYC 處理器,96 核心及 3.7 GHz;DDR5 4800 MHz 系統3 完全配備 64GB RDIMM

測試結果

  • 與每秒 2.8533 個時間步驟相比,我們能夠使用美光 DDR5 和第 4 代 AMD EPYC 處理器執行每秒 1.3567 個時間步驟。
  • 執行時間更快代表天氣預報器可以選擇更大的資料集或執行更多模型。這兩種方式都有助於改善預測。

搭載美光 DDR5 的 OpenFOAM5 執行速度達兩倍快

OpenFOAM 是用於計算流體力學(computation fluid dynamics, CFD)的開放原始碼 HPC 工作負載,廣泛應用於各種產業,以減少研發時間和成本。其模擬各種物理互動,應用範圍涵蓋消費者產品設計到航太設計等。資料集的其中一項模擬具備摩托車湍流模擬功能。在這個模型中,OpenFOAM 會計算摩托車和騎士周圍的穩定氣流。OpenFOAM 負載平衡根據使用者指定的進程數計算,然後將網格分解為多個部分,讓各個進程運算求解。求解完成後,網格和解會重新組合成單一區域。

用於此工作負載的軟體堆疊

  • OpenFOAM CFD 軟體(第 8 版),附 600 x 240 x 240 的 motorBike 網格大小
  • Alma 9 Linux 核心 5.14
  • Open MPI v4.1.1

測試設定

  • DDR4 系統第 3 代 AMD EPYC 處理器,64 核心及 3.7 GHz;DDR4 3200 MHz 系統2 完全配備 64GB RDIMM
  • DDR5 系統第 4 代 AMD EPYC 處理器,96 核心及 3.7 GHz;DDR5 4800 MHz 系統3 完全配備 64GB RDIMM

測試結果

我們的測試展現出對於 OpenFOAM 的相對增益達 2.4 倍,相當於大型開放原始碼社群前 5 大 HPC 軟體平台。該軟體在大學和研發中心廣泛使用,具有高平行化特性,可充分利用記憶體(增加的頻寬)和更密集的核心等 CPU 功能。

採用美光 DDR5 的分子動力學6 運行速度達兩倍快

CP2K 是一種開放原始碼量子化學工具,可用於多種應用,包括固態生物系統的模擬。CP2K 對於使用混合高斯和平面波方法(Gaussian and plane wave, GPW)以及其擴增延伸(GAPW)的不同建模方法提供一般框架,例如密度泛函理論(density functional theory, DFT)。我們看到的例子為水(H2O)的線性縮放密度泛函理論(DFT),其在 39 立方埃盒中包含 6144 個原子(總共 2048 個水分子)。

用於此工作負載的軟體堆疊

  • H2O-DFT-LS.NREP4 和 H2O-DFT-LS
  • Alma 9 Linux 核心 5.14

測試設定

  • DDR4 系統第 3 代 AMD EPYC 處理器,64 核心及 3.7 GHz;DDR4 3200 MHz 系統2 完全配備 64GB RDIMM
  • DDR5 系統第 4 代 AMD EPYC 處理器,96 核心及 3.7 GHz;DDR5 4800 MHz 系統3 完全配備 64GB RDIMM

測試結果

我們的測試展現出對於分子動力學的相對增益達 2.1 倍,而且隨著更多核心和更多記憶體頻寬,這可以很好地擴展。

總結

以上結果只是開始,也是 HPC 工作負載量的一些範例。美光 DDR5 能夠更好地匹配高效能、高頻寬記憶體,以及諸如第 4 代 AMD EPYC 處理器等新伺服器處理器提供的驚人效能,這對 HPC 顧客來說是個重大轉折點。我們預計將看到更多這類的例子,展現出企業資料中心和雲端營運商如何在這些新平台上使用美光 DDR5 來將效能和效率的推升到全新境界。我們期待在未來幾個月內與您分享這些資訊。若要深入瞭解美光 DDR5 和資料中心工作負載的優勢,請瀏覽 Micron.com/ddr5

1. 我們的 STREAM 基準設定具有 25 億個向量大小的 STREAM 基準,其中 AMD 搭載 1 個 CPU 系統運行
2. AMD DDR4 系統是 AMD EPYC 7763 64 核心,搭載 DDR4-3200 MHz,完全配備 64GB RDIMM
3. AMD DDR5 系統是 AMD EPYC 9654 96 核心,搭載 DDR5-4800 MHz,完全配備 64GB RDIMM
4. 使用 12.5 公里 CONUS 的 WRF 在 DDR4 系統上運行 929 秒,在 DDR5 系統上運行 287 秒,同時計入儲存裝置 I/O。上述範例來自執行每秒 2.8533 個時間步驟和每秒 1.3567 個時間步驟的 WRF 2.5 公里 CONUS。
5. 對於 OpenFOAM,我們執行了三種不同的情境:
5a. 1004040 運行時間 = 在 DDR4 系統上為 1,144 秒,在 DDR5 系統上為 478 秒
5b. 1084646 運行時間 = 在 DDR4 系統上為 1,633 秒,在 DDR5 系統上為 698 秒
5c. 1305252 運行時間 = 在 DDR4 系統上為 2,522 秒,在 DDR5 系統上為 1,091 秒
6. 分子動力學工作負載量在 DDR4 系統上執行 2,519 秒,在 DDR5 系統上執行 1,242 秒

Sr Manager, Ecosystem Enablement

Krishna Yalamanchi

Krishna is a Senior Ecosystem Development Manager, focusing on DDR5 and CXL solutions. Previously, Krishna lead SAP HANA migration for Intel IT, launched 3rd and 4th generation Intel Xeon for SAP workloads via their partner ecosystem for SI’s, OEM’s and Cloud Service Providers.

Director, Workload Analytics

Sudharshan Vazhkudai

Dr. Sudharshan S. Vazhkudai is the Director of System Architecture / Workload Analytics at Micron. He leads a team spread across Austin and Hyderabad, India, focusing on understanding the composability of the memory/storage (DDR, CXL, HBM and NVMe) product hierarchy and optimize system architectures for data center workloads.