設計工具
儲存裝置

未來不斷變化的運算系統架構

Jonathan Hinkle | 2024 年 3 月

在動態技術領域中,運算系統架構正在經歷深度轉型。隨著我們步入一個對運算提出空前需求的時代,再加上摩爾定律的進展緩慢,電腦架構師和設計工程師現在正更為根本地重新構想我們設計、構造和配置系統的方式。大量新的工作負載需求正在形塑電腦架構和節能硬體的未來,並有多項賦能技術正在興起,透過模組化滿足這些需求。
 

推動系統架構變革的新需求
 

正如許多人所提到的,AI 革命已經到來。人工智慧(AI),尤其是深度學習(DL),已超越研究實驗室領域,現在成為雲端公司和各個產業成長計畫中不可或缺的一部分。從醫療診斷與篩選到財務預測,AI 演算法正在推動決策過程。以高效的方式儲存和處理所有這些資料變得愈發困難,因為能力推進首先需要進行巨量規模的 LLM 和 GenAI 訓練。 

隨著資料量不斷成長,一個特別有意思的挑戰是,如何將它們饋送到支援 DL 模型訓練的主要運算引擎(通常是 GPU 或某些情況下的 AI 專用處理器)。資料集變得如此龐大,不僅無法適配 GPU 直接附接的高頻寬記憶體(HBM)容量,甚至可能超出在地系統記憶體容量。 除了 DRAM 外,NAND 快閃記憶體裝置將很快成為實現更強大 AI 能力的另一關鍵元件。在擴展具有適當效能的系統可用容量時,似乎愈加注重提供成本低收效大的頻寬,同時最大限度地減少通訊步驟和中間階段,以免降低效能和耗費功率。 與此相關的是資料路徑(資料流動的主要路徑)與控制路徑的一般解耦合,以便更妥善地最佳化這兩者。 這些最佳化的類似模式過去曾在其他領域中運用,例如與 SDN 和 OpenFlow 連結網絡,但現在適用於 AI 專用架構。

滿足 AI 短期需求的另一個重大難題,也與以往遇到的產業挑戰相似,也就是如何因應頻繁的技術變革和全新最佳化的系統架構。 雖然開發新的複雜系統硬體設計所需的時間並未顯著改善,但對於最新進階功能和全新最佳化系統的需求卻大幅增加,這有助於透過提升效能或效率進行有利競爭。 因為主要工作負載需求在過去一兩年間才開始變得明顯,所以頻繁的變化使得及時打造潛在最佳解決方案變得非常困難。
 

新型模組化技術賦能系統架構
 

為了跟上動態科技產業的腳步,一些組織開始開發模組化運算模型,例如開放式運算專案(OCP)模組化硬體系統(MHS),將系統的一些複雜度分解為各別部分。雖然一直存在能夠實現各種功能的插接式模組和插卡,但在現代系統中,傳統作法是將核心運算子系統與處理器整合到主系統板上。這樣整合可實現具有固定功能比率的單一、低成本實作,並可提供大量有益的解決方案。然而,構建和測試這類系統的時間以及所需的開發成本(NRE),讓不斷應用最新元件構建新的配置令人望而卻步,雖然這對於實現執行關鍵工作負載的最高效能是理想作法。 

透過將複雜的系統設計劃分為更小、可互換的各子系統主機板,特別是包括只容納 CPU 和記憶體的標準封裝主機處理器模組(HPM),可以為現有的通用模組封裝新的系統設計。 這樣也可以更快地開發應用新技術的主機板,將它與現有通用主機板配合使用,以大幅縮短部署新系統能力的時間。 例如,您可以想像一個封裝在給定底盤中的全新記憶體擴充模組,它具有更高的容量,並與先前的記憶體擴充模組使用相同的儲存底板、HPM、網絡連結和儲存裝置。 這種常見的封裝模組化,讓系統能以更彈性的方式配置,以便更好地滿足特定的工作負載需求——在下一代需求還未為人熟知時,這將創造更大的價值。 

 

一些關鍵的 OCP DC-MHS 模組(圖片提供:  Intel)*

 

藉助與主機板模組化相似的一些優勢,另一項有益技術是小晶片公用介面的近期標準化。 透過將單石晶片分解成獨立的晶粒,它們可以實現高效的製造和具成本效益的生產。 小晶片可針對特定元件支援先進的製造方法,而其他元件則使用原有方法,以擴大產品範圍,提高效率。隨著推動運算效能技術現況的新技術得以發現和開發,每個小晶片都可以獨立設計和升級。這可以提升新功能(包括能夠加快新 AI 模型和新興工作負載的功能)的彈性、採用速度和維護的簡易性。
 

透過 EDSFF 標準支援未來系統需求
 

SNIA 的 SFF Technology Affiliate 小組發佈的企業級資料中心標準外觀規格(EDSFF)產業標準,也在滿足系統架構不斷演進的需求上扮演重要角色。EDSFF 標準是一組相互關聯的規格,能夠以特定外觀規格(FF),即 E1 和 E3,支援連接器相容的插接式模組。 E1 系列外觀規格、E1.S(短)和 E1.L(長),可垂直裝入 1U 機架系統空間。 E3 系列外觀規格、E3.S(短)和 E3.L(長),可垂直裝入 2U 機架系統空間。

 

 

當我們首次開始制定這些業界標準時,我們當中有幾人達成共識,認為這些標準應具備多功能性,才能使我們資料中心最佳化儲存裝置的主要目標達到最佳成果,並支援新技術的採用和應用。

對於儲存裝置,與舊有外觀規格相比,EDSFF NVMe 硬碟具有以下幾個優勢:

  • 它們可實現更高的儲存密度,從而在同一實體空間提供更多儲存容量和效能。 
  • EDSFF 硬碟具有更好的熱特性,外形更薄、尺寸更小,但表面積更大。
  • 以 +12V 作為系統的主電源電壓軌,提供簡化的電力支援。
  • 透過支援高達 112Gbps 訊號的通用 EDSFF 標準廉價連接器,改進了高速介面的訊號完整性,實現更高的功率支援。


這些優勢對於 AI 工作負載尤其有用,因為它們通常需要大量高效能儲存裝置來支援模型訓練資料。較小的 EDSFF 硬碟透過擴充系統中的硬碟數量來提供高儲存效能密度,縮短 GPU 或處理器等待下一組資料的時間。 較大的外觀規格可為每部硬碟支援更高容量,因此非常適合為經常存放於外部儲存系統中的大型訓練資料集提供高效能、高容量儲存層。 

因為 EDSFF 硬碟具有更好的熱特性,所以系統設計可實現最佳化,進一步改善 GPU 冷卻效果,並在特定氣流下獲得更高效能。 外觀規格較小的硬碟也可以增加儲存功能,以適應系統前端的較小空間,為前端通風導管和下游系統元件的新鮮空氣開口提供餘地。

透過許多插接式 EDSFF 儲存裝置為各種不同工作負載配置系統的彈性能力,已經運用於目前正在生產的伺服器系統中。 基於特定的工作負載要求,可以在同一系統中調諧儲存容量、效能和功率,以滿足各種需求。

除了儲存裝置外,我們近期還見證了首款應用 EDSFF 系列外觀規格和標準高速介面的全新裝置的推出。 新的 CXL® 協定提供了一種方法,可在與 PCIe 相同的實體層發信號和互連,以低延遲連結裝置。 因為系統處理器和其他晶片可以在同一引腳上同時支援 CXL 和 PCIe,所以系統中的 EDSFF 裝置插槽通常已經能夠支援透過 CXL 協定連結的新裝置。作為 JEDEC 產業組織的成員,為推動記憶體裝置和許多其他半導體相關的標準,我們最近發佈了業界首個 CXL 記憶體模組規格,稱為 CMM。 這些 CMM 裝置透過具有 CXL 介面的模組上控制器附接標準 DRAM 裝置,並插入符合 EDSFF 的系統插槽,在不重新設計主機板的情況下擴充系統記憶體容量。 

 這樣一來,彈性系統配置能力就已擴展到具有 EDSFF 插接式模組的記憶體和儲存裝置,並可能會有更多類型的裝置(包括處理和網絡連結)也附接 PCIe 或 CXL。 這些裝置可增強系統的彈性、功能和效能,成為 AI 驅動系統架構的理想選擇。
 

展望未來系統架構
 

總之,系統架構的未來取決於適應性、可擴充性和創新。隨著我們採用 AI、模組化設計和尖端技術,系統設計師和建築師在塑造數位環境方面扮演著關鍵角色——從晶片封裝到系統底盤和機架,都必須在系統層面作出更多創新。 模組化系統設計、小晶片和 EDSFF 硬碟等插接式模組,在不斷演進的需求與強大而高效能的系統設計之間起著橋接作用。它們是系統實現更理想演進的重要賦能者,因為支援 AI 和其他進階工作負載未來需求的關鍵在於彈性能力。

 

Distinguished Architect, Micron SBU (Storage Business Unit)

Jonathan Hinkle

Jonathan Hinkle is a Distinguished Member of Technical Staff in Micron’s Storage Business Unit and leads the Storage Solutions Architecture organization.  He and his group lead Micron’s storage standards work, do real-world testing and analysis of workload performance, and investigate new technology and products, both internally and with customers and partners.  Jonathan is an industry leading technical expert in memory, storage, and data center systems architecture with over 25 years of experience. 

photo of Jonathan Hinkle