本部落格文章由 IDC 特約撰稿人撰寫,發佈於 Micron.com
伺服器不能一碼通吃
資料量*和速度超乎預期的成長,正在為資料中心帶來壓力。曾經滿足大多數資料中心工作負載需求的通用、固定架構伺服器已經不夠靈活,無法滿足當今日益多元化的現代工作負載的特殊需求,這些工作負載需要不同的資料處理、移動、儲存和分析能力組合。
*IDC 預測,從 2023 年到 2028 年,每年建立的資料量將以 24.4% 的年均複合成長率增長1
為了提供這些能力並符合效能、功耗和成本(效能/瓦特/美元)限制,企業和雲端資料中心架構師通常會選擇白盒伺服器,因為這類伺服器具有彈性架構。事實上,這些無品牌伺服器在 2023 年佔全球伺服器總出貨量的近 45%。這些架構師正在應用三大架構技術:
- 人工智慧(AI)在原位注入更多智慧,也就是說,資料在哪裡,哪裡就有更多的智慧記憶體、儲存裝置、連網和處理能力,進而更有效率地處理、移動、儲存和分析資料。AI 以大大小小許多方式運作,從分析大型資料集和確定結果,到決定企業基礎架構中的哪些位置(例如邊緣或核心位置)需要哪些資料,再到監控網路以確定哪些人有權存取,而哪些人無權存取。AI 已深入到 IT 和 OT 營運的方方面面,這意味著在調整系統以提供正確的能力時必須小心謹慎。
- 異質運算會根據工作負載的需求,在伺服器配置中混合和搭配記憶體、儲存裝置、處理和連線技術。例如,10 年前依賴整合在固定矽晶粒上的 GPU 的伺服器,現在通常擁有由自己的專用記憶體支援的強大的獨立 GPU。10 年前還不存在的 AI 伺服器現在比比皆是,因為多核 CPU、高階 GPU 和專用定製晶片(ASIC)共同滿足了 AI 的高吞吐量要求。
- 分散式運算將伺服器移至資料所在位置,並調整記憶體、儲存裝置、處理和連線能力,以盡可能地降低資料移動成本,縮短資料中心與終端使用者之間的滯後時間。集中式核心資料中心的伺服器服務於需要功能強大的 CPU、GPU 和 FPGA 的高效能任務,而邊緣資料中心的伺服器(將基礎架構和工作負載放置在更靠近資料產生和消耗位置的運算模式)則在資源約束下服務於更多特定領域任務,因此需要更具功耗效率的 CPU 和 SoC 以及低功耗記憶體。資料中心的位置反映出大規模核心資料中心伺服器與策略性靠近資料使用人群的邊緣伺服器相結合的混合模式。
彈性發揮資料中心的潛力
彈性的白盒伺服器架構為根據伺服器目標工作負載的效能、功耗和成本需求調整伺服器配置提供了巨大的潛力。如今,運算、記憶體、儲存裝置和網路技術的可擴充性和成本效益遠遠超過 5 年前。
在運算方面,伺服器微處理器產品組合現在可提供多種選擇,從適用於小型、低強度工作負載的少至 4 個核心,到適用於最高效能工作負載的多達 144 個核心;2025 年,288 個核心的選擇將成為主流。此外,伺服器微處理器還支援選擇更大的記憶體容量和 I/O 容量。透過 PCIe,可選擇高效能加速器,包括 GPU、FPGA 和自訂 ASIC(其中許多專為 AI 設計,並根據預期工作負載進行程式設計),進而轉移微處理器的工作,平衡各子系統的效能和功耗需求。
在記憶體方面,業界正在迅速將伺服器主記憶體過渡到 DDR5;DDR5 記憶體模組不僅容量更大,還能承載更多本地智慧(資料緩衝區),並管理自身功耗。在加速器方面,高頻寬記憶體(HBM),特別是目前的標準 HBM3E,可為高效能工作負載(如 AI 模型訓練)提供專用的大容量、低延遲支援。
在儲存裝置方面,AI 有望成為在 SSD 上儲存更多資料的催化劑。為適應這一趨勢,系統架構師已將速度更快、容量更大且支援 NVMeTM 的硬碟插入記憶體和儲存裝置層級結構,以便更快地將資料傳送到資料處理器。在儲存基礎架構方面,用於訓練 AI 模型的大量非結構化資料和結構化資料正迫使儲存架構將對象儲存和檔案儲存結合起來,以便資料管道能夠存取以兩種格式儲存的資料。
網路是具有成本和效能效率的伺服器不可或缺的一部分。雖然 GPU 等資料處理技術在 AI 基礎架構開發的初期階段獲得了大量投資,但 AI 模型需要在伺服器子系統之間、伺服器與伺服器之間以及資料中心之間移動大量資料。為了盡可能縮短在網路中移動資料所需的時間**,網路 IC 將乙太網的吞吐量提高到 1600 Gb/秒,並且運算架構將網路架構劃分為普通乙太網超額訂閱網路、使用乙太網或 InfiniBandTM 的 AI 處理網路,以及用於擴充網路的 PCIe® 或 NVLinkTM GPU 後端網路。
**資料移動在網路中花費的時間使得 GPU 和 CPU 閒置時間長達 60%。2
作為主要的新型工作負載,生成式 AI 的顛覆性影響要求採用 AI 就緒基礎架構,並進入一個關鍵階段:建構。從 2024 年開始,隨著企業加大投資以顯著提高業務和員工生產力並重新構想客戶的數位體驗,企業需要加速部署新的 AI 就緒型硬體和軟體基礎架構。
現在,白盒伺服器為資料中心帶來的彈性正在為模組化、高度可擴充並由 UCIeTM、CXLTM 和 HBM3E 等次世代技術提供超級動力的未來資料中心奠定基礎,進而為持續的架構調整提供藍圖,以適應 AI 的顛覆式發展。
1 IDC, 全球 IDC Global DataSphere 預測,2024 年至 2028 年:AI 無處不在,但資料遽增尚需時日,文件編號:US52076424,2024 年 5 月
2 IT 基礎架構中 AI 半導體和儲存裝置元件的前景,IDC # US51851524,2024 年 2 月
本文所表達的觀點僅代表作者個人,與 Micron Technology, Inc.、其子公司或關聯企業無關。所有資訊按「原樣」提供,美光和作者不對所提供的資訊做出任何陳述或保證。美光會根據售出的產品、適用的數據表或規格,對其提供保固。資訊、產品和/或規格若有變動,恕不另行通知。 美光和美光標誌是 Micron Technology, Inc. 的商標或註冊商標。第三方的任何名稱或商標均歸該方所有,且本文中的任何引用均不表示與這些第三方有任何認可、贊助或從屬關係。