輸入無效。不支援特殊字元。
您現在使用的 GPU 伺服器,未來將不再採用氣冷散熱。例如,現今的氣冷 GPU 系統可以填滿 8U 的機架空間,前面有 8 個 SSD,氣流充足,可以讓一切保持在規格範圍內。在新興的伺服器中,相同的 8-GPU 設定降至 2U,因為需要液體冷卻。1 突然間,這 8 部 SSD 就不再被困在寬敞的機箱中。它們會安放在熱環境中,每瓦浪費掉的熱量都會導致問題。
這是推動美光液冷式 SSD 設計的轉折點。儲存必須納入冷卻迴路,而非只是散熱系統中的配角。採用 E1.S(9.5 公釐)外型規格的 Micron 9650 NVMe™ SSD 是為此從頭開始打造的。
在本部落格中,我將介紹為什麼液體冷卻對 SSD 很重要、冷卻板冷卻如何運作,以及是什麼讓 9650 SSD 的單面架構成為適合冷卻板接觸的設計。
首先,有些很酷的數學
在我們的技術簡介中,我們在兩個溫度情境中以 25W(總計 800W)的 32 個 NVMe SSD 為伺服器建模。我們在風扇驅動氣流和泵驅動液體冷卻中使用標準傳熱方程式,並具有實際的效率假設。我們以一個與 SSD 不同的環境資料中心溫度為 11.1°C,以及在 8.3°C 時差距較小的案例為例。如果溫度變動較大,空氣冷卻效率會提高,這也表示空氣冷卻對環境資料中心溫度的變化更為敏感。
冷板將高導電性金屬塊和快速移動的冷卻劑放在接近熱源的位置,盡可能靠近熱源,而不是在擁擠的硬碟抽取槽吹氣。您正在降低元件溫度,同時大幅降低將熱量移出伺服器所需的功耗,
而且會擴大規模。Vertiv 案例研究追蹤了四個資料中心配置,因為它們增加了液體冷卻的採用。2 液體冷卻從 0% 降至 75%, 總設施功率減少 10.7%! 不僅運算功耗,而且一切:HVAC、風扇、照明、工程,都會受到影響。
SSD 的冷板冷卻運作方式
冷板是機械加工的金屬塊,具有內部微通道,可透過熱介面材料 (TIM)安裝在 SSD 外殼上。水-乙二醇等冷卻劑會流經反應盤,直接在裝置上抽出熱量,並將其輸送至設施冷卻迴路。
現代實作使用彈簧負載冷板和盲友快速斷開歧管。拉動驅動裝置,冷卻水管路會自動斷開。卡入替換品,重新連接。您保持完整的熱插拔服務性,這對企業和超大規模部署而言是無法協商的。
Micron 9650 NVMe Gen6 SSD – 專為液體冷卻而設計
傳統 SSD 將控制器、DRAM 和 NAND 等發熱元件分散到 PCB 的兩側。如果冷卻板僅接觸一側,則遠端的熱必須傳導通過 PCB 才能到達冷卻板。這增加了耐熱性、損害冷卻效率,並在 NAND 晶粒間產生溫度變化。雙冷板、較厚的外殼和次要散熱器等因應措施將增加成本和複雜性,而不會解決根問題。這是一個硬碟級設計問題,而不是系統級管道問題。
Micron 9650 SSD 採用不同的方法。您可能已經在上圖中注意到──我們在 PCB 的一側集中了約 90% 的發熱元件,相比之下,典型設計中大約集中了 60%。一個決定是,當與冷板結合時,冷卻架構的其他部分可以運作:
- 直接冷板觸點:主要熱表面的 均勻熱界面,能盡可能降低耐熱性
- 更緊密的 NAND 溫度均勻性: 減少跨晶粒溫度變化可提高耐用性和可靠性
- Gen6 速度下無節流: 熱效能與具備液體冷卻功能的 Gen5 前代硬碟相當,即使頻寬和功耗較高
- 標準 E1.S 外型規格: 熱插拔相容於現有的 9.5 公釐 EDSFF 液冷式機箱
系統層級的改變
驅動層級的設計故事很重要,但系統層級的回報是值得關注的地方。當 SSD 可以納入液體冷卻迴路而非依賴自己的氣流時,系統設計者會獲得之前沒有的選項:
- 儲存區內的風扇較少(或無):用於冷卻變頻器的風扇可以完全減少或消除,釋放功耗並減少聲學負載。
- 每台伺服器的 SSD 密度更高:沒有氣流間隔限制,您可以將更多硬碟封裝在更少的機架空間中。
- 在持續的 AI 工作負載下可預測的熱能更高:液體冷卻可消除 GPU、CPU 和儲存空間共用氣流所帶來的變異性。
這不是理論上的。像達美這樣的生態系統夥伴已經在運送具有整合式 SSD 冷板的完全液冷式伺服器平台。3 Micron 9650 支援 E1.S(9.5 公釐)外型規格中的這些配置,專為冷板環境而打造。ASHRAE TC 9.9 的行業熱指南定義了資料處理設備4和液體冷卻的允許溫度範圍,即使在高磁帶機密度的情況下,也能在建議限制內正常運行。
另外還有一個效率倍增器,很容易被忽略。通常在熱頭房方面討論液體冷卻,但更廣泛的影響是對每瓦效能的影響。當您沒有在高 RPM 風扇上燃燒功耗,並且減少了系統級製冷負荷時,這些瓦特會恢復到其他資源的可用功耗。9650 將其液冷式架構與前幾代產品相比,每瓦效能獲得的意義相匹配,是永續發展目標和總體擁有成本的直接輸入。
展望未來
SSD 的液體冷卻已成為高密度 AI 基礎架構的需求。Uptime Institute 的 2024 年全球資料中心調查發現,約有 20% 的操作員正在部署或計畫液體冷卻。5 Micron 9650 的單面架構專為冷板接觸而設計,這也是讓 SSD 液體冷卻真正發揮作用的原因。
還有一件事:當您為 SSD 提供更好的散熱信封時,您可以釋放空間,利用控制器時鐘、寫入輸送量和持續的工作負載效能來發揮創意。我們正在努力,請持續關注。
如需完整的熱力學分析,包括氣流計算和採用細節,請參閱美光液冷式 SSD 技術簡介。
請造訪 micron.com/9650 以了解更多關於 Micron 9650 NVMe SSD 的資訊
參考資料
- Vertiv,《液體冷卻對資料中心功耗的影響》,2024。案例研究追蹤從 0% 到 75% 採用液體冷卻的四個資料中心配置,顯示工廠總功耗降低了 10.7%。
- 2024–2025 年,Delta Electronics,《資料中心的液體冷卻解決方案》。達美航空出貨的全液冷式伺服器平台,內建冷板,適用於 CPU、GPU 和儲存空間。另請參閱:Dell PowerEdge XE9680L、HPE ProLiant DL384 和 Supermicro 液冷式 GPU 伺服器平台。
- ASHRAE TC 9.9,資料處理環境熱指南,第 5 版,2021 年。定義資料中心 IT 設備的建議(A1–A4)和允許的溫度範圍。
- Uptime Institute,2024 年全球資料中心調查。報告指出約有 20% 的資料中心營運商正在部署或積極規劃液體冷卻基礎設施。