美光發佈一系列令人振奮的記憶體和儲存裝置產品組合,加速 AI 的發展。我們的 HBM3E 8 層堆疊和 12 層堆疊解決方案提供業界領先的效能,功耗比競爭對手低 30%1。美光 HBM3E 8 層堆疊 24GB 產品將用於 NVIDIA H200 Tensor Core GPU。在 Six Five Media 最近播出的一集中,主持人 Daniel Newman(Futurum Group 執行長)與 Patrick Moorhead(Moor Insights & Strategy 執行長)和美光產品管理資深處長 Girish Cherussery 進行了一次訪談。他們共同探討了高頻寬記憶體(HBM)的迷人世界,並討論了 HBM 在當今技術領域的應用。本文回顧了他們的對話——從 HBM 的複雜性到美光如何滿足市場需求,以及目前記憶體生態系統中正在發生的一切。Girish 還為渴望瞭解 AI 記憶體和儲存技術市場趨勢的觀眾提供了寶貴的見解。
什麼是高頻寬記憶體?用途是什麼?
HBM 是一種產業標準的封裝記憶體,本身改變了遊戲規則。此款記憶體以最小的尺寸在特定容量下提供最高的頻寬,同時具有較高的能源效率。正如 Girish 在 Six Five 播客中指出的那樣,AI 應用程式正普遍地部署複雜的大型語言模型(LLM),由於 GPU 附加記憶體容量和頻寬有限,訓練這些模型面臨挑戰。LLM 的規模呈指數級增長,遠遠超過了記憶體容量的增長速度。這一趨勢凸顯了對記憶體容量日益增長的需求。
以 GPT-3 為例,有大約 1,750 億個參數。這相當於大約 800 GB 的記憶體,而為了防止效能瓶頸,需要更高的頻寬。最新的 GPT-4 模型的參數則更多(估計以萬億計)。增加記憶體元件的傳統方法,導致系統成本過高。
為此,HBM 提供了一種有效率的解決方案。美光 HBM3E 的 11mm x 11mm 封裝包含八或十二層堆疊的基於業界領先 1β(1-beta)技術的 24GB 晶粒,能夠以更小的尺寸提供 24GB 或 36GB 的更大容量。美光(Micron)領先的設計和製程創新使 HBM3E 的記憶體頻寬超過 1.2 TB/s,Pin 速度超過 9.2 Gb/s。正如 Girish 所說,HBM3E 擁有 16 個獨立的高頻資料通道,類似於「高速公路車道」,可以更快地來回傳輸資料並提供所需的效能。
美光 HBM3E 的更高容量和頻寬縮短了 LLM 的訓練時間,為客戶節省了大量營運支出。容量更大的 HBM3E 支援更大的語言模型,有助於避免 CPU 卸載和 GPU-GPU 通訊延遲。
由於主機和記憶體之間的資料路徑更短,HBM3E 具有較高的能源效率。DRAM 透過矽通孔或 TSV 與主機通訊,Girish 解釋說,這就好比用牙籤在漢堡上刺幾個洞。該技術會從底層晶粒獲取電源和資料,並將其傳輸到頂層記憶體層。美光 HBM3E 功耗比競爭對手低 30%,這得益於 1β 製程節點上先進的 CMOS 技術創新,以及多達 2 倍 TSV 的先進封裝創新和縮小 25% 的封裝互連。在每個記憶體實例 8Gbps 的速度下,功耗降低了 30%,如果 GPU 安裝量達到 500,000 個,客戶可以在五年內節省超過 1.23 億美元的營運支出。1,2
因此,正如 Daniel Newman 所說,美光的 HBM3E 是最大、最快、最酷的記憶體,對資料中心的永續發展需求具有積極影響。
美光 HBM3E 如何滿足生成式 AI 和高效能運算的需求?
在美光,我們相信解決問題能夠應對人類面臨的基本挑戰,豐富所有人的生活。
今天的超級電腦模擬需要巨大的記憶體和頻寬。Girish 解釋說,在 COVID-19 疫情期間,製藥公司急需確定新的藥物和化合物。HBM 是有效率能運算系統的一部分,可滿足大規模運算需求,解決我們這個時代的關鍵挑戰。因此,HBM 以精巧的規格尺寸提供所需的效能和容量,同時大大降低功耗,從根本上改變了人們對記憶體技術的看法,使其成為大規模運算系統的重要推動力。
隨著 AI 時代運算規模的不斷擴大,當今的資料中心產業面臨著電力和空間方面的挑戰。AI 和有效率能運算(HPC)工作負載推動了更高的記憶體利用率和容量。冷卻資料中心所需的能源也是一個挑戰。對於採用 HBM 的系統而言,系統冷卻位於 DRAM 堆疊的頂部,而基礎晶粒和 DRAM 層消耗電力所產生的熱量則位於堆疊的底部。因此,我們需要在設計的早期階段考慮功耗和散熱問題。美光先進的封裝創新提供了改善熱阻抗的結構解決方案,有助於提高立方體的散熱效能。結合顯著降低的功耗,整體散熱效能大大高於競爭對手的產品。因此,美光 HBM3E 更好的功耗和熱效率有助於應對資料中心的重大挑戰。
AI 記憶體解決方案的新興趨勢是什麼?
生成式 AI 廣泛用於從雲端到邊緣的各種應用中,推動了異構運算環境中系統架構的重大創新。AI 正在加速推動邊緣應用的發展趨勢,如工業 4.0、自駕車、AI PC 和支援 AI 的智慧型手機。正如 Girish 所分享的,這些長期趨勢推動了記憶體子系統的重大技術創新,以提供更高的容量、頻寬、可靠性和更低的功耗。
美光基於 1β 的 LPDDR5X 產品組合為這些系統提供了邊緣 AI 推理所需的同類最佳效能功耗比。美光率先在市場上推出基於 LPDDR5X 的創新型 LPCAMM2,以改變 PC 使用者的使用者體驗,並實現 AI PC 革命。
資料中心架構也在不斷演變。美光基於單體式晶粒的大容量 RDIMM 推動了全球資料中心伺服器在 AI、記憶體內建資料庫和通用運算工作負載方面的進步。我們率先上市的 128GB 大容量 RDIMM 效能卓越、容量大、延遲低,可更有效率處理需要更高記憶體容量的應用程式,包括從 GPU 卸載到 CPU 進行處理的 AI 工作負載。
此外,我們認為,由於 LPDDR 記憶體(低功耗 DRAM)在效能功耗比方面的優勢,越來越多的資料中心將採用此類記憶體進行 AI 加速和推理應用。美光的繪圖記憶體 GDDR6X 能夠以每秒 24 GB 的 Pin 速度運行,也被資料中心用於推理應用。
美光率先推出的另一個新興記憶體解決方案是 CXL™ 附加記憶體,可為資料中心應用提供記憶體和頻寬擴充。美光的 CXL 記憶體模組 CZ120 可為 AI、記憶體內建資料庫、高效能運算和通用運算工作負載提供記憶體擴充。
AI 正在為人類開創一個新時代,並觸及我們生活的方方面面。隨著人類社會不斷挖掘 AI 的潛力,此技術將繼續推動數位經濟各產業的快速創新。資料是數位經濟的核心,也是記憶體和儲存解決方案的核心。美光擁有雄厚的技術實力、領先的創新記憶體和儲存解決方案組合以及強勢的產品藍圖,並致力於改變世界使用資訊的方式以豐富人們的生活,因此,美光完全有能力加速這場 AI 革命。
1 基於客戶對美光和競爭對手 HBM3E 的測試和意見回饋
2 來源:美光內部模型