設計工具

Invalid input. Special characters are not supported.

AI

視角轉換:從運算到認知

Evelyn Grevelink,Felippe Vieira Zacarias | 2025 年 4 月

隨著大型語言模型(LLM)不斷推動 AI 的發展,高頻寬記憶體(HBM)成為次世代 LLM 的關鍵因素,它能夠以前所未有的速度實現智慧、語境感知推理。

傳統上,電腦系統圍繞確定性的線性處理模型進行設計: 

輸入 → 運算 → 輸出


但近年來人工智慧(AI)的成功,尤其是 LLM 的成功,要求我們進行模式轉變。我們使用的機器不再僅僅進行簡單的處理和運算。隨著生成式 AI 的出現,AI 驅動的聊天機器人——著名的 ChatGPT——現在已經具備解釋語境、產生新見解、適應新資訊甚至進行推理的複雜能力。雖然聊天機器人還不具備感知能力——就像《傑森一家》(Jetsons)中備受喜愛的機器人管家 Rosey——但它仍然是有用的智慧對話夥伴。 

您可能想知道,記憶體在這些智慧系統中扮演著什麼角色。隨著 LLM 參數大小的增加(目前已達到數萬億),記憶體變得越來越重要,因為這些龐大的參數集必須儲存在記憶體,並允許在推理和訓練過程中從記憶體快速存取。而 HBM 專門為處理這種涉及頻繁和大量記憶體存取的大量資料移動而設計。過去十年,美光一直在推進記憶體技術,以跟上這些模型的快速發展並助其成功。在本篇部落格中,我們將探討高頻寬記憶體(特別是美光的 HBM3E )在推動 AI 模型並使其變得更強大、更有能力和更智慧方面的意義。

AI 與記憶體硬體十年發展時間軸

圖 1:記憶體技術如何不斷發展以滿足大型模型的需求

毫秒至關重要

LLM 的飛速發展為研究人員和工程師提出新的挑戰,即從根本上重新思考運算系統如何處理和移動資訊。正如電腦繪圖的出現迫使人們轉變思維方式——我們不僅提高了渲染速度,還重新定義了機器如何感知和處理視覺資訊——我們正處於 AI 發展的類似階段。要將 Anthropic 的 Claude、Google 的 Gemini、Meta 的 Llama 等 LLM 整合到主流應用中,需要的不僅僅是效能的逐步提升。它需要一類新的系統,能夠支援人與機器之間的動態和語境感知互動。在設計現有硬體時,工程師必須考慮最佳化延遲和能效等傳統指標之外的因素。他們設計的系統必須增強對推理任務的理解,支援即時學習,並在類似對話的交流中保持連續性。

在 AI 驅動的互動中,幾毫秒的時間就能決定人機互動是和諧、類似人類的體驗,還是碎片化或令人沮喪的體驗。在支援數千甚至數百萬並行使用者的高負載資料中心場景中,如即時翻譯或 AI 副駕駛,HBM3E 等次世代記憶體的更高頻寬和更大容量正在發揮關鍵作用。這項技術可確保系統回應的一致性,在高負載情況下保持輸出品質,並為所有使用者提供對等、高保真度的互動。

HBM3E 和 AI 推理

次世代記憶體硬體的特點通常是頻寬和容量的提高,其口號是「更多、更大、更快即更好」。然而,在當代 AI 系統(尤其是 LLM)的背景下,這種方法更加深入和全面。以 HBM3E 為例:更快的資料傳輸速率(更高的頻寬)和更大的記憶體容量會對 AI 推理產生更複雜的影響。雖然頻寬和容量仍然是記憶體硬體的關鍵指標,但它們對 LLM 效能的影響截然不同。我們的目標不僅僅是為了加速硬體而提高速度,也不僅僅是為了容納更多資料而提高容量;我們現在需要改進這些指標,以實現更高層級的智慧——綜合資訊和推理的能力。現在,讓我們來看看 HBM3E 的一些規格,並解釋這些更高的指標在 AI 模型中的實際意義。

頻寬決定運算潛力

每個立方體的 HBM3E 的頻寬超過每秒 1.2 TB/s,但這不僅僅是一個較高的數字1,它代表了運算潛力。以這種速度傳輸資料的能力意味著 AI 模型能夠以前所未有的速度存取、處理和合成資訊,進而顯著降低延遲並提高模型效能(即系統的回應速度和反應速度)。

能力決定推理的深度和複雜性 

每個立方體容量2擴大到 24 GB 不僅意味著儲存空間的擴大,還能為神經網路帶來更大的認知潛力,更大的模型容量能讓智慧機器執行更複雜的任務。在傳統運算模式中,記憶體主要作為一種儲存機制,而在現代 AI 架構中,記憶體容量則是認知所必需的,它能夠直接轉化為更深入的理解、更細緻的推理和更全面的答案。我們可以認為,獲得更大的記憶體容量可以使 LLM 的推理能力複合或倍增。 

採用 HBM3E,我們不僅可以透過數值上的改進來提高效能,還可以透過記憶體設計從根本上擴充機器智慧的認知潛力。更高的頻寬和更大的容量所帶來的綜合影響,可以讓 LLM 在與您互動時更縝密、更準確。在技術層面上,頻寬和容量的提升意味著 LLM 可以處理更大的資料集、每秒更多權杖、更長的輸入序列以及更長的資料格式(如 FP16)。從根本上說,如果沒有足夠的頻寬,這些功能強大的模型將很難快速存取相關資訊。而且,如果沒有巨大的記憶體容量,除了表面分析之外,模型將無法生成全面、語境豐富的回應。 

顯示美光 HBM3E H200 吞吐量增長的紫色和白色圖表

實驗結果

現在讓我們來看看使用 Meta Llama 2 70B 和 DeepSpeed ZeRO-Inference 的實際測試結果3,從中可以看出次世代 HBM 的變革潛力:

  • 效能提升:HBM3E 將推理效能提高 1.8 倍,記憶體頻寬達到 4.8 TB/s。4
  • 可擴充性:該技術可支援 2.5 倍的批處理規模,實現更多並行用戶端處理。45
  • 精度和容量:擴大記憶體容量(144GB,比上一代增加 80%),可進行更高精度的模型操作。

這些結果表明,次世代 HBM 等先進的記憶體技術可以解決 LLM 基礎架構中的關鍵挑戰,在運算效能和功耗效率之間實現平衡6。推理效能、容量和功耗效率的提高凸顯了實現更智慧、更強大的 AI 系統的潛在途徑。展望未來,新一代 HBM 技術將實現諸多能力,包括快速運算擴充和支援日益複雜的模型架構。採用這項技術的資料中心將更有能力提供以使用者為中心的更快、更省電、可擴充的 AI 服務,最終推動各行各業的進步。

深入瞭解

  • 下載我們的技術簡介 「利用 HBM3E 加速大型語言模型推理」,深入瞭解我們對 HBM3E 在 AI 推理方面的全面分析。 
  • 有關高頻寬記憶體(HBM)技術的更多資訊,請查看我們的 HBM3E 產品頁面。

1 每立方體頻寬(TB/s)。NVIDIA Blackwell GPU 的頻寬為 8 TB/s,其在各 AI 平台的頻寬不盡相同。

2 與上一代 HBM(HBM3)的 16GB 容量相比。 

3 我們使用 DeepSpeed ZeRO-Inference 分析 Meta Llama 2 70B 的效能,測試單個 NVIDIA HGX H200(HBM3E)與 NVIDIA HGX H100(HBM3)的對比。

4 結果根據 INT4 量化模型執行所得。考慮到 NVIDIA H200 系統中 HBM3E 更高的記憶體頻寬和容量(4.8 TB/s),Llama 2 70B 的推理效能比前幾代 HBM 提升 1.8 倍。

5 結果根據 INT4 量化模型執行所得。HBM3E 可處理的批次大小(推理請求)是上一代 HBM 的 2.5 倍,透過同時處理更多資料,單個 GPU 可支援更多並行用戶端。

6 為了最大限度地利用記憶體頻寬,我們使用微基準測試 BabelStream,旨在模擬需要最高頻寬使用率的最壞情況。透過這種方法,我們可以在測量功耗的同時評估記憶體的峰值使用情況。透過以 100% 的頻寬利用率運行,我們可以隔離由於記憶體造成的功率消耗。結果表明,在 100% 頻寬利用率的情況下,HBM3E 的功耗最多增加 30%。

Content Strategy Marketing Lead

Evelyn Grevelink

Evelyn leads the content strategy for the Cloud Memory Business Unit (CMBU) Strategic Marketing team at Micron Technology. She is passionate about acting as a bridge between engineering and marketing through creative, strategic storytelling. Evelyn specializes in writing compelling narratives and designing illustrations to communicate complex concepts for large language models, AI, and advanced memory technologies. She holds a bachelor's degree in physics from California State University, Sacramento. 

Systems Performance Engineer

Felippe Vieira Zacarias

Felippe is a Systems Performance Engineer at Micron Technology, where he works with the Data Center Workload Engineering team to provide an end-to-end systems perspective on understanding memory hierarchy usage for data center workloads. Felippe has extensive expertise in high-performance computing and workload analysis, having worked as a research engineer at renowned supercomputing centers. He holds a Ph.D. in Computer Architecture from Universitat Politècnica de Catalunya.