Invalid input. Special characters are not supported.
隨著大型語言模型(LLM)不斷推動 AI 的發展,高頻寬記憶體(HBM)成為次世代 LLM 的關鍵因素,它能夠以前所未有的速度實現智慧、語境感知推理。
傳統上,電腦系統圍繞確定性的線性處理模型進行設計:
輸入 → 運算 → 輸出
但近年來人工智慧(AI)的成功,尤其是 LLM 的成功,要求我們進行模式轉變。我們使用的機器不再僅僅進行簡單的處理和運算。隨著生成式 AI 的出現,AI 驅動的聊天機器人——著名的 ChatGPT——現在已經具備解釋語境、產生新見解、適應新資訊甚至進行推理的複雜能力。雖然聊天機器人還不具備感知能力——就像《傑森一家》(Jetsons)中備受喜愛的機器人管家 Rosey——但它仍然是有用的智慧對話夥伴。
您可能想知道,記憶體在這些智慧系統中扮演著什麼角色。隨著 LLM 參數大小的增加(目前已達到數萬億),記憶體變得越來越重要,因為這些龐大的參數集必須儲存在記憶體,並允許在推理和訓練過程中從記憶體快速存取。而 HBM 專門為處理這種涉及頻繁和大量記憶體存取的大量資料移動而設計。過去十年,美光一直在推進記憶體技術,以跟上這些模型的快速發展並助其成功。在本篇部落格中,我們將探討高頻寬記憶體(特別是美光的 HBM3E )在推動 AI 模型並使其變得更強大、更有能力和更智慧方面的意義。
毫秒至關重要
LLM 的飛速發展為研究人員和工程師提出新的挑戰,即從根本上重新思考運算系統如何處理和移動資訊。正如電腦繪圖的出現迫使人們轉變思維方式——我們不僅提高了渲染速度,還重新定義了機器如何感知和處理視覺資訊——我們正處於 AI 發展的類似階段。要將 Anthropic 的 Claude、Google 的 Gemini、Meta 的 Llama 等 LLM 整合到主流應用中,需要的不僅僅是效能的逐步提升。它需要一類新的系統,能夠支援人與機器之間的動態和語境感知互動。在設計現有硬體時,工程師必須考慮最佳化延遲和能效等傳統指標之外的因素。他們設計的系統必須增強對推理任務的理解,支援即時學習,並在類似對話的交流中保持連續性。
在 AI 驅動的互動中,幾毫秒的時間就能決定人機互動是和諧、類似人類的體驗,還是碎片化或令人沮喪的體驗。在支援數千甚至數百萬並行使用者的高負載資料中心場景中,如即時翻譯或 AI 副駕駛,HBM3E 等次世代記憶體的更高頻寬和更大容量正在發揮關鍵作用。這項技術可確保系統回應的一致性,在高負載情況下保持輸出品質,並為所有使用者提供對等、高保真度的互動。
HBM3E 和 AI 推理
次世代記憶體硬體的特點通常是頻寬和容量的提高,其口號是「更多、更大、更快即更好」。然而,在當代 AI 系統(尤其是 LLM)的背景下,這種方法更加深入和全面。以 HBM3E 為例:更快的資料傳輸速率(更高的頻寬)和更大的記憶體容量會對 AI 推理產生更複雜的影響。雖然頻寬和容量仍然是記憶體硬體的關鍵指標,但它們對 LLM 效能的影響截然不同。我們的目標不僅僅是為了加速硬體而提高速度,也不僅僅是為了容納更多資料而提高容量;我們現在需要改進這些指標,以實現更高層級的智慧——綜合資訊和推理的能力。現在,讓我們來看看 HBM3E 的一些規格,並解釋這些更高的指標在 AI 模型中的實際意義。
頻寬決定運算潛力
每個立方體的 HBM3E 的頻寬超過每秒 1.2 TB/s,但這不僅僅是一個較高的數字1,它代表了運算潛力。以這種速度傳輸資料的能力意味著 AI 模型能夠以前所未有的速度存取、處理和合成資訊,進而顯著降低延遲並提高模型效能(即系統的回應速度和反應速度)。
能力決定推理的深度和複雜性
每個立方體容量2擴大到 24 GB 不僅意味著儲存空間的擴大,還能為神經網路帶來更大的認知潛力,更大的模型容量能讓智慧機器執行更複雜的任務。在傳統運算模式中,記憶體主要作為一種儲存機制,而在現代 AI 架構中,記憶體容量則是認知所必需的,它能夠直接轉化為更深入的理解、更細緻的推理和更全面的答案。我們可以認為,獲得更大的記憶體容量可以使 LLM 的推理能力複合或倍增。
採用 HBM3E,我們不僅可以透過數值上的改進來提高效能,還可以透過記憶體設計從根本上擴充機器智慧的認知潛力。更高的頻寬和更大的容量所帶來的綜合影響,可以讓 LLM 在與您互動時更縝密、更準確。在技術層面上,頻寬和容量的提升意味著 LLM 可以處理更大的資料集、每秒更多權杖、更長的輸入序列以及更長的資料格式(如 FP16)。從根本上說,如果沒有足夠的頻寬,這些功能強大的模型將很難快速存取相關資訊。而且,如果沒有巨大的記憶體容量,除了表面分析之外,模型將無法生成全面、語境豐富的回應。

實驗結果
現在讓我們來看看使用 Meta Llama 2 70B 和 DeepSpeed ZeRO-Inference 的實際測試結果3,從中可以看出次世代 HBM 的變革潛力:
- 效能提升:HBM3E 將推理效能提高 1.8 倍,記憶體頻寬達到 4.8 TB/s。4
- 可擴充性:該技術可支援 2.5 倍的批處理規模,實現更多並行用戶端處理。4,5
- 精度和容量:擴大記憶體容量(144GB,比上一代增加 80%),可進行更高精度的模型操作。
這些結果表明,次世代 HBM 等先進的記憶體技術可以解決 LLM 基礎架構中的關鍵挑戰,在運算效能和功耗效率之間實現平衡6。推理效能、容量和功耗效率的提高凸顯了實現更智慧、更強大的 AI 系統的潛在途徑。展望未來,新一代 HBM 技術將實現諸多能力,包括快速運算擴充和支援日益複雜的模型架構。採用這項技術的資料中心將更有能力提供以使用者為中心的更快、更省電、可擴充的 AI 服務,最終推動各行各業的進步。
深入瞭解
- 下載我們的技術簡介 「利用 HBM3E 加速大型語言模型推理」,深入瞭解我們對 HBM3E 在 AI 推理方面的全面分析。
- 有關高頻寬記憶體(HBM)技術的更多資訊,請查看我們的 HBM3E 產品頁面。
1 每立方體頻寬(TB/s)。NVIDIA Blackwell GPU 的頻寬為 8 TB/s,其在各 AI 平台的頻寬不盡相同。
2 與上一代 HBM(HBM3)的 16GB 容量相比。
3 我們使用 DeepSpeed ZeRO-Inference 分析 Meta Llama 2 70B 的效能,測試單個 NVIDIA HGX H200(HBM3E)與 NVIDIA HGX H100(HBM3)的對比。
4 結果根據 INT4 量化模型執行所得。考慮到 NVIDIA H200 系統中 HBM3E 更高的記憶體頻寬和容量(4.8 TB/s),Llama 2 70B 的推理效能比前幾代 HBM 提升 1.8 倍。
5 結果根據 INT4 量化模型執行所得。HBM3E 可處理的批次大小(推理請求)是上一代 HBM 的 2.5 倍,透過同時處理更多資料,單個 GPU 可支援更多並行用戶端。
6 為了最大限度地利用記憶體頻寬,我們使用微基準測試 BabelStream,旨在模擬需要最高頻寬使用率的最壞情況。透過這種方法,我們可以在測量功耗的同時評估記憶體的峰值使用情況。透過以 100% 的頻寬利用率運行,我們可以隔離由於記憶體造成的功率消耗。結果表明,在 100% 頻寬利用率的情況下,HBM3E 的功耗最多增加 30%。