邊緣 AI:加速智慧的未來記憶體和儲存裝置
AI 在業界的應用不斷擴大,加速了更複雜方法的發展,包括機器學習(ML)、深度學習甚至大型語言模型。這些進步讓我們對預計將在邊緣使用的資料數量之龐大有了粗略的瞭解。雖然目前的重點是如何加速神經網路的執行,但美光也在不遺餘力地製造適合邊緣 AI 的記憶體和儲存裝置。
什麼是合成資料?
IDC1 預測,到 2025 年,全球將產生 175 ZB(1 ZB = 10 億 TB)的新資料。資料數量之龐大難以想象,但 AI 的進步將繼續推動需要巨量資料的系統的發展。
事實上,從直接測量或物理影像中獲取的大量真實物理資料已經使日益擴大的 AI 模型不堪負荷。如果您有 1 萬張現成的柳橙影像樣本,那麼您可以輕鬆識別柳橙。但是,如果您需要對特定場景進行比較,例如,隨機人群與有組織的遊行,或者烘焙餅乾的異常情況與完美餅乾,那麼除非您擁有建立基準模型所需的所有變異樣本,否則將很難確認準確的結果。
業界越來越多人使用合成資料。2合成資料是根據模擬模型人工生成的資料,例如,模擬模型提供了同一影像的統計現實。該方法尤其適用於工業視覺系統,因為物理影像的基準是獨一無二的,而且在網路上找不到足夠的「小工具」來提供有效的模型表示。
資料來源:《忘掉真實資料——合成資料是 AI 的未來》,Maverick Research,2021 年;《什麼是合成資料》,Gerard Andrews,NVIDIA,2021 年。
當然,挑戰在於這些新形式的資料將存放於何處。可以肯定的是,建立的任何新資料集都必須儲存在雲端,或者為了獲得更獨特的表現形式,儲存在更靠近需要分析資料的地方——邊緣。
模型複雜性和記憶體牆
在演算法效率和 AI 模型效能之間找到最佳平衡點是一項複雜的任務,因為這取決於資料特徵和數量、資源可用性、功耗、工作負載要求等因素。
AI 模型是一種複雜的演算法,可以用參數數量來表徵:參數越多,結果越精確。業界一開始使用的是通用基準模型,如 ResNet50,因為它易於實施,並成為網路效能的基準。但這一模型主要針對有限的資料集和有限的應用。隨著這些轉換器的發展,我們發現轉換器的參數隨著記憶體頻寬的增加而增加。3該結果是一個明顯的應變:無論模型能處理多少資料,我們都會受到可供模型和參數使用的記憶體和儲存裝置頻寬的限制。
多年來最先進(SOTA)模型參數數量的演變,以及 AI 加速器記憶體容量(綠點)。資料來源:《AI 與記憶體牆》,Amir Gholami,Medium,2021 年。
為了快速進行比較,我們可以檢視嵌入式 AI 系統的效能,單位為每秒兆次運算(TOPS) 我們看到,小於 100 TOPS 的 AI 邊緣裝置可能需要約 225 GB/s 的記憶體頻寬,而大於 100 TOPS 的裝置可能需要 451 GB/s 的記憶體頻寬(表 1)。
智慧型端點 | 客戶端邊緣 | 基礎設施邊緣 | |
---|---|---|---|
INT 8 TOPS | <20 | <100 | ~100 - 200 |
所需的記憶體 BW* | 90 GB/s | 225 GB/s | 451 GB/s |
IO 寬度要求 | x16, x32 | x64, x128 | X256 |
記憶體解決方案 | |||
運算記憶體 | LPDDR4 每腳位 4.2 GT/秒 |
LPDDR5;LPDDR5x 6.4 GT/s;每腳位 8.5 GT/s |
|
每腳位最大傳輸速率 | |||
最大裝置 BW(x32) | 13GB/s | 26GB/s;34GB/s |
表 1——比較 AI 系統記憶體頻寬要求和記憶體技術裝置頻寬。(* INT8 Resnet 50 機型飽和 DLA 所需的估計頻寬)。美光。
因此,最佳化模型的一種方法是考慮效能更高但功耗更低的記憶體。
透過隨新標準不斷演進,記憶體跟上了 AI 加速解決方案的腳步。例如,LPDDR4/4X(低功耗 DDR4 DRAM)和 LPDDR5/5X(低功耗 DDR5 DRAM)解決方案較先前技術有顯著的效能改善。
LPDDR4 每腳位傳輸速率可達 4.2 GT/s(每腳位每秒千兆傳輸速率),支援高達 x64 的匯流排寬度。相較於 LPDDR4,LPDDR5X 的效能提升了 50%,效能翻倍,達到每腳位 8.5GT/s。此外,LPDDR5 的功耗效率比 LPDDR4X 高 20%(資料來源:美光)。這些重大發展可以滿足不斷擴大的 AI 邊緣用例的需求。
儲存裝置的考慮因素有哪些?
認為運算資源受限於處理器的原始 TOP 或記憶體架構的頻寬是不夠的。隨著 ML 模型越來越複雜,模型的參數數量也呈指數級增長。
機器學習模型和資料集擴展,以獲得更好的模型效率,因此也需要效能更高的嵌入式儲存裝置。速度達到 3.2 Gb/s 的 e.MMC 5.1 等典型的管理型 NAND 解決方案不僅是代碼啟動的理想選擇,也是遠端資料儲存的理想選擇。此外,UFS 3.1 等解決方案的執行速度可提高七倍(達到 23.2 Gb/s),因此能夠支援更複雜的模型。
新架構還將通常屬於雲端或 IT 基礎架構的功能推向邊緣。例如,邊緣解決方案實施安全層,在受限操作資料和 IT/雲端領域之間提供空氣間隙。邊緣 AI 還支援智慧自動化,如對儲存的資料進行分類、標記和檢索。
記憶體儲存的發展,如支援 D TLC NAND 的 NVMeTM SSD,為各種邊緣工作負載提供了高效能。例如,Micron 7450 NVMe SSD 採用 176 層 NAND 技術,非常適合大多數邊緣和資料中心工作負載。它具有 2 毫秒服務品質(QoS)延遲,可充分滿足 SQL 伺服器平台的效能需求。它還提供 FIPS 140-3 第 2 級和 TAA 法規遵循,以滿足美國聯邦政府的採購要求。
不斷發展的 AI 邊緣處理器生態系統
Allied Market Research 預計,到 2030 年,AI 邊緣處理器市場規模將增至 96 億美元。4有趣的是,這批新成立的 AI 處理器新創公司正在開發 ASIC 和專有 ASSP,以滿足空間和功耗更為有限的邊緣應用需求。在記憶體和儲存解決方案方面,這些新晶片組也需要在效能和功耗之間取得平衡。
此外,我們還看到,AI 晶片組供應商已開發出企業和資料中心標準規格尺寸(EDSFF)加速卡,可安裝在 1U 解決方案中,並與儲存伺服器放置在一起,以便使用相同的模組加速從 AI/ML 推論到影片處理等任何工作負載。
如何尋找合適的記憶體與儲存裝置合作夥伴?
AI 不再是炒作,而是正在所有垂直產業實施的現實。在一項研究中指出,有89% 的產業已經制定或將在未來兩年內制定邊緣 AI 策略。5
但是,實施 AI 並非易事,正確的技術和元件將起到決定性作用。美光憑藉其在記憶體和儲存裝置方面的最新技術組合,正在以我們的 IQ 價值主張引領工業客戶的發展。如果您正在設計 AI 邊緣系統,美光可以幫助您以前所未有的速度將產品推向市場。請聯絡您當地的美光代表或美光產品經銷商(www.micron.com)。
1 資料來源:《世界數位化——從邊緣到核心》,IDC/Seagate,2018 年。
2 資料來源:《忘掉真實資料——合成資料是 AI 的未來》,Maverick Research,2021 年;《什麼是合成資料》,Gerard Andrews,NVIDIA,2021 年。
3 資料來源:《AI 與記憶體牆》,Amir Gholami,Medium,2021 年。
4 資料來源:《2030 年邊緣 AI 處理器市場研究》,Allied Market Research,2022 年 6 月。
5 資料來源:《掌握製造業的數位轉型》,Jash Bansidhar,Advantech Connect,2023 年。《掌握製造業的數字化轉型》,Jash Bansidhar,Advantech Connect,2023 年。