設計工具

輸入無效。不支援特殊字元。

AI

加速邊緣 AI 需要合適的處理器和記憶體

Wil Florentino | 2025 年 7 月

AI 已成為一個熱門詞彙,常常與支援資料中心和大型語言模型(LLM)的強大運算平台的需求相互提及。雖然 GPU 對於在資料中心層面(訓練)擴充 AI 至關重要,但在功率受限的環境中部署 AI(如 IoT 裝置、影像安全監控攝影機和邊緣運算系統)需要採用不同的方法。目前,業界正在轉向更高效的運算架構,以及為分散式、低功耗應用量身定製的專用 AI 模型。

現在,我們需要重新思考如何讓數百萬甚至數十億個終端實現演進,而不僅僅作為需要連線到雲端執行 AI 任務的裝置。這些裝置必須真正具備 AI 能力,成為能以最高效率進行本地推論的邊緣系統,其效率以最低的每瓦每秒兆次運算(TOPS/W)為衡量標準。

即時 AI 運算面臨的挑戰

隨著 AI 基礎模型的大幅增長,基礎架構和能源消耗的成本急遽上升。這使得資料中心能力成為支援生成式 AI日益增長需求的焦點。然而,對於邊緣的即時推論,仍存在使 AI 加速能力更接近資料生成源(即裝置本身)的強烈需求。

管理邊緣 AI 帶來了新的挑戰。這不再僅僅是運算能力的問題——有足夠多的原始每秒兆次運算(TOPS)。我們還需要考慮記憶體效能,同時嚴格控制每個用例的能耗和成本。這些限制凸顯了一個日益嚴峻的現實:在任何有效的 AI 邊緣解決方案中,運算和記憶體正成為同等重要的組成部分。

隨著我們研發出能夠處理更多輸入和任務的日益複雜的 AI 模型,其規模和複雜性不斷增長,對運算能力的要求大幅提高。雖然 TPU 和 GPU 與這種增長保持同步,但記憶體頻寬和效能卻未能同步提高。瓶頸隨之出現:儘管 GPU 可以處理更多資料,但為其提供資料的記憶體系統卻難以跟上。這是一個日益嚴峻的挑戰,凸顯了在 AI 系統設計中平衡運算和記憶體發展的必要性。

Hailo 圖表

嵌入式 AI 表明記憶體是關鍵的考慮因素。

倉庫中的機器人

生成式 AI 在工業運算中的整合應用日益增多。

儘管模型複雜度和運算能力不斷提高,但記憶體頻寬已成為嵌入式邊緣 AI 系統的瓶頸,限制了系統效能。

另一個重要的考量是,推論處理的資料具有動態特性——也就是說,神經網路(NN)必須接收已經過預處理的、經挑選整理的資料。一旦 NN 完成量化和啟用,後處理對於整個 AI 管道同樣重要。這就好比你給汽車裝上 500 馬力的發動機,卻使用低辛烷值的汽油和備用輪胎。無論發動機多麼強勁,汽車的效能都會受到系統中最薄弱元件的限制。

第三個考量是,即使系統單晶片(SoC)內建 NPU 和加速器功能,並增添作為沙箱環境一部分的小型 RAM 快取,這類多領域處理器仍會推高物料清單(BOM)成本,同時也限制了系統的彈性。

經過最佳化的專用 ASIC 加速器,其重要性怎麼強調都不為過。這類加速器不僅能提升神經網路的運算效率,還具備支援多樣 AI 模型的靈活性。此外,ASIC 加速器的另一大優勢,是其可針對最佳 TOPS/W(每瓦兆次運算)進行調校,特別適合用於邊緣運算應用,有助於降低功耗、改善散熱表現,並拓展應用場景,涵蓋自主農業設備、影像監控攝影機,以及倉儲中的自主移動機器人等。

運算與記憶體的協同作用

與邊緣平台整合的協同處理器能夠以低功耗和高成本效率完成即時深度學習推論任務。該技術支援各種神經網路、視覺轉換器模型和 LLM。

Hailo 的邊緣 AI 加速器的處理器與美光的低功耗 DDR(LPDDR)記憶體相結合,成為技術協同作用的典範。這類技術共同提供平衡的解決方案,既能實現運算和記憶體的適當組合,又能保持嚴格的能耗和成本預算——邊緣 AI 應用的理想之選。

作為記憶體和儲存解決方案的領先提供商,美光的 LPDDR 技術可提供高速、高頻寬資料傳輸,同時不犧牲功耗效率,進而消除處理即時資料的瓶頸。LPDDR 常用於智慧型手機、筆記型電腦、汽車系統和工業裝置,尤其適用於需要高 I/O 頻寬和快速引腳速度以跟上現代 AI 加速器發展速度的嵌入式 AI 應用。

例如,LPDDR4/4X(低功耗 DDR4 DRAM)和 LPDDR5/5X(低功耗 DDR5 DRAM)與前幾代產品相比,效能大幅提升。LPDDR4 支援高達 4.2 Gbits/s 的每引腳速度,匯流排寬度高達 x64。與 LPDDR4X 相比,美光的 1-beta LPDDR5X 效能提高一倍,每引腳速度高達 9.6 Gbits/s,並較 LPDDR4X 提升 20% 的電源效率。這些技術突破對於應對邊緣 AI 不斷增長的需求至關重要,因為在該領域中,速度與能源效率都很重要。

Hailo 是與美光合作的領先 AI 晶片供應商之一。Hailo 提供突破性的 AI 處理器,專為在邊緣裝置上實現高效能深度學習應用而設計。Hailo 處理器不僅迎合邊緣生成式 AI 的新時代,同時也透過多種 AI 加速器與視覺處理器,強化裝置的感知能力與影像處理效能。

藍色電路板上的 Hailo 10 晶片

例如,Hailo-10H AI 處理器憑藉高達 40 TOPS 的效能,成為無數用例的 AI 邊緣處理器。據 Hailo 表示,Hailo-10H 採用獨特、強大且具擴展性的結構驅動資料流架構,充分發揮神經網路的核心特性。與傳統解決方案相比,該架構能讓邊緣裝置更高效且全面地執行深度學習應用,同時大幅降低成本。

讓解決方案發揮作用

AI 產生的內容可能不完全正確。圖片 AI 視覺處理器則是智慧型攝影機的理想選擇。Hailo-15 VPU 系統單晶片(SoC)結合了 Hailo 的 AI 推論能力與先進的電腦視覺引擎,能提供優異的影像品質與先進的影片分析功能。其視覺處理單元的 AI 能力可用於 AI 驅動的圖片增強功能以及多個複雜深度學習 AI 應用的全方位處理,且效率卓越。

LPDDR4

AI 產生的內容可能不完全正確。圖片 美光的低功耗 DRAM(LPDDR4X)針對廣泛應用和 Hailo 的 AI 處理器進行嚴格測試,該產品組合支援各種應用場景。從工業和汽車業在使用上對極端溫度和效能的需求,到企業級系統所要求的嚴謹規格。美光的 LPDDR4X 非常適合 Hailo 的 VPU,因為本身能提供高效能、高頻寬的資料傳輸速率,同時不影響功耗效率。

成功組合

隨著越來越多的用例開始利用支援 AI 的裝置,研發人員需要考慮如何使數百萬(甚至數十億)的終端從單純的雲端代理演進為真正具備 AI 能力的邊緣裝置,以最低的 TOPS/W 支援內部推論。憑藉針對邊緣 AI 加速重新設計的處理器,以及低功耗、可靠、高效能的 LPDRAM,邊緣 AI 可被開發應用於越來越多的場景。

市場區隔資深經理

Wil Florentino

Wil Florentino 是美光科技(Micron Technology)工業業務部門的市場區隔資深經理。他的職責包括提供 IIoT 和工業邊緣運算等工業市場區隔的市場情報和主題專業知識,以支援新產品藍圖記憶體解決方案。Florentino 先生在嵌入式半導體技術領域擁有 20 多年的經驗,包括 SoC、FPGA、微控制器和記憶體,其工作主要側重於工業應用。