在加速器中嵌入推論引擎提供 AI 支援
當然可以做到。人工智慧(AI)與機器學習(ML)對於世界消耗與使用資料的方法帶來了重大變革。舉例來說,ML 在粒子物理、醫學研究、機器人科技等領域都成功促進科學研究成果。舉例來說,CERN 開放實驗室便是在高能量物理學中運用 ML 新科技的先驅者,協助人類了解宇宙。全自動駕駛汽車的實現已近在眼前,而 AI/ML 也廣泛應用於語音控制助理到智慧製造等各項領域之中。
但是 ML 也對傳統運算架構帶來重大挑戰。為能完整運用 AI/ML 的力量,需搭載高效能密度記憶體的新運算架構。在這個新世界中,透過發展成熟的 ML 運算法來即時處理大量複雜資料以提供精準與快速的分析,需仰賴快速記憶體的頻寬才得以實現。
科學、醫學與產業研究人員若欲運用 AI/ML 的效能,便需要引進新的方法。記憶體頻寬並未伴隨微處理器核心成長而擴大規模。伺服器和處理器元素已達到時脈限制。同時,現今的資料密集科學應用程式也受到記憶體的限制。
深度學習加速器的誕生
創新是這些問題的解決之道。專為 AI 應用程式硬體加速而全新設計的精密微處理器也導入部署。美光不斷研發自有的深度學習加速器(DLA)產品系列。美光 DLA 是硬體與軟體的結合,專為現場可程式化邏輯閘陣列(field-programmable gate array)加速與節能而設計,而 ML 軟體研發組件(SDK)能夠略過基本硬體,而無須進行 FPGA 編程(傳統上會以硬體定義語言 HDL 來執行)。
美光與 CERN 開放實驗室的研究人員合作,在緊湊緲子線圈(Compact Muon Solenoid, CMS)的兩項專案中對我們的 DLA Micron-852 進行測試,而 CMS 是「大型強子對撞機(Large Hadron Collider)」的四大實驗之一。美光的人工神經網路記憶體解決方案將會在這些實驗的資料擷取系統中進行測試。
Micron SB-852 深度學習加速器 PCIe x16 Gen3
高效能加速器搭配高效能記憶體
在快速處理大量資料時,FPGA 的加速能力是不可或缺的。Micron SB-852 加速器具備 Xilinx® Virtex Ultrascale+ FPGA。提供位元密集運算能力,能夠消耗大量科學、醫療或其他領域之資料。SB-852 同時擁有高達 512GB 的 DDR4 記憶體,能讓研究人員在本機執行大量資料推論,藉以解決對資料分區的需求。四管道配置提供每秒高達 68GB 的記憶體頻寬,讓研究人員能夠快速分析資料並回傳分析結果,進而實現科學發現。
FWDNXT 推論引擎結合主要深度學習平台
彈性 ML 專用之預載推論引擎
您可能會問:推論引擎是否真的內建在美光的 DLA 之中? 沒錯,FPGA 已經使用來自 FWDNXT 的創新 ML 推論引擎進行編程,支援多種人工神經網路(CNN、RNN、LSTM)。在 FWDNXT ML SDK 的幫助之下,對 FPGA 進行編程就像使用 Python 與 C++ 寫程式一樣簡單。SDK 便能完成剩下的工作,輕鬆加速所有人工神經網路。還有許多好處:低功率與高效能不僅從 FPGA 中產生,更是由 FWDNXT 的創新推論引擎提供,能夠達成近 100% 的人工網路模型運算效率。
更深入來說,ML SDK 支援所有 ML 架構,讓資料科學家能夠用自己選擇的架構(Tensor Flow、Pytorch、Caffe2等)來訓練人工神經網路,接著將該網路輸出為開放式中性網路交換格式 ONNX。接著,在 SDK 的協助下,研究人員可將輸出結果在預載推論引擎上編譯成機器程式碼。只需要修改幾條程式碼,研究人員就能在美光加速器上設定與 GPU 上相同的目標。
加速啟動未來
美光提供匯集各種加速器機板與模組的 DLA 產品系列,還有能夠容納高達六個模組的 PCIe 電路板模組。同時也推出能支援 PCIe 與 QSFP 介面的電路板。這些產品大多具備低功率與小型規格尺寸特色,能夠在網路邊緣的資料中心和智慧裝置等各種應用中實現有效又快速的機器學習。
瀏覽 micron.com/AI 了解更多資訊,並追蹤 @MicronTech,隨時掌握最新消息。