Invalid input. Special characters are not supported.
推理曾經是訓練的後續行動,亦或是配角。但似乎一夜之間一切都變了。如今,推理是 AI 基礎架構中的重頭戲——而儲存裝置已然成為聚光燈下的焦點。
每次你向聊天機器人提問、生成圖像或執行「Copiloted」任務時,推理都在發揮作用。這些並不是像訓練那樣可預測、可重複的過程。推理是按需即時進行的,完全由使用者行為決定。這使得推理變得更難以處理,也更難最佳化。
想像一下上下班尖峰時段在繁忙的城市中穿行的情形。每個駕駛員都有獨一無二的目的地,交通模式也在不斷變化。你需要根據當下情況做出即時決策,調整路線以避開壅塞路段,有效率地到達目的地。這種不可預測性和快速調整需求反映了 AI 推理的隨機性。你的每一次互動都會觸發一系列獨特的程序和運算,因此,系統需要具備高效能和高回應性。
推理 = IOPS
實際情況是這樣:與訓練工作負載不同,推理工作負載不會直線運行。它們會循環、細化和重新處理。這意味著每次互動都會引發大量的讀取、寫入和查詢操作。每秒輸入/輸出操作(IOPS)也會迅速增加。推理不僅需要大容量,還需要高效能。運算成為人們關注的焦點,但不斷「餵飽野獸」的卻是儲存裝置。
隨著這些模型的擴充——近乎即時地為數十億像你這樣的使用者提供服務——對基礎架構的壓力呈指數級增長。AI 創新必須以光速前進,但其速度受限於最慢的元件。
Meta 首席 AI 科學家 Yann LeCun 說得好:「AI 的大部分基礎架構成本都用於推理:為數十億人提供 AI 助理服務。」
這種規模的推理直接轉化為對速度更快、回應更快的儲存系統的需求——不僅是高容量,還有高 IOPS。推理應用的並行 I/O 可達到過去 CPU 型運算應用的數百甚至數千倍。
推理 = IOPS
在美光,我們看到這種轉變已經體現在實際部署中。執行大型語言模型(LLM)和其他推理繁重工作負載的客戶正在尋找各種方法,以減少尾端延遲並提高在不可預測負載下的回應速度。
這正是美光 9550 和我們的次世代 PCIe Gen6 NVMe SSD 等硬碟的真正用武之地。這些硬碟不是通用儲存裝置。它們專為 AI 推理等資料密集型低延遲環境而設計。
推理 = IOPS
NVIDIA 的 Jensen Huang 最近指出:「我們需要的運算量……由於代理式 AI、由於推理,很容易比我們去年這個時候所認為的多 100 倍。」
變得越來越聰明的不僅僅是模型。在這種情況下,基礎架構需要跟進——在整個堆疊中。這其中包括儲存裝置,尤其是在使用大量 GPU、加速器和記憶體進行推理的系統中。
隨著聊天機器人、搜尋、Copilots 和邊緣嵌入式 AI 等使用案例的增加,整個 I/O 管道正進行重新評估。如果儲存裝置跟不上,那麼高速的運算結構又有什麼意義呢?
推理 = IOPS
推理時代已經來臨,IOPS 的需求將隨之增長——美光正在引領這一潮流。