設計工具
SSD

為什麼儲存系統的效能對於 AI 工作負載很重要

Currie Munce | 2024 年 6 月

為什麼儲存系統的效能對於 AI 工作負載很重要?

瞭解影響資料儲存裝置速度和效率的關鍵因素指南

資料是任何現代企業的命脈,如何儲存、存取和管理資料將對您的生產力、盈利能力和競爭力產生巨大影響。人工智慧(AI)的出現正在改變每個產業,並迫使企業重新評估如何利用資料來加速創新與發展。然而,AI 訓練和推論對資料管理和儲存帶來獨特挑戰,因為當中需要大量資料、高效能、可擴充性和可用性。

並非所有儲存系統都是一樣的,許多因素會影響其效能。在這篇部落格文章中,我們將探討影響 AI 儲存系統效能的主要因素,更重要的是,您選擇的底層儲存媒體將如何影響效能。

AI 工作負載的關鍵屬性

AI 工作負載屬於資料密集型和運算密集型,這意味著這類工作負載需要以高速且低延遲的方式處理大量資料。儲存裝置在協助 AI 工作負載高效率且高效益存取、擷取、處理和儲存資料方面發揮著至關重要的作用。影響儲存需求的典型 AI 工作負載的部分關鍵屬性包括:

  • 資料種類:AI 工作負載需要存取來自多個來源和格式的資料(例如結構化、非結構化或半結構化資料)以及來自不同位置(例如本地、雲端或邊緣)的資料。儲存解決方案需要在不同環境和平台之間提供快速可靠的資料存取和移動。
  • 資料速度:AI 工作負載需要以即時或接近即時的方式處理資料。儲存解決方案需要為資料攝取、處理和分析提供高吞吐量、低延遲和一致的效能。
  • 資料量:隨著 AI 模型的複雜性和準確性不斷提高,GPU 叢集的運算能力不斷增強,其儲存解決方案需要提供靈活且可擴充的容量和效能。
  • 資料可靠性和可用性:AI 工作負載需要確保資料完整性、安全性和極高的可用性,尤其是連接到無法容忍資料存取中斷的大型 GPU 叢集時。

影響儲存系統效能的因素

儲存系統效能並非單一指標,而是多個因素的組合,這些因素取決於資料、應用程式和資料中心基礎架構的特徵和要求。最關鍵的一些因素包括:

  • 吞吐量:儲存系統與網路或主機之間傳輸資料的速率。更高的吞吐量可以增加頻寬並減少資料流的壅塞和瓶頸,進而提升效能。吞吐量通常受到網路頻寬或儲存媒體速度的限制。
  • 延遲:儲存系統回應讀取或寫入請求所需的時間。較低的延遲可以減少 GPU 閒置時間並改善系統對使用者輸入的回應能力,從而提升效能。機械裝置(例如 HDD)的延遲本質上遠高於固態裝置(SSD)。
  • 可擴充性:儲存系統適應資料量、速度和種類變化的能力。高可擴充性是讓您的儲存系統能夠隨著您的業務需求和目標而成長和發展的關鍵。增加系統可儲存和管理的資料量的最大挑戰,是在不遇到瓶頸或儲存裝置限制的情況下維持效能擴充。
  • 韌性:儲存系統在發生故障、錯誤或災難時維持資料完整性和可用性的能力。更高的可靠性可減少資料損壞、遺失和復原的頻率和影響,從而提升效能。

儲存媒體替代方案

傳統硬碟(HDD)和固態硬碟(SSD)是資料中心應用中用於持久性儲存的兩種主要裝置類型。HDD 是一種機械裝置,使用具有磁性塗層的旋轉磁碟片儲存資料,而 SSD 使用固態快閃記憶體晶片儲存資料。數十年來,HDD 一直是主流儲存裝置。HDD 的單位位元成本最低,具有長期斷電的耐用性,但比 SSD 速度慢且可靠性低。SSD 提供更高的吞吐量、更低的延遲、更高的可靠性和更密集的封裝選項。

隨著技術的進步和運算需求的增加,HDD 的機械特性可能無法使其在效能上跟上步伐。系統設計可以部署一些選項來擴充以 HDD 為基礎的儲存系統的有效效能,例如混合冷熱資料(熱資料借用冷資料的效能)、在多個 HDD 轉軸之間並行共享資料(增加吞吐量但不改善延遲)、過度配置 HDD 容量(本質上是配置 IO 而非容量)以及針對延遲異常值增加 SSD 快取層(請參閱 Steve Wells 最新的部落格文章 HDD 與 SSD。探討的重點是什麼?| Micron Technology Inc.)。這些系統級解決方案在其成本變得過高之前,可擴充性有限。這些解決方案的可擴充性取決於應用程式所需的效能等級。對於當今的許多 AI 工作負載而言,以 HDD 為基礎的系統在效能和功耗效率的可擴充性方面都存在不足。

不過,以 SSD 為基礎的大容量儲存系統可以提供複雜度較低、可擴充性更強的解決方案,並且迅速發展成為許多以 GPU 為中心的大型資料中心高效能 AI 資料湖的首選儲存媒體。雖然在硬碟層面,就每位元成本而言,SSD 比 HDD 更昂貴。但在系統層面,當您考慮以下提升時,使用 SSD 建構的系統比 HDD 具有更好的營運成本:

  • 更高的吞吐量
  • 延遲降低 100 倍以上
  • 每 PB 所需的伺服器和機架更少
  • 更高的可靠性和更長的使用壽命
  • 在特定效能水準下,能效更高 

預計未來幾年 SSD 的容量將增長到 120TB 以上。隨著容量的增長以及 SSD 和 HDD 之間價格差距的縮小,對於在大型資料集上需要高於平均水準的效能或更低延遲的其他工作負載,例如影片編輯和醫學影像診斷,SSD 將成為具吸引力的替代方案。

結論

儲存效能是執行 AI 工作負載的系統的重要設計標準。本身會影響系統效能、可擴充性、資料可用性以及整體系統成本和功耗要求。因此,您必須瞭解不同儲存方案的功能和優勢並選擇最適合您 AI 需求的儲存解決方案。選擇合適的儲存解決方案,您便可以最佳化 AI 工作負載並實現 AI 目標。

Currie Munce is a Senior Technology Advisor and Strategist for Micron’s Storage Business helping to define storage architecture and technology directions for the company.

Currie Munce