乙太網路快閃記憶體束(EBOF)結合 NVMe-oF™ 網絡,大規模實現低成本儲存
NVMe over Fabrics(又稱 NVMe-oFTM)是一項新興技術,可在資料中心內實現運算和儲存的分解。美光致力於與 Marvell、Foxconn-Ingrasys 和 NVIDIA 等主要技術合作夥伴合作,幫助解鎖 NVMe-oF 的各項優勢潛能。我們也在研發創新技術,如異質記憶體儲存引擎 (HSE),該技術將有助於利用 NVMe-oF,最佳化對快閃記憶體的大規模存取。
什麼是 NVMe?
從字面上看,NVMe-oF 將 NVMe 協議擴展到網絡,使其覆蓋範圍遠遠超出目前 SSD 的伺服器機箱。雖然 NVMe 早在 2011 年就已出現,但網絡化擴展在 2016 年才首次標準化。NVMe-oF 利用 NVMe,並因此繼承了 NVMe 的所有優點:輕量且高效的命令集、多核心感知和通訊協定平行性。NVMe-oF 支援所有常見的網絡架構,包括光纖通道、InfiniBand 和乙太網路,真正實現網絡皆可用 圖 1 比較了 NVMe 和 NVMe-oF 模式,並強調了使用者可使用的各種網絡和網絡傳輸選項。
有兩種相關的乙太網路傳輸選項:RoCE v2 和 NVMe-TCP。它們各有優缺點。RoCE v2 的延遲較低,但需要支援 RDMA 的專用 NIC (RNIC),而 NVMe-TCP 傳輸的延遲較高,CPU 使用率較高,但不需要任何專用 RNIC。相反,它使用標準的 NIC。RoCE v2 目前在市場上更為流行。
NVMe over Fabrics 有哪些優點?
僅使用 NVMe,您基本上只能在伺服器機箱或機架上使用 PCIe 交換器作為擴充手段。雖然這是一種完全有效的儲存擴充方式,但其範圍和覆蓋面相當有限。NVMe-oF 允許在整個資料中心範圍內連接幾乎無限量的儲存裝置。
如今,NVMe-oF 技術已相當成熟,許多使用者採用該技術將全快閃記憶體陣列 (AFA) 連接到伺服器。然而,NVMe-oF 的全部優勢只有在運算和儲存完全分解後才能實現。也就是說,NVMe SSD 集區可透過網絡提供給伺服器集區,以便按需配置運算和儲存。分解提高了儲存裝置的可擴充性和可共享性,並實現了可組合性,如圖 2 所示。
分解儲存的另一個層面是儲存服務(即資料保護、複製、壓縮等)。儲存服務可以由伺服器管理(負載模式),也可以轉移給靠近實際儲存裝置的資料處理單元 (DPU)。必須做出權衡。負載模式會消耗額外的 CPU 週期和網絡頻寬,但可以將成本降至最低,而轉移模式則會增加成本,而且根據配置情況,可能產生瓶頸。由於 TCO(總體擁有成本)優勢,追求大規模低成本儲存的使用者傾向於採用負載附加儲存策略。
什麼是 EBOF、JBOF 和 JBOD?
有兩種方式可將「快閃記憶體束」連接到 NVMe-oF 網絡:使用 Ethernet Bunch of Flash (EBOF) 或使用 Just a Bunch of Flash (JBOF)。不要將 JBOF 與 JBOD (Just a Bunch of Disks) 混淆。JBOD 通常用於擴充使用 NVMe over PCIe 的機架中的儲存裝置。EBOF 或 JBOF 可用於擴充使用 NVMe-oF 的整個資料中心的儲存裝置。如圖 3 所示,JBOF 使用 PCIe 交換器扇出至 SSD,而 EBOF 則使用乙太網路交換器扇出至 SSD。JBOF 和 EBOF 都使用 NVMe-oF 重新連接到之前的伺服器。
除了明顯的乙太網路與 PCIe 交換之外,這兩種方法的主要差異在於 NVMe 到 NVMe-oF 的轉換位置。在 JBOF 上,轉換或橋接透過一個或多個 DPU(x 個 DPU 對 y 個 SSD,x:y 比例)在機架外圍進行。在 EBOF 上,橋接在 SSD 托架或外殼內完成(x 個橋接器對 x 個 SSD,1:1 比例)。雖然 JBOF 的優勢在於利用 DPU 的處理能力來執行儲存服務,但它也存在潛在的瓶頸,與 EBOF 模式相比,它需要額外的成本和功耗。當橋接器與 SSD 的比例不是 1:1 時,成本權衡和瓶頸問題就會出現。
我們使用 Marvell 88SN2400 和 Foxconn-Ingrasys EBOF 測試我們的系統
透過與 Marvell 和 Foxconn-Ingrasys 的合作,我們在 NVMe-oF 環境中對美光 7300 主流 NVMe SSD 進行了各種不同應用和工作負載的測試。
在瞭解這項測試之前,我們先來看看 Foxconn-Ingrasys EBOF 和 Marvell 的 88SN2400 轉換控制器以及 Prestera® CX 8500 交換器。
Marvell 的 88SN2400 是一款適用於雲端和企業資料中心的 NVMe-oF SSD 轉換控制器。它與 Marvell 交換器相結合,實質上允許您在 NVMe 和 NVMe-oF 之間進行轉換或「橋接」。88SN2400 轉換控制器是 Foxconn-Ingrasys EBOF 的關鍵元件,與我們的美光 7300 SSD 一起構成了令人印象深刻的高效能 2U 儲存機架(頻寬高達 73.1 GB/s,IOPs 高達 2,000 萬)。圖 4 顯示了在 2U 機櫃中配備 24 個 U.2 插槽的 Foxconn-Ingrasys EBOF。
圖 5 顯示配備 Marvell 88SN2400 轉換控制器的 Foxconn-Ingrasys SSD 托架。
Foxconn-Ingrasys U.2 托架採用標準 U.2 SSD 規格尺寸。U.2 托架支援雙乙太網路連接埠,以滿足需要路徑冗餘的應用需求,它在硬碟側為 NVMe SSD 配備了單個 PCIe Gen3 x4。
Marvell 的 88SN2400 轉換控制器支援 RoCE v2 和 NVMe-TCP 傳輸。不過,在測試中,我們將重點放在 RoCE v2 上。
使用 NVIDIA™ GPUDirect™ Storage (GDS) 進行擴充的情況如何?
我們使用 NVIDIA™ GPUDirect™ Storage (GDS),在人工智慧與機器學習工作負載中透過 SSD 進行了大量擴充。我們將配備 Marvell 88SN2400 轉換控制器的 Foxconn-Ingrasys EBOF 連接到 NVIDIA DGX™ A100 系統,看看在網絡化環境中的擴充情況。這是簡單的 gdsio(GPUDirect Storage I/O)工具測試,比較了在 NVMe-oF 環境中使用和不使用 GDS 的頻寬和延遲。
在圖 6 中,我們使用八個運算網絡連接埠中的六個,將裝載有美光 7300 SSD 的 EBOF 直接連接到 NVIDIA DGX™ A100,從而提供了 600 Gb/s 的可用網絡頻寬。GDS 使資料能夠在對等裝置之間直接傳輸,跳過了未啟用 GDS 時使用的高延遲回彈緩衝區。在本次測試中,我們的 SSD 在工作負載中發揮出全部效能(約 61 GB/秒)。未來的測試將增加乙太網路交換器,並進一步擴大 EBOF 的數量。
您可以透過首席儲存解決方案工程師 Wes Vaske 在 FMS 2020 AI 分會場的題為「分析儲存裝置對 AI 工作負載的影響」的演講,瞭解此次測試的更多資訊。
NVMe-oF 如何透過 HSE 形成規模?
在美光,我們一直在研究一些令人驚歎的技術,其中之一就是異質記憶體儲存引擎 (HSE)。HSE 是一種快閃記憶體感知儲存引擎,可提高儲存級記憶體 (SCM) 和 SSD 的效能。它還能透過減少寫入放大來延長 SSD 的有效使用壽命,同時還能進行大規模部署。NVMe-oF 是利用 HSE 進一步擴大規模的理想方式。為了驗證 HSE 在網絡化儲存中的有效性,我們使用 MongoDB 和 YCSB(Yahoo! 雲端服務基準)進行了一些測試。在圖 7 中,我們比較了使用本地美光 7300 SSD 的預設內建 MongoDB 儲存引擎(WiredTiger)和在 EBOF 中使用美光 7300 SSD 的美光 HSE 的效能。
與 MongoDB 中使用的舊有 WiredTiger 儲存引擎和本地 SSD 相比,HSE 在網絡化環境中的效果非常顯著。我們可以將每秒 YCSB 作業次數提高五倍,將延遲降低 42%,同時提高儲存的可擴充性。
您可以透過首席儲存解決方案工程師 Sujit Somandepalli 在 FMS 2020 上所做的題為「利用 NVMe Over Fabrics 擴充儲存裝置」的演講中瞭解有關該測試的更多資訊。
NVMe-oF 的未來是什麼?
NVMe-oF 是一種使能技術,最終將實現完全分解的資料中心,在此類資料中心中,應用程式可以組合在一起,然後以經濟高效的方式動態配置適當數量的運算和儲存。
如今,低成本的橋接器或以 DPU 為基礎的平台可用來連接 NVMe SSD 並將其橋接至 EBOF 或 JBOF。未來,我們可能會看到原生 NVMe-oF SSD 進一步降低總體擁有成本 (TCO) 並提高效能。
美光正在設計具有針對 NVMe-oF 應用最佳化的功能和特性的次世代資料中心 SSD。