NVMe-oF 網絡中的乙太網路快閃記憶體束

乙太網路快閃記憶體束（EBOF）結合 NVMe-oF™ 網絡，大規模實現低成本儲存

NVMe over Fabrics（又稱 NVMe-oFTM）是一項新興技術，可在資料中心內實現運算和儲存的分解。美光致力於與 Marvell、Foxconn-Ingrasys 和 NVIDIA 等主要技術合作夥伴合作，幫助解鎖 NVMe-oF 的各項優勢潛能。我們也在研發創新技術，如異質記憶體儲存引擎 (HSE)，該技術將有助於利用 NVMe-oF，最佳化對快閃記憶體的大規模存取。

什麼是 NVMe？

從字面上看，NVMe-oF 將 NVMe 協議擴展到網絡，使其覆蓋範圍遠遠超出目前 SSD 的伺服器機箱。雖然 NVMe 早在 2011 年就已出現，但網絡化擴展在 2016 年才首次標準化。NVMe-oF 利用 NVMe，並因此繼承了 NVMe 的所有優點：輕量且高效的命令集、多核心感知和通訊協定平行性。NVMe-oF 支援所有常見的網絡架構，包括光纖通道、InfiniBand 和乙太網路，真正實現網絡皆可用圖 1 比較了 NVMe 和 NVMe-oF 模式，並強調了使用者可使用的各種網絡和網絡傳輸選項。

圖 1：NVMe 和 NVMe-oF 模式比較

有兩種相關的乙太網路傳輸選項：RoCE v2 和 NVMe-TCP。它們各有優缺點。RoCE v2 的延遲較低，但需要支援 RDMA 的專用 NIC (RNIC)，而 NVMe-TCP 傳輸的延遲較高，CPU 使用率較高，但不需要任何專用 RNIC。相反，它使用標準的 NIC。RoCE v2 目前在市場上更為流行。

NVMe over Fabrics 有哪些優點？

僅使用 NVMe，您基本上只能在伺服器機箱或機架上使用 PCIe 交換器作為擴充手段。雖然這是一種完全有效的儲存擴充方式，但其範圍和覆蓋面相當有限。NVMe-oF 允許在整個資料中心範圍內連接幾乎無限量的儲存裝置。

如今，NVMe-oF 技術已相當成熟，許多使用者採用該技術將全快閃記憶體陣列 (AFA) 連接到伺服器。然而，NVMe-oF 的全部優勢只有在運算和儲存完全分解後才能實現。也就是說，NVMe SSD 集區可透過網絡提供給伺服器集區，以便按需配置運算和儲存。分解提高了儲存裝置的可擴充性和可共享性，並實現了可組合性，如圖 2 所示。

圖 2：運算和儲存的分解

分解儲存的另一個層面是儲存服務（即資料保護、複製、壓縮等）。儲存服務可以由伺服器管理（負載模式），也可以轉移給靠近實際儲存裝置的資料處理單元 (DPU)。必須做出權衡。負載模式會消耗額外的 CPU 週期和網絡頻寬，但可以將成本降至最低，而轉移模式則會增加成本，而且根據配置情況，可能產生瓶頸。由於 TCO（總體擁有成本）優勢，追求大規模低成本儲存的使用者傾向於採用負載附加儲存策略。

什麼是 EBOF、JBOF 和 JBOD？

有兩種方式可將「快閃記憶體束」連接到 NVMe-oF 網絡：使用 Ethernet Bunch of Flash (EBOF) 或使用 Just a Bunch of Flash (JBOF)。不要將 JBOF 與 JBOD (Just a Bunch of Disks) 混淆。JBOD 通常用於擴充使用 NVMe over PCIe 的機架中的儲存裝置。EBOF 或 JBOF 可用於擴充使用 NVMe-oF 的整個資料中心的儲存裝置。如圖 3 所示，JBOF 使用 PCIe 交換器扇出至 SSD，而 EBOF 則使用乙太網路交換器扇出至 SSD。JBOF 和 EBOF 都使用 NVMe-oF 重新連接到之前的伺服器。

圖 3：比較 EBOF 和 JBOF 的 NVMe-of 網絡

除了明顯的乙太網路與 PCIe 交換之外，這兩種方法的主要差異在於 NVMe 到 NVMe-oF 的轉換位置。在 JBOF 上，轉換或橋接透過一個或多個 DPU（x 個 DPU 對 y 個 SSD，x:y 比例）在機架外圍進行。在 EBOF 上，橋接在 SSD 托架或外殼內完成（x 個橋接器對 x 個 SSD，1:1 比例）。雖然 JBOF 的優勢在於利用 DPU 的處理能力來執行儲存服務，但它也存在潛在的瓶頸，與 EBOF 模式相比，它需要額外的成本和功耗。當橋接器與 SSD 的比例不是 1:1 時，成本權衡和瓶頸問題就會出現。

我們使用 Marvell 88SN2400 和 Foxconn-Ingrasys EBOF 測試我們的系統

透過與 Marvell 和 Foxconn-Ingrasys 的合作，我們在 NVMe-oF 環境中對美光 7300 主流 NVMe SSD 進行了各種不同應用和工作負載的測試。

在瞭解這項測試之前，我們先來看看 Foxconn-Ingrasys EBOF 和 Marvell 的 88SN2400 轉換控制器以及 Prestera® CX 8500 交換器。

Marvell 的 88SN2400 是一款適用於雲端和企業資料中心的 NVMe-oF SSD 轉換控制器。它與 Marvell 交換器相結合，實質上允許您在 NVMe 和 NVMe-oF 之間進行轉換或「橋接」。88SN2400 轉換控制器是 Foxconn-Ingrasys EBOF 的關鍵元件，與我們的美光 7300 SSD 一起構成了令人印象深刻的高效能 2U 儲存機架（頻寬高達 73.1 GB/s，IOPs 高達 2,000 萬）。圖 4 顯示了在 2U 機櫃中配備 24 個 U.2 插槽的 Foxconn-Ingrasys EBOF。

圖 4：Foxconn-Ingrasys EBOF

圖 5 顯示配備 Marvell 88SN2400 轉換控制器的 Foxconn-Ingrasys SSD 托架。

配備美光 7300 SSD 和 Marvell 88SN2400 轉換控制器的 Foxconn-Ingrasys

圖 5：配備 88SN2400 轉換控制器的 Foxconn-Ingrasys U.2 托架

Foxconn-Ingrasys U.2 托架採用標準 U.2 SSD 規格尺寸。U.2 托架支援雙乙太網路連接埠，以滿足需要路徑冗餘的應用需求，它在硬碟側為 NVMe SSD 配備了單個 PCIe Gen3 x4。

Marvell 的 88SN2400 轉換控制器支援 RoCE v2 和 NVMe-TCP 傳輸。不過，在測試中，我們將重點放在 RoCE v2 上。

使用 NVIDIA™ GPUDirect™ Storage (GDS) 進行擴充的情況如何？

我們使用 NVIDIA™ GPUDirect™ Storage (GDS)，在人工智慧與機器學習工作負載中透過 SSD 進行了大量擴充。我們將配備 Marvell 88SN2400 轉換控制器的 Foxconn-Ingrasys EBOF 連接到 NVIDIA DGX™ A100 系統，看看在網絡化環境中的擴充情況。這是簡單的 gdsio（GPUDirect Storage I/O）工具測試，比較了在 NVMe-oF 環境中使用和不使用 GDS 的頻寬和延遲。

圖 6：搭載 EBOF 的 DGX™ A100

在圖 6 中，我們使用八個運算網絡連接埠中的六個，將裝載有美光 7300 SSD 的 EBOF 直接連接到 NVIDIA DGX™ A100，從而提供了 600 Gb/s 的可用網絡頻寬。GDS 使資料能夠在對等裝置之間直接傳輸，跳過了未啟用 GDS 時使用的高延遲回彈緩衝區。在本次測試中，我們的 SSD 在工作負載中發揮出全部效能（約 61 GB/秒）。未來的測試將增加乙太網路交換器，並進一步擴大 EBOF 的數量。

您可以透過首席儲存解決方案工程師 Wes Vaske 在 FMS 2020 AI 分會場的題為「分析儲存裝置對 AI 工作負載的影響」的演講，瞭解此次測試的更多資訊。

NVMe-oF 如何透過 HSE 形成規模？

在美光，我們一直在研究一些令人驚歎的技術，其中之一就是異質記憶體儲存引擎 (HSE)。HSE 是一種快閃記憶體感知儲存引擎，可提高儲存級記憶體 (SCM) 和 SSD 的效能。它還能透過減少寫入放大來延長 SSD 的有效使用壽命，同時還能進行大規模部署。NVMe-oF 是利用 HSE 進一步擴大規模的理想方式。為了驗證 HSE 在網絡化儲存中的有效性，我們使用 MongoDB 和 YCSB（Yahoo! 雲端服務基準）進行了一些測試。在圖 7 中，我們比較了使用本地美光 7300 SSD 的預設內建 MongoDB 儲存引擎（WiredTiger）和在 EBOF 中使用美光 7300 SSD 的美光 HSE 的效能。

圖 7：WiredTiger 與 HSE 的比較

與 MongoDB 中使用的舊有 WiredTiger 儲存引擎和本地 SSD 相比，HSE 在網絡化環境中的效果非常顯著。我們可以將每秒 YCSB 作業次數提高五倍，將延遲降低 42%，同時提高儲存的可擴充性。

您可以透過首席儲存解決方案工程師 Sujit Somandepalli 在 FMS 2020 上所做的題為「利用 NVMe Over Fabrics 擴充儲存裝置」的演講中瞭解有關該測試的更多資訊。

NVMe-oF 的未來是什麼？

NVMe-oF 是一種使能技術，最終將實現完全分解的資料中心，在此類資料中心中，應用程式可以組合在一起，然後以經濟高效的方式動態配置適當數量的運算和儲存。

如今，低成本的橋接器或以 DPU 為基礎的平台可用來連接 NVMe SSD 並將其橋接至 EBOF 或 JBOF。未來，我們可能會看到原生 NVMe-oF SSD 進一步降低總體擁有成本 (TCO) 並提高效能。

美光正在設計具有針對 NVMe-oF 應用最佳化的功能和特性的次世代資料中心 SSD。

產品總覽

搜尋、篩選和下載美光資料表

市場與產業總覽

AI 資料中心

合作夥伴總覽

瞭解並註冊參加美光的技術應用支援計畫 (TEP)

業務與支援總覽

聯絡美光業務支援人員

關於總覽

投資人關係總覽

瀏覽美光的投資人關係網站

最近的搜尋

NVMe-oF™ 網絡中的乙太網路快閃記憶體束