我在美光的工作的最佳部分之一是與客戶合作,瞭解他們的痛點,並最終找機會與之合作及共同創新,以解決其挑戰。資料中心客戶管理著巨量、快速變化的資料集和同步(多租戶/託管的)工作負載,全部需要轉化為商業價值。這些工作負載對其基礎設施提出極高要求,推動美光做出獨特的創新。
在我之前關於美光 7450 NVMe SSD 的部落格中曾提到,美光在業內各界有著密切的關係,使我們能夠瞭解資料中心工作負載的挑戰和要求,如延遲。在該部落格中,我更深入地探討了美光 7450 NVMe SSD 如何交付穩定低延遲的好處。我們首先來談談近期資料中心創新背後的意義和美光在怎樣幫忙。
資料中心儲存裝置創新的四個推動力
美光在四個主要領域推動儲存裝置創新:
- 簡化向 PCIe 和 NVMe 的轉型:與我交談的大多數客戶均已經以某種方式部署了 PCIe/NVMe。NVMe SSD 涵蓋啟動、主資料儲存和加速,其規格尺寸(M.2 用於啟動或主資料儲存,E1.S 用於主資料儲存,U.3 用於部署的系統)和耐用性評級(以讀取為中心和混合用途耐用性)各不相同。1
- 儲存裝置容量:當我們增加儲存裝置容量時(透過增加小型規格尺寸上的 SSD 容量,如在 E1.S SSD 上的 7.68TB),可提供更好的資料中心空間利用率和更高的效率。2
- 安全性:隨著資料量及其多樣性的增長,業內已發現攻擊次數和複雜程度的提升。隨著管理員尋求加強其安全措施,更多公司開始採用 SSD 上的硬體加密,其中往往包括使用美光的安全創新。3
- 穩定低延遲:從最大的超大規模機構到新興資料中心經營者,在單個系統中託管多個工作負載(虛擬化或容器化)4均是標準實務。這些工作負載可以透過多處分享同一物理儲存裝置每秒生成數百萬個交易。美光為滿足該要求設計了 7450 NVMe SSD。美光 7450 是管理這數百萬個交易的 SSD,在管理的同時還可交付穩定低延遲,這往往被稱為卓越的服務品質(QoS)。5
這四個推動力都很重要。但我想將重點放在最後一個上。圍繞穩定低延遲沒有太多報道,許多 SSD 供應商不願意討論此事。
我們願意。
對延遲敏感的工作負載
我們應該記住,許多資料中心應用都是即時的,它們使用、處理並回應必須迅速穩定交付的資料。資料交付延遲或中斷對上述許多工作負載而言是不利的。
對延遲敏感工作負載的一個範例是直播串流。當直播一場賽事時,最佳的使用者體驗依靠提供穩定低直播延遲的串流服務。做不到這一點可能對直播品質產生不利影響,直播可能滯後,顯示緩衝延遲或丟失幀。考慮直播體育賽事的範例。低延遲串流使直播賽事更加逼真,近乎身臨其境。6直播串流並非唯一對延遲敏感的資料中心工作負載。部分工作負載偏向於「幕後」。它們亦依賴快速、穩定的資料交付。
即時分析是從資料中提取見解以制定更好且及時的決策的實踐,資料延遲可能會限制其有效性。在從多個資料來源收集資料時,分析可能必須等待最慢的資料來源,不論是單個伺服器還是一機架的伺服器。當儲存裝置快速且穩定地回應時,等待時間被縮至最短,並可更快交付見解。現代資料中心亦從在裸機伺服器上執行的單一工作負載遷移到容器化和虛擬化部署,在此類部署中,單一伺服器託管多個應用程式和工作負載,並分享相同的物理伺服器資源。
這些雲端和虛擬化(多租戶)工作負載亦需依賴穩定低延遲。它們是分享相同基礎物理資源(儲存裝置、CPU、記憶體和網路)、高度平行、多租戶的工作負載。當儲存裝置穩定快速反應時,CPU 資源的等待時間會縮短,使其可以託管更多工作負載或支援更多虛擬機器,同時提供更可預測的效能模式。儲存裝置傳輸量顯然很重要,同時保持高傳輸量與穩定低存取亦至關重要,以使資料中心達到其效能目標和服務等級協議。
延遲的基本資訊和影響
服務品質(QoS)是描述 SSD 中應用程式延遲穩定性的指標。可按三個基本要素來衡量 QoS:閾值、(IO 的)百分比和 IO 類型:
- 閾值:每次存取所需的反應時間(延遲,通常以毫秒為單位)。
- 百分比:低於閾值的所有存取的百分比。該數值通常以所有 IO 的一個百分比來表達,如 99.9999%,並且通常以該數字中
9 的數目來稱呼,99.99% 被稱為「四個 9」,99.9999% 被稱為「六個 9」。 - IO 類型:衡量的資料 IO 類型。IO 可以為讀取、寫入或二者的某種組合。
- 資料中心 SSD 的卓越 QoS 意味著很大比例的儲存存取作業持續在閾值內進行。
卓越的 QoS 對資料中心工作負載而言十分重要
資料中心和雲端工作負載對快速、持續讀取效能有著難以滿足的渴求。例如,在 2021 年黑色星期五,8,800 萬買家在線上購物中支出 89 億美元(共計),Amazon 佔其中 17.7%。7 這些線上客戶期望快速穩定地完成交易(卓越的 QoS),以便他們進行其待辦事項列表中的下一項。
美光 7450 SSD 以業界領先、低於 2 毫秒的 99.9999% 混合工作負載讀取延遲滿足 QoS 需求,同時仍提供數十萬 IOPS 的傳輸量。8在更多以讀取為中心的工作負載中,該 SSD 可以提供高達 100 萬 IOPS 的傳輸量(完整效能資訊載於美光 7450 SSD 產品簡介)。如我們立即會看到的,相較於當今市面上的許多其他磁碟,7450 SSD 較低的延遲使機架規模型應用程式可以交付更多工作。
美光 7450 NVMe SSD 交付卓越的 QoS
滿足這些應用的需求並非易事。要在複雜、可擴展的環境中實現穩定低工作負載延遲,可謂一項真正的挑戰。在研發美光 7450 NVMe SSD 時,應對該挑戰是我們的一大重點。
在混合、隨機工作負載中,99.9999% SSD 讀取延遲不到 2 毫秒
來看一下卓越的 QoS 什麼樣。下圖 1 顯示在六個 9(99.9999%)讀取延遲的條件下,在單獨美光 7450 SSD 上執行的混合工作負載(4KB 傳輸大小,100% 隨機部署與 90% 讀取和 10% 寫入)的情況。圖 2 顯示隨著寫入比例增至 30%,結果類似。圖 1 和圖 2 顯示混合工作負載的讀取延遲,因為寫入延遲可能受到作業系統、檔案系統或應用程式層的寫入串接、分岔點和快取影響(如在本 SNIA 演示文稿第 4 條中所提到的)。
這相當令人驚奇。不同於先前的許多 SSD,美光 7450 SSD 為混合、隨機工作負載及常見佇列(QD)中的六個 9 延遲,提供 2 毫秒或以下的讀取延遲,並保持穩定。9根據美光實驗室的測試,該穩定低延遲可以提高資料庫的效能,如 Microsoft SQL 伺服器、Oracle、MySQL、RocksDB(雲端工作負載的良好代表)Cassandra 和 Aerospike 等等。
有了卓越的 QoS 會怎樣?
當資料中心 SSD 在低閾值下顯示出良好的 QoS 時,結果顯而易見,將有更多讀取請求低於閾值。
應用級別的好處
為說明卓越的 QoS 在應用級別的好處,我們將美光 7450 NVMe SSD 與另一主流 NVMe SSD 做了比較。我們使用注重效能的 key-value 儲存系統 RocksDB(常用於對延遲敏感、面向使用者的應用,如儲存瀏覽歷程記錄、偵測垃圾郵件等)。當我們設定常用應用交付閾值時,我們發現,美光 7450 SSD 的效能高出 95%。
機架規模方面的好處
相較於閱讀單個 SSD 的 QoS 資料時可能假設的,當我們從機架規模角度看卓越的 QoS 時,其好處會明顯得多。但好多少呢? 在看一機架的伺服器時,99.9999%(六個 9)與 99%(兩個 9)有任何真正的區別嗎? 有,而且我們可以算出影響值。
首先,我們會看(例如)一個裝滿 E1.S 美光 7450 NVMe SSD 的機架的讀取 IOPS 的個數。然後,我們會看對於不同個 9,超出 2 毫秒閾值的 IOPS 的個數。
我們將在一個 1U 伺服器10 中安裝 32 個 SSD,並在一個機架中裝載 38 台這樣的伺服器。11我們的 E1.S 美光 7450 NVMe SSD 可產生 100 萬 4K 隨機讀取 IOPS。當我們為每個伺服器安裝 32 個 SSD 並在每個機架上安置 38 台伺服器時,假定的最高 IOPS 將約為每個伺服器 32,000,000(或每個機架 1,200,000,000,每個 SSD 100 萬 IOPS x 32 個 SSD/伺服器 x 38 台伺服器/機架)。
如果我們以 99%(兩個 9) 2 毫秒 QoS 讀取延遲為條件開始機架規模討論,我們的伺服器機架將顯示有約 1,200 萬個讀數超出我們的 2 毫秒閾值(1% 的讀數將超出 2 毫秒)。但在六個 9(99.9999%)時,平均約 1,200 個讀數超出我們的 2 毫秒閾值,大幅減少。
每個 SSD 讀取 IOPS | 每台伺服器的 SSD 數 | 每個機架的伺服器數 | 2 毫秒 QoS % 價值 | 超出 2 毫秒的讀數(約數) |
---|---|---|---|---|
100 萬 | 32 | 38 | 99% (兩個 9) |
12,000,000 |
99.9999% (六個 9) |
1,200 |
機架規模的情況真的相去甚遠。對於我們的 2 毫秒閾值 QoS – 1,200 萬個讀數超出我們的閾值(兩個 9),還是只有 1,200 個(六個 9)? 這是個理論性範例,因此實際工作負載等級差異會有所不同。但穩定低延遲有利於大多數資料中心工作負載,對於對延遲特別敏感的工作負載,這一點十分重要。
美光 7450 SSD 正面滿足這些需求,交付穩定低延遲
美光採用現今全球最先進的量產 176 層 NAND 打造 7450 SSD,並整合了美光自有的進階控制器和韌體,實現驚人的效能結果。12
但最大的優勢是我們快速將這些創新技術整合到我們 SSD 中的能力,這使得更多使用者可以更快速地享用這些創新。
如何瞭解更多
美光 7450 SSD 效能旨在為不同資料中心工作負載提供卓越的 QoS,並對複雜的工作負載顯示出實質利益。
請瀏覽 Micron.com 上的 7450 頁面瞭解更多資訊,並聯絡您的業務代表,將產品送到您的實驗室,然後投入生產!
1. 美光 7450 SSD 提供 M.2、E1.S 和 U.3 規格尺寸,其設計以讀取為主,用於混合用途。該 SSD 透過實現單 SSD 架構,簡化了系統設計,以滿足啟動、主資料儲存和加速(快取)的要求。
2. SSD 容量增加意味著儲存相同數量的資料所需的容量減少。同樣規格尺寸的 SSD 越少,裝載它們所需的伺服器就越少,用於安置這些伺服器的空間就越少。有關 E1.S 規格尺寸的其他資訊,請參閱 https://www.snia.org/forums/cmsi/knowledge/formfactors。註:對於所有容量聲明,格式化後的容量會減少。
3. 任何硬體、軟體或系統都無法在所有情況下提供絕對安全性。對於使用任何美光產品(包含上述任一安全功能的產品)所發生的資料遺失、遭竊或損壞,美光概不承擔任何責任。
4. 其他詳情,請參閱 https://www.gartner.com/en/information-technology/glossary/virtualization
5. 有關對儲存裝置應用服務品質的其他背景資訊,請參閱 https://www.snia.org/educational-library/storage-quality-service-enterprise-workloads-2014。
6. 更多資訊可在此處取得:https://www.dacast.com/blog/best-low-latency-video-streaming-solution/#:~:text=Low%20latency%20streaming%20is%20especially%20important%20for%20certain,thing%20to%20attending%20your%20event%20in%20real%20life
7. https://www.emarketer.com/content/black-friday-2021-illustrates-changing-consumer-behaviors
8. 2 毫秒延遲為常見資料中心工作負載延遲要求。
微軟在有關 Azure SQL 資料庫和 Azure SQL 受管理執行個體(https://docs.microsoft.com/en-us/azure/azure-sql/database/service-tier-business-critical?view=azuresql)的內容中提到「……需要儲存裝置層做出快速回應的工作負載(平均 1-2 毫秒)應使用業務關鍵級……」
IBM 亦在其高可用性要求(https://www.ibm.com/docs/en/qsip/7.4?topic=計畫連結頻寬延遲)中提到 2 毫秒心跳要求
9. 根據美光工程部收集的工作負載資料,4KB,100% 隨機,70% 讀取工作負載的佇列深度高達= 32。
10. 範例伺服器:https://www.supermicro.com/en/products/system/1U/1029/SSG-1029P-NES32R.cfm
11. 普通伺服器機架可安放多達 42 個 1U 伺服器:https://www.tripplite.com/42u-smartrack-standard-depth-server-rack-enclosure-cabinet-doors-side-panels~SR42UB,並有額外機架空間容納交換器和其他裝置。
12. 根據截至本文件發布日前,於公開市場上可用的類似用途 SSD 搭載 NVMe。美光 7450 SSD 結合業界領先的美光 176 層 NAND 提供廣泛的規格尺寸。