您為什麼只測試 2 倍複寫!?!
像我這樣的 SSD 使用者通常會使用 2 倍複寫測試 Ceph,原因如下:SSD 比陀螺更可靠,使用 2 倍複寫的效能更佳等。不過,如果您確實需要最低 3 倍複寫,該怎麼辦? 這對我們超高速全 NVMe Ceph 參考架構的效能有何影響? 我很感謝您提問。
本部落格簡要評述搭載美光速度最快的 NVMe 硬碟美光 9200 MAX (6.4TB) 的全新 Intel® Purley Ceph RA 的效能。
我們的最新參考架構使用基於 Ceph Luminous (12.2.1) 的 Red Hat Ceph Storage 3.0。RA 測試僅限於 Filestore 效能,因為這是目前所支持的 RHCS 3.0 儲存引擎。
當將 2 倍複寫與 3 倍複寫進行比較時,效能受到的影響與預期完全一致。4KB 隨機寫入 IOPS 下降約 35%,讀取保持不變,而 70/30 IOPS 下降約 25%。
區塊工作負載 |
2 倍複寫 IOPS |
3 倍複寫 IOPS |
2 倍複寫平均延遲 |
3 倍複寫平均延遲 |
4KB 隨機讀取 |
200 萬 |
200 萬 |
1.6 毫秒 |
1.6 毫秒 |
4KB 隨機寫入 |
363,000 |
237,000 |
5.3 毫秒 |
8.1 毫秒 |
4KB 70/30 讀取/寫入 |
781,000 |
577,000 |
1.4 毫秒讀取/ 3.5 毫秒寫入 |
1.7 毫秒讀取/ 5.4 毫秒寫入 |
該解決方案已針對區塊效能最佳化。使用 Rados Block Driver 在 Linux 中進行隨機小區塊測試顯示,2 插槽儲存節點中的白金級 8168 Intel Purley 處理器達到飽和。
每個儲存節點有 10 個硬碟,此架構具有 232TB 的可用儲存容量,可透過新增額外的 1U 儲存節點來擴展。
參考設計——硬體
測試結果和分析
Ceph 測試方法
Ceph 使用 FileStore 進行配置,每個美光 9200MAX NVMe SSD 都具有 2 個物件儲存系統服務程式 (OSD)。每個 OSD 使用 20GB 的日誌。每個儲存節點有 10 個硬碟,每個硬碟有 2 個 OSD,Ceph 合共擁有 80 個 OSD,可用容量為 232TB。
所測試的 Ceph 集區以 8192 個放置組建立。Red Hat Ceph 3.0 中的 2 倍複寫集區使用 100 張每張 75GB 的 RBD 影像進行測試,在 2 倍複寫集區中提供 7.5TB 數據,數據總量為 15TB。
Red Hat Ceph 3.0 中的 3 倍複寫集區使用 100 張每張 50GB 的 RBD 影像進行測試,在 3 倍複寫集區中提供 5TB 數據,數據總量為 15TB。
使用 FIO 合成負載生成工具對 Rados Block Driver 量測 4KB 隨機區塊效能。
RBD FIO 4KB 隨機讀取效能
2 倍和 3 倍複寫集區之間的 4KB 隨機讀取效能基本相同。
RBD FIO 4KB 隨機寫入效能
與 2 倍複寫集區相比,3 倍複寫集區的 IOP 效能降低約 35%。平均延遲增加幅度相若。
在 60 個 FIO 用戶端、363k IOP、5.3 毫秒 2 倍複寫集區平均延遲、237k IOPS、8.1 毫秒 3 倍複寫集區平均延遲的情況下,4KB 寫入效能實現 IOP 和延遲的最佳組合。此時,Ceph 儲存節點的平均 CPU 使用率超過 90%,因而限制了效能。
RBD FIO 4KB 隨機 70% 讀取/30% 寫入效能
70/30 隨機讀取/寫入工作負載 IOP 效能從 2 倍複寫集區變成 3 倍複寫集區時降低 25%。讀取延遲相若,3 倍複寫集區微增。3 倍複寫集區的寫入延遲高出 50% 以上。
您希望深入瞭解嗎?
RHCS 3.0 + Intel Purley 平台上的美光 9200 MAX NVMe SSD 擁有超快速度。請瀏覽新發布的美光/Red Hat/Supermicro 參考架構。我將在 2018 年 OpenStack 峰會上展示我們的 RA 和其他 Ceph 調整與績效主題。精彩紛呈,敬請期待!
對我們的測試或方法有其他問題? 請在下方留言,或傳送電子郵件至 ssd@micron.com。