美光一直致力於為資料中心打造世界級的 SSD。迄今為止,我們已向資料中心出貨數千萬顆 SSD,並正在增加採用我們的 232 層 NAND 技術的新 SSD。世界級的 SSD 不僅具有功耗效率和高效能的特性,還具有設計彈性。彈性是指硬碟在資料中心的使用壽命長。
定義高彈性一直是 OCP Storage Workgroup 與裝置和主機製造商合作的主題。OCP Storage Workgroup 在其資料中心-NVMe-規格(下文稱作「OCP SSD 規格」)的三個主要版本中已對高彈性進行改進並加強垂直整合。垂直整合彈性是一個概念,意指主機和裝置共同承擔製造高彈性儲存裝置子系統的元素。
我們的願景為「左移概念」,努力創造整個機群的高彈性。減少調試和更換故障硬碟的時間,將更多的時間用於主動監控機群的健康狀況,並提高在不遺失資料情況下的復原能力。我們將討論此解決方案的各項要素,以及美光對今後進一步強化的意見。
SSD 的彈性歷史
在第一版 OCP 規格之前,美光便致力於實現無縫內在復原與自退火特性。其中包括廢棄壞區塊、執行稱作 RAIN 的內部 XOR 解決方案,以及在 SATA 或 PCIe 匯流排上提供 CRC 檢測和重新傳輸。我們提供有關此類活動的 SMART 資訊。我們致力收集和監控這些 SMART 資料,其不僅有助於監控整體機群健康狀況及識別潛在的異常值,還有助於改善我們未來的解決方案。
垂直整合的解決方案(即主機和裝置共同承擔製造高彈性儲存子系統的元素以提高彈性)的首次嘗試是由微軟提出,並首次在 OCP 規格第一版引入出錯誤復原(logpage C1h)的概念。這種方法允許裝置通知主機內部發生錯誤狀況,並指示主機如何獲取廠商獨有的除錯資訊,以及如何執行復原程序。第一版規格支援多種復原操作,但規格的其他部分(CRASH-4)則建議使用 FORMAT 指令。這表示裝置上的所有資料都會被清除且無法復原,這是從內部錯誤狀況復原的唯一方法。微軟也在 OCP 規格第一版有關錯誤引入的概念中發揮了領導作用,當中涉及到主機與裝置均有參與的全面垂直整合測試。
第二版規格透過提供額外的 C1h 欄位來增強復原程序。此規格率先引進 OCP 儲存裝置延遲監控功能。此功能可讓硬碟自行報告高延遲 I/O 事件,甚至包括廠商獨有的除錯資訊。其可以與主機 I/O 延遲日誌進行比較以助找出問題的根源,如果是儲存裝置的問題,則可在內部提供線索,以支援矯正措施。
2.5 版規格近期發佈了一些令人振奮的功能,繼續提供更好的垂直彈性整合。標準化遙測是最大的要素,佔據此次修訂中絕大部分的新功能。先前的規格修訂最終導致各廠商加入獨有且專屬的監控與除錯資訊,而這些資訊需要取得廠商獨有的日誌頁面或需要獲取遙測資料。廠商應要求傳輸二進位檔案,或提供廠商獨有的解碼工具,以產生可供人讀取的輸出。OCP SSD 2.5 版規格中的標準化遙測解決了這一問題,提供了使用標準化解碼工具來報告和解碼廠商獨有除錯資訊的方法。該功能不需要主機提供專門的資料擷取和解碼功能,因此提高了即時除錯效率。
標準化遙測項目創造了從分散式系統收集所有重要健康資料的簡單方法。它使用單一 I/O 指令,可與任何符合規範的儲存裝置搭配使用。隨後主機可從第一個遙測資料區擷取並解碼資料。這些資料包含主機與廠商合作所需的所有細節。他們可以找出發生故障或即將發生故障的裝置,並改善未來的健康監控解決方案。
邁向未來
微軟的 Ayberk Ozturk 在 FMS 2023 上發表了他們對未來垂直整合高彈性的願景。他們強烈希望將資料復原作為錯誤復原的一部分,而非目前的 FORMAT 指令規格要求。他們認為,隨著儲存裝置變得越來越大,更多租戶可能會使用單一直連的硬碟,因此出錯後最好能以完整(甚至部分)資料復原來進行復原,而不是終止多台虛擬機。他們提出這將有助於利用即時遷移的概念。探索此類解決方案的具體細節將成為 2024 年的絕佳目標。
願景
過去報告各種斷言和錯誤,現已變為復原。從前的復原轉變為檢測,從前的檢測轉變為預防。這是經典的左移概念。美光很高興並致力於與業界和 OCP Storage 繼續合作,共創未來。
請與美光聯絡,提出您的想法。這需要各方的合作,因此讓我們共同努力。