設計工具
儲存裝置

解決 SSD 耐用性問題讓我成為更好的產品經理

Rahul Jairaj | 2024 年 8 月

三年前,在我負責產品管理職務的第一個月,我接到工程師的緊急電話:「Rahul,我們遇到問題了。我們的一種 SSD 容量達不到 TBW 規格要求。你能和客戶談談並免除要求嗎?」

我的第一反應是驚慌失措,因為我對 TBW(即 TB 寫入量,一種衡量 SSD 耐用性的指標)只有粗略的瞭解,當然也沒準備好與客戶就此進行冗長的對話。經過幾次內部討論和簡報會議後,我不僅對這個問題有了更深的認識,而且還「愛上」了這個問題,最終,我花了很多時間去研究和解決。

在接下來的幾個星期裡,我們終於向客戶提供了解決方案。問題產品是美光 3500 SSD(圖 1)。問題解決後,這款產品被評為有史以來最好的用戶端 SSD 之一。事實上,根據 Tweak Town 的 Jon Coulter 所說:「這簡直就是有史以來最好的 OEM SSD。」

Tweak Town Review——連結

從那時起,我們在研發幾乎每一代產品時,都會重新審視 SSD 的耐用性,並做出取捨,以滿足客戶的需求。

美光用戶端 SSD 系列產品 圖 1:美光用戶端 SSD 系列產品


SSD 耐用性

對我來說,作為一名技術產品經理,最令人興奮的事情之一就是每天都能接觸新事物。其中一個重點就是 SSD 的耐用性,即 SSD 的使用壽命。

SSD 耐用性有幾種不同的測量方式:企業 SSD 的 DWPD(每日寫入硬碟次數)和用戶端 SSD 的 TBW。DWPD 用於衡量每天可寫入的 SSD 容量的百分比。舉例來說,1 TB 企業級 SSD 的 DWPD 為 0.3,表示使用者每天可以在 SSD 上寫入約 300GB(30%)的資料,直到保固期結束為止。TBW 是硬碟停止工作前可寫入的資料量(以 1000 GB 計算)。每種容量都有自己的 TBW 值(圖 2)。

圖 2:美光 3500 的 TBW 值,平均故障間隔時間(MTBF)為 200 萬小時 圖 2:美光 3500 的 TBW 值,平均故障間隔時間(MTBF)為 200 萬小時


圖 2 告訴我們,對於 512GB SSD 來說,在停止工作之前至少可以寫入 300 TB 的資料。若要瞭解 300 TB 的容量有多大,請參考這個小插圖。

如果您連續三年每天在電腦上寫入並覆寫 100GB 的資料,那麼在硬碟的保固到期之前,您只會達到約 107 TBW。這大約是硬碟額定耐用性的三分之一。您能想像在這段時間內每天寫入 100GB 的資料嗎? 我們大多數人在一個月內都無法達到這個數字!

特定硬碟的 TBW 規格由以下簡化公式確定:

TBW 規格公式

如您所見,SSD 容量越大,TBW 就越大。程式/擦除(P/E)次數也是如此。不過,TBW 與寫入放大係數成反比。WAF 是指使用者資料在 SSD 內被重寫和移動的次數。有幾個因素會影響 WAF,最關鍵的因素是 SSD 所承受的工作負載。對於典型的用戶端工作負載,該數字很低,徘徊在 3 到 4 WAF 左右。

與 SSD 耐用性相關的另一個指標是 MTBF,或平均故障間隔時間。MTBF 是衡量硬碟故障平均間隔時間的指標,但不是絕對指標。SSD 的 MTBF 是一個複雜的計算指標,取決於所有個別 SSD 元件的可靠性。儘管如此,美光用戶端 SSD 的 MTBF 通常為 2 百萬小時。這一額定值意味著,美光用戶端 SSD 平均大約每 230 年會出現一次故障。這是一個非常低的故障率!

當您深入研究每一個變數時,您很快會發現最終的 TBW 是多種因素之間的權衡——SSD 效能、NAND 缺陷、NAND 介質類型(SLC、TLC 或 QLC)、SSD 工作負載、NAND 區塊大小、NAND 有效區塊計數、靜態 SLC P/E 週期計數、超級區塊架構等等。

我不敢自詡為所有這些不同主題的專家,但我依靠專業的工程團隊來解決產品和客戶面臨的具體挑戰,事實上,他們才是真正的專家。我的工作就是準確地釐清問題範圍。因此,我們透過解決每一個問題獲得寶貴的經驗,進而擴大選擇範圍,以滿足未來客戶的特定需求。

未來的選擇

您可能有所耳聞,AI 個人電腦已經出現,並正在改變遊戲規則。我的同事、美光公司副總裁暨儲存事業部用戶端儲存總經理 Prasad Alluri 在題為將 AI 運用於個人電腦:有何不可?的部落格中詳細介紹了 這一轉變。

這場新革命的眾多未知因素之一是重新思考工作負載及其對 SSD 耐用性的影響。作為產品經理,我們必須為這些可能發生的情況做好規劃。由於解決了幾代產品的耐用性問題,我們現在知道如何權衡利弊,如果需要在 PC 上本機執行複雜的視覺語言模型(VLM),我們可以將 SSD 的耐用性提高 10 倍。正如我之前所說的,最好的還在後面,我們對未來充滿期待。

經久不衰的經驗

當我剛踏上產品管理之旅時,每個產品或客戶問題都讓我感到惶恐不安,但現在,這些問題卻讓我感到目標明確、興奮不已。解決複雜的問題是學習和創新的機會。過去三年,我在工作中學到了很多寶貴的經驗。我希望這些也能為您帶來幫助。

  1. 保持冷靜——恐慌無濟於事。  
  2. 即使不能獲得所有答案也沒關係。  
  3. 尋求幫助——合作並信任您的團隊。 
  4. 坦然面對模糊和紛繁複雜的情況——努力釐清思路。  
  5. 有時,顯而易見的解決方案並不是正確的途徑。 
  6. 對問題充滿好奇,並愛上解決問題,而不僅僅是解決方案。 
  7. 每一天都努力學習,並迎難而上。 
  8. 傳授和傳播您所學到的知識,因為這些活動能確保集體成功。  

對於那些堅持到最後的人,可能想知道美光 3500 TBW 問題的解決方案是什麼。

我們瞭解到,在美光 G8 NAND 上,有幾項新的製程創新可以幫助我們征服新高度。由於是新產品,我們對缺陷率的預測非常悲觀,導致我們無法達到特定 TBW 規格的 200 萬 MTBF 目標。我們與客戶的員工合作,發現他們的規格要求更低的 MTBF 目標。因此,我們能夠毫不拖延地滿足他們的耐用性要求。最後,當產品問世時,我們發現產品的缺陷率大大低於預期,並且我們在不作任何妥協的情況下,順利達到了原定的 200 萬 MTFB 目標。我們坦然面對問題並最終實現了雙贏。

DIRECTOR, TPM - CLIENT

Rahul Jairaj

Rahul Mitchell Jairaj is the Director of Technical Product Managment for Micron's Client SSD Business Unit. He has spent his career working on NAND flash storage at Micron from components engineering to SSD product management. He holds a Masters degree in Semiconductor Device Physics from Clemson University and a bachelor's in electrical engineering. Outside work, Rahul is passionate about collecting fossils and amateur microscopy.