三年前,在我負責產品管理職務的第一個月,我接到工程師的緊急電話:「Rahul,我們遇到問題了。我們的一種 SSD 容量達不到 TBW 規格要求。你能和客戶談談並免除要求嗎?」
我的第一反應是驚慌失措,因為我對 TBW(即 TB 寫入量,一種衡量 SSD 耐用性的指標)只有粗略的瞭解,當然也沒準備好與客戶就此進行冗長的對話。經過幾次內部討論和簡報會議後,我不僅對這個問題有了更深的認識,而且還「愛上」了這個問題,最終,我花了很多時間去研究和解決。
在接下來的幾個星期裡,我們終於向客戶提供了解決方案。問題產品是美光 3500 SSD(圖 1)。問題解決後,這款產品被評為有史以來最好的用戶端 SSD 之一。事實上,根據 Tweak Town 的 Jon Coulter 所說:「這簡直就是有史以來最好的 OEM SSD。」
Tweak Town Review——連結
從那時起,我們在研發幾乎每一代產品時,都會重新審視 SSD 的耐用性,並做出取捨,以滿足客戶的需求。
SSD 耐用性
對我來說,作為一名技術產品經理,最令人興奮的事情之一就是每天都能接觸新事物。其中一個重點就是 SSD 的耐用性,即 SSD 的使用壽命。
SSD 耐用性有幾種不同的測量方式:企業 SSD 的 DWPD(每日寫入硬碟次數)和用戶端 SSD 的 TBW。DWPD 用於衡量每天可寫入的 SSD 容量的百分比。舉例來說,1 TB 企業級 SSD 的 DWPD 為 0.3,表示使用者每天可以在 SSD 上寫入約 300GB(30%)的資料,直到保固期結束為止。TBW 是硬碟停止工作前可寫入的資料量(以 1000 GB 計算)。每種容量都有自己的 TBW 值(圖 2)。
圖 2 告訴我們,對於 512GB SSD 來說,在停止工作之前至少可以寫入 300 TB 的資料。若要瞭解 300 TB 的容量有多大,請參考這個小插圖。
如果您連續三年每天在電腦上寫入並覆寫 100GB 的資料,那麼在硬碟的保固到期之前,您只會達到約 107 TBW。這大約是硬碟額定耐用性的三分之一。您能想像在這段時間內每天寫入 100GB 的資料嗎? 我們大多數人在一個月內都無法達到這個數字!
特定硬碟的 TBW 規格由以下簡化公式確定:
如您所見,SSD 容量越大,TBW 就越大。程式/擦除(P/E)次數也是如此。不過,TBW 與寫入放大係數成反比。WAF 是指使用者資料在 SSD 內被重寫和移動的次數。有幾個因素會影響 WAF,最關鍵的因素是 SSD 所承受的工作負載。對於典型的用戶端工作負載,該數字很低,徘徊在 3 到 4 WAF 左右。
與 SSD 耐用性相關的另一個指標是 MTBF,或平均故障間隔時間。MTBF 是衡量硬碟故障平均間隔時間的指標,但不是絕對指標。SSD 的 MTBF 是一個複雜的計算指標,取決於所有個別 SSD 元件的可靠性。儘管如此,美光用戶端 SSD 的 MTBF 通常為 2 百萬小時。這一額定值意味著,美光用戶端 SSD 平均大約每 230 年會出現一次故障。這是一個非常低的故障率!
當您深入研究每一個變數時,您很快會發現最終的 TBW 是多種因素之間的權衡——SSD 效能、NAND 缺陷、NAND 介質類型(SLC、TLC 或 QLC)、SSD 工作負載、NAND 區塊大小、NAND 有效區塊計數、靜態 SLC P/E 週期計數、超級區塊架構等等。
我不敢自詡為所有這些不同主題的專家,但我依靠專業的工程團隊來解決產品和客戶面臨的具體挑戰,事實上,他們才是真正的專家。我的工作就是準確地釐清問題範圍。因此,我們透過解決每一個問題獲得寶貴的經驗,進而擴大選擇範圍,以滿足未來客戶的特定需求。
未來的選擇
您可能有所耳聞,AI 個人電腦已經出現,並正在改變遊戲規則。我的同事、美光公司副總裁暨儲存事業部用戶端儲存總經理 Prasad Alluri 在題為將 AI 運用於個人電腦:有何不可?的部落格中詳細介紹了 這一轉變。
這場新革命的眾多未知因素之一是重新思考工作負載及其對 SSD 耐用性的影響。作為產品經理,我們必須為這些可能發生的情況做好規劃。由於解決了幾代產品的耐用性問題,我們現在知道如何權衡利弊,如果需要在 PC 上本機執行複雜的視覺語言模型(VLM),我們可以將 SSD 的耐用性提高 10 倍。正如我之前所說的,最好的還在後面,我們對未來充滿期待。
經久不衰的經驗
當我剛踏上產品管理之旅時,每個產品或客戶問題都讓我感到惶恐不安,但現在,這些問題卻讓我感到目標明確、興奮不已。解決複雜的問題是學習和創新的機會。過去三年,我在工作中學到了很多寶貴的經驗。我希望這些也能為您帶來幫助。
- 保持冷靜——恐慌無濟於事。
- 即使不能獲得所有答案也沒關係。
- 尋求幫助——合作並信任您的團隊。
- 坦然面對模糊和紛繁複雜的情況——努力釐清思路。
- 有時,顯而易見的解決方案並不是正確的途徑。
- 對問題充滿好奇,並愛上解決問題,而不僅僅是解決方案。
- 每一天都努力學習,並迎難而上。
- 傳授和傳播您所學到的知識,因為這些活動能確保集體成功。
對於那些堅持到最後的人,可能想知道美光 3500 TBW 問題的解決方案是什麼。
我們瞭解到,在美光 G8 NAND 上,有幾項新的製程創新可以幫助我們征服新高度。由於是新產品,我們對缺陷率的預測非常悲觀,導致我們無法達到特定 TBW 規格的 200 萬 MTBF 目標。我們與客戶的員工合作,發現他們的規格要求更低的 MTBF 目標。因此,我們能夠毫不拖延地滿足他們的耐用性要求。最後,當產品問世時,我們發現產品的缺陷率大大低於預期,並且我們在不作任何妥協的情況下,順利達到了原定的 200 萬 MTFB 目標。我們坦然面對問題並最終實現了雙贏。