設計工具

Invalid input. Special characters are not supported.

洞察

從流行語到底線:瞭解 AI 中的 KV 快取背後的「原因」

Jag Wood | 2025 年 4 月

你有沒有想過,ChatGPT 為何能幾乎瞬間記住你所寫的所有內容和回覆,無論對話有多長,也無論距離你提出問題已過去多久?

這不是魔法。這種能力來自於一種巧妙的幕後機制,即 KV 快取(鍵值對快取的縮寫)。

我的同事 Wes Vaske 最近分享了一篇很棒的文章,描述了什麼是 KV 快取,以及它如何實現更快、更能感知語境的 AI 回應。他的文章啟發我深入研究 KV 快取——不是解釋 KV 快取的工作原理(我仰賴像 Wes 這樣的人才來做這件事!),而是探索其背後的原因。它為什麼重要,行銷人員為什麼應該關注它? 引擎蓋下的東西決定了 AI 使用者看到的內容和得到的結果。

我越是深入研究,就越是意識到 KV 快取是產品行銷人員——以及任何正在建構或推銷科技產品的人——都應該瞭解的東西。不是瞭解如何,而是瞭解為什麼。透過瞭解「為什麼」,我們發現相關性、共鳴以及效能與使用者理解之間的關係。

簡單來說,什麼是 KV 快取?

以下是我認為最簡單的方法:KV 快取是 AI 模型的短期記憶。它能讓模型記住之前的問題中已經處理過的內容,這樣,每次你重啟之前的討論或提出新問題時,它就不必從頭開始重新計算。這項功能聽起來並不具有突破性,但在實際應用中,它卻能改變遊戲規則。

在我們錄製的有關 NVIDIA GTC 2025 利用 PCIe Gen6 和新系統架構推進 AI 工作負載的節目中,NVIDIA 的 John Kim 分享了測試資料,資料顯示,隨著輸入序列長度(權杖)的增加,持久 KV 快取比重新運算更快。換句話說,輸入 LLM 的內容越複雜,LLM 就越有可能從儲存到磁碟的 KV 快取中獲益。

想像一下企業 AI 系統為行銷或技術支援團隊提供幫助的情景。這些不是單一問題的互動:它們是長時間的多輪對話,有時文件數量龐大。有了 KV 快取,AI 就能隨時瞭解你說過的、推理過的、提供過的內容,並為這些更長、更深入的討論提供更快、更縝密的答案。

如果你能理解其存在的原因和實現的方式,你就能更好地將效能、使用者體驗和產品價值連結起來。這些方面能夠幫你贏得客戶的信任。

為什麼 KV 快取對企業 AI 和雲端可擴充性至關重要?

在企業越來越依賴生成式 AI 來提高生產力、速度和一致性的今天,「理想但非必要的物品」必須成為「必需品」。瞭解基礎架構選擇背後的原因非常重要,因為它將後端複雜性與前端影響連結在一起。

KV 快取可帶來多種優勢,包括: 

  • 近乎即時的回應能力:企業使用者希望馬上獲得答案,而不是經過 10 多秒鐘的處理。 
  • 長格式語境:無論是客戶歷史記錄還是產品手冊,AI 都能在不遺失執行緒的情況下處理更多內容,進而提供更好、更詳細、更精確的答案。
  • 有效率地利用 GPU:透過在儲存裝置中持續儲存 KV 快取以供重複使用,我們利用儲存裝置來減少每次 LLM 查詢所需的運算量,進而更有效率地利用 GPU。
  • 多使用者規模:擁有眾多並行使用者的雲端服務依賴於快速、有效率的基礎架構,以便將每個使用者的每次查詢連線到正確的引用,並保持運行順暢。

但所有這些能力都要付出代價,那就是記憶體。

上下文越長,我們需要的快取就越大。即使是中等規模的模型,KV 快取也會迅速膨脹到每個會話多 GB。這就是為什麼基礎架構非常重要。如果你想讓 AI 達到預期目標,就需要有支援它的架構。

美光提供突破背後的主幹

在美光,我們透過在 DRAM高頻寬記憶體(HBM)和快速、大容量 SSD 儲存裝置方面的創新,為下一波 AI 浪潮提供支援。這些不僅僅是資料表上的規格——它們是支撐大規模使用高效能 AI 的基礎。

我是這樣想的:一個 AI 模型僅僅快取一次會話可能就需要 2GB 或更大的記憶體。將這一數字乘以成千上萬的使用者,並考慮到其中許多使用者想要「繼續進行之前中斷的任務」,對快速記憶體的需求日趨明顯。我們的技術有助於實現這些能力,提供企業所看重的回應能力、語境感知能力和可擴充性。

當你每天都在使用 AI 基礎架構,向同事展示它的真正優勢,或推銷幫助建構它的模組時,你並不需要深入瞭解其內部結構。但你應該瞭解基礎架構為何重要,以及像我們這樣的產品為何必不可少。歸根結柢,如果基礎出現裂縫,體驗也會隨之崩潰。

即使不是技術人員,你也能從中得到一些啟示

那麼,這一切背後的原因是什麼? 對於任何將 AI 轉化為現實世界成果的人來說,這裡有三大啟示:

  1. KV 快取=速度。它可以讓 AI 記住已經處理過的內容,進而做出即時回應,這對於保持人性化互動至關重要。
  2. 語境=價值。快取可實現長時間、連貫的互動,這是企業 AI 所必需的。語境不僅僅是資料,更是洞察力。
  3. 記憶體和儲存裝置=規模。模型需要的快取越多,提供支援所需的記憶體就越大。這不僅僅是 DRAM 的問題:高速儲存裝置(如 SSD)可以為模型提供推理和回應所需的資料。這正是美光介入的地方——讓擴充智慧系統成為可能,而不是痛點。

即使你不知道如何製造引擎,你也能理解為什麼更好的馬力至關重要。透過瞭解 KV 快取等功能如何與客戶成果建立連結,產品行銷人員、業務主管和好奇的思考者可以從中獲益。知道原因,就能更好地實現結果。

最後,我想說的是

Wes 的文章不僅強調了具體的技術特性(比如 KV 快取如何幫助最佳化記憶體以及其隔離性如何幫助提高安全性)。他的部落格讓我看到了更全面的角度。作為產品行銷人員,我們的工作不僅要瞭解「是什麼」,還要瞭解「為什麼」,進而更深入地瞭解基礎架構如何實現體驗,以及體驗如何推動採納。

瞭解 KV 快取等深層元素背後的原因——這些元素的作用和方式——有助於將它們從流行語轉化為商業價值。這種更深入的理解使我們能夠將技術、技術對底層機制的影響以及最終改善客戶體驗的方法連結起來,這一點非常重要。這正是我樂於不斷探索、學習和進步的地方。如果你對這項技術背後的技術細節感興趣,請關注 Wes 下週的部落格

#AI #KVCache #ProductMarketing #EnterpriseAI #Micron

Director, Product Marketing, Core Data Center Business Unit

Jag Wood

Jag is a seasoned product marketing leader with over twenty years in high-tech, semiconductors, and enterprise marketing. She oversees global marketing strategies, product launches, messaging, and go-to-market programs for Micron's core data center products and solutions.