大型語言模型的五大基本上下文視窗概念

本部落格概述大型語言模型如何在上下文視窗中處理輸入的五個基本概念。內文採用清晰的範例和實用的見解，涵蓋詞元化、序列長度和注意力等基礎概念。目的是幫助讀者妥善理解上下文如何影響 AI 應用中的模型行為。我們還介紹了用於估算系統行為的分析模型結果，以說明輸入和輸出序列長度的擴展如何影響反應時間。結果表明解碼較長輸出耗時顯著增加，這凸顯了 HBM 等高速記憶體系統在支援大規模高效推理中的重要性。這些概念對使用或設計生成式 AI 系統提示詞的人員具有實用價值。

圖 1：100,000 個詞元上下文視窗大小

上下文視窗與長度

使用大型語言模型時，理解上下文視窗、上下文長度和序列長度等概念之間的區別非常重要。這些術語常被混用，容易造成概念混淆。在本部落格中，我們將各個術語定義為不同的概念。

上下文視窗代表模型的最大處理容量：即同時可處理的詞元總量，包含使用者輸入和模型輸出。舉個簡單的例子，我們將下面的矩形大小定義為相當於 100,000 個詞元上下文視窗。

圖 2：75,000 個輸入詞元和 25,000 個輸出詞元

另一方面，上下文長度指的是實際佔用空間的詞元數量，即對話過程中當前使用的輸入詞元（藍色）和輸出詞元（綠色）的實際數量。例如，如果模型採用 100,000 個詞元的上下文視窗，而您的輸入使用了 75,000 個詞元，則在達到視窗上限之前，僅剩 25,000 個詞元可用於模型的回應。

序列長度通常指該視窗內單個輸入或輸出序列的長度，這是模型訓練和推理中用於追蹤文本各分段長度的精細化指標。

圖 3：輸入和輸出序列長度

上下文視窗設定模型可處理資訊的上限，但不直接反映智慧水平。更大的視窗容納更多輸入，但輸出品質往往取決於輸入的結構化程度和利用效率。當視窗填滿時，模型可能喪失連貫性，導致非預期結果（例如幻覺）。

詞元並非單字

如果上下文視窗設有上限（如 100,000），那麼詞元就是衡量其容量的單位——需注意詞元並非單字。輸入提示詞的單字會經過「分詞器」處理，將文本分解為詞元。單個單字可能拆分為多個詞元。例如，「strawberry」可分解為三個詞元，「trifle」可分解為兩個詞元。在其他情況下，一個單字可能只有一個詞元，如「cake」。

我們可以引用 Jane Austen 的小說《Emma》中的一句話進行驗證：

「Seldom, very seldom, does complete truth belong to any human disclosure; seldom can it happen that something is not a little disguised or a little mistaken。」（很少、極少有任何人在吐露情感時會和盤托出，也難得不加一點掩飾，或完全沒有錯誤。）

這段文字包含 26 個單字，經由 lunary.ai¹ 提供的 Mistral 語言模型分詞器處理時，產生 36 個詞元。每個詞元約對應 0.72 個單字，或四分之三的單字長度。

^a 資料源自古騰堡專案提供的精選美英文學作品的純文本版本。詞元計數採用 Lunary¹ 提供的公開版 OpenAI 分詞器計算。經八部文學作品驗證，詞元-單字的平均比率為 1 個詞元 ≈ 0.75 個單字。

儘管比率存在波動，但英語單字平均每個詞元約對應 0.75 個單字。因此，具有 100,000 個詞元上下文視窗（按使用者計算）的模型未必能容納 100,000 個單字。在實務上，根據文本的不同，可適配的英語單字量可能接近 75,000 個甚至更少。

估計_詞元數≈單字數∗1.33

為進一步從宏觀角度驗證詞元-單字比率，我們選取古騰堡專案（擁有 75,000 餘本免費電子書的圖書館）中的八部知名文學作品進行快速分析。首先，我們統計每本書的單字數，再透過分詞器獲取詞元計數。比較這些數字後，我們發現平均比率約為 0.75 單字／詞元。

圖 4：單字與詞元的比率

瞭解此比率有助於普通使用者更高效地與 AI 互動。多數 AI 平台（如 ChatGPT 或 Claude）採用基於詞元的限制機制。這意味著這類平台以詞元而非單字處理文本，因此很容易誤判提示詞或回應中實際容納的內容量。由於使用量通常以詞元而非單字計量，瞭解該比率可幫助您明確限制，從而更有策略地規劃輸入內容。例如，如果模型有 4,000 個詞元的輸入限制，這大約相當於 3,000 個單字。在向模型輸入長文件或資料集以執行關鍵洞察提取或問題解答等任務時，瞭解這一點尤為重要。

注意力機制在上下文視窗內並非均勻分布

AI 幻覺常被誤解為怪異行為，或被視為語言模型存在缺陷和不可靠的跡象。但幻覺並非隨機產生；它們通常源於模型處理和優先排序資訊的方式——這取決於模型的訓練程度以及注意力分配機制。在 GPT 或 Claude 等基於 Transformer 的模型中，注意力機制是幫助模型判斷上下文哪些部分最相關以產生回應的核心機制。為了妥善理解注意力概念，不妨想像置身喧鬧的雞尾酒會。當有人叫您的名字，您會本能地集中注意力。

「Frodo！在這裡！」

但如果有四個人同時從房間的不同角落叫您的名字呢？

「Frodo！是我，Sam！」

「Frodo！快來！」

「Frodo！看這邊。」

「Frodo……是的，親愛的 Frodo……」

您聽見所有聲音，但注意力已經分散。您甚至可能更關注熟悉的聲音或離您最近的聲音。每個聲音都獲得部分注意力，但分配並不均等。這雖非完美的類比，卻能幫助您理解大型語言模型中注意力的運作機制。模型會關注上下文視窗內的所有詞元，但賦予某些詞元的權重高於其他詞元。正因如此，大型語言模型中的注意力常被描述為「加權」機制——意味著並非所有詞元都受到同等對待。這種非均勻分配是理解模型如何優先處理資訊，以及為何有時看似注意力渙散的關鍵。

序列長度影響反應時間

在闡釋注意力機制後，理解序列長度如何影響推理過程具有重要意義。現在我們可以提出一個實際問題：當我們改變序列長度時會發生什麼事？

輸入序列長度影響首個詞元輸出時間 (TTFT)，即從輸入請求到接收首個輸出詞元所需的時間。TTFT 對 GPU 效能至關重要，因為本身反映了 GPU 處理輸入並計算輸出首個詞元的速度。相比之下，調整輸出序列長度會影響詞元間延遲 (ITL)，即每次產生詞元的時間間隔。^b該延遲與記憶體使用更為相關。

為深入探究，我們採用一階解析模型估算 LLM 推理過程中的端到端延遲。我們在配備高頻寬記憶體（HBM3E 12H，8 個配置位共 36GB）的單 GPU 上運行使用 Llama 3 70B 的模型，並設置 128,000 個詞元的上下文視窗。^c

^b 關鍵推理指標：首個詞元輸出時間 (TTFT)：模型接收輸入後開始產生輸出所需時間（預填充效能）。詞元間延遲 (ITL)：每次產生詞元的時間間隔（解碼效能）。端到端延遲：從提交查詢到接收完整回應所需時間。³

^c 效能估算基於內部分析模型，該模型被設計用於模擬推理行為。本研究建模的系統基於預估的 GPU 配置，該配置反映了商用硬體平台的普遍特性。雖然該配置不代表任何特定產品，但選擇該配置是為了支援分析的技術目標。這些估計值不反映最佳化的軟體或硬體配置，且可能與實際結果存在差異。

下圖顯示增加輸入序列長度 (ISL) 和輸出序列長度 (OSL) 對整個端到端延遲的影響。所有測量均採用批次大小為 1（即單次請求）的方式進行。能耗更低。

圖 5：輸出和輸入序列長度下每個使用者的端到端延遲（秒）

關鍵要點

測量延遲時需要注意的一點是，模型產生長回應所需時間比處理長提示詞所需時間長得多。模型可一次性讀取並理解輸入內容，即使面對冗長提示詞也相對快速。但是，產生回應需逐詞元進行，每個新詞元都取決於當前已產生的全部內容。由於模型遵循自迴歸流程（即每個詞元都基於前序詞元構建），此過程耗時更長。例如，將輸入序列長度 (ISL) 從 2,000 個詞元增至 125,000 個詞元時，延遲僅增加約兩倍。相比之下，在相同範圍內增加輸出序列長度 (OSL) 會導致延遲增加約 68 倍。^d 出現這種差異的原因在於，較長的輸入序列會驅動更多預填充運算，因此能夠平行處理多個詞元。而解碼過程本質上是循序性的，每次僅生成單個詞元，這不僅耗時更長，還需佔用大量記憶體頻寬。

這意味著更長的輸出序列將導致更長的解碼時間，使得 GPU 和記憶體子系統的工作時間加長。在此背景下，硬體層面的功耗效率尤為重要。美光 HBM3E^e 等記憶體裝置的運行功耗遠低於同類高頻寬記憶體裝置，可以在耗能更少的情況下完成相同的推理任務。

^d 本文的估算值源自未經最佳化的分析模型，故僅反映普遍趨勢而非峰值效能。

^e 美光 HBM3E 的功耗比市面上同類高頻寬記憶體裝置降低 30%。

對使用者而言，此見解凸顯了最佳化提示詞和管理輸入長度（例如精簡冗餘內容）的重要性。並且，構建即時應用程式時，通常可以輕鬆處理較長的輸入。但是，保持輸出簡潔有助於系統保持快速回應。

記憶體對上下文長度的關鍵作用

推理延遲不僅取決於序列長度，還取決於系統在處理輸入和產生輸出時如何管理運算和記憶體需求。許多新發布的語言模型如今宣稱其上下文視窗已突破百萬詞元。這些更大的上下文視窗（若完全利用）將給記憶體子系統帶來更大壓力，使用者可能感知到執行速度變慢和運行時間延長。新型記憶體技術將提供更高的頻寬和更大的容量，以支援這些更大的上下文視窗，從而提升回應速度和整體輸送量（每秒詞元數）。但效能提升也引發了能耗問題。隨著推理工作負載擴展至數百萬詞元的規模，設計高效利用電力的系統變得至關重要。持續運行時間更長的系統需要更多電力，而兼顧低功耗和高頻寬的記憶體裝置可有效應對這一挑戰。例如，美光 HBM3E 的功耗遠低於同類高頻寬記憶體裝置。這種低功耗特性有助於降低 AI 在處理涉及數百萬詞元的推理任務時的能耗。展望未來，HBM4 和 HBM4E 等次世代記憶體技術的發展方向將是提供更高的記憶體頻寬和容量，同時提高功耗效率。這些改進源於製程技術的突破（美光採用 1-gamma DRAM），有望實現更快的資料傳輸速度和更低的能源成本。隨著技術日趨成熟，還可能進一步降低延遲，提升大規模 AI 部署中的輸送量和能效表現。

深入瞭解

https://www.micron.com/educatorhub

https://www.micron.com/educatorhub/courses/what-does-it-mean-for-ai-to-know-something

https://www.micron.com/hbm3e

¹ https://lunary.ai/openai-tokenizer

² https://cs.stanford.edu/~nfliu/papers/lost-in-the-middle.arxiv2023.pdf

³ https://docs.nvidia.com/nim/benchmarking/llm/latest/metrics.html

技術貢獻者

系統效能工程師

Felippe Vieira Zacarias

Felippe 是 Micron Technology 的系統效能工程師，他與資料中心工作負載量工程團隊合作，提供端對端系統觀點，以瞭解資料中心工作負載量的記憶體階層使用情況。Felippe 在高效能運算和工作負載量分析方面擁有豐富的專業知識，曾在著名的超級運算中心擔任研究工程師。他擁有 Universitat Politècnica de Catalunya 的電腦架構博士學位。

生態系統研發經理

Shanya Chaubey

Shanya 協助管理 Micron Technology 雲端記憶體和 AI 應用程式中高頻寬記憶體的生態系統研發。除了在整個技術生態系統中培養穩固的關係外，她還結合 AI、市場情報、資料工程方面的技術專長，幫助 CMBU 預測並適應快速發展的 AI 工作負載。她擁有機械工程背景和科羅拉多大學博爾德分校的資料科學碩士學位，在嚴謹的技術分析、新興 AI 架構和策略供應商合作的交叉領域中游刃有餘。

內容策略行銷主管

Evelyn Grevelink

Evelyn 領導美光科技雲端記憶體業務部門（CMBU）策略行銷團隊的內容策略。她熱衷於透過富有創意的策略性故事，扮演工程與行銷團隊之間的媒介。Evelyn 擅長撰寫令人信服的敘述並製作設計插圖，以傳達大型語言模型、AI 和先進記憶體技術的複雜概念。她擁有加州州立大學沙加緬度分校的物理學士學位。

產品總覽

搜尋、篩選和下載美光資料表

市場與產業總覽

AI 資料中心

合作夥伴總覽

瞭解並註冊參加美光的技術應用支援計畫 (TEP)

業務與支援總覽

聯絡美光業務支援人員

關於總覽

投資人關係總覽

瀏覽美光的投資人關係網站

最近的搜尋