設計工具

輸入無效。不支援特殊字元。

DRAM

AI「知道」某事意味著什麼?

Evelyn Grevelink | 2025 年 8 月

探索嵌入空間,瞭解 AI 如何模擬知識。

要問 AI「知道」某事意味著什麼,就必須超越其輸出,進入其進行預測的奇特數學空間。瞭解這一過程可以改變您與 AI 的關係,AI 並非體現真理的源泉,而是一個複雜的系統,您可以透過提高認知和謹慎行事來駕馭其機率預測。有了這種技術上的理解,就能為更平衡的思考創造空間,並讓您參與深思熟慮的探究:與其接受關於 AI 的籠統、一概而論的說法,您可以承認不確定性,並就 AI 何時、如何以及在何種條件下可能增強或重塑人類能力提出更精確的問題。本篇部落格是我們 AI 概念四部曲中的第一篇,文章首先介紹「詞元」和「嵌入」等基礎術語,然後探討「嵌入空間」,這是一個高維空間,是模型對語言的內部表示。在這裡,字詞之間的關係經過編碼,以統計而非基於意義的方式指導模型的預測。我們還窺見了記憶體的作用,該技術不是作為回憶,而是作為底層硬體架構的一部分,悄無聲息地塑造著這些系統所能容納和表達的內容。

「《白雪公主》的寓意是絕對不要吃……」

作家 Lemony Snicket 的這句俏皮話重構了《白雪公主》的結局,揭示了我們固有的教條在達到邏輯的極端時會變得多麼奇怪和僵化。即使沒有說完,這個句子所揭示的也比本身所隱藏的要多。這當中的具象是如此熟悉,以至於下一個詞似乎是自動浮現的,與其說是有意識的回憶,不如說是一種更深層次的東西,源於童年童話的塑造。當然是蘋果!或者,毒蘋果? 作為讀者,您可能感到平靜而篤定,這是條件反射式的感覺,因為您知道這個句子應該如何結束,儘管您知道蘋果並非故事的真正寓意。這種條件反射引發了更深層次的問題:如果語言模型可以產生同樣的結尾,或者與之相近的結尾,那麼該類模型究竟基於什麼,又代表了什麼樣的「認知」?

如果我們把這句不完整的句子提供給大型語言模型 (LLM),系統可能生成下列結尾:「陌生人的食物」、「毒蘋果」或者乾脆就是「蘋果」。每個版本似乎都合理。「陌生人的食物」反映了實際的故事情節,「毒蘋果」指出了最具象征性的危險,而「蘋果」則聚焦於那粒惡名昭彰的水果。但這些可能的結尾均不是源自經驗或生活。LLM 並不是在解讀故事,而是在識別英語語言的統計模式。也就是說,由於 LLM 產生文字的方法是從可能的下一個詞元分布中採樣,結果可能會因提示語的措辭、使用的模型,甚至最近的對話記錄而有所不同。因此,上述例子只是說明性的,而非確定性的。

在探討 AI 透過這些統計模式「知道」某事意味著什麼之前,值得考慮的是,物理現實如何使這種「知道」成為可能。用「蘋果」或「陌生人的食物」把句子補全看似簡單,但其基礎就像我們繼承的故事一樣多層次、複雜。每一個預測都源於數字關係,而數字關係的存在需要物理基礎。這些數字需要在電路和記憶體系統中安家,以便大規模地儲存、計算和加以處理。在看似流暢的表象之下,隱藏著在很大程度上被我們抽象化的硬體架構,而這些架構正是模型產生每一個看似輕鬆的回應所必需的。本部落格主要關注從文章到預測的概念之旅,但在此過程中,我們也瞥見了使這一切成為可能的物理現實,特別是構成支撐模型智慧的基礎硬體的先進記憶體技術。

從文字到預測的過程是怎樣的?

詞元

當 AI 遇到一個詞時,它不會像人類那樣思考其含義,也不會調用經驗、記憶或感官資訊。相反,它會透過將字詞轉換為詞元,開始解讀文字的過程,您可以將詞元視為 LLM 可以處理的最小文字單位。詞元可以是一個完整的字詞,如「snow」,也可以是字詞的一部分,如「app」,甚至可以是標點符號、字母或空格。當我們在 AI 系統中輸入「《白雪公主》的寓意是絕對不要吃……」這樣的短語,並詢問句子的結尾是什麼時,文字首先會被加工成詞元。雖然具體的詞元化過程因模型而異,但可能類似於以下範例:

["\u201cThe\u201d | \u201c moral\u201d | \u201c of\u201d | \u201c Snow\u201d | \u201c White\u201d | \u201c is\u201d | \u201c to\u201d | \u201c never\u201d | \u201c eat\u201d"]

請注意,為了說明問題,我們已簡化此流程。實際的詞元化基於複雜算法且通常為專有技術。這些短詞的共性意味著在詞元化時不太可能被分割。注意內部字詞前的空格。這表示這些詞已納入句子中,而非新句子的開頭。1 詞元化只是文字到預測的更廣泛轉換過程的一個階段。要理解語言如何變得可被機器解讀,可以將此過程視為一種蛻變。就像毛毛蟲變成蝴蝶一樣,在人類語言(在本例中為文字輸入)變成機器可以解讀的內容之前,本身要經歷一系列結構化步驟,在這些步驟中,意義被轉化為數學關係。為簡單起見,我們將此過程描述為從文字到詞元再到嵌入。然而,這一過程要細微得多,涉及到詞元 ID 和其他表徵等中間步驟,以幫助縮小自然語言的豐富性與機器理解之間的差距。

嵌入

然後,詞元被映射到嵌入,嵌入是一種數學表示法,可以捕捉詞與詞之間的語義(詞所代表的想法)和句法(詞在句子中扮演的角色)關係。2 重要的是,這些關係並非透過顯式編程得出,而是透過訓練資料(可能包括文獻、文章、對話記錄和其他來源)中詞語出現和重複出現的模式學習而來。然後,這些嵌入被投射到訓練過程中創建的高維空間中。該空間被稱為嵌入空間,是一種數學結構,用於編碼嵌入模型對語言的內部表示。這絕對不是定義字典;相反,而是一個近似性和詞語關聯的統計圖表。也就是說,經常一起出現或具有類似功能的字詞會相互靠近。例如,「單腳尖旋轉」和「迎風展翅舞姿」可能會相互靠近,「蘋果」和「焦糖」也可能如此,但這並不是因為模型瞭解芭蕾舞或甜點搭配。這些字詞只是在相似的上下文中彼此靠近而已。

模擬知識

這一解釋引出了一個關鍵區別。對於人類來說,「蘋果」一詞可能會喚起一生記憶的多層含義:鄰居家的樹、一磅蘋果的重量、舌尖上的甜味。我們的理解來源於文化、感覺和生活經驗。但對 AI 而言,「蘋果」並不以這種方式存在於記憶中。其含義完全是位置性的,是根據嵌入空間內的關係以及從大量文字中學到的模式推斷出來的。AI 可能無法以人類的方式「理解」事物,但卻能妥善模擬理解,因此非常有用。我們所說的「模擬」,是指 LLM 可以生成類似於知識的回應,並非暗示 AI 系統具備人類意義上的理解或意識。如果我們想更好地理解 AI 如何產生看似知識的內容,我們需要更深入地探討嵌入空間。

探索嵌入空間

按一下放大圖片

什麼是「嵌入空間」?

當您為 AI 聊天機器人編寫提示時,您可能覺得自己是在用簡明易懂的英語(或您選擇的語言)下達指令。但實際情況要抽象得多。您的文字並沒有以人類理解的方式得到解讀,而是被轉化為嵌入空間內的高維向量。該空間可以跨越數百甚至數千個維度,模型的回應不是以理解為導向,而是以空間中的向量關係為導向。3這一過程使我們與機器的交互方式發生了深刻變化。無論是透過打字還是語音,我們的輸入現在更像自然對話,而不是代碼。電腦科學家 Andrej Karpathy 用一句俏皮話概括了這一轉變:「最熱門的新程式設計語言是英語。」 這句話巧妙地指出了更深層次的轉變:語言本身已經成為一種介面,尤其是在大型語言模型中。在此上下文中,英語的表現不再像普通語言,而是較像是一種結構化輸入。雖然 AI 看似會「說」英語,但實際情況要複雜得多。

回聲之屋

嵌入空間捕捉的是本身所能獲取的詞語,在人類表達的完整譜系中的統計共現趨勢,其中包括從新聞文章和散文到 Reddit 執行緒和小報標題等所有內容。在此空間中,意義並非由語法規則或任何刻意意圖定義,而是由字詞共同出現的頻率定義,與人類過去將這些字詞與其他字詞並置的位置相呼應。預測的統計性質或許有助於解釋為什麼 AI 難以保持句子的張量:此技術總是在尋找最有可能出現的下一個詞,而不是最具智力啟發性的詞。根據模型的不同,輸出結果可能或多或少地傾向於提供一系列簡短有力、迅速收尾的句子。至少現在,AI 還無法真正屏息以待。經過訓練的 AI 模型往往太快下結論,過早地提出解決方法,並避免模稜兩可或自相矛盾,而這恰恰是人類與機器的區別所在。下一次,當 AI 似乎同意您的觀點,愉快地提供您所渴望的結論和確定性時,您應留意這種傾向。模型並不是在「思考」應該保留或維持什麼,從而使張量得以形成,複雜性得以顯現;其實,只是在努力保持統計上的連貫性,並與其訓練資料保持一致。

n 維張量:AI 如何大致表達意思

構成此空間的嵌入用張量表示,這是跨多個維度的數學關係表示方法。張量可以是一維列表(如向量)、二維行列表(如矩陣)或三維、四維或 n 維的高維對象。就語言模型而言,每個嵌入都是一維張量,本身是一個包含數百或數千個數值的向量。這些數字並非隨意生成。每個數字代表高維空間中的一個不同維度,捕捉意義、語法和上下文的微妙模式。

圖 1:嵌入空間的 2D 詮釋,呈現為扁平的有機不規則形狀。 按一下放大圖片

圖 1:嵌入空間的 2D 詮釋,呈現為扁平的有機不規則形狀。 

2D 至 3D:概念性示範

為了使這個空間更易於理解,讓我們從簡化版本開始:二維嵌入空間。想像一下,有兩條軸線可以捕捉統計上的鄰近性,但我們無法直接解釋其中的關係。沿著一條軸,「蘋果」可能靠近「水果」、「獵人」、「嫉妒」和「咬」。在另一條軸上,則可能靠近「紅色」、「甜」和「脆」(圖 1)。這些分組並不反映「童話」或「味道」等概念範疇,而是這些詞在語言中一起出現的頻率。這一觀點與語言學家 J.R. Firth 的著名見解不謀而合:「你可以透過一個詞的伴隨詞來瞭解涵義。」 在此上下文中,意義源於使用,而非定義。

現在,讓我們添加第三個維度。「蘋果」可能出現在「知識」、「誘惑」和「蛇」附近,暗示著本身與聖經的關聯(圖 2)。4 這些是「蘋果」出現的不同上下文,模型捕捉到的是統計模式,而不是符號意義。

圖 2:具有球形有機、不規則形狀空間的嵌入空間的 3D 解讀(使用 TensorBoard 嵌入投影機引導的可視化概念,有助於探索和理解嵌入層)。4 按一下放大圖片

圖 2:具有球形有機、不規則形狀空間的嵌入空間的 3D 解讀(使用 TensorBoard 嵌入投影機引導的可視化概念,有助於探索和理解嵌入層)。

4D 到 512 維:增加複雜性

想像一下,如果我們增加第四個維度,例如時間,然後使用 1980 年前後的資料訓練嵌入模型,那麼「蘋果」可能會發現自己被不同的詞所包圍,這取決於時代(圖 3)。到了 1980 年代,「蘋果」開始與「電腦」、「技術」以及兩個都叫 Steve 的人同時出現。而在此之前,在農業發達的庫比蒂諾,「蘋果」與該地區的文化聯繫並不緊密。其關聯仍根植於果園和柑橘類水果,尚未與《財富》100 強公司的標誌性符號緊密聯繫在一起。這一變化說明了語言的分布不是固定不變的,而是動態的;在文化力量的作用下,語言會隨時間推移而演變。

n-維度

雖然將時間作為第四維度可以揭示語言使用中的文化變化,但真正的嵌入空間運作於更大的範圍內。我們很容易想像二維或三維空間中的一個點,比如地圖上的位置或空間中的物體。但嵌入空間存在成百上千個維度,很快變得無法可視化。為了使這一想法更加具體,表 1 顯示了每個字詞的表示方式,即數字列表,其中維數定義了嵌入的大小。這些數值並不表達任何意義,但個個確實將字詞定位在模型的嵌入空間中。例如,「蘋果」可以表示為跨 n 個維度的向量[0.2、0.3、0.2、0.5……0.8],捕捉「蘋果」的數字表示。

圖 3:用時間嵌入空間的 4D 解釋,表示語言的分布如何受文化力量的影響。 按一下放大圖片

圖 3:用時間嵌入空間的 4D 解釋,表示語言的分布如何受文化力量的影響。

因此,當我們說「蘋果」和「咬」這兩個詞分別由 n 個值表示時,我們描述的是向量,該向量將每個詞定位為 n 維空間中的點。回到剛才的例子:「《白雪公主》的寓意是絕對不要吃……」。模型並非透過理解故事來補全句子,而是透過計算統計上最有可能的句子結尾。在這種情況下,「蘋果」很可能成為下一個字詞(而且總是在其他可能性中),因為數學堅持認為該詞應出現在句尾。

我們如何從數學轉向記憶?

將嵌入理解為 n 維空間中的數學表示,其中每個維度都捕捉字詞之間的關係,有助於解釋 AI 如何模擬理解。但這些坐標不僅僅是理論上的,而是必須儲存在實體記憶體中。每個嵌入都包含數百或數千個數值——根據應用的不同,以 4 到 32 位元精度表示。例如,GPT-3 使用超過 12,000 個維度,而較小的模型可能使用 768 或 1024 個維度。5嵌入的維度越多,體積越大,必須儲存的數字越多。每個數字都需要佔用空間。對空間的需求造成了根本性約束:隨著表徵越來越複雜,本身在記憶體中需要的物理空間也越來越大。除了儲存嵌入,模型還必須在鍵值快取(KV 快取)中管理中間運算,這是一種短時記憶,允許模型調用先前交互的結果而無需重新計算。隨著模型處理的詞元越來越多,系統需要在鍵值快取中儲存更多臨時資料,這反過來又增加了總體記憶體使用量。

所有這些都會累加:嵌入、嵌入大小和快取。隨著模型接收更多詞元並儲存更多關係,系統的記憶體需求隨之增加,且不僅體現在規模上,還體現在複雜性上。此時,運算和記憶體架構開始決定模型能做什麼,不能做什麼。

表 1:轉換為嵌入的每個詞元由 n 個維度定義,其中 n 可能是 512 或更多。 按一下放大圖片

表 1:轉換為嵌入的每個詞元由 n 個維度定義,其中 n 可能是 512 或更多。
(這些並非真實的模型數值。範例僅用於說明每個字詞如何被表示為一長串數字。)

問題不僅在於模型能進行多少次運算,還在於本身能以多快的速度存取已知的內容。為了滿足這些需求,記憶體系統的改進變得越來越重要。其中一個例子是高頻寬記憶體(HBM),該技術最初為科學運算而研發,現在已用於支援 AI 應用。如今,HBM 在 AI 系統中發揮著低調而強大的作用,幫助模型更高效地處理大量資料。通常,拖慢模型速度的不僅是運算。模型還會受到記憶體存取速度限制的影響,或者受到模型回溯並檢索其已知資訊的速度限制的影響。

接下來會發生什麼事?

當我們將目光從嵌入轉向上下文的作用時,記憶體的挑戰只會更加嚴峻。模型需要保存的文字越多,所需的記憶體就越大。如果您看到「您還剩 3 次回復機會」的訊息,表示模型已接近該對話的最大上下文長度(以詞元為單位),此時需開始新對話執行緒。這種限制不僅會影響 AI 系統的功能,還會影響系統處理和表示上下文本身的方式。我們將在本系列部落格的下一部分探討該主題。

技術貢獻者

系統效能工程師

Felippe Vieira Zacarias

Felippe 是 Micron Technology 的系統效能工程師他與資料中心工作負載量工程團隊合作,提供端對端系統觀點,以瞭解資料中心工作負載量的記憶體階層使用情況。Felippe 在高效能運算和工作負載量分析方面擁有豐富的專業知識,曾在著名的超級運算中心擔任研究工程師。他擁有 Universitat Politècnica de Catalunya 的電腦架構博士學位  

生態系統研發經理

Shanya Chaubey

Shanya 協助管理 Micron Technology 雲端記憶體和 AI 應用程式中高頻寬記憶體的生態系統研發。除了在整個技術生態系統中培養穩固的關係外,她還結合 AI、市場情報、資料工程方面的技術專長,幫助 CMBU 預測並適應快速發展的 AI 工作負載。她擁有機械工程背景和科羅拉多大學博爾德分校的資料科學碩士學位,在嚴謹的技術分析、新興 AI 架構和策略供應商合作的交叉領域中游刃有餘。 

1. Schneppat, J.-O.(無日期)。空白詞元化。Schneppat AI。載於 https://schneppat.com/whitespace-tokenization.html
2. 嵌入:嵌入空間和靜態嵌入。(無日期) Google 機器學習教育課程。載於 https://developers.google.com/machine-learning/crash-course/embeddings/embedding-space
3. Tennenholtz, G. 以及其他人 2024 年。使用大型語言模型解密嵌入空間。ICLR 2024 會議論文。載於 https://www.cs.toronto.edu/~cebly/Papers/2991_demystifying_embedding_spaces_.pdf
4. TensorFlow。(無日期) 嵌入投影機。載於 https://projector.tensorflow.org/
5. Li, C. 2020 年 6 月 3 日。OpenAI 的 GPT-3 語言模型:技術概述。Lambda。載於 https://lambda.ai/blog/demystifying-gpt-3 

內容策略行銷主管

Evelyn Grevelink

Evelyn 領導美光科技雲端記憶體業務部門(CMBU)策略行銷團隊的內容策略。她熱衷於透過富有創意的策略性故事,扮演工程與行銷團隊之間的媒介。Evelyn 擅長撰寫令人信服的敘述並製作設計插圖,以傳達大型語言模型、AI 和先進記憶體技術的複雜概念。她擁有加州州立大學沙加緬度分校的物理學士學位。