美光技術詞彙表

小型語言模型

小型語言模型 (SLM) 是一類旨在提供自然語言處理能力的語言模型,其運算和記憶體佔用均低於大型語言模型 (LLM)。SLM 並非僅僅是大型模型的縮小版替代品,它們往往是針對特定工作和部署環境專門構建的,旨在滿足對效率、延遲、成本或隱私的嚴苛要求。

小型語言模型在即時和分散式運算情境(如行動裝置、嵌入式系統和邊緣部署)中發揮著重要作用。在這些環境中,在本地執行模型可以降低對雲端連接的依賴,並提高回應速度。由於模型規模直接影響記憶體使用和運算需求,SLM 的效能與底層硬體的效能特徵密切相關。

什麼是小型語言模型?

小型語言模型的定義:SLM 是一類自然語言處理 (NLP) 模型,它們利用與 LLM 類似的機器學習技術來產生或解讀文字,但參數量更少,執行時佔用的資源也更少。

與 LLM 不同,SLM 是專為受限、分散式及即時環境而構建並最佳化的。這使 SLM 能夠更高效地運作,同時仍能針對特定應用情境提供實用的語言能力。

與 LLM 相比,SLM 通常需要較少的算力和記憶體來運作。這使得它們非常適合裝置端或邊緣側部署,因為在這些情境下,功耗限制、散熱約束、延遲要求以及成本考量都會影響系統設計。SLM 的常見應用範例包括行動應用程式以及預測性文字輸入、羽量級助手和嵌入式語言介面等內建功能。

小型語言模型 (SLM) 是如何運作的?

SLM 和 LLM 共用許多底層概念和架構,通常都依賴於在文字資料集上訓練而成的神經網路。與其他機器學習模型一樣,SLM 經過訓練,能夠識別語言中的模式,並根據概率和上下文產生回應。

在實際應用中,許多 SLM 由開發者進行訓練或微調,隨後主要部署用於推理 - 這意味著模型主要用於產生輸出,而非進行持續的再訓練。更新通常透過週期性的重新訓練或微調來實現,而非在日常使用過程中進行即時學習。

由於 SLM 的容量低於規模更大的模型,訓練資料的品質便顯得尤為重要。精心策劃的資料集和針對性微調有助於確保 SLM 在其預定工作和領域中表現出色。在訓練和推理過程中,文字會透過一種稱為「分詞」的過程被拆分為較小的單元,即「詞元」。分詞使模型能夠以數值形式處理語言,並直接影響效率、記憶體使用以及模型單次能夠考量的上下文範圍。

小型語言模型的發展歷程是怎樣的?

語言模型一直是自然語言處理研究的一部分,但隨著各類機構尋求在資源受限及即時應用情境中實現實用的語言功能,SLM 日益受到重視。

  • 2010 年代之前早期 NLP 模型與效率限制:在 Transformer 架構興起之前,許多語言模型的規模天生較小,且設計用於在有限的運算和記憶體環境下運作。統計語言模型、n-gram 模型和早期神經網路被廣泛應用於語音辨識、行動文字輸入和嵌入式系統等領域。這些早期方法確立了在效能與效率之間取得平衡的基礎性技術,特別是在運算資源受限的系統中。
  • 2010 年代末期:Transformer 的早期基礎與模型壓縮:基於 Transformer 的架構的出現,標誌著語言模型效能的重大進步。儘管 BERT 等早期 Transformer 模型側重於準確性和規模,但它們也證明了開發更小巧、更高效的變體是可行的。在此期間,模型蒸餾和參數縮減等方法催生了 TinyBERT、ALBERT 和 MobileBERT 等精巧型模型,這些模型專為部署環境受限的情境而設計。
  • 2010 年代末至 2020 年代初,以效率為導向的模型設計與實際部署:隨著 Transformer 技術的成熟,關注重點轉向了提升效率與可部署性。這一時期,人們對最佳化語言模型以適應實際應用情境的興趣日益濃厚,其中包括針對特定工作的模型以及能夠在更多硬體平台上執行的輕量化版本。對於那些無需或不適合使用全尺寸模型的應用情境,SLM 開始成為一種切實可行的選擇。
  • 2020 年代至今,向邊緣、嵌入式及即時系統領域擴充:隨著對集中式雲端環境之外 AI 能力的需求增長,在支撐工具、硬體和最佳化技術不斷進步的推動下,SLM 的應用擴充到了邊緣和嵌入式部署領域。這些模型現已整合到廣泛的技術領域中,包括物聯網 (IoT) 裝置、虛擬實境和增強現實等沉浸式系統,以及自主平台。在這些環境中,系統設計優先考慮本地推理、低延遲以及對運算、記憶體和儲存資源的高效利用,從而強化了專用 SLM 的作用。

這可能是過度使用三例句式結構。有兩個句子不僅使用了三個範例,而且還將第三個範例拆分成了三個新範例。

小型語言模型主要有哪些類型?

SLM 可以根據其設計目標和部署環境進行分類。

通用 SLM

通用型 SLM 支援基礎對話、文字預測和簡單問答等常見語言工作,適用於對效率有要求的消費級及企業級應用情境。

特定領域的 SLM

特定領域 SLM 是針對特定產業或工作程序(如客戶支援、技術文件或企業營運)進行訓練或微調的,旨在確保在特定應用範圍內實現高準確性。這些 SLM 通常經過最佳化,能更好地遵循提示詞和指令,從而提升互動式應用中的一致性與易用性。

專注於代碼的 SLM

專注於代碼的 SLM 針對代碼補全、代碼解釋和偵錯等軟體發展工作進行了最佳化,通常基於程式設計語言和開發者工作程序進行訓練。

裝置端 SLM

針對裝置端及邊緣環境最佳化的 SLM 專為低記憶體佔用和低運算需求而設計,能夠實現本地推理,從而降低延遲並增強資料隱私。

SLM 是如何應用的?

SLM 應用廣泛,這類精巧高效的模型無需超大規模模型那樣沉重的資源開銷,即可提供出色的語言處理能力。企業也可以微調 SLM,以更好地契合特定的業務需求和資料領域。

智慧型手機中,SLM 為預測文字、語音助手和即時語言處理等日常功能提供支援。在這些環境中,SLM 通常直接在裝置本地執行,從而實現快速回應,減少對持續雲端連接的依賴,並透過將資料保留在裝置上來增強隱私保護。

在聊天機器人和嵌入式助手等對話式介面中,SLM 支援回應迅速、低延遲的互動,使其非常適合即時客戶支援和裝置端使用者體驗。

在企業和生產力情境中,SLM 可協助完成文字分類、資訊擷取、內容摘要及工作流自動化等工作,尤其適用於工作範圍明確且無需大型模型所具備的廣泛推理能力的情形。

小型語言模型也被應用於開發人員工具中;其中,專注於代碼的 SLM 可輔助完成代碼補全、代碼解釋及故障排除等工作,為特定的軟體發展工作提供了一種高效的解決方案。

由於 SLM 通常部署在更靠近資料產生或使用端的位置,它們能夠支援那些優先考慮低延遲、資料局部性以及運算、記憶體與儲存資源高效利用的 AI 架構。在這些情境中,硬體效能對整體系統效率和使用者體驗起著重要作用。

常見問答

小型語言模型常見問題解答

與 LLM 相比,SLM 的一個關鍵優勢在於效率。較小的尺寸降低了運算和記憶體需求,從而在縮短回應時間的同時,也降低了功耗與成本。這使得 SLM 非常適合即時、裝置端及邊緣部署。

由於規模較小,SLM 在處理高度複雜或開放式工作時可能會遇到困難,而這些工作往往受益於 LLM 更廣泛的知識儲備與推理能力。當工作範圍界定明確且模型針對預期用途進行了微調時,SLM 的表現最佳。

對於 SLM,並沒有一個固定的定義閾值。作為一般性參考,許多 SLM 的參數量大致在 1 億到 7 億之間,儘管具體定義因機構和應用情境而異。在實踐中,「小型」通常指那些旨在受限的運算和記憶體預算內高效執行,同時仍能提供實用語言能力的模型。