AI 如何徹底改變個人電腦局勢,這對於記憶體和儲存裝置有何影響
AI 無處不在,您每天所見所聞到處都是 AI。從智慧助理到自駕車,AI 不斷改變著我們與世界互動的方式。但對於個人電腦有何建樹? AI 可以使您的個人電腦更加智慧化、速度更快且更加個人化嗎? 在此部落格中,我們將探索 AI 如何徹底改變個人電腦局勢,以及對於記憶體和儲存裝置帶來哪些改變。在 CES 24,所有熱門話題都與 AI 有關——展場上超過 50% 的報導都圍繞著 AI。
AI 由大型語言模型(LLM)驅動,這些模型是利用人類積累的大量無標號文字開發的。自然語言查詢所返回的結果類似於人類的回覆,是由具有數十億個參數的神經網路所取得,在某些情況下,多個網路彼此連接以生成內容。ChatGPT 和 DALL-E 是一些最受歡迎的 LLM 實例,本身可以根據使用者輸入的內容生成真實而富有創意的文字和圖像。這些 LLM 令人印象深刻,但若要妥善運行,需要大量的運算能力和資料。這就是為什麼多數 LLM 都託管在雲端,因為在雲端便可使用所需的大量硬體基礎設施和網路頻寬。
然而,雲端並非 AI 的唯一應用場所。將部分 AI 處理轉移到邊緣(即使用者終端的裝置)是有益的,原因有很多。例如,邊緣 AI 可以減少延遲、提高隱私、節省網路成本並實現離線功能。想像一下,如果您可以使用個人電腦生成高品質內容、編輯照片和影片、轉錄語音、過濾噪音、識別人臉等,而無需依賴雲端,那豈不是太棒了?
為什麼是個人電腦?
當然,個人電腦並不是唯一能從邊緣 AI 中受益的裝置。智慧型手機、平板電腦、智慧手錶和其他裝置也可以利用 AI 來增強其功能和效能。但個人電腦有一些獨特的優勢,使其成為適合邊緣 AI 的平台。首先,個人電腦的螢幕較大,可以顯示更多資訊,提供更好的使用者體驗。其次,個人電腦配備大容量電池,可以支援更長時間、更密集的 AI 任務。第三,個人電腦擁有強大的運算能力,可以處理更複雜、要求更高的 AI 模型。
晶片製造商和軟體開發商並沒有忽視這些優勢。Intel、AMD、Qualcomm、Mediatek 和 Nvidia 等公司正在將越來越強大的神經處理引擎和/或整合繪圖卡嵌入其個人電腦 CPU 和晶片組中,以實現數十 TOPS(每秒數兆次運算)的 AI 效能。Microsoft 也表示,今年發佈的 Windows 11 作業系統將進行最佳化,以充分利用 CPU 中的嵌入式 AI 引擎。考慮到 Microsoft 正在大力推廣 Copilot(一項利用 AI 幫助使用者編寫程式碼、調試錯誤並提出改進建議的功能),這一點不足為奇。其中一些廠商還與 ISV 合作,推出 AI 最佳化應用程式——增強視訊會議體驗、照片編輯功能、語音轉文字、背景環境和噪音抑制以及人臉識別等。至於這些正在研發中的應用程式是否會給人留下深刻印象,或者是否會出現殺手級應用程式,目前還不得而知。但關鍵問題依然存在。我們如何在個人電腦上有效率地運行 AI 模型? 此外……
這對個人電腦的硬體效能意味著什麼?
在個人電腦上運行 AI 模型的主要挑戰之一是模型規模。AI 模型,尤其是 LLM,可能有數十億甚至上兆個參數,需要大量記憶體和儲存空間來儲存和載入。例如,我們的內部實驗表明,一個擁有 700 億個參數、精度為 4 位元的 Llama2 模型(用於自然語言生成的最先進 LLM),載入和推論需要大約 42GB 的記憶體,輸出速度為 1.4 個權杖/秒;而典型的個人電腦無法提供如此大的記憶體。這在本質上說明了問題所在,並為未來指明了方向。未來將出現特定功能的模型,在保持準確度的同時縮小規模。模型的發展可能出現分岔點——700 億級的大型模型可用於具有大記憶體和大儲存空間的高階系統,並可執行微調應用程式,如對話補全和針對對話使用案例的最佳化。此外,本機裝置上的個人助理可能也需要大型參數模型。參數少於 100 億的模型可用於主流裝置,可以想像,託管模型所需的增量記憶體(約 2GB)會更小,並可用於語言任務等應用程式,包括文字補全、整理列表和分類等任務。
模型規模毫無疑問會對記憶體產生影響,至少會影響個人電腦記憶體的大小。頻寬和能源效率同樣重要。隨著個人電腦(特別是行動裝置)從 DDR 過渡到 LPDDR,不同規模的模型都能從中受益。例如,與 DDR5 相比,LPDDR5X 在使用過程中的功耗降低了 44-54%,在自我更新過程中的功耗降低了 86%,LPDDR5 的頻寬為 6.4Gb/s,而 DDR5 為 4.8Gb/s。所有這些都表明,如果 AI 能迅速滲透到個人電腦,那麼向 LPDDR5 的過渡將會更快。透過將部分處理工作移至記憶體來提高能源效率的研發工作正在進行中,但這項工作可能需要很長時間。業界需要達成共識,以採用一組共同的基元將工作轉存到記憶體,這決定了需要研發的軟體棧。一套特定基元不一定是所有應用程式的最佳選擇。因此,我們可以說,目前個人電腦的記憶體處理問題多於答案。
更大的問題是,AI 模型的優勢在哪裡? 如果模型規模仍然相對較大,是否有辦法減少對記憶體的依賴,並將模型的一部分推入儲存裝置? 如果這種方法可行,就需要透過增加儲存裝置頻寬來適應模型交替。這可能會促進 Gen5 PCIe 儲存裝置在主流個人電腦中的普及,或者加速 Gen6 PCIe 儲存裝置的推出。Apple 最近發表了 Alizadeh 等人撰寫的同一主題論文1,標題為「快閃記憶體中的 LLM:利用有限記憶體實現有效率的大型語言模型推論」,這篇文章提出了一種在超過可用 DRAM 容量的裝置上執行大型語言模型(LLM)的方法。作者建議將模型參數儲存在快閃記憶體中,並根據需要將其匯入 DRAM。他們還提出了最佳化資料傳輸量和提高讀取吞吐量的方法,以顯著提高推論速度。論文評估各種快閃記憶體載入策略的主要指標是延遲,並將其分解為三個不同的部分:從快閃記憶體載入的 I/O 成本、管理新載入資料的記憶體的間接費用,以及推論操作的運算成本。概括地說,論文提供了一種解決方案,透過將模型參數儲存在快閃記憶體中,並按需求將其匯入 DRAM,解決了有效率運行超過可用 DRAM 容量的 LLM 難題。
AI 能力將不斷發展。目前將嵌入式 NPU 整合入 CPU 和獨立式 GPU 只是一個開始。Kinara、Memryx 和 Hailo 的 AI 加速卡是在個人電腦中轉移 AI 工作負載的另一種方法。模型的另一種發展方式是針對特定功能的模型,這些模型更小,並針對特定功能進行最佳化。這些模型需要按需求從儲存裝置輪換到記憶體,但對儲存裝置的影響與執行大型模型類似。
獨立式 NPU 的一些優勢包括:
- 與 CPU 和 GPU 相比,它們能以更低的功耗和發熱量處理複雜的 AI 模型和任務。
- 它們可以為圖像識別、生成式 AI、聊天機器人和其他應用程式提供更快、更準確的 AI 效能。
- 它們可以補充現有的 CPU 和 GPU 功能,增強使用者的整體 AI 體驗。
Lenovo 的 ThinkCentre Neo Ultra 桌上型電腦將於 2024 年 6 月推出,Lenovo 聲稱,與當前的 CPU 和 GPU 解決方案相比,這款桌上型電腦所配備的繪圖卡可提供更節能、更強大的 AI 處理能力。2
僅以 TOPS 作為優點指標可能會產生誤導。最終,重要的是單位時間內的推論次數、準確性和能源效率。因此,對於生成式 AI 來說,重點可以是每秒的權杖數量,也可以是在幾秒鐘內完成穩態擴散。要以業界可接受的方式來衡量這些指標,就需要制定基準。例證:我參觀過 CES 上所有 CPU 供應商的展台並觀看了獨立式 NPU 播放器的展示。每個展示都聲稱其在某一方面具有優勢。
當然,人們對將 AI 引入個人電腦領域充滿熱情。個人電腦 OEM 認為,這將刺激個人電腦的更新換代,並增加其中高價值內容的份額。Intel 宣稱,到 2025 年,將有 1 億台個人電腦採用 AI 技術,這幾乎佔整個個人電腦 TAM 的 30%。無論採用率如何,作為消費者,2024 年都是值得期待的一年。
參考資料
- 1 2312.11514.pdf(arxiv.org)
- 2 PC World 關於 Kinara 和 Halo 的文章
- www.micron.com/AI