Eric Booth 90 歲高齡的祖母來拜訪他時,她的聽力已惡化到即使戴著助聽器,也難以聽清楚別人在說什麼。Eric 看到祖母傾身靠近說話者,並試著讀他們的唇語,費力想要理解對方的說話內容。說話者不止一人時,她往往會跟不上交談內容。
然後,身為美光雲端資深業務發展經理的 Eric 突然靈光一閃。他的祖母不是隨身帶著智慧型手機嗎?何不讓手機幫祖母「聽」呢? 於是他開啟祖母手機上的筆記應用程式,按了麥克風按鈕,接著給祖母看這個應用程式如何將他說的話轉成文字,顯示在螢幕上。
Eric 說:「祖母簡直如獲至寶,笑得合不攏嘴。現在她能夠參與過去無法參與的對話。這就是科技如何為有言語、語言和聽力障礙的人真正改善生活品質的方式。」
將語音內容轉成文字的技術或許看似簡單且容易被輕忽,但卻是一個複雜的發展過程,歷經了數十年才達到今日的水準。
進展快速的技術
自第一部語音識別裝置 Audrey 問世以來,經過了一段漫長時間。貝爾實驗室(Bell Laboratories)於 1962 年推出 Audrey。這部六英尺高的電腦只能理解個位數字,它無法產生文字,而是透過閃爍燈光來對應所說的數字,例如,聽到「九」這個字,會閃爍燈光九次。
即便在幾年前,語音識別技術也還不是非常方便使用:經常不準確,即使是最輕微的環境音也無法過濾掉,轉寫速度慢。語音識別技術歷經漫長的發展過程,才真正發揮實用性。
如今,語音識別隨著 AI、虛擬助理技術、5G 行動網路技術,以及記憶體、儲存裝置與電腦處理等技術的進步,而得以實現。這使我們能夠做以往做不到的事:以我們完全不會說的語言進行溝通;幾乎立即能謄寫長時間錄音的內容;對著空氣說話,就能訂購我們想要的任何東西,並宅配到家門口。
現在,更有生成式 AI 進一步提升這項技術。語音識別會聽取音訊,再將音訊解析成文字,而生成式 AI 則會處理這些文字內容,以真正理解其含義。不只是停留在這些字是什麼?而是這些字代表什麼意思? 這些字是否在提問? 如果是,那麼答案是什麼?
此類型的機器學習能夠根據使用者的提示或對話,形成文字、視訊、影像、電腦程式碼和其他內容。將生成式 AI 應用於語音識別,可將機器學習提升至全新境界,進而為語音識別技術開創各種可能性,進一步幫助有言語或聽力障礙的人。
靈活的語音識別能擷取可能不符合正常說話模式的語言,而生成式 AI 和自然語言處理(NLP)則能理解並轉化為相關建議。此流程有助於實現全面高度個人化的語言治療。
Eric 的女兒接受過語言治療,因此他親身了解其中必須投入的時間和精力。這些親身經驗激勵他攻讀愛達荷州博伊西州立大學博士課程,研究該技術可以如何幫助有語言障礙的孩童。
Eric 解釋道:「進行語言治療時,我們過去認為是由治療師為學生提供閱讀內容,然後使用一套工具對學生的發音與清晰發音程度進行評分。但是有了生成式 AI,將可望有一套能夠處理上述整個過程的工具。生成式 AI 擅長識別模式,所以能夠辨別學生是否一直發錯音,例如是否持續發錯單字中 O 的音。」
大型語言模型
直到最近不久前,語音識別仍需仰賴一個配備大量記憶體的大型伺服器,而且收集到的所有資料都必須儲存至雲端。而現在,語音識別已內建在您的手機當中。運算速度變得更快,記憶體速度也提升,以前需要資料中心處理的程序現在即可在您的手機上執行。
很快地,生成式 AI 處理程序也將在您的手機或其他端點裝置上進行。AI 模型的訓練流程不僅僅是為了建立更複雜的模型,更是為了簡化這些模型,使模型能夠在您的手機或個人電腦等端點裝置上執行。隨著這些大型語言模型日益增長,進行模型訓練時便離不開雲端環境。但只要將模型訓練好,然後進行簡化,模型就能移至端點裝置。
在過去幾年期間,大型語言模型已有巨大進展。
Eric 表示:「這些模型正是生成式 AI 聊天機器人以及進階搜尋功能發展的關鍵。大型語言模型內含數兆個參數。就在幾年前,一兆個參數還是令人難以想像的——根本無法處理如此多的參數。如今,一兆個參數卻只是基本底線。當然,模型越大,智慧程度就越高,而這正是推動運算與記憶體需求的因素。」
自然語言處理和生成式 AI 都需要仰賴紮實穩健的大型語言模型訓練,而參數越多,所需要的記憶體容量就越多(詳見圖 1)。
為了應對這些不斷擴大的模型,遷移學習日益蔚為風潮。此概念是在某個特定情境中用大量資料訓練模型,然後用較小的資料集針對另一個情境微調該模型中的參數。假設大型資料集是成人說話內容,較小資料集則是孩童說話內容。遷移學習會為您提供能準確理解兩種說話內容的模型。如果您嘗試訓練一個大多為成人說話內容的模型,但摻雜了一點孩童說話內容,那麼準確性就不會那麼高。先在一個情境中用紮實穩健的資料集來訓練模型,然後將模型移至另一個情境中,再用較少的資料進行微調,這種雙管齊下的訓練方式會產生絕佳成效。Eric 在他的論文《評估並改善針對孩童的自動語音識別技術》中,記錄了許多這方面的進展。
預訓練神經網路也依循相同的概念。(ChatGPT™ 中的「P」即代表預訓練。) 也就是用一個任務或資料集來訓練模型,然後使用這些參數來訓練不同任務或資料集的模型。以 ChatGPT 為例,此模型已透過大量來自網際網路的對話資料進行預訓練,所以能夠回答一般提問,也會依據接收的提示所提供的更多情境,應對目前的交談。這使得模型在開始時即具備優勢,而非從零開始摸索。現在您擁有一個用少量資料訓練的紮實穩健模型。
如今,許多 AI 研究人員都著重於鑽研生成式 AI。這不僅僅是因為 ChatGPT 引發熱潮,還因為在醫療保健和其他產業具有無窮應用潛力。
幫助最需要幫助的人
根據美國言語-語言-聽力協會的統計,美國有超過一百萬名孩童因有言語和語言障礙而在學校接受專業協助。整體而言,8% 的孩童具有語言發展遲緩或障礙,Eric 如此表示。
他說:「不可能像是直接到露天市場,為孩子買一個語言治療技術套件。這種情況根本不存在。」 他表示,確實需要此技術,尤其對於低收入戶孩童而言。Eric 說道,對孩童進行評估至少需要兩小時,但政府補助計畫只支付 30 分鐘的費用。
「許多會佔用治療師時間的事情可以由電腦代勞,讓治療師得以空出時間,進行更多的長遠規劃以及更多的集中療程」,他說道。
根據學習障礙資源基金會的看法,有閱讀障礙等學習障礙的孩童也可以受惠於口說轉文字。如同巧妙利用談話轉文字技術,幫助 Eric 的祖母加入對話中,這種基礎 AI 技術還有許多未被發掘且未想像到的使用案例。
促進發展生成式 AI 和語音識別
如今,美光持續開發密度更高、速度更快的記憶體與儲存裝置,如此一來就越來越能直接在個人手機上執行語言處理,而不必依賴雲端,進而節省資料傳輸時間。
為了助這些端點裝置一臂之力,美光的低功耗雙倍資料速率 5X(LPDDR5X)記憶體能讓功耗效率和效能達到平衡,打造順暢的使用者體驗。LPDDR5X 實現最快速、最先進的行動記憶體,峰值速度可達每秒 8.533 GB(Gbps),速度比前一代快 33%。要隨時隨地(確實)擁有強大的生成式 AI,LPDDR5X 的速度和頻寬是不可或缺的。
憑藉生成式 AI,語音識別的運作速度和準確性越來越接近人類大腦。不過,要實現此目標,前方仍有重重阻礙,尤其是在處理孩童說話內容和腔調方面,以及對於有聽力或語言障礙的人而言。如同 Eric 正在進行的專案,這些專案計畫可以真正改變生成式 AI 技術豐富所有人生活的方式。
而生成式 AI 正使用深度學習技術,從語音中產生越來越自然、更像人類語言的文字。過去,AI 模型擅長擷取大量資料、識別模式,並根據診斷觀點指出根本原因。如今,生成式 AI 則會「閱讀」文字,並使用這些資料從人類交流中進行情境推論。這在本質上就是自我「訓練」。為此,生成式 AI 需要可存取並有能力一次性吸收大量的資料,以便從廣大的記憶體儲存區中取得資料,確定適當的回應。美光技術正努力使這些進步成為可能。
美光的高密度 DDR5 DRAM 模組和數 TB SSD 儲存裝置提供在資料中心訓練生成式 AI 所需的速度和容量。新推出的 HBM3E 更進一步提升效能,容量增加 50% 以上,頻寬傳輸速度每秒超過 1.2 TB,可將數兆個參數 AI 模型的訓練時間縮短超過 30%。隨著這些技術變得更快速且更準確,越來越多人能夠「說話」且被聽到。
Eric 預測:「在不久的將來,我們將會看到生成式 AI 和語音識別技術在效能方面有顛覆性的躍升。能看到這項技術豐富眾人的生活,我覺得真的很酷。」