設計工具
公司

使用基因組定序進行個人化醫學

Micron Technology | 2019 年 9 月

激發科學和醫學的下一代發現

資料密集型應用的一些最大成功案例來自生命科學領域,其中大規模資料分析方面的創新促進了人類基因組計畫。國際研究人員花費 13 年時間和 27 億美元,並利用一系列超級電腦,對人類基因組中所有 30 億個鹼基對進行定序。2003 年 4 月,他們完成人類常見 DNA 圖譜的繪製,使其成為當時最大的大數據計畫。

這項驚人的成就開創了醫療保健的新領域——精準醫療。基因組定序事業持續推動更快、更簡單、更廉價技術的發展,這些技術被用於編譯、儲存、共享、移動和分析海量資料,以挖掘其中的知識寶藏。

而那是怎樣的知識寶藏!在精準醫療領域,醫生和科學家根據患者的基因組、生活方式和環境,為其量身定制醫療計畫和治療方案,力求終結癌症負擔,或至少「終結我們今天所知的癌症」。

資料密集型精準醫療

精準醫療又稱個人化醫療,在很大程度上依賴於人工智慧或機器學習算法,是一個對資料需求量巨大的行業。一個人的基因組的 30 億個鹼基對完全定序後,將佔用約 6 GB 的儲存空間。透過超取樣或覆蓋(對 DNA 的同一位置進行多次處理,以提高準確性),處理過程將使這些資料集增加 30 到 35 倍,在某些應用中,資料可增加 800 倍。現在,樣本已經增加到 200 GB,定序過程中的中間資料處理可能使其增加到 700 GB。而這只是單個患者!

OmniTier 是一家專注於記憶體、特定應用、高效能資料產品的開發商,該公司的聯合創始人暨執行長 Hemant Thapar 說:「目前正在發生從基因面板到全外顯子定序再到全基因組定序的轉變。當你朝這個方向發展時,你需要處理的資料量會變得非常大。」 但潛力也很大:隨著更多基因變異的發現——如個體基因組中的點替換、插入、缺失和結構變異——個人化醫療將蓬勃發展。

這種以資料為中心且依賴資料的現代應用的爆炸式增長需要新的記憶體和儲存裝置技術、介面和軟體棧。例如,研究人員正在努力讓全基因組定序惠及更多患者,以便進行更廣泛的研發。Thapar 說:「這裡的關鍵點是,大眾市場不能依賴超級運算。對於像醫療保健這樣的大眾市場,你必須找到效率極高的方法分析資料集。這就是 OmniTier 將其作為重點的原因:我們如何才能支援這項精準醫療計劃?」

分層記憶體和現用伺服器

OmniTier 已宣佈並正在測試其 CompStor Novos®,這是一種以記憶體為中心的電腦叢集解決方案,適用於使用「de novo」組裝技術的完整 DNA 定序。De novo 是指從頭開始進行完整基因組定序。定序(組裝多個 DNA 片段以模擬較長序列)是 DNA 分析的前期步驟之一。標準方法遵循 DNA 模板,通常為上述人類基因組序列。但這種方法往往會掩蓋患者個人基因組中存在變異的地方,而這正是預測性醫學研究的關鍵資料。由於從頭定序不使用模板,因此在檢測結構變異方面特別有用。

該公司還為生命科學開發了一種硬體-軟體解決方案,克服了記憶體瓶頸重重的現今運算模式的侷限性。這些瓶頸導致應用程式效能低下、伺服器功耗增加和空間需求增大。這些問題和其他低效因素增加了成本,而成本是系統大規模可用性的主要障礙。

Omnitier 定序圖的影像 OmniTier 定序部署在 VMware 雲端,無論是資料中心或本地

取而代之的 CompStor 組裝實施採用 OmniTier 獨特的專有分層記憶體算法。該解決方案透過安排實施,避免將所有資訊視為具有同等的時間關鍵性,從而幫助研究人員提高速度和效率,並允許他們以不同的速度存取資訊。

OmniTier 的新型算法和資料流可最佳化每個資料中心伺服器的多執行緒流。CompStor Novos 使用由兩層記憶體組成的子系統,實現了與 DRAM 大容量記憶體子系統相當的效能:DRAM 和(更經濟實惠、容量更大的)NAND 快閃記憶體 NVMe™ 固態硬碟 (SSD)。OmniTier 正在與美光直接合作,探索潛在的合作機會,並獲得了美光企業創投的投資,以幫助從新的運算架構以及應用 AI 和機器學習解決方案中創造價值。

此 Novos 組裝比現有組裝算法更精確,速度快 10 到 20 倍。實驗還表明,在某些應用中,與單純使用主機 CPU 相比,使用 OmniTier 算法和裝置可以將能耗降低多達三倍。Thapar 說:「相較於標準組裝程式,研究人員現在只需花費很少的時間和成本,就能對生物體進行從頭基因組組裝。縮短突變 DNA 和疾病的診斷時間,可以使患者和醫療從業人員受益。」

與超級電腦一樣快

速度有多快? 人類基因組計畫在超級電腦上耗時 13 年。OmniTier 的 CompStor 組裝解決方案可將基因組定序縮短至約 8 分鐘,並使用商業現貨 (COTS) 伺服器,配備由 DRAM 和 NVMe SSD 組成的分層記憶體,以及跨越不同記憶體類型的專有算法和資料流。

在對 8 個 CompStor 組裝伺服器節點上的短讀、新一代定序資料進行比較測試時,在 COTS 伺服器上運行的人類基因組從頭組裝時間相當於以前使用先進超級電腦所需的組裝時間。

加速精準醫療

精準醫療的目標是幫助醫療專業人員更好地治療疾病,改善患者預後。面向大眾的基因組定序解決方案必須經濟實惠、可擴充,並可部署在本地或雲端。這一解決方案的成功取決於記憶體。Thapar 說:「我們正在使用硬體解決方案,但我們真正從記憶體的角度出發看待問題。我們正在利用我們在固態硬碟、傳統硬碟或其他替代技術等不同記憶體技術方面的知識來解決這些特殊問題。」

醫療保健和生命科學資訊學需要高效能,尤其當神經網絡必須處理多組學模型時,例如對照檢索基因組學、環境和生活方式的龐大資料集,以確定具有最佳效果的個人化治療。Thapar 說:「透過以低成本提供接近超級運算的效能,我們讓那些疲於應對診斷和治療的患者以及幫助他們的研究人員更容易獲得全基因組定序。」

在系統中對記憶體進行分層以提高效能效率,是美光記憶體和儲存解決方案用於促進精準醫療的一種方式。請訪問 Micron.com/Insight,瞭解美光如何另闢蹊徑,改變世界使用資訊的方式以豐富生活樣貌。