華大基因牽手華為雲,雲端解密基因奧秘

砍柴網 發佈 2020-01-02T06:48:48+00:00

POSIX功能可將OBS直接掛載至測序分析平台,平台可直接寫入分析數據,華為雲內網傳輸,大帶寬讓客戶獲取數據後可直接開展分析,提供多種配套工具,適配Windows/Linux作業系統、工具一鍵式完成子帳戶數據訪問權限配置;上傳下載提供MD5校驗、保證數據的安全可靠。

「我就是那個統計學上渺小到無關緊要、但沒人可以抹去的1%。」這句出自《Gattaca》的經典台詞讓無數影迷淚目。

《Gattaca》電影海報

這部22年前上映的科幻電影,講述了這樣一個故事:不久的未來,科技的力量勝於一切,基因決定著命運,有基因缺陷的主人公追逐夢想的故事。雖然人和人基因組序列的差異不到1%,但人類的外貌、性格和疾病等正是由這1%的基因差異導致的。雖然電影中探討的基因決定論目前仍是生物學界辯論的主題,但對於基因的「測定」與「解讀」是近些年生命科學領域最熱門的一項研究。

實際上,人類對於生命科學的熱情從20世紀中葉就已經開始。1990年,「人類基因組計劃」的提出標誌著生命科學進入了一個新紀元,而電影所設定的那個「未來」,如今卻已然近在咫尺。

人類基因組計劃的決心不亞於「把人送上月球」,但它是一項跨國跨學科的複雜工程。上個世紀90年代,幾位科學家代表中國承擔了人類基因組計劃的1%工作,而中國也成為了「人類基因組計劃」的第六個參與國。1999年,他們成立了中國第一家基因組學研發機構——華大基因。

2019年,是中國參與「人類基因組計劃」20周年,也是華大基因成立的20周年。

解讀「生命奧妙」征程中的困惑

華大基因秉承「基因科技造福人類」的願景,以推動生命科學研究進展、生命大數據應用和提高全球醫療健康水平為出發點,基於基因領域研究成果及精準檢測技術在民生健康方面的應用,致力於加速科技創新,減少出生缺陷,加強腫瘤防控,抑制重大疾病對人類的危害,實現精準治癒感染,全面助力精準醫學。

如今的基因測序已經走入了尋常百姓家,技術的力量讓測序的時長不斷壓縮、價格也越來越親民。然而,在基因測序的流程中,需要龐大的算力支持。從某種意義上說,生命科學的研究競賽,很多時候已經演變成一場算力的比拼,甚至如今已經普及應用的產前檢測,腫瘤檢測等醫療檢測的背後也是大量的算力支持。基因測序對算力的需求更大,且往往是波動的,一段時間的消耗量大而一段時間又變小。同時,對於不同生物的基因組,需要的算力也不同,傳統的數據中心計算集群無法滿足快速的擴縮容。

具體到華大基因,過去計算資源比較緊張,在使用峰值時,任務經常需要排隊等候;同時科技服務有很多複雜基因組,客戶需要藉助不同規格的計算資源,所以,「上雲」成了華大基因的必經之路。

基因的「雲端」之旅

華大基因清晰地意識到,只有雲計算才能夠應對以上的種種挑戰。此後,經過反覆的調研和綜合細緻的考察,華大選擇了華為雲。

早在2018年,針對基因測序行業的困難與挑戰,華為雲推出了以Kubernetes為基礎的基因容器服務GCS(Gene Container Service)。據悉,GCS將基因測序和容器技術完美結合,是對基因企業來說「更省、更快、更輕鬆」的雲科學計算平台。

藉助於華為雲GCS服務,以及華為雲專門為華大基因的常用軟體進行了一系列優化,通過46人/天的駐場時間,60人/月的工程師遠程支持,15+新特性的研發…..雙方打通上雲流程,目前,雙方已完成超過300萬核時計算,平穩運行超過100天。此外,環境部署從原來的3-5天縮短為20分鐘; 應對業務的波動實現了資源的按需調度使用;高並發釋放2萬核資源池;靈活的彈性大大節約了成本。

GCS還提供了全自動化測序分析能力,其亮點體現在:

GCS提供了生物信息流設計器,再複雜的業務也可以編排到一個流程中,一鍵搞定測序任務;

針對國內生信人設計的流程控制語法,結構簡練、易懂,既滿足了流程編寫的易用性,同時也保證了流程遷移的方便性;

再次,用非常直觀的流程熱力圖的方式隨時了解測序進展,精確掌握資源消耗走勢,指導優化方向;

可根據判斷條件選擇執行分支,從而滿足企業複雜流程的管理的需要。

賦能基因行業,華為雲在路上

除了創新的華為雲GCS服務,針對基因行業的普遍痛點,華為雲打造了完整的基因測序解決方案,該方案基於「標準架構+持續創新」的思路,擁有諸多亮點。

華為雲基因行業解決方案全景圖/來源:華為雲官網

具體來說:

在數據收集階段,提供了多通道完成本地-雲和雲-雲間的數據交互,實現OBS最低0.033元/GB/月的低成本、可達4個9可用性、11個9持久性的3AZ特性,提供OBS-Browser、obsutil和SDK等多種配套工具,適配Windows/Linux作業系統,可與本地業務流無縫對接,基於公有雲內網交付一站式傳輸,多級防護,訪問隔離。

在測序分析階段,公有雲HPC可無縫移植本地IDC架構,提供高性能的計算實例和簡化存儲流程,GCS(基因容器服務)提供一鍵式生信分析平台,支持普通任務+GPU任務混合調度、支持Spark等加速軟體、支持OBS、SFS、EVS存儲的容器化掛載,流程設計器輕鬆可視化設計複雜流程、提供資源消耗熱力圖和標準流程或自定義流程, 提供秒級彈性伸縮能力、按需按秒計費、支持任務親和性調度,自動釋放閒置資源。

在數據交付階段,OBS提供了快速交付通道。POSIX功能可將OBS直接掛載至測序分析平台,平台可直接寫入分析數據,華為雲內網傳輸,大帶寬讓客戶獲取數據後可直接開展分析,提供多種配套工具,適配Windows/Linux作業系統、工具一鍵式完成子帳戶數據訪問權限配置;上傳下載提供MD5校驗、保證數據的安全可靠。

專注在底層技術上的持續創新、聯合頂尖企業共同建設整個基因技術生態決心。華為雲持續為基因行業賦能,為推動人類基因的藍圖實現打造了一個又一個鮮活的實踐案例。

寫在最後:未來已來

人類對1%的探索征途才剛剛開始。筆者相信,不遠的未來,解讀基因密碼,人類或許能夠找出生命的出路,讓科技造福人類。華為雲將為基因測序鋪好「上雲」的跑道,助力基因測序行業騰飛。

關鍵字: