百度開放LinearFold算法,可將病毒RNA分析從55 分鐘縮短至27 秒

ai科技評論 發佈 2020-01-30T13:26:34+00:00

該算法使得整序列、整基因組的RNA 結構預測成為可能,也是 RNA 結構預測領域 40 年來第一次重大提速。而冠狀病毒的基因組又是所有 RNA 病毒里最長的,長達 3 萬個鹼基,最快的經典算法也需要 55 分鐘。

1月30日,百度研究院宣布,將向各基因檢測機構、防疫中心及全世界科學研究中心免費開放線性時間算法 LinearFold 以及世界上現有最快的 RNA 結構預測網站,以提升新型冠狀病毒RNA空間結構預測速度,從而助力疫情防控。據百度研究院科學家透露,LinearFold算法可將此次新型冠狀病毒的全基因組二級結構預測從55 分鐘縮短至27 秒,提速 120 倍,節省了兩個數量級的等待時間。


防控疫情,眾志成城。人工智慧技術正被應用到疫情防控中來。幾天前,百度宣布成立總規模3億元疫情及公共衛生安全攻堅專項基金,用於支持新型冠狀病毒等新疾病的治癒藥物篩選、研發等一系列抗擊疫情工作。同時提供人工智慧技術支持,配套億級計算資源,助力疾控機構、科研院所等研究單位進行研發提速。

本次可大大加快 RNA 結構預測速度的LinearFold算法,百度於2019年7月首次提出。該算法使得整序列、整基因組的 RNA 結構預測成為可能,也是 RNA 結構預測領域 40 年來第一次重大提速。這項工作發表於生物信息學頂級會議 ISMB 2019 和生物信息學權威雜誌 Bioinformatics,受到了諸多業內專家的高度評價。


針對此次新型冠狀病毒的基因組(長達 3 萬個鹼基),採用該算法,27秒就可以預測其結構。相較於經典算法,現在只需不到半分鐘就可以拿到病毒的結構資料,提升基因檢測、疫苗研發等科研中心的工作效率,讓病毒的研究及疫苗開發速度快速提升。

此次引起武漢肺炎的新型冠狀病毒(2019-nCoV)與「非典」病毒、愛滋病毒、伊波拉病毒、流感病毒一樣,都屬於RNA病毒,其單鏈結構導致病毒更容易變異、不易開發疫苗。與2003年的「非典」病毒相比,新型冠狀病毒同時具有潛伏期長的特點,並且其潛伏期仍具有較高傳染性,防控工作成為與「時間」賽跑的競速賽。

RNA 序列有豐富的空間結構,而這些結構能決定 RNA 的功能,進而幫助設計分子藥物和分子檢測儀。傳統上,RNA 二級結構預測需要三次方時間複雜度的算法,也就是說,如果序列長度翻一倍的話,就要付出 8 倍的計算時間,這對於 RNA 病毒基因組這樣的超長序列(例如愛滋病毒有約1萬個鹼基,伊波拉病毒有約2萬個鹼基)需要很長的等待時間。而冠狀病毒(包括非典病毒和這次的新冠病毒)的基因組又是所有 RNA 病毒里最長的,長達 3 萬個鹼基,最快的經典算法也需要 55 分鐘。百度LinearFold 算法僅需 27 秒就能解出新型冠狀病毒全基因組的 RNA 二級結構,對科學家深入了解武漢肺炎基因組的性質以及設計針對性藥物提供了有用信息。

與此同時,百度開放 LinearFold 網站給全世界科學家免費使用,較同類網站相比,在RNA 結構預測速度和序列長度方面,該網站都具有明顯優勢,在預測速度上無出其右,而且能處理的最長序列長度達 10 萬鹼基,能滿足對RNA病毒全基因組結構預測的要求。

新型冠狀病毒感染的肺炎疫情消息牽動著每個人的心,隨著抗擊行動的不斷深入,百度先後上線了百度APP「抗擊肺炎」頻道、「在線問醫生」服務免費通道、疫情相關關鍵詞新聞聚合頁面、開通闢謠專區、疫情實時大數據報告以及百度地圖「發熱門診地圖」等舉措,百度旗下多款等產品紛紛加入其中,全方位助力抗擊疫情。

如有需RNA結構預測算法和技術支持的科研單位、防疫部門等,可聯繫百度研究院黃亮博士 lianghuang@baidu.com。抗擊疫情,眾志成城,中國在行動!

關鍵字: