科研人員提出微生物組數據挖掘新方法tmap

中科院之聲 發佈 2020-01-22T06:54:59+00:00

近日,中國科學院深圳先進技術研究院合成生物學研究所趙國屏課題組在微生物組學數據挖掘領域取得新突破,相關論文tmap:an integrative framework based on topological data analysis for population-scale m

近日,中國科學院深圳先進技術研究院合成生物學研究所趙國屏課題組(周豪魁為通訊作者,廖天華為第一作者)在微生物組學數據挖掘領域取得新突破,相關論文tmap: an integrative framework based on topological data analysis for population-scale microbiome stratification and association studies(《tmap微生物組大數據挖掘方法開發——基於拓撲學數據分析的人群分層及宿主表型關聯分析》)在線發表在期刊Genome Biology上。

隨著高通量多組學技術的發展,傳統的數據分析方法難以在日益複雜、規模龐大的微生物組數據中挖掘出有效可靠的信息,在數據集龐大、樣本之間存在各種複雜差異性,微生物組和宿主表型特徵之間存在的細微關聯可能是研究目的所在,但是極易被掩蓋掉。這是對數據分析工作的挑戰,也對開發創新性分析方法提出迫切需求。

本課題組結合mapper算法和網絡富集分析,開發基於拓撲學數據分析(topological data analysis, TDA)的tmap軟體,提供了整合大規模人群微生物組數據的分析框架。tmap將不同國家地區、不同疾病類型和不同宿主表型的人群微生物組大數據加以整合,融合不同來源的微生物組及其宿主表型的醫療健康大數據,是目前微生物組數據共享和整合的創新性方法。這對大規模人群隊列的數據分析而言,不僅歸納總結了數據隱含的規律,也對科學假設的提出,科學問題的提煉有很大幫助。

本研究中tmap的大致工作流程是將高維微生物組數據轉化為拓撲學網絡結構,並用於微生物組人群分層及相關性分析。通過Mapper算法及網絡分析,tmap利用樣本的微生物組數據構建TDA網絡結構,並通過SAFE score量化了樣本表型或者物種在一簇樣本中的富集程度。基於SAFE score可以實現以下3個分析目的:一是Ranking,即對每個表型或物種的SAFE score之和排序,其含義與linear regression中的effective size類似,但是對線性及非線性的關聯都可以較好地識別;二是Ordination,對SAFE score做PCA,目的為展示一個整體富集規律(overall enrichment pattern)不僅可以識別對微生物組變化貢獻最大的物種或表型,也可以了解哪些表型或物種的聯繫比較緊密;三是Co-enrichment network,這裡的網絡基於物種及表型關聯的顯著性構建,用於探索其生物學意義上的關聯或者混雜因素(confounder),需要以研究目的和意義為導向。

另外,本研究通過對4個數據集(包括1個合成數據和3個真實世界數據)對tmap方法加以驗證,結果表明與傳統的線性方法(如envfit,adonis, ADONISM)相比,tmap都表現更好,對非線性關聯及潛在規律都有較好的識別。以比利時隊列FGFP為例:2016年發表在Science,研究內容為健康正常人群的腸道微生物組。研究納入了1106個糞便16S rRNA樣本,及樣本的69個宿主表型特徵,包括了7個metadata類別:社會人口學特徵,生活方式,血液指標,健康狀況,飲食習慣,腸道健康狀況及病史用藥情況。文章表明,僅有7.63%的微生物組改變與宿主表型的變化有關。tmap提高了識別並解讀population-scale的微生物組-宿主表型關聯的能力。如下所示tmap不僅可以較好地復現envfit這種基於線性回歸的方法,也在對非線性變化的捕捉上,比envfit更加靈敏。通過對FGFP數據轉化的SAFE score分析,可以得到許多原始文章中沒有挖掘到的規律和線索。如下所示,比如兩種藥物雖然與同一種疾病相關聯,但其對微生物組的影響是不同的,具體表現為在網絡圖上的富集部位不一樣。這都是傳統線性分析難以得到的。

總的來說,tmap有助於將不同國家地區、不同疾病類型、不同宿主表型的人群微生物組大數據加以整合,對人群做精細分層,為特異性的干預性治療、數據來源多樣化的meta分析等研究提供了有效線索。有效融合不同來源的微生物組及其宿主的醫療健康大數據,是實現微生物組數據共享和整合的創新性方向。其次,tmap不僅可以勝任傳統線性研究對線性關係的刻畫,也對非線性關聯靈敏,優於傳統分析方法。且基於微生物組網絡地圖,可以挖掘基於微生物組變化背景的宿主表型關聯,使表型之間的關係不會與微生物組變化割裂開來。最後,了解不同宿主表型在網絡圖上的分布,捕捉變量之間聯繫及變量自身的重要性排序,對大規模人群隊列的數據分析,不僅歸納總結了現有數據規律,也對科學假設的提出,科學問題的提煉有很大幫助。

本研究工作得到深圳市科技計劃基金支持。

tmap的大致工作流程:將高維微生物組數據轉化為拓撲學網絡結構,並用於微生物組人群分層及相關性分析。

以比利時隊列為例,左圖為關聯微生物組特徵與宿主表型,對宿主表型進行排序。並與傳統envfit方法比較。右圖表現了tmap對線性及非線性關聯均有良好的捕捉。

以比利時隊列為例,對疾病和用藥的共富集分析。左圖為關聯微生物組特徵與宿主表型,對宿主表型進行排序。並與傳統envfit方法比較。右圖表現了tmap對線性及非線性關聯均有良好的捕捉。

來源中國科學院深圳先進技術研究院

關鍵字: