計算機將症狀與疾病聯繫起來的能力有多強?

掌橋科研 發佈 2020-01-10T08:31:51+00:00

麻省理工學院的一項新研究發現,「健康知識圖表」顯示症狀和疾病之間的關係,旨在幫助臨床診斷,但對於某些情況和患者群體來說可能會有所欠缺。


麻省理工學院的一項新研究發現,「健康知識圖表」顯示症狀和疾病之間的關係,旨在幫助臨床診斷,但對於某些情況和患者群體來說可能會有所欠缺。結果還提出了提高他們表現的方法。

健康知識圖表通常由專業臨床醫生手工編制,但這可能是一個費力的過程。最近,研究人員嘗試從患者數據中自動生成這些知識圖表。麻省理工學院團隊一直在研究這些圖表在不同疾病和患者群體中的支持程度。

在2020年太平洋生物計算研討會上發表的一篇論文中,研究人員評估了基於真實數據集自動生成的健康知識圖表,該數據集包括270,000多名患有近200種疾病和770多種症狀的患者。

該小組分析了各種模型如何使用電子健康記錄(EHR)數據,包括患者的醫療和治療史,來自動「學習」疾病症狀相關的模式。他們發現,對於老年或年輕患者比例高,或男性或女性患者比例高的疾病,模型表現尤其差——但是為正確的模型選擇正確的數據,並進行其他修改,可以提高性能。

這個想法是在使用電子健康記錄構建健康知識圖表時,就數據集大小、模型規範和性能之間的關係為研究人員提供指導。這可能會帶來更好的工具來幫助醫生和患者做出醫療決策,或者尋找疾病和症狀之間的新關係。

「在過去的10年里,EHR在醫院的使用率飛速上升,所以我們希望挖掘出大量的數據來學習這些疾病症狀關係的圖表,」第一作者艾琳·陳說,她是EECS電氣工程和計算機科學系的研究生。「我們必須仔細檢查這些圖表,以便將其用作診斷工具的第一步。」

麻省理工學院計算機科學和人工智慧實驗室(CSAIL)的研究生莫尼卡·阿格拉瓦爾也加入了陳的討論;貝絲·伊斯雷爾女執事醫療中心(BIDMC)的史蒂文·霍恩;和EECS教授大衛·桑塔格,他是CSAIL和醫學工程與科學研究所的成員,也是臨床機器學習小組的組長。

病人和疾病

在健康知識圖表中,有數百個節點,每個節點代表不同的疾病和症狀。邊緣(線條)將疾病節點(如「糖尿病」)與相關症狀節點(如「過度口渴」)連接起來眾所周知,谷歌在2015年推出了自己的版本,該版本由幾名臨床醫生在數百小時內手工策劃,被認為是黃金標準。當你現在搜索一種疾病時,系統會顯示相關症狀。

在2017年自然科學報告論文、桑塔格、霍恩和其他研究人員在他們當前的研究中利用了來自同樣270,000名患者的數據——這些數據來自2008年至2013年間BIDMC的急診科——來構建健康知識圖表。他們使用三種模型結構來生成圖表,稱為邏輯回歸、樸素貝葉斯和噪聲或。利用谷歌提供的數據,研究人員將他們自動生成的健康知識圖與谷歌健康知識圖進行了比較。研究人員的圖表表現非常好。

在他們的新工作中,研究人員進行了嚴格的誤差分析,以確定模型對哪些特定病人和疾病表現不佳。此外,他們嘗試從急診室之外用更多的數據來擴充模型。

在一項測試中,他們將數據分解成疾病和症狀的亞群。對於每一個模型,他們研究了疾病和所有可能症狀之間的聯繫,並與GHKG進行了比較。在這篇論文中,他們將這些發現分為50種表現最差的疾病和50種表現最好的疾病。表現不佳的例子有多囊卵巢綜合徵(影響女性)、過敏性哮喘(非常罕見)和攝護腺癌(主要影響老年男性)。高績效者是更常見的疾病和病症,如心律不齊和足底筋膜炎,即足部組織腫脹。

他們發現,對於幾乎所有的疾病和病人來說,噪聲或模型是最強有力的總體誤差模型。但是對於患有多種並存疾病和並存症狀的患者,以及非常年輕或85歲以上的患者,所有模型的準確性都有所下降。任何性別比例很高或很低的患者群體的表現也會受到影響。

研究人員假設,本質上,不良表現是由具有異常預測能力的患者和疾病以及潛在的無法測量的混雜因素造成的。例如,老年患者比年輕患者更容易進入疾病和相關症狀較多的醫院。陳說,這意味著模型很難將特定疾病與特定症狀聯繫起來。「同樣,」她補充道,「年輕患者沒有太多的疾病或症狀,如果他們有罕見的疾病或症狀,就不會以模型理解的正常方式出現。」

拆分數據

研究人員還收集了更多的患者數據,並創建了三個不同粒度的不同數據集,看看這是否能提高性能。對於原始分析中使用的270,000次訪問,研究人員提取了140,804名獨特患者的完整EHR病史,追溯到十年前,共有來自不同來源的大約740萬份注釋,例如醫生筆記。

數據集創建過程中的選擇也會影響模型性能。其中一個數據集將140,400個病歷中的每一個匯總為一個數據點。另一個數據集將740萬個注釋中的每一個視為單獨的數據點。最後一個為每個患者創建「發作」,定義為連續的一系列訪問,不間斷超過30天,總共產生大約140萬次發作。

直觀地說,將完整的患者歷史匯總到一個數據點的數據集應該會帶來更高的準確性,因為會考慮到整個患者歷史。然而,與直覺相反,這也導致樸素貝葉斯模型在某些疾病中表現更差。「你假設機器學習模式下,患者體內的信息越多越好。但是這些模型取決於你提供給它們的數據的粒度,」陳說。"你使用的模型類型可能會被淹沒."

正如預期的那樣,提供模型人口統計信息也是有效的。例如,模型可以使用這些信息排除所有男性患者,例如預測宮頸癌。老年患者更常見的某些疾病可以在年輕患者中消除。

但是,另一個令人驚訝的是,人口統計信息並沒有提高最成功的模型的性能,所以收集這些數據可能是不必要的。陳說,這很重要,因為在數據上編譯數據和訓練模型既昂貴又耗時。然而,根據模型的不同,使用大量數據實際上可能不會提高性能。

接下來,研究人員希望利用他們的發現建立一個健壯的模型,用於臨床應用。目前,健康知識圖表學習疾病和症狀之間的關係,但不能從症狀中直接預測疾病。「我們希望任何預測模型和醫學知識圖表都將接受壓力測試,這樣臨床醫生和機器學習研究人員可以自信地說,『我們相信這是一個有用的診斷工具。』」陳說。

關鍵字: