瑞典攝護腺AI研究成果登《柳葉刀·腫瘤》，可媲美23名病理學家？

由 ai掘金志發佈 2020-01-14T14:00:04+00:00

Google此前由於過於誇大AI效果，引來了圖靈獎得主YannLecun以及中美多位知名學者在社交媒體上的炮轟。近日，瑞典研究團隊發表在《柳葉刀腫瘤》雜誌上攝護腺癌AI輔助診斷研究論文正式公布。

該研究是新的一年繼Google乳腺癌AI論文之後，於頂刊登出的又一重要醫學AI成果。Google此前由於過於誇大AI效果，引來了圖靈獎得主Yann Lecun以及中美多位知名學者在社交媒體上的炮轟。那麼這篇研究成果又是什麼樣的呢？

近日，瑞典研究團隊發表在《柳葉刀腫瘤》雜誌上攝護腺癌AI輔助診斷研究論文正式公布。

當前，全球各地攝護腺活檢人數的增加與泌尿病理學家的短缺，為病理科帶來了巨大壓力。此外，攝護腺癌的高變異性也導致其高頻出現過度治療和治療不足的情況。

為了緩解這些問題，瑞典研究團隊開發了一種具有臨床上可接受準確性的人工智慧系統，用於攝護腺癌的檢測、定位和格里森分級（Gleason分級是一種被廣泛採用的攝護腺癌組織學分級的方法）。

據文章介紹，AI系統可以接受訓練以檢出攝護腺穿刺活檢樣本中的癌症並對其進行分級，在部分數據集上的特定問題診斷表現上優秀。

研究指出，人工智慧技術的使用，可以通過減少對良性活檢的評估，並通過自動化在陽性活組織檢查核心中測量癌症長度的任務，以及提供第二種意見，來減輕腫瘤學家的工作量。

卡羅林斯卡大學醫學流行病學系副教授Martin Eklund表示：「我們的AI工具可在某種程度上減少泌尿科病理學家的工作量，使他們能夠專注於最困難的病例。」

在2012年5月至2014年12月之間進行的基於瑞典前瞻性和人群的STHLM3診斷研究中，瑞典研究團隊從976名隨機選擇的年齡在50-69歲的參與者中數字化了6682張針核活檢切片，並從93名研究外的男性中數字化了271張切片。

隨後圖像被用來訓練用於評估攝護腺活檢的深層神經網絡。

通過預測來自STHLM3的246名男性1631例活檢，以及來自73名男性330例活檢的外部驗證數據集，獨立測試數據集的惡性組織存在、程度和Gleason分級，對這些網絡進行了評估。

此外還評估了來自國際泌尿病理學會23名經驗豐富的泌尿病理學家對87例活檢的分級表現。通過受試者的工作特徵和腫瘤範圍預測，將預測的腫瘤長度與報告的病理學家的測量值相關聯，來評估鑑別性能，並使用Cohen’s kappa對AI系統和泌尿病理學專家的評分一致性進行了量化。

其結果是，AI在接收器工作特性曲線下獲得了一個區域，該區域在0·997（95％CI 0·994–0·999）下可以區分獨立測試數據集上的良性（n = 910）和惡性（n = 721）活檢核心和外部驗證數據集上的0·986（0·972-0·996）（良性n = 108，惡性n = 222）。

由AI預測並由報告病理學家指定癌症長度之間的相關性對於獨立測試數據集為0·96（95％CI 0·95-0·97），對於獨立測試數據集為0·87（0·84-0·90）。外部驗證數據集，對於Gleason等級，AI的平均成對kappa為0·62，這在專家病理學家的相應值範圍內（0·60-0·73）。

瑞典團隊介紹到，從上述數據可以看出，用AI系統來檢測和分級攝護腺穿刺活檢樣品中的癌症，在部分場景中其等級可與攝護腺病理學專家相媲美。

臨床應用可以通過減少對良性活組織檢查的評估，以及自動化在陽性活檢核心中測量癌症長度的任務來減少病理學工作量。具有專家級評分性能的AI系統可能會產生第二種輔助決策意見，有助於標準化評分，並在世界部分地區提供病理學專業知識。

該研究也是近期繼Google乳腺癌AI論文之後，學術界發表的第二個重要的醫學AI成果。

1月2日，Google Health聯合多個機構在《Nature》雜誌上發表了一篇論文，介紹了一種新型的深度學習鉬靶影像系統。根據Google的說法，這個系統與之前的模型相比，該模型有效減少了乳腺癌被錯誤識別或遺漏的情況，將乳腺癌檢測的假陽性率降低了5.7%，假陰性率也降低了9.4%，並號稱擊敗了6名全日制的放射科醫生。

Google對該成果過於誇大的公關措辭，隨之引來了圖靈獎得主Yann Lecun以及中美多位知名學者在社交媒體上的炮轟。