登上Nature卻被打臉?LeCun對谷歌乳腺癌研究潑冷水

thu數據派 發佈 2020-01-07T05:08:35+00:00

轉載自:機器之心本文1827字,建議閱讀5分鐘。本文為谷歌研發的乳腺癌檢測深度學習模型擊敗了 6 名全日制放射科醫師。不久前,谷歌對於 AI 診斷乳腺癌的研究登上了 Nature 雜誌。這項研究獲得多方讚譽的同時遭到了 Yann LeCun 等研究者的批判。

轉載自:機器之心

本文1827字,建議閱讀5分鐘

本文為谷歌研發的乳腺癌檢測深度學習模型擊敗了 6 名全日制放射科醫師。

不久前,谷歌對於 AI 診斷乳腺癌的研究登上了 Nature 雜誌。這項研究獲得多方讚譽的同時遭到了 Yann LeCun 等研究者的批判。Yann LeCun 等表示說,NYU 有一項類似的研究,時間更早、效果更好。

醫療是 AI 技術涉足最深的領域之一,人們希望 AI 可以幫助醫生更早、更準確地診斷病情,目前正在研究的病種包括癌症、心腦血管疾病、眼部疾病等。早在 2017 年,谷歌的 DeepMind 就宣布開始向乳腺癌發起挑戰。

近日,谷歌宣布,這一項目取得了重大進展:谷歌研發的乳腺癌檢測深度學習模型擊敗了 6 名全日制放射科醫師。

研究的整體流程一覽。

谷歌這次公開的研究是一種新型的深度學習鉬靶影像系統(鉬靶篩查是乳腺癌篩查的「金標準」)。與之前的模型相比,該模型有效減少了乳腺癌被錯誤識別或遺漏的情況,將乳腺癌檢測的假陽性率降低了 5.7%,假陰性率也降低了 9.4%。

此外,該模型的泛化能力也非常強大。雖然訓練數據多為西方人,但卻可以廣泛應用於中國人群,這點在醫療 AI 模型中非常難能可貴。

由於表現出色,這一結果很快就登上了《Nature》,並引發了大量關注。

但與許多高調官宣的研究一樣,這項成果也未能逃脫被質疑的命運。在 Twitter 上,Yann LeCun 等幾位大佬已經就此問題吵得不可開交。


DeepMind 高調官宣,LeCun 潑冷水

人在新年,剛發 Nature。DeempMind 創始人、這篇論文的作者之一 Hassabis 心情好到飛起。在 DeepMind 推特帳號高調官宣之際,Hassabis 也發文力推,稱「這是新一年一個很棒的開始!」

但沒成想,一盆冷水很快就潑了過來。深度學習三巨頭之一的 Yann LeCun 表示,這篇論文取得的結果 NYU 團隊在之前已經做過了。

LeCun 表示,谷歌應當引用 NYU 的研究,因為這個研究效果還更好。LeCun 在評論中留下了開源地址。

對此,Hassabis 不以為然,他表示,「我們引用了這篇論文啊。LeCun 應該先讀了論文再發表憤怒的言論。」

LeCun 則表示自己第一次讀論文的時候看漏了引用。

誠然,這可能只是一次小的誤會。但是 LeCun 轉發了另一位研究者對這篇論文的評價,這就很耐人尋味了。

在這個評論中,Hardian Health 的管理總監,具有放射科醫學經驗和 AI 經驗的 Hugh Harvey 表示,去年的 NYU 論文具有更好的結果、更多的數據驗證、和更多的人類放射科醫生進行了對比,同時代碼和數據都是開源的。

Hugh Harvey 提到的這篇論文發表於去年 10 月份,該論文與谷歌的論文對比如下:

  • 谷歌的研究中涉及 6 位放射科醫生,NYU 的研究用到了 14 位;
  • 谷歌論文報告的 AUC 是 0.889(UK)和 0.8107(US),NYU 的 AUC 結果為 0.895。

因此,這位研究者斷言,谷歌只是 PR 能力更強罷了。

Yann LeCun 扒出來的 NYU 論文引起了一些研究者的注意。經過對比,不少研究者表示,谷歌的研究的確存在一些問題。

純屬 PR,不能復現?

對於谷歌和 DeepMind 論文中的乳腺癌檢測深度學習模型,專注於神經科學大數據分析的 Danilo Bzdok 教授發表了自己的意見。他認為訓練該模型所使用的代碼過多地依賴谷歌的內部工具、基礎設施和硬體,因此它是不可行的。

對於 Danilo Bzdok 的這種觀點,評論者也紛紛表示贊同。有人激進地表示,這篇論文就不應該發表出來。

也有人說,如果研究中使用的模型無法復現,則應該保密不予發表。谷歌公開論文是為實時收集用戶的健康數據奠定基礎,因為他們的軟體只能在自己的基礎設施上運行。除此之外,谷歌至少應該公開訓練過的模型。

另外,還有人表示自己只是將此看作一個未能兌現研究成果的科研項目罷了,谷歌要麼開源研究中使用到的工具,要麼使用那些公開可用的工具。換言之,一項研究理應提供能夠復現實驗的工具,否則就不能稱之為科研發現。

會讀片並不代表會看病

其實早在論文發出的第一時間,reddit 和 hackernews 等社交平台上就已經出現了相關的討論,放射科醫生也參與了進來。

一位放射科醫生表示,其實,乳腺癌的診斷是一個非常複雜的過程,不只是讀 X 光片那麼簡單。相比之下,讀 X 光片可能只是眾多診斷步驟中的第一步。

其次,就乳腺癌檢測而言,X 光檢查結果其實並沒有那麼準確,要想獲得準確的檢查結果,還要進行進一步的 B 超、核磁共振等檢查。

所以,綜合來看,深度學習在醫療篩查、診斷方面的準確性不斷提高是一件好事,也是醫生喜聞樂見的,但是「AI 戰勝/取代人類醫生」這種論調實在是不可取。

當下的醫療 AI 創業公司也多是宣稱可以輔助醫生,幫助醫生分擔一些工作,而由於泛化性能差、穩健性差、數據存在偏見、醫療儀器規格不一等種種問題的存在,「輔助」這一角色做好都尚且困難重重,「戰勝」、「取代」的說法更是無從談起。

  • 谷歌論文:https://www.nature.com/articles/s41586-019-1799-6
  • NYU 論文:https://ieeexplore.ieee.org/document/8861376
    —完—

關注清華-青島數據科學研究院官方微信公眾平台「 THU數據派 」及姊妹號「 數據派THU 」獲取更多講座福利及優質內容。

關鍵字: