剛過一天就被拆台?LeCun 公開質疑谷歌《Nature》的乳腺癌 AI 研究成果

ai掘金志 發佈 2020-01-04T11:19:10+00:00

在某些方面超過醫生,就真的能替代醫生嗎?編譯 | 李雨晨 2020年,醫療AI的第一個大新聞屬於谷歌。

在某些方面超過醫生,就真的能替代醫生嗎?

編譯 | 李雨晨

2020年,醫療AI的第一個大新聞屬於谷歌。

1月2日,Google Health聯合公司旗下DeepMind、倫敦大學學院、劍橋大學、英國吉爾福德皇家薩里郡醫院、初創公司Verily Life Sciences、斯坦福醫療中心、英國皇家馬斯登醫院等多個機構在《Nature》雜誌上發表了一篇論文,介紹了一種新型的深度學習鉬靶影像系統。

這個系統的核心亮點是,與之前的模型相比,該模型有效減少了乳腺癌被錯誤識別或遺漏的情況,將乳腺癌檢測的假陽性率降低了5.7%,假陰性率也降低了9.4%,並號稱擊敗了6名全日制的放射科醫生。

谷歌經常會在某些領域「超越」醫生。

在此之前,2017年,谷歌醫療AI在乳腺癌診斷中表現超過人類專業病理檢驗師。次年,谷歌發布一款針對晚期乳腺癌的人工智慧檢測系統,可以在99%的情況下正確區分轉移性癌症。

但是,昨天的這條消息熱度還沒持續48個小時,就有大牛站出來質疑。

LeCun在質疑什麼?

深度學習三巨頭之一的LeCun首先站了出來。

他糾結的一個點在於,谷歌這篇論文的結果,紐約大學的團隊在2019年10月就已經做過了。如果谷歌要發表這篇文章,就應該引用NYU的研究內容。

雷鋒網AI掘金志查看了一下LeCun的帳號,直到今天中午11點半,LeCun還在轉發帖子,看來對這件事有著一股深深的執念。

當然,這個事兒錯不在谷歌。

DeepMind的負責人Hassabis回復LeCun說,我們引用了這篇論文,LeCun 應該先看清結果再噴。後面LeCun也解釋了,這個確實沒看到。

不過,圍繞這篇論文的爭論卻沒有散去,有學者站出來公開支持LeCun,質疑這篇論文的實際價值。(後期,AI掘金志將對紐約大學的這篇論文進行編譯和解讀)

Hugh Harvey說到,雖然我們要向谷歌表示祝賀,但是不要忘了,去年紐約大學的團隊就取得了更好的結果,有更多的數據驗證,和更多的放射科醫生進行了對比。並且,紐約大學的代碼和數據都開源了。

上面的這些話都還算客氣,不過Hugh Harvey最後一句可就不留情面了:「只是紐約大學的學者們沒有PR團隊來引起公眾的注意罷了。

當然,有人反對,也就有人支持。

巴塞隆納大學機器學習和CV領域的教授Gabriel Oliveira就表示,如果我們不能訪問數據集或代碼,我們應該如何重現結果或驗證它?儘管如此,任何在幫助抗擊癌症方面取得的進展和付出的努力都是受歡迎的,所以祝賀谷歌這個團隊。

「敢說、敢懟」的批判者

2019年,LeCun與Hinton教授以及Bengio教授三人共同獲得了2019年圖靈獎,將共同拿到100萬美元的獎金。

雖然名譽加深,不過LeCun一直以來就是一個批判者,經常會公開發表不同的意見。

在去年ISSCC(國際固態電路會議)學術會議上發言時,這位「敢說、敢懟」的AI大牛就順便批判了英特爾神經形態計算實驗室主任Mike Davies在搞的神經形態計算,後面自然引起了一場「隔空對戰」。

不過,作為深度學習領域的領軍人物,對於人工智慧的未來,LeCun的措辭一向很謹慎,「AI離我們的目標還非常遠,還達不到我們想要的效果」。

所以,對於谷歌能夠擊敗擊敗了6名放射科醫生,相信LeCun也會有自己的看法。

準備率99%靠譜嗎

拆台「知名」醫療AI論文的現象一直存在。

2017年12月,吳恩達團隊就宣布,利用CNN算法識別肺炎的準確率上超越了人類專業醫師。緊接著,阿德萊德大學的放射科在讀博士Luke Oakden-Rayner就發表文章,質疑吳恩達團隊醫學影像數據集的可用性問題。

要知道,當時的ChestX-ray14 已經是最大的開放式胸透照片數據集,包含 14 種疾病的 10 萬張前視圖 X-ray 圖像。

為了證明自己的觀點,Luke Oakden-Rayner博士依次對「標籤的準確度」、「標籤的醫學意義」、「標籤對於圖像分析的重要性」等三個問題進行了論述。

除了數據集,AI如何能夠按照人類尤其是醫生的思維來得出結論,其實更加重要。史丹福大學皮膚科的 Novoa 博士也舉了一個例子討論過這個問題:

當皮膚科醫生查看一種可能是腫瘤的病變時,他們會藉助一把尺子——就是你在小學時用的那種——來準確測量它的大小。皮膚科醫生這樣做是為了查看病灶。因此,在一組活檢圖像中,如果圖像中有尺子,算法更可能將其判斷為惡性腫瘤,因為尺子的存在與病症癌變的可能性相關。

不幸的是,Novoa 強調,該算法不知道為什麼這種相關性是有道理的,所以很容易誤解為一把隨機的尺子是診斷癌症的根據。

而就在上文中,谷歌此前提到的「晚期乳腺癌的人工智慧檢測系統,可以在99%的情況下正確區分轉移性癌症」,也存有疑問。

我們要知道,計算機工程界常用的評價指標有兩個:

Accuracy (準確率):判斷正確的樣本數與總樣本數之間的比例。計算方法為,系統正確判斷為陽性與正確判斷為陰性的數量之和除以總樣本數量。

Precision (精確率):系統判斷為陽性的情況中正確的比例。計算方法為,系統正確的判斷為陽性的數量除以系統判斷為陽性的總數量。

Recall (召回率):等同於敏感度。

可以發現,準確率Accuracy和精確率Precision嚴重依賴於樣本總數裡陽性和陰性的配比,舉個極端的案例,設計一個系統,對於所有的輸入都報陽性,即敏感度為100%,特異度為0,這就是個沒有實際用處的系統,那麼此時取100個測試樣本中,99個為陽性,1個為陰性,此時計算出的準確率為99%,精確率也是99%。

因此,現實中,做出一個敏感度高特異度不高,或者反之的系統是很容易的,可以輕鬆的調整測試樣本的陽性陰性比例來優化其準確率和精確率值。

醫學是講證據的學科,如何證明一項臨床成果的先進性,實用性和穩定性,需要工程團隊給出充分的理由。就「擊敗醫生」這件事而言,在目前看來還很遙遠。「窺一斑而見全豹」這樣的方式,並不適用於以「循證」為特徵的醫學領域。

數據集、思維方式、評價指標,這些都是醫療AI繞不開的問題。

所以,以後對於類似的「準確率超過99%」、「超過醫生水平」的話術,我們看看就好。畢竟,AI想要達到或者超過醫生的水平,還有很多事情要做。

關鍵字: