神經網絡可解釋性、深度學習新方法!2020年有哪些研究趨勢?

thu數據派 發佈 2020-01-06T23:53:06+00:00

來源:AI科技評論本文約7000字,建議閱讀10+分鐘從AI科技頂會看2020年該研究什麼。

來源:AI科技評論

本文約7000字,建議閱讀10+分鐘

從AI科技頂會看2020年該研究什麼。

作為 2019 年最後一場重量級的人工智慧國際學術頂會,NeurIPS 2019 所反映出的一些人工智慧研究趨勢,例如神經網絡可解釋性、深度學習新方法、神經科學等等,想必對於大家在新的一年開展研究工作,具有一定的借鑑和參考價值。

NeurIPS 2019 共舉辦 51 場研討會,接收了 1,428 篇論文,以及有超過 13,000 名參會者,可謂萬眾矚目。

來自英偉達的工程師小姐姐 Chip Huyen 基於自己的參會體驗,較為全面地總結了 NeurIPS 2019 反映的關鍵研究趨勢。

下面我們一一來看:

一、 解構深度學習的黑盒

最近,研究人員對深度學習的局限性進行了大量的反思,以下為幾個例子:

Facebook 的人工智慧總監表達了對算力達到瓶頸的擔憂。人工智慧企業不應該僅僅寄希望於通過更大的深度學習系統來不斷取得進步,因為「現在,一個實驗可能要花費七位數的金錢,但現實情況不會讓這一數字增長到九位數或十位數,因為沒人負擔得起這樣的開銷」。

Yoshua Bengio 指出以 Gary Marcus 為代表的一些人經常強調深度學習的局限性,他將 Gary Marcus 的觀點總結為「你們看,我就說深度學習不行吧」,而 Gary Marcus 後來則反駁了這種說法。

針對這一趨勢,Yann Lecun 談到:「我不明白,為什麼突然之間,我們看到了許多新聞和推特聲稱人工智慧的進步正在放緩,或稱深度學習正在碰壁。在過去的五年中,我幾乎在每一次演講上都會指出這兩個局限和挑戰。所以,認識到這些局限性並不是什麼新鮮事。而且,實際上人工智慧的發展並沒有慢下來」

在這種大環境下,我們很高興看到探究深度學習背後的理論(深度學習為何有效?它是如何工作的?)的論文的數量迎來了爆炸式增長。

在今年的 NeurIPS 上,有 31 篇融合了各種技術的論文。本屆大會的傑出新方向論文獎授予了 Baishnavh 和 J.Zico Kolter 的論文「Uniform convergence may be unable to explain generalization in deep learning」

他們認為一致收斂理論本身並不能解釋深度學習的泛化能力。隨著數據集的規模增大,泛化差異(Generalization Gap,模型在見過和未見過的數據上的性能差異)的理論界限也會增大,而經驗泛化差異則會減小。

論文連結:

https://arxiv.org/abs/1902.04742

圖 1:泛化差異和泛化邊界隨訓練集規模變化的情況

神經切線核(NTK)是近年來提出的一個研究方向,旨在理解神經網絡的優化和泛化。有關 NTK 的討論多次出現在本屆 NeurIPS 的亮點演講中,我在 NeurIPS 期間也與其他人多次談到 NTK。

Arthur Jacot 等人提出了「全連接的神經網絡等價於寬度無限時的高斯過程」這一眾所周知的概念,能夠在函數空間而不是參數空間中研究它們的訓練動力學(Training Dynamics)。

他們證明了「在人工神經網絡參數梯度下降的過程中,網絡函數(將輸入向量映射到輸出向量)遵循關於一種新的核——NTK的函數代價的核梯度」。他們還表明,當我們使用梯度下降法訓練一個有限層版本的 NTK 時,其性能將收斂到寬度無限的 NTK 上,然後在訓練中性能保持不變。

下面,我們列出本屆 NeurIPS 上一些基於 NTK 構建的論文:

Learning and Generalization in Overparameterized Neural Networks, Going Beyond Two Layers

論文連結:

https://arxiv.org/abs/1811.04918

On the Inductive Bias of Neural Tangent Kernels

論文連結:

http://papers.nips.cc/paper/9449-on-the-inductive-bias-of-neural-tangent-kernels

然而,許多人認為 NTK 不能完全解釋深度學習。一個神經網絡要接近 NTK 狀態需要具備學習率小、初始化寬度大、無權值衰減等超參數設置,而在實際訓練中並不經常使用這樣的設置。

NTK 的觀點還認為,神經網絡只會像核方法一樣泛化。但根據我們的經驗來看,它們可以更好地泛化。

Colin Wei 等人的論文「Regularization Matters: Generalization and Optimization of Neural Nets v.s. their Induced Kernel」從理論上證明了帶有權值衰減的神經網絡具有比 NTK 更好的泛化能力,這說明研究 L2 正則化神經網絡可以為泛化問題提供更好的研究思路。

論文連結:

https://nips.cc/Conferences/2019/Schedule?showEvent=14579

本屆 NeurIPS 上也有幾篇論文說明了,傳統的神經網絡可以具有比 NTK 更好的性能:

What Can ResNet Learn Efficiently, Going Beyond Kernels?

論文連結:

http://papers.nips.cc/paper/9103-what-can-resnet-learn-efficiently-going-beyond-kernels

Limitations of Lazy Training of Two-layers Neural Network

論文連結:

http://papers.nips.cc/paper/9111-limitations-of-lazy-training-of-two-layers-neural-network

許多論文分析了神經網絡的不同組成部分的表現。比如,Chulhee Yun 等人提出了「Small ReLU networks are powerful memorizers: a tight analysis of memorization capacity」,說明了「帶有 O(sqrt(N)) 個隱藏節點的 3 層的 ReLU 網絡可以完美地記憶大多數帶有 N 個數據點的數據集。

論文連結:

https://arxiv.org/abs/1810.07770

Shirin Jalali 等人在論文」Efficient Deep Learning of Gaussian Mixture Models「中,開篇就提出了這樣一個問題:通用近似定理(Universal approximation theorem,一譯萬能逼近定理)表明,任何正則函數都可以通過一個單隱層神經網絡近似。

論文連結:

https://papers.nips.cc/paper/8704-efficient-deep-approximation-of-gmms

那麼,增加深度能讓它更有效率嗎?他們說明了,在高斯混合模型的最優貝葉斯分類的情況下,這些函數可以用帶有單個隱層的神經網絡中的 o (exp (n)) 個節點以任意精度近似,而在兩層網絡中只需要用 o (n) 個節點近似。

在一篇更為實用的論文「Control Batch Size and Learning Rate to Generalize Well: Theoretical and Empirical Evidence」中,Fengxiang He 和他的團隊在 CIFAR 數據集上使用隨機梯度下降算法(SGD)訓練了 1,600 個 ResNet-110 模型和 VGG-19 模型,發現這些模型的泛化能力與批處理大小呈負相關,與學習率呈正相關,與「批處理大小/學習率」的比值呈負相關。

論文連結:

https://papers.nips.cc/paper/8398-control-batch-size-and-learning-rate-to-generalize-well-theoretical-and-empirical-evidence

圖 2:測試準確率與批處理大小、學習率的誒關係。第四行分別是(1)使用 CIFAR-10 數據集訓練的 ResNet-110 模型(2)使用 CIFAR-100 數據集訓練的 ResNet-110 模型(3)使用 CIFAR-10 數據集訓練的 VGG-19 模型(4)使用 CIFAR-100 數據集訓練的 VGG-19 模型。每條曲線都是根據 20 個網絡的情況綜合繪製而出。

與此同時,Yuanzhi Li 等人的論文「Towards Explaining the Regularization Effect of Initial Large Learning Rate in Training Neural Networks」指出:「一個具有較大的初始學習率並使用退火算法訓練的雙層網絡,比使用較小的初始學習率訓練的相同的網絡具有更好的泛化性能。這是因為學習率較小的模型首先會記憶低噪聲、難以擬合的模式,它在較高噪聲、易於擬合的情況下的泛化性能比學習率較大的情況下差一些。」

論文地址:

https://arxiv.org/abs/1907.04595

儘管這些理論分析非常吸引人,也很重要,但是很難講它們聚合成一個大的研究體系,因為這其中的一個研究都集中在整個系統的一個較為狹窄的方面。

二、深度學習新方法

在今年的 NeurIPS 上,研究者們提出了一系列新穎的方法,而不僅僅是在別人的工作上疊加新的網絡層。新提出的研究深度學習的方法中,我感興趣的三個方向是:貝葉斯學習、圖神經網絡以及凸優化。

1. 使用貝葉斯原理進行深度學習

正如 Emtiyaz Khan 在他的演講「Deep Learning with Bayesian Principles」中所強調的,貝葉斯學習和深度學習是有很大的而區別。

根據 Khan 的說法,深度學習使用的是一種「試錯」的方法,我們通過實驗看看會得到什麼結果,然而貝葉斯原理迫使你事先考慮一個假設(先驗)。

圖 3:貝葉斯學習與深度學習對比

與常規的深度學習相比,貝葉斯深度學習有兩個主要的優勢:非確定性估計以及在小數據集上更好的泛化性能。

在現實世界的應用中,讓系統能夠進行預測是遠遠不夠的。弄明白每個預測的可靠性是很重要的。例如,對癌症進行預測時,可靠性為 50.1% 和可靠性為 99.9% 時的治療方案是不同的。在貝葉斯學習中,非確定性估計是一個內在的特質。

傳統的神經網絡給出的是單點估計——它們使用一組權值針對一個數據點輸出一個預測。另一方面,貝葉斯神經網絡使用一個關於網絡權重的機率分布,並輸出該分布中所有權重組合的平均預測值,這與對許多神經網絡求平均的效果相同。

因此,貝葉斯神經網絡是一種自然的集成,它的作用類似於正則化,並且能夠防止過擬合。

訓練具有數百萬參數的貝葉斯神經網絡仍然需要非常大的計算開銷。要想使網絡收斂到一個後驗上可能需要花費數周的時間,因此諸如變分推斷這樣的近似方法越來越流行。本屆 NeurIPS 的「機率方法-變分推斷」環節共有 10 篇論文與這類變分貝葉斯方法有關。

下面是向大家推薦的本屆 NeurIPS 上有關貝葉斯深度學習的 3 篇論文:

Importance Weighted Hierarchical Variational Inference

論文連結:

https://arxiv.org/abs/1905.03290

A Simple Baseline for Bayesian Uncertainty in Deep Learning

論文連結:

https://arxiv.org/abs/1902.02476

Practical Deep Learning with Bayesian Principles

論文連結:

https://arxiv.org/abs/1906.02506

2. 圖神經網絡(GNN)

多年來,我經常談到:圖論是在機器學習領域最被低估的課題之一。我很高興有關圖的工作在本屆 NeurIPS 上大放異彩。

「圖表征學習」是本屆 NeurIPS 上最受歡迎的研討會。令人驚訝的是,該領域已經取得了如此大的進步。

時間回到 2015 年,當我在實習期間開始研究圖神經網絡時,我沒有想到會有如此多的研究人員參與到這個領域中來。

圖是適用於許多種數據(例如,社交網絡、知識庫、遊戲的狀態)的優雅而自然的表征形式。用於推薦系統的「用戶-物品」數據可以被表示為一個二分圖,其中一個不相交的集合由用戶組成,另一個由物品組成。

圖也可以表征神經網絡的輸出。正如 Yoshua Bengio 在他的演講中提醒人們的那樣:任何聯合分布都可以通過因子圖來表示。

這使得圖神經網絡能夠完美地適應組合優化(例如,旅行商問題、任務調度問題)、身份匹配(在這種問題中 Twitter 用戶和 Facebook 的用戶是一樣的嗎?)、推薦系統等任務。

目前最流行的圖神經網絡是圖卷積神經網絡(GCNN),這是意料之中的,因為圖和卷積都可以編碼局部的信息。卷積以尋找輸入中鄰近部分之間的關係為目標編碼一種偏置。而圖通過邊對輸入中關係最密切的部分進行編碼。

圖 4:(左圖)二分圖 St=(G,C,E,V)有 n=3 個變量和 m=2 個常量。(右圖)用於將策略πθ(a|st)參數化的二分圖 GCNN 架構。

下面是向大家推薦的 GNN 論文:

Exact Combinatorial Optimization with Graph Convolutional Neural Networks

論文地址:

https://arxiv.org/abs/1906.01629

是的, 今年有一篇論文融合了 NTK 和圖神經網絡兩個最熱門的研究趨勢:

Graph Neural Tangent Kernel: Fusing Graph Neural Networks with Graph Kernels

論文地址:

https://arxiv.org/abs/1905.13192

本屆NeurIPS 上我最喜歡的海報展示:

(Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs,

論文地址:

https://arxiv.org/abs/1805.02349

圖 5:(Nearly) Efficient Algorithms for the Graph Matching Problem on Correlated Random Graphs

(除 NeurIPS 論文之外的)推薦閱讀材料:

Thomas N. Kipf 關於圖卷積網絡的博文

博文連結:

https://tkipf.github.io/graph-convolutional-networks/

Kung-Hsiang,Huang 對圖神經網絡(Basics,DeepWalk,GraphSage)簡介

相關連結:

https://towardsdatascience.com/a-gentle-introduction-to-graph-neural-network-basics-deepwalk-and-graphsage-db5d540d50b3

3. 凸優化

我一直默默推崇 Stephen Boyd 關於凸優化的工作,所以很高興看到它在 NeurIPS 上越來越受歡迎。在今年的 NeurIPS 上,有 32 篇論文是關於這個主題的。

Stephen Boyd 和 j. Zico Kolter 的實驗室也展示了他們的論文「Differentiable Convex Optimization Layers」,該論文說明了如何通過凸優化問題的解來進行微分,這使得將它們可以被嵌入可微分的程序(如神經網絡)並根據數據進行學習。

論文連結:

http://papers.nips.cc/paper/9152-differentiable-convex-optimization-layers

凸優化問題之所以吸引人,是因為它們可以被精確地求解(可以實現 1e-10 的容錯率),而且速度很快。它們也不會產生奇怪的或意料之外的輸出,而這對於現實世界中的應用是至關重要的。儘管在真實場景中遇到的許多問題是非凸的,但是將它們分解為一系列凸問題可以達到很好的效果。

神經網絡也使用凸優化的算法進行訓練。然而,神經網絡重點強調以一種端到端的方式從頭進行學習,而凸優化問題的應用則顯式地使用領域特定的知識對系統建模。如果能夠以凸方法對系統進行顯式建模,那麼通常所需的數據就會少得多。關於可微凸優化層的工作是將端到端學習和顯式建模的優勢結合起來的一種方法。

當你想要控制一個系統的輸出時,凸優化特別有用。例如,SpaceX 公司使用凸優化來發射火箭,BlackRock 公司將它用於交易算法。看到凸優化在深度學習中的應用真的很酷,就像現在的貝葉斯學習一樣。

下面是 Akshay Agrawal 推薦的一些有關凸優化的 NeurIPS 論文:

Acceleration via Symplectic Discretization of High-Resolution Differential Equations

論文連結:

https://papers.nips.cc/paper/8811-acceleration-via-symplectic-discretization-of-high-resolution-differential-equations

Hamiltonian descent for composite objectives

論文連結:

http://papers.nips.cc/paper/9590-hamiltonian-descent-for-composite-objectives

圖 6:用於問題

的Hamiltonian 下降(HD)和梯度下降算法的對比情況

三、神經科學 x 機器學習

根據 NeurIPS 2019 程序委員會主席 Hugo Larochelle 的分析,接收率最高的論文類別是神經科學。在Yoshua Bengio的演講「From System 1 Deep Learning to System 2 Deep Learning」和 Blaise Aguera y Arcas的演講「Social Intelligence」中,他們都敦促機器學習研究社區更多地思考自然智能的生物學根源。

圖 7:神經科學是論文接收率最高的類別

Bengio 的演講將「意識」引入了主流的機器學習詞彙體系中。Bengio 提出的「意識」概念的核心是注意力。他將機器注意力機制與我們的大腦選擇分配注意力的方式進行了比較:「機器學習可以用來幫助腦科學家更好地理解意識,但我們對意識的理解也可以幫助機器學習發展出更好的能力」。

根據 Bengio 的說法,如果我們希望機器學習算法能夠泛化到分布之外的樣本上,那麼受意識啟發的方法可能是一種解決方案。

圖 8:將機器學習用於意識&將意識用於機器學習——(1)形式化定義並測試特定的意識的假設函數(2)揭開意識的神秘面紗(3)從計算和統計的角度(例如,系統的泛化)理解意識演化的優勢(4)將這些優勢應用於學習智能體。

在本屆大會上,我最喜歡 Aguera y Arcas 的演講。他的演講在理論上非常嚴謹,但同時也是可行的。他認為通過優化方法不足以獲得類似於人類的智力:「優化不是生命體工作的方式,大腦不僅僅是在評估一個函數。它們會發展。它們會自我修正。他們從經驗中學習。僅僅通過一個函數並不能包含這些東西」。

他呼籲人們研究「一種更通用的、受生物學啟發的突觸更新規則,它允許使用損失函數和梯度下降法,但並不要求一定要這麼做」。

NeurIPS 上的這一趨勢與我觀察到的現象不謀而合:很多人工智慧界的研究人員正轉而研究神經科學。他們把神經科學重新帶回了機器學習領域。

有些我所熟知的智者紛紛離開了人工智慧研究領域,投身工業界或神經科學領域。這是為什麼呢?

  • 我們需要理解人類學習的機制,從而教導機器進行學習。
  • 科學研究應該是一個從假設到實驗的過程,而如今的人工智慧研究則往往是先做實驗然後證明結果成立。

四、關鍵詞分析

讓我們從更宏觀的角度看看本屆 NeurIPS 大會上的論文都與什麼主題相關。首先,我使用 Vennclods 將 1,011 份 NeurIPS 2018 的論文和 1,428 份 NeurIPS 2019 的論文的標題進行了可視化。中間黑色的部分是在這兩年都十分常見的論文關鍵詞的列表。

圖 9:NeurIPS 關鍵詞雲

接著,如下圖所示,我計算出了這些關鍵詞從 2018 年到 2019 年的百分比變化。例如,如果在2018年,所有被接收的論文中有 1% 包含關鍵詞「X」,而在2019年,這個數字是 2% ,那麼這一比例的變化是(2-1) / 1=100% 。在下圖中,我將絕對比例變化在 20% 以上的關鍵詞繪製了出來。

圖 10:NeurIPS 關鍵詞百分比變化情況

要點:

  • 即使是在機器人領域之外,強化學習也得到了進一步發展。具有顯著正向變化的關鍵詞有:多臂老虎機、反饋、遺憾值、控制。
  • 生成模型依然很流行。GAN 仍然吸引著我們的想像力,但是炒作變少了。
  • 循環神經網絡和卷積神經網絡依然延續了去年的下降趨勢。
  • 與硬體相關的關鍵詞也在增加,這表明有更多考慮到硬體的算法誕生。這是解決「硬體成為機器學習瓶頸」這一問題的方法。
  • 令人遺憾的是,「數據」這一關鍵詞的百分比處於下降趨勢。我激動萬分地前去參觀「Algorithms–Missing Data」海報展,但卻發現竟然只有一張海報「Missing Not at Random in Matrix Completion: The Effectiveness of Estimating Missingness Probabilities Under a Low Nuclear Norm Assumption」張貼了出來!
  • 「元」這一關鍵詞在今年增長的最多。詳情請參閱 Jesse Mu 的「Meta-meme」:https://twitter.com/jayelmnop/status/1206637800537362432
  • 儘管「貝葉斯」一詞的比例下降了,但「非確定性」卻上升了。去年,有許多論文使用了貝葉斯原理,但並不是將其運用在深度學習中。

五、NeurIPS 關鍵數據一覽

  • 提交給正會的 7 千多篇論文中,有 1428 篇被接收,接收率為 21%。
  • 據我估計,1萬3千多名參會者中,至少有一半人並沒有在會議期間展示論文。
  • 57 個研討會,其中 4 個專注於包容性:Black in AI,Women in Machine Learning,LatinX in AI,,Queer in AI,New In Machine Learning,Machine Learning Competitions for All。
  • 1萬6千多頁會議記錄
  • 在所有被接收的論文中,有 12% 至少包含一名來自谷歌或 DeepMind 的作者。
  • 有 87 篇論文來自斯坦福,它是本屆 NeurIPS 被接收論文最多的學術機構。
  • 有 250 篇關於應用的論文,占總論文數的 16.7%。
  • 648 是本屆大會時間檢驗論文獎獲得者 Lin Xiao 的「Dual Averaging Method for Regularized Stochastic Learning and Online Optimization」的引用次數。這證明了引用量與貢獻不一定相關。
  • 75% 的論文在「camera-ready」版中給出了代碼連結,去年這一數字只有 50%。
  • 2,255 份審稿意見提到了查看提交的代碼。
  • 173 篇論文聲稱進行了 OpenReview 上的可復現性挑戰。
  • 31 張海報出現在了本屆 NeurIPS 的「創意和設計中的機器學習」研討會上。一些人告訴我這是他們在本屆大會上最喜歡的環節。
  • 為「Good Kid」樂隊在閉幕宴會上的演出打 call!如果你還沒有欣賞過他們的音樂作品,可以去 Spotify 上聽一聽。

有時,他們是機器學習研究者;有時,他們又是搖滾明星。今夜,他們二者都是!

  • 「Retrospectives: A Venue for Self-Reflection in ML Research」研討會進行了 11 場演講,這也是大家最喜歡的環節之一。

除此之外,本屆 NeurIPS 的火爆氛圍也相當引人關注。

六、結語

無論從知識的角度還是從社交的角度來說,NeurIPS 都勢不可擋。我不認為任何人能夠閱讀16,000頁的會議記錄。海報展人滿為患,這使得我們很難與作者交談。毫無疑問,我錯過了很多。

然而,會議的大規模召開也意味著匯聚了許多的研究方向和相關的研究人員。讓我能夠了解自己研究的分支領域之外的工作,能夠向那些研究背景和興趣與我不同的研究人員學習,這種感覺很好。

看到研究社區從「更大就更好」的誤區中走出來是一件很棒的事。我逛海報展收穫的印象是:許多論文只是在小數據集上做實驗,比如 MNIST 和 CIFAR。最佳論文獎獲得者 Ilias Diakonikolas 等人的「Distribution-Independent PAC Learning of Halfspaces with Massart Noise」就沒有任何實驗。

我經常聽到年輕的研究人員擔心:只有加入大型研究實驗室,才能獲得計算資源。但 NeurIPS 證明了:你可以在無需擔心數據和計算問題的情況下做出重要的貢獻。

在我參加的 NewInML 圓桌討論上,有人說他不知道 NeurIPS 上的大多數論文如何被應用到生產環節中去。Neil Lawence 指出,也許他應該考慮參加其它會議。

NeurIPS 比許多其它的機器學習會議更加理論化——從事基礎研究是很重要的。

總的來說,我在 NeurIPS 上度過了一段美好的時光,並計劃明年繼續參會。然而,對於那些新加入機器學習研究社區的人來說,我建議他們將 ICLR 作為參加的第一個學術會議。

ICLR 的規模更小、時間更短、也更加面向實際應用。明年,ICLR 將在衣索比亞召開,那是一個神奇的國度!

本文來源:

https://huyenchip.com/2019/12/18/key-trends-neurips-2019.html

編輯:黃繼彥

校對:林亦霖

—完—

關注清華-青島數據科學研究院官方微信公眾平台「 THU數據派 」及姊妹號「 數據派THU 」獲取更多講座福利及優質內容。

關鍵字: