田淵棟:ReLU神經網絡的可證明理論性質

ai科技評論 發佈 2020-08-05T22:59:14+00:00

田淵棟博士提到,在學生-教師設置下的ReLU神經網絡中,存在學生網絡和教師網絡的節點對應關係,通過對這種關係的分析,可以幫助我們理解神經網絡的學習機制,以及剪枝、優化、數據增強等技術的理論基礎。

作者 | 青 暮

編輯 | 陳彩嫻

在本文中,Facebook人工智慧研究院研究員、卡耐基梅隆大學機器人系博士田淵棟以ReLU網絡為例,分享了深度學習理論和可解釋性方面的研究進展。田淵棟博士提到,在學生-教師設置下的ReLU神經網絡中,存在學生網絡和教師網絡的節點對應關係,通過對這種關係的分析,可以幫助我們理解神經網絡的學習機制,以及剪枝、優化、數據增強等技術的理論基礎。

2020年7月31日至8月5日,VALSE 2020視覺與學習青年學者研討會在線上舉行。在主題為《機器學習前沿進展》的論壇中,田淵棟博士發表了題目為《深度ReLU網絡中可證明的理論性質》的演講。

VALSE年度研討會的主要目的是為計算機視覺、圖像處理、模式識別與機器學習研究領域內的中國青年學者提供一個深層次學術交流的舞台。截至目前,VALSE已舉辦9屆。

以下是講座全文,AI科技評論進行了不改變原意的整理。

1 神經網絡的三個理論研究方向

深度學習模型缺乏可解釋性,它的工作模式對於我們而言就是個黑盒,意思是我們不關心深度學習的內部機制,只需要知道輸入對應的輸出就好。但問題是,如果以後我們要提高神經網絡的性能,就需要把黑盒打開,理解其機制。

神經網絡的理論研究有三個的方向,第一個是可表達性(Expressibility),即神經網絡能多大程度上擬合函數。現在我們知道,只要有一層無限神經元的隱層,神經網絡就能擬合任何函數,這個結論在80年代就已經有人證明出來了。

但是關於泛化能力的理解,還需要解決後面兩個問題,即優化和泛化。

在非凸優化中,損失函數有很多局部最小值,但是神經網絡能找到一個比較好的最小值,這應該如何解釋?

對於神經網絡,不同的學習設置導致的學習效果幾乎沒有什麼區別,這令人驚訝。因為按照一般假設,不同的初始化設置學習的結果應該是完全不一樣的。我們現在在這些問題上還沒有很好的理論解釋。最後一個問題是泛化問題。

2 學生-教師設置的ReLU神經網絡

今天我們討論ReLU 網絡,ReLU激活函數在神經網絡的應用非常廣泛。因為它很容易實現,而且學習比較快,能自然地實現網絡稀疏性。除此之外,它還有一些非常有趣的理論性質,並且它的函數性質對理論分析來說有好處。當然,它也有不足的地方,比如說不可微的、不可逆,存在參數化奇點等。

ReLU函數(圖源:維基百科)

接下來討論ReLU網絡在學生-教師設置下的理論性質。設置是什麼意思呢?舉個例子,比如監督學習。在監督學習設置中,我們有將x標記為y的數據集,然後我們訓練一個神經網絡,輸入x能得到y。

而在學生-教師的設置中,我們把數據集替換成一個教師網絡(或者Oracle Network)。

這種設置有一些良好的性質,首先是解決可表達性,按照萬能逼近定理,任給一個數據集總存在一個教師網絡能擬合數據集。假設總有教師神經網絡能夠完全擬合所有數據,然後用學生神經網絡去學習教師神經網絡,就可以擁有參考點,這個參考點可以用來做細緻的優化分析。以前只能通過損失函數來學習,現在可以通過學生網絡和教師網絡之間的權重對應關係來進行。

這種設置對於理解泛化能力有更多的優勢。因為如果我們能證明,學生網絡跟教師網絡的節點存在對應關係,就可以證明泛化能力。因為學生網絡不僅僅只是在輸出結果上相同,而且在內部結構上也相同,也即是學生網絡學到了教師的「精髓」。對於新的輸入,我們可以預言學生網絡和教師網絡的輸出是一樣的。所以這種設置其實在某種程度上可以簡化一些理論分析。

3 節點對齊

學生-教師設置在1995年就已經有物理學家提出來,當時使用的是兩層神經網絡,並且沒有使用ReLU函數,此外他們還假設,輸入樣本的維度必須是無窮大的。

在現代的理論看來,無窮維不是一個很好的假設。我們可以假設ReLU網絡的輸入是有限維的,並且服從高斯分布。這樣,我們可以解析地得到梯度的期望值。

梯度有兩個部分,分別是線性部分和ReLU函數導致的非線性部分。如果只有線性部分,神經網絡會收斂到最小值。

我們現在來看多層的學生神經網絡和教師神經網絡,其中m和n是相對寬度,都是有限的,學生神經網絡比教師神經網絡稍微寬一點。

我們可以證明,至少對於最靠近輸入的那一層,學生網絡的每個節點跟教師網絡的節點都是有對應關係的,也就是說學生網絡可以學到一些教師網絡的精髓。

什麼叫學到了教師網絡的精髓?就是說我們把學生網絡節點和教師網絡節點的邊界顯示出來,他們的邊界之間會存在重疊。

現在問題在於,如果我們假設在訓練過程中,對每個訓練樣本都得到了很小的梯度,與學生網絡和教師網絡的節點對齊之間存在關係呢?

首先,我們能得到一個引理,即學生網絡的梯度其實可以寫成教師網絡激活函數和學生網絡激活函數的線性組合。

1、理想化假設

我們來通過兩個案例解釋如何使用這個引理來導出學生與教師網絡節點的對應關係。

先考慮理想化假設,兩層ReLU神經網絡,梯度等於0,樣本數無限。其中有6個學生網絡節點,用點畫線表示,2個教師網絡節點,用粗體線表示,下圖顯示了這些節點的邊界。

隨著訓練疊代進行,有些學生網絡節點會慢慢收斂到教師網絡節點,有些則不會,而是隨機排列,比如下圖中紅色和綠色的點畫線。

與此同時,這兩個學生網絡節點對外的輸出權重的範圍剛好是很小的。

下圖是另外一個實驗的結果,橫軸是學生網絡節點和最佳關聯教師網絡節點之間的相關程度,縱軸是輸出權重的範圍。從圖中我們可以看出,這兩個變量形成了「L」形曲線關係。如果學生節點和教師節點沒有太大關聯,那它輸出權重的範數就很小,反之則有很強的關聯。

要證明這個結論成立,其實需要很多假設。那麼其中一個假設是數據集樣本數無限。之後我們會把這個假設去掉。但是關鍵在於我們不需要對數據的分布做任何的假設。

第二個假設是,教師神經網絡的每個節點的ReLU邊界對於數據集都是可見的。

有了這兩個條件,我們可以得出,對於任意一個教師網絡節點j,至少存在一個學生網絡節點k』與它對齊。

對於任何一個教師網絡節點,都存在一個學生網絡節點與它對齊,實際上對齊的節點可能會有2到3個。反過來,並不是所有的學生網絡節點都一定和教師網絡節點對齊,有些學生網絡節點可能沒有跟任何教師網絡節點對齊。

這樣我們能得到另外一個定理,可以證明在滿足某些條件時,那些沒有對齊的學生網絡節點(下圖的黑色點),它的輸出權重會是0,這就給我們提供了如何對神經網絡進行剪枝的理論基礎。

這個結論對於多層神經網絡同樣成立,因為之前提到的引理能應用到任何深度神經網絡。

下圖展示了多層神經網絡的實驗,我們同樣得到了「L」形曲線關係。

同樣的思路可以用來解釋神經網絡的一些非常奇怪的現象,比如說將神經網絡訓練到兩個局部最小值,這兩個解如果用折線(而不是直線)連起來,可以保證折線上的每個解的錯誤率都比較小,這跟凸優化的情況很不一樣。

2、非理想化假設

我們之前做了一些理想化的假設,比如說梯度等於0,數據集樣本數無限,現在我們做一些更加實際的假設,即兩層ReLU神經網絡,梯度很小但不等於0,數據集樣本數有限。

我們規定梯度不等於0,而且比較小,是小於某個樣本複雜度上界。然後我們對數據集也做了增強,增強數據本身會影響到最後樣本複雜度上界的鬆緊。

最後能得到兩個結論,第一個是,更強的教師網絡節點學習更快。簡單來說就是,那些輸出權重較大的教師網絡節點,有更多的學生網絡節點與其對齊。此外由於樣本複雜度上界和學生網絡節點與教師網絡節點的點積正相關,當教師網絡節點更強時,梯度的樣本複雜度上界更加寬鬆。

反過來結論也成立,更弱的教師網絡節點學習更慢。下圖展示了不同教師網絡節點的關聯強度隨訓練的變化。

另外,不同的數據增強的技術會得到不同的樣本複雜度上界。如果數據增強的方向,跟教師網絡節點的樣本複雜度上界的方向一致的話,樣本複雜度上界就會變得更緊。

使用不同數據增強技術的數據集,樣本複雜度可能會非常不同。如果我們利用教師網絡的知識增強數據集,即使只有少量樣本,經過訓練的學生網絡也不會過擬合,並能大大降低評估損失。

對於多層神經網絡,也有類似的結果。

我們還在CIFAR-10上進行了實驗。首先在CIFAR-10訓練集上使用64-64-64-64 ConvNet對教師網絡進行預訓練。然後以結構化方式對教師網絡進行剪枝,以保留更強的教師網絡節點,並且剪掉那些對輸出沒有太大影響的節點。基於教師網絡的剩餘通道,學生網絡被「過實現」(over-realized)。

下圖展示了學生網絡的收斂和專業化行為。「過實現」會導致在CIFAR-10評估集上教師節點和學生節點的相關性更強,泛化能力得到改善。

參考連結:

https://arxiv.org/pdf/1703.00560.pdf

https://arxiv.org/pdf/1909.13458.pdf

關鍵字: