硬剛無限寬神經網絡後,谷歌大腦有了12個新發現

ai科技評論 發佈 2020-08-13T04:39:04+00:00

但是對於寬度,谷歌大腦還是選擇硬剛了一波,並於近期發表了一篇論文:《有限寬與無限寬神經網絡:實證研究》,在這篇論文中,作者對無限寬神經網絡和核方法之間的對應關係進行了細緻、深入和大規模的實證研究。

作者 | 青暮、陳大鑫

編輯 | 陳彩嫻

各位煉丹師平時「煉丹」時最多跑過多深的神經網絡呢?152層,256層,還是更多層?

那各位跑過最寬的神經網絡又有多寬呢?可能一層撐死有10個或20個神經元?

對第二個問題,谷歌的回答是:我可以跑無限寬的神經網絡。

也許會有人說相比寬度而言,神經網絡更需要深度來支持表達性,從一些經典神經網絡的發展歷程即可看出。但是對於寬度,谷歌大腦還是選擇硬剛了一波,並於近期發表了一篇論文:《有限寬與無限寬神經網絡:實證研究》,在這篇論文中,作者對無限寬神經網絡和核方法之間的對應關係進行了細緻、深入和大規模的實證研究。作者聲稱,他們在該研究中解決了與無限寬神經網絡研究相關的各種開放性問題。

該項目負責人Jascha Sohl-Dickstein在Twitter上介紹了這項研究,得到了廣泛關注。他表示,這項研究包含了關於無限寬網絡的所有方面。一般而言,人們並沒有足夠的計算能力去探索無限寬神經網絡,但顯然,谷歌並不擔心這個問題。

該研究得出了十二項實驗結論,包括(NTK:神經正切核、NNGP:神經網絡高斯過程):

1、NNGP/NTK的性能優於有限寬網絡。

2、NNGP通常優於NTK。

3、中心化的和集成的有限寬網絡的性能會變得更接近核方法。

4、大學習速率和L2正則化會導致有限寬網絡和核方法之間的差異。

5、使用標準參數化可以改善網絡的L2正則化。

6、性能與網絡寬度的關係是非單調的,並且不同於雙下降現象。

7、對角線正則化核函數的作用類似於early stopping。

8、浮點精度限制了超過臨界數據集大小的核方法性能。

9、線性化的CNN-GAP模型由於條件差而表現不佳。

10、正則化的ZCA白化提高了準確率。

11、等變性僅對核機制之外的窄網絡有益。

12、集成核預測變量有助於NNGP / NTK數據增強。

該實驗進一步啟發了一種應用於權值衰減的改進的層級縮放方法,從而提高了有限寬網絡的泛化能力。最後,作者開發了使用NNGP和NT核進行預測的改進最佳實踐,包括一種新的組裝技術。通過這些最佳實踐,作者實現了CIFAR-10分類的SOTA結果,這些核對應於其考慮的每個架構類。

當中間層無限寬時,很大一類貝葉斯網絡和以梯度下降訓練的神經網絡最後都會收斂到高斯過程(GPs)或與其密切相關的核方法。

這些無限寬網絡的預測由貝葉斯網絡的神經網絡高斯過程(NNGP)核方法進行描述,以及由以梯度下降訓練的神經網絡的神經正切核(NTK)和權值空間線性化進行描述。

這種對應關係是理解神經網絡的關鍵。它還使核方法、貝葉斯深度學習、主動學習和半監督學習等領域取得了實際進展。

NNGP、NTK和相關的大寬度限制對於精確描述大規模神經網絡的理論有獨特作用。正因為如此,作者相信它們將繼續在深度學習理論中發揮變革作用。

無限寬網絡是一個新的活躍領域,基本的經驗問題仍然沒有答案。在這項工作中,作者對有限寬和無限寬的神經網絡進行了廣泛而深入的實證研究。該研究定量地探索了驅動有限寬網絡和核方法的性能變化的因素,揭示了令人驚喜的新發現,並開發了提高有限寬和無限寬網絡性能的最佳實踐。作者表示,該研究成果將為未來的寬網絡研究奠定基礎。

1實驗結果

1、NNGP/NTK的性能優於有限寬網絡

無限寬神經網絡高斯過程(NNGP)和神經正切核(NTK)預測可以優於有限網絡,這取決於架構和訓練設置。對於全連接網絡,無限寬網絡可靠地優於有限網絡。

研究無限寬網絡的一個常見假設是,它們在大數據中的表現不及相應的有限網絡。作者通過將核方法與學習率較低且沒有正則化訓練的有限寬度架構進行比較,仔細檢驗了這一假設。然後逐一利用較大的學習率、L2正則化和集合方法,來檢驗無限寬網絡與核方法的相對性能變化。實驗結果總結在圖1中。

首先關注基礎的有限寬網絡,作者觀察到無限FCN和CNN-VEC優於各自對應的有限寬網絡。另一方面,無限寬CNN-GAP網絡的性能要比其有限寬的差。作者強調架構在相對性能中起著關鍵作用。例如,即使與各種技巧(例如大學習率、L2正則化和欠擬合)結合使用,無限FCN也會勝過有限寬網絡。僅在使用集合方法之後,性能才變得相似。

一個有趣的發現是,ZCA正則化預處理可以對CNN-GAP核進行重大改進,將差距縮小到1-2%之內。

圖1:有限寬和無限寬網絡的CIFAR-10測試準確率變化。

2、NNGP通常優於NTK

NNGP(對應於無限寬貝葉斯網絡)通常優於NTK(對應於由梯度下降訓練的無限寬網絡)。

最近對無限寬度網絡的評估已將重點放在NTK上,而沒有與對應的NNGP模型進行顯式比較。結合將NNGP視為「弱訓練」 (即僅學習了最後一層)的觀點,人們可能希望NTK比NNGP更有效。

相反,我們通常會觀察到NNGP推理可以實現更好的性能。通過NNGP在所有架構中都可以達到固定核之間的SOTA性能。圖2表明該趨勢在CIFAR-10、CIFAR-100和Fashion-MNIST上仍然存在。

除了生成更強大的模型外,NNGP核還需要大約一半的內存作為相應的NTK進行計算,並且某些性能最高的核根本沒有關聯的NTK。這些結果共同表明,在試圖最大化性能時,研究人員應從NNGP開始。

圖2:仔細調整對角正則化條件時,NNGP在圖像分類任務中通常勝過NTK。

3、中心化的和集成的有限寬網絡的性能會變得更接近核方法

有限寬度網絡的中心化和集合都會帶來更接近核方法的性能。中心化訓練可以加快訓練速度。

可以通過將模型中心化(centering)來減少預測方差,即減去模型的初始預測。圖3觀察到中心化顯著加快了FCN和CNN-VEC模型的訓練速度,並提高了泛化能力,但對CNN-GAP架構幾乎沒有影響。作者觀察到,在給定更多數據的情況下,在無限寬核中,CNN-GAP的規模後驗方差相對於先驗方差較小,與中心化和集合方法一致,效果不大。

圖3:中心化可以加快訓練速度並提高表現。整個訓練過程中的驗證準確率適用於幾種有限寬的架構。

4、大學習速率和L2正則化會導致有限寬網絡和核方法之間的差異

大學習率和L2正則化都會導致有限網絡和核方法之間的差異,並導致有限寬度網絡表現得更好。大學習率和L2正則化的組合效應是超線性的。

圖1:有限寬和無限寬網絡的CIFAR-10測試準確率變化。

5、L2正則化對於NTK參數化網絡的效果更好

與標準參數化網絡相比,L2正則化對於NTK參數化網絡的效果出乎意料地好。作者用匹配層級L2正則化係數對其進行仿真,從而在標準參數化網絡(即典型網絡)中實現更好的泛化。

圖5:NTK驅動的層級縮放使L2正則化在標準參數化網絡中更有幫助。

6、泛化性能與網絡寬度的關係非單調,並且不同於雙下降

某些有限寬網絡(尤其是不帶池化的CNN網絡)的泛化性能對於寬度是非單調的,這是用雙下降現象無法解釋的。

人們在研究深度學習時反覆發現,增加模型中參數的數量可以提高性能。儘管這種現象與從貝葉斯角度的關於泛化的觀點是一致的,但與經典泛化理論(主要考慮最壞情況的過擬合)似乎不一致。這導致人們做了關於超參數化和泛化的相互作用的大量工作。特別令人關注的是雙重下降現象。

根據經驗,作者發現在大多數情況下(兩種參數化中的FCN和CNN-GAP,帶有標準參數化的CNN-VEC),增加寬度都會導致性能的單調提高。但是,在特定的相對簡單的設置中,作者還發現了對寬度的更複雜的依賴性。例如,在圖6中,對於具有NTK參數化的CNN-VEC,性能不是單調依賴於寬度,並且最佳寬度是一個中間值。這種非單調性不同於類雙重下降現象,因為所有寬度都對應於超參數化模型 。

圖6:隨著寬度的增加,有限寬網絡通常表現得更好,但是CNN-VEC顯示出驚人的非單調行為。L2:訓練期間允許非零權重衰減 ,LR:允許大學習率。虛線表示允許欠擬合(U)。

7、對角線正則化核函數的作用類似於early stopping

在進行核推理時,通常在訓練核矩陣中添加一個對角正則化器。

對於線性回歸,Ali等人證明了梯度流下核正則化器的逆與early stopping的時間有關。對於核函數,梯度流動力學直接對應於廣義神經網絡的訓練。

作者在圖7中實驗性地探索了early stopping、核正則化和泛化之間的關係,觀察到了正則化和early stopping之間的密切關係,並發現在大多數情況下,最好的驗證性能發生在early stopping和非零ε。

圖7:對角核正則化的作用類似於 early stopping。實線對應於具有可變對角線正則化ε的NTK推斷。虛線對應於梯度下降演化到特定時間後的預測。線顏色表示不同的訓練集大小m。在時間t執行早期停止與係數ε的正則化密切相關,其中K=10表示輸出類別的數量。

8、浮點精度限制了超過臨界數據集大小的內核性能

作者從經驗上觀察到,在一個關鍵的數據集大小下,內核對float32和float64的數值精度變得敏感。例如,GAP模型在數據集大小為10^4時會遇到float32數值精度錯誤。

圖8:無限網絡核的尾部特徵值顯示冪律衰減。紅色虛線表示寬度增大的核矩陣由於浮點精度而在特徵值中預測的噪聲比例。CNN-GAP結構的特徵值衰減很快,當數據集大小為O(10^4)時,可能會被float32量化噪聲所淹沒。對於float64精度,在數據集大小為O(10^10)之前,量化噪聲不會變得顯著。

這種現象可以用一個簡單的隨機噪聲模型來理解。關鍵是特徵值衰減快的核會受到浮點噪聲的影響。經驗上,NNGP/NTK的尾部特徵值遵循冪律(見圖8),測量其衰減趨勢可以很好地指示關鍵數據集大小。

9、線性化的CNN-GAP模型由於條件差而表現不佳

作者觀察到線性化的CNN-GAP在訓練集上收斂極慢,導致驗證性能不佳(圖3)。即使在L2正則化強度和學習率發生變化時,訓練10M以上的步數,最佳訓練精度仍低於90%,測試精度為70%——比相應的無限和非線性有限寬度網絡都差。

這是由池化網絡條件不佳造成的,CNN-GAP網絡在初始化時的調節比FCN或CNN-VEC網絡差一倍(CIFAR-10為1024)。

在圖8中可以看到核特徵譜的這種不良條件。對於線性化網絡,除了將訓練速度減慢1024倍外,使用float32還會導致數值不穩定。

10、正則化的ZCA白化提高了準確率

ZCA白化是一種數據預處理技術:

最近有研究者證明在一些核方法中它結合分母中的一個小正則化參數可以顯著提高精度。

作者研究了ZCA白化作為有限寬度和無限寬度神經網絡的預處理步驟的效用,通過調整正則化參數,輸入圖像的正則化ZCA白化提高了驚人的模型精度,特別是對於無限寬NNGP和NTK預測:

圖9:正規化ZCA白化改善了有限寬度和無限寬度網絡的圖像分類性能。所有曲線均顯示性能是ZCA正則強度的函數。(a)對CIFAR-10,Fashion-MNIST和CIFAR-100上的內核方法的輸入進行ZCA白化。(b)對有限寬度網絡的輸入進行ZCA白化(圖S11中的訓練曲線)。

11、等變性僅對核機制之外的窄網絡有益

等變性是一種常用的激發CNN強大性能的方法,作者證明了等變性只對遠離核區域的窄網絡有益。

圖10:等變性僅在核機制之外的CNN模型中使用。如果CNN模型能夠有效利用等變性,則我們希望它比FCN(全卷積網絡)對裁剪和翻譯的魯棒性更高。出人意料的是,寬輸入CNN-VEC的性能隨輸入擾動幅度的下降速度與FCN一樣快,這表明等變性未被利用。相反,具有權重衰減的窄模型(CNN-VEC + L2 + narrow)的性能下降得慢得多。如預期一樣,翻譯不變的CNNGAP仍然是最可靠的。

12、集成核預測變量有助於NNGP / NTK數據增強

最後,作者提出了一種簡單的方法,用於對NNGP和NTK模型的預測進行集成,以在無限寬度網絡中實現數據增強。(否則,由於核方法對數據集大小的立方依賴,數據增強是不可行的)

圖11:集成內核預測變量使從大型增強數據集進行的預測易於計算。

表1:相應架構類型內核的CIFAR-10測試準確率。

2 論文信息

論文連結:https://arxiv.org/abs/2007.15801v1

想知道谷歌大腦是如何設置和訓練無限寬神經網絡的嗎?谷歌大腦已經開源了該項目,感興趣的同學可以去試試。

項目地址:https://github.com/google/neural-tangents

第一作者:Jaehoon Lee。

Jaehoon目前是谷歌大腦團隊的一員。加入谷歌之前,他已經接受過理論物理學的訓練。他是溫哥華UBC弦理論小組的博士後研究員。在此之前,他在麻省理工學院獲得博士學位,在理論物理中心工作,致力於相互作用的量子場論。目前,他的研究興趣是通過物理學的啟發來增強對深度學習的理解。

谷歌主頁:https://research.google/people/JaehoonLee/

關鍵字: