「深度學習」這十年:52篇大神級論文再現AI榮與光

thu數據派 發佈 2020-01-09T15:56:53+00:00

2011年其他重要論文:RectifierNonlinearities Improve Neural Network Acoustic ModelsFast and Accurate Deep Network Learning by Exponential Linear Unit

來源:新智元

本文約4100字,建議閱讀6分鐘

從「深度學習三巨頭」到何愷明,從谷歌到MIT,52篇神級論文帶大家回顧深度學習這十年。
[ 導讀 ]從自動駕駛到Deepfake,深度學習正在改變世界。過去十年中有哪些有影響力的深度學習論文?從「深度學習三巨頭」到何愷明,從谷歌到MIT,52篇神級論文帶大家回顧深度學習這十年。

隨著2020年的到來,人類進入了一個嶄新的十年。回顧過去10年,深度學習領域取得的巨大進步。隨著計算能力的不斷提高和大數據可用性的不斷提高,深度學習已經成功地解決了許多以前難以解決的問題,特別是在計算機視覺和自然語言處理領域。深度學習也開始在現實世界中應用,從自動駕駛汽車和醫學成像到虛擬助手和deepfake,或多或少都在影響我們。

今天和大家分享的這篇文章概述了過去十年中一些最有影響力的深度學習論文,受到了reddit網友們的高贊。

2011年:Yoshua Bengio等人提出ReLU激活函數,為更深層次網絡鋪平了道路

Deep Sparse Rectifier Neural Networks (被引4071次)

ReLU和Softplus

Yoshua Bengio等人的這篇論文提出了ReLU激活函數,ReLU激活函數的表現能力比tanh激活函數的更加好,訓練完畢的神經網絡具有一定的稀疏性。本文發現,使用ReLU有助於解決梯度消失的問題,並為更深層次的網絡鋪平了道路。

2011年其他重要論文:

  • Rectifier Nonlinearities Improve Neural Network Acoustic Models
  • Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)
  • Self-Normalizing Neural Networks
  • Gaussian Error Linear Units (GELUs)

2012年:Hinton指導,AlexNet轟動一時

ImageNet Classification with Deep Convolutional Neural Networks (被引52025次)

AlexNet體系結構

2012 年,在Hinton的指導下,Alex Krizhevsky和Sutskever 合作開發了轟動一時的AlexNet。這篇題為ImageNet Classification with Deep Convolutional Neural Networks的論文,引用量超50000次。

AlexNet以一種新穎的神經網絡架構在NeurIPS亮相,包含五個卷積層和三個全連接層。這篇論文被廣泛認為是一項真正的開創性工作,因為它首次證明了在GPU上訓練的深度神經網絡可以將圖像識別任務提升到一個新的水平。

AlexNet網絡對神經網絡的發展產生了非常重要的影響,之後的ImageNet冠軍全都採用了卷積神經網絡結構,使得CNN架構成為圖像分類的核心模型,並由此開啟了深度學習新一波浪潮,其使用的卷積+池化+全連接的架構仍然是當前深度學習最主要的網絡結構。

2012年其他重要論文:

ImageNet層次結構中的圖像示例

  • ImageNet: A Large-Scale Hierarchical Image Database
  • Flexible, High Performance Convolutional Neural Networks for Image Classification
  • Gradient-Based Learning Applied to Document Recognition

2013年:DQN打響DRL的第一槍

Distributed Representations of Words and Phrases and their Compositionality (被引16923次)

這篇論文是對《Efficient Estimation of Word Representations in Vector Space》的補充,介紹了使用Skip-gram模型和Hierarchical Softmax訓練模式的訓練方法,並補充了Negative Sampling的訓練模式替代Negative Sampling,獲得更快的訓練效果。本文還提出了對高頻詞進行二次抽樣的方法,以及衡量短語的方法,學習短語的表示。

Mikolov等人引入了Skip-gram模型,這是一種從大量非結構化文本數據中學習高質量向量表示的有效方法。與過去大部分用於學習word vectors的神經網絡架構不同,Skip-gram模型的訓練不涉及密集矩陣的乘法。這使得訓練非常高效:一個優化過的單機實現可以在一天內訓練超過1000億字。

Playing Atari with Deep Reinforcement Learning (被引3251次)

DeepMind Atari DQN

DeepMind的Atari DQN的結果開啟了深度強化學習的領域。強化學習以前主要用於網格世界等低維環境,很難應用於更複雜的環境。Atari是強化學習在高維環境中的第一個成功應用,它將強化學習從從默默無聞帶到了AI的重要子領域。

本文提出了一種深度學習方法,利用強化學習的方法,直接從高維的感知輸入中學習控制策略。模型是一個卷積神經網絡,利用 Q-learning的一個變種來進行訓練,輸入是原始像素,輸出是預測將來的獎勵的 value function。將此方法應用到 Atari 2600 games 上來,進行測試,發現在所有遊戲中都比之前的方法有效,甚至在其中3個遊戲中超過了一個人類玩家的水平。

2013年其他重要論文:

  • GloVe: Global Vectors for Word Representation
  • Learning from Delayed Rewards

2014年:Bengio同他的博士生Ian Goodfellow合著論文,提出了著名的生成對抗網絡

Generative Adversarial Networks (被引 13917次)

生成對抗網絡(GAN)的走紅在很大程度上要歸功於其產生的驚人視覺效果。依靠生成器和判別器之間的博弈,GAN能夠建模複雜的高維分布。生成器的目的是儘量降低判別器正確判斷出假樣本的機率,而判別器的目標是最大程度地降低圖像分類和判斷假樣本時的錯誤。

在實踐中,通常會訓練生成器讓判別器錯誤識別的對數機率最大化。這可以減小梯度飽和,並提高訓練穩定性。

Neural Machine Translation by Jointly Learning to Align and Translate (被引 9882 次)

本文介紹了注意力的概念。與其將信息壓縮到RNN的潛在空間中,不如將整個上下文保留在內存中,利用o(mn)次操作,讓輸出的每個元素都參與輸入的每個元素。

儘管增加了計算次數,但是注意力機制要比固定狀態的RNN性能更好,不僅成為翻譯和語言建模等文本類任務不可或缺的一部分,而且也加入到GAN等非文本模型中。

Adam:A Method for Stochastic Optimization (被引 34082 次)

由於便於調節,Adam已成為非常流行的自適應優化器。Adam可以為每個參數單獨調節學習率。儘管最近的論文對Adam的性能表示懷疑,但它仍然是目前深度學習中最受歡迎的優化算法之一。

2014年其他重要論文:

  • Wasserstein GAN & Improved Training of Wasserstein GANs
  • A Style-Based Generator Architecture for Generative Adversarial Networks
  • Decoupled Weight Decay Regularization

2015年:ResNet讓何愷明正式踏上大神之路

Deep Residual Learning forImage Recognition (被引 34635次 )

深度殘差學習最初設計用於解決深度卷積神經網絡(CNN)中的梯度消失/梯度爆炸問題,現在,殘差塊已成為幾乎所有CNN的基本組成部分。它的思路很簡單:將輸入從卷積層的每個塊之前添加到輸出中。殘差網絡背後的啟示是,理論上神經網絡絕不應該分解為更多的層,因為在最壞的情況下,可以將其他層簡單地設置為恆等映射。

但是在實踐中,更深層的網絡經常會遇到訓練困難的問題。殘差網絡使各層更容易學習恆等映射,而且緩解了梯度消失的問題。儘管思路簡單,但是殘差網絡在很大程度上優於常規的CNN,對於較深的網絡而言優勢尤其明顯。

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift (被引 14384次)

批歸一化(Batch normalization)是當今幾乎所有神經網絡的另一支柱。它基於另一個簡單而強大的思路:在訓練過程中保持均值和方差統計,並使用該統計將激活範圍縮放為零均值和單位方差。批歸一化能夠有效的確切原因尚有爭議,但從過去經驗看,其有效性是毫無疑問的。

2015年其他重要論文:

  • Going Deeper with Convolutions
  • Very Deep Convolutional Networks for Large-Scale Image Recognition
  • Neural Ordinary Differential Equations
  • Layer Normalization
  • Instance Normalization: The Missing Ingredient for Fast Stylization
  • Group Normalization

2016年:谷歌DeepMind團隊揭秘AlphaGo

Mastering the game of Go with deep neuralnetworks and tree search (被引 6310 次)

在1997年IBM的計算機「深藍」擊敗西洋棋世界冠軍卡斯帕羅夫之後,圍棋就成為AI社區的下一個目標,這主要是因為圍棋的特點:圍棋的狀態空間比西洋棋大得多,對人類棋手直覺的依賴也更強。

在AlphaGo之前,最成功的AI圍棋系統(如Crazy Stone和Zen)都是蒙特卡羅樹搜索與許多手工啟發式搜索相結合的樹搜索形式。從這些系統的進展速度來看,過去認為AI在圍棋上擊敗人類頂尖選手還要很多年。儘管確實存在將神經網絡應用於圍棋的先前嘗試,但之前確實沒有一次能達到AlphaGo的水平。AlphaGo由策略網絡和價值網絡組成,這些策略網絡和價值網絡分別縮小了搜索樹的範圍,並允許截斷搜索樹。這些網絡首先通過標準的監督學習進行了訓練,然後通過強化學習進行了進一步的調整。

AlphaGo可能對大眾的觀點產生了巨大影響,2016年,全球估計有1億人(尤其是在圍棋十分流行的中、日、韓三國)觀看了AlphaGo和李世石的「人機大戰」。這場比賽以及以後的其他AlphaGo Zero的比賽,已經影響了人類棋手的行棋策略。其中本次比賽第二局的第37手是AlphaGo極有影響力的一手。AlphaGo的很多行棋有違人類棋手的常規,讓許多分析師感到困惑。後來證明,這一手對於AlphaGo取得勝利至關重要。

2016年其他重要論文:

  • Mastering the Game of Go without Human Knowledge

2017年:谷歌把基於Attention的序列神經模型推向高潮

Attention Is All You Need (被引 5059次)


Transformer體系結構大規模利用了上文提到的注意力機制,現在已成為幾乎所有最新NLP模型的基礎。Transformer模型在很大程度上優於RNN,這是因為在超大型網絡中前者具有計算成本上的優勢。

在RNN中,需要在整個「展開」的圖中傳播梯度,這使內存訪問成為一個很大的瓶頸,也讓梯度爆炸/梯度消失梯度問題更加嚴重,因此需要更複雜(且計算量更大)的LSTM和GRU模型。

相比之下,Transformer模型針對高度並行處理進行了優化。計算成本最高的部分是注意力層之後的前饋網絡(可以並行化應用)和注意力層本身(大矩陣乘法,很容易優化)。

Neural Architecture Search with Reinforcement Learning (被引1186次)

神經架構搜索(NAS)已成為「榨乾」最後一點網絡性能的普遍方式。NAS無需手動設計架構,而是讓這個過程實現自動化。本文使用強化學習對控制器網絡進行了訓練,以生成高性能的網絡架構,從而創建了許多SOTA網絡。其他方法,如面向圖像分類器體系結構搜索的AmoebaNet則使用進化算法。

2018年:NLP里程碑,谷歌BERT模型狂破11項紀錄

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (被引3025次)

BERT與GPT和ELMo的比較

谷歌AI團隊2018年發布的BERT模型,在NLP業內引起巨大反響。BERT在機器閱讀理解測試SQuAD1.1中表現出驚人的成績:全部兩個衡量指標上全面超越人類,並且還在11種不同NLP任務中創出最佳成績,,包括將GLUE基準推至80.4%(絕對改進7.6%),MultiNLI準確度達到86.7% (絕對改進率5.6%)等。這項工作被認為是NLP領域裡程碑式的進步。

2018年其他重要論文:

  • Deep contextualized word representations
  • Improving Language Understanding by Generative Pre-Training
  • Language Models are Unsupervised Multitask Learners
  • Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
  • XLNet: Generalized Autoregressive Pretraining for Language Understanding
  • Neural Machine Translation of Rare Words with Subword Units

2019年:MIT科學家提出彩票假設,神經網路縮小10倍並不影響結果

Deep Double Descent: Where Bigger Models and More Data Hurt

Deep Double Descent

在這篇論文中,哈佛大學聯合 OpenAI 提出了泛化的雙重下降假設,即當模型和訓練過程的有效模型複雜性與訓練樣本數量相當時,它們會呈現出非典型的行為。

研究者證明,各種現代深度學習任務都表現出「雙重下降」現象,並且隨著模型尺寸的增加,性能首先變差,然後變好。此外,他們表明雙重下降不僅作為模型大小的函數出現,而且還可以作為訓練時間點數量的函數。研究者通過定義一個新的複雜性度量(稱為有效模型複雜性,Effective Model Complexity)來統一上述現象,並針對該度量推測一個廣義的雙重下降。此外,他們對模型複雜性的概念使其能夠確定某些方案,在這些方案中,增加(甚至四倍)訓練樣本的數量實際上會損害測試性能。

The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks

這篇來自MIT的論文獲得了ICLR 2019最佳論文。神經網絡剪枝技術可以在不影響精度的前提下,將訓練網絡的參數數量減少 90% 以上,降低存儲需求並提高推理的計算性能。然而,當前的經驗是,剪枝產生的稀疏架構從一開始就很難訓練,這同樣可以提高訓練性能。

研究者發現,一種標準的剪枝技術可以自然地揭示子網絡,這些子網絡的初始化使它們能夠有效地進行訓練。基於這些結果,研究者提出了 「彩票假設」(lottery ticket hypothesis):包含子網絡 (「中獎彩票」,winning tickets) 的密集、隨機初始化的前饋網絡,這些子網絡在單獨訓練時,經過類似次數的疊代達到與原始網絡相當的測試精度。研究者找到的 「中獎彩票」 中了初始化彩票:它們的連接具有初始權重,這使得訓練特別有效。

原文連結:

https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/

編輯:文婧

—完—

關注清華-青島數據科學研究院官方微信公眾平台「 THU數據派 」及姊妹號「 數據派THU 」獲取更多講座福利及優質內容。

關鍵字: