告別2019：屬於深度學習的十年，那些我們必須知道的經典

選自leogao.dev

作者：Leo Gao

參與：一鳴、澤南、蛋醬

2020 新年快樂！

當今天的太陽升起時，我們正式告別了上一個十年。

在這十年中，伴隨著計算能力和大數據方面的發展，深度學習已經攻克了許多曾經讓我們感到棘手的問題，尤其是計算機視覺和自然語言處理方面。此外，深度學習技術也越來越多地走進我們的生活，變得無處不在。

這篇文章總結了過去十年中在深度學習領域具有影響力的論文，從 ReLU、AlexNet、GAN 到 Transformer、BERT 等。每一年還有很多榮譽提名，包括了眾多名聲在外的研究成果。

2011 年：激活函數 ReLU

《Deep Sparse Rectifier Neural Networks（ReLU）》

論文連結：http://proceedings.mlr.press/v15/glorot11a/glorot11a.pdf（被引用量 4071）

早期的神經網絡大多使用 sigmoid 激活函數。雖然它具有很好的效果，但是，隨著層數的增加，這種激活函數使得梯度很容易出現衰減。在 2011 年的這篇論文中，ReLU 被正式提出。它能夠幫助解決梯度消失的問題，為神經網絡增加深度鋪路。

Sigmoid 及其導數。

當然，ReLU 也有一些缺點。在函數為 0 的時候不可微，而神經元可能會「死亡」。在 2011 年之後，很多針對 ReLU 的改進也被提了出來。

年度榮譽提名：（這一年的大部分研究集中於對激活函數的改進）

1、《Rectifier Nonlinearities Improve Neural Network Acoustic Models（Leaky ReLU）》

基於對 ReLU 進行了改進的激活函數，在 x 為負時不取 0。

論文連結：https://ai.stanford.edu/~amaas/papers/relu_hybrid_icml2013_final.pdf

2、《Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)》

論文連結：https://arxiv.org/abs/1511.07289

3、《Self-Normalizing Neural Networks（SELUs）》

論文連結：https://arxiv.org/abs/1706.02515

4、《Gaussian Error Linear Units (GELUs)》

這一激活函數已證明比 ReLU 效果更好，BERT 等模型已使用。

論文連結：https://arxiv.org/abs/1606.08415

2012 年：掀起深度學習浪潮的 AlexNet

《ImageNet Classification with Deep Convolutional Neural Networks（AlexNet）》

論文連結：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-convolutional-neural-networks（被引用量 52025）

AlexNet 架構。

AlexNet 經常被認為是這一波人工智慧浪潮的起點，該網絡在 ImageNet 挑戰賽中的錯誤率與前一屆冠軍相比減小了 10% 以上，比亞軍高出 10.8 個百分點。AlexNet 是由多倫多大學 SuperVision 組設計的，由 Alex Krizhevsky, Geoffrey Hinton 和 Ilya Sutskever 組成。

AlexNet 是一個 8 層的卷積神經網絡，使用 ReLU 激活函數，總共有 6 千萬參數量。AlexNet 的最大貢獻在於證明了深度學習的能力。它也是第一個使用並行計算和 GPU 進行加速的網絡。

在 ImageNet 上，AlexNet 取得了很好的表現。它將識別錯誤率從 26.2% 降到了 15.3%。顯著的性能提升吸引了業界關注深度學習，使得 AlexNet 成為了現在這一領域引用最多的論文。

年度榮譽提名：

1、《ImageNet: A Large-Scale Hierarchical Image Database（ImageNet）》

ImageNet 是史丹福大學李飛飛等人完成的一個用於圖像識別的數據集，是計算機視覺領域檢驗模型性能的基準數據集。

論文連結：http://www.image-net.org/papers/imagenet_cvpr09.pdf

ImageNet

2、《Flexible, High Performance Convolutional Neural Networks for Image Classification（Jurgen Schmidhuber 為通訊作者）》

論文連結：http://people.idsia.ch/~juergen/ijcai2011.pdf

3、《Gradient-Based Learning Applied to Document Recognition》

論文連結：http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf

2013 年：NLP 的經典 word2vec；開啟深度強化學習時代

《Distributed Representations of Words and Phrases and their Compositionality（word2vec）》

論文連結：https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf（被引用量 16923）

Word2vec 是由谷歌研究團隊里 Thomas Mikolov 等人提出的模型，該模型能從非常大的數據集中計算出用以表示詞的連續型向量。word2vec 成為了 NLP 領域的深度學習主要的文本編碼方式。它基於在相同語境中同時出現詞具有相似含義的思路，使文本可以被嵌入為向量，並用於其他下游任務。

年度榮譽提名：

1、《GloVe: Global Vectors for Word Representation》

論文連結：https://nlp.stanford.edu/pubs/glove.pdf

2、《Playing Atari with Deep Reinforcement Learning》

論文連結：https://www.cs.toronto.edu/~vmnih/docs/dqn.pdf（被引用量 3251）

DeepMind 的 DQN 模型玩雅達利遊戲

DeepMind 在這一年提出的用 DQN 玩雅達利遊戲開啟了深度強化學習研究的大門。強化學習過去大多數情況下用在低維環境中，很難在更複雜的環境中使用。雅達利遊戲是第一個強化學習在高維環境中的應用。這一研究提出了 Deep Q-learning 算法，使用了一個基於價值的獎勵函數。

年度榮譽提名：

1、《Learning from Delayed Rewards（Q-Learning）》

論文連結：http://www.cs.rhul.ac.uk/~chrisw/new_thesis.pdf

2014 年：GAN；Adam；Attention 機制

《Generative Adversarial Networks》

論文連結：https://papers.nips.cc/paper/5423-generative-adversarial-nets（被引用量 13917）

生成對抗網絡（Generative Adversarial Network，簡稱 GAN）是 Ian Goodefellow 等人提出的非監督式學習方法，通過讓兩個神經網絡相互博弈的方式進行學習。自 2014 年 GAN 網絡提出以來，其在 Computer Vision（計算機視覺）等領域獲得了廣泛的關注

生成對抗網絡（GAN）的成功在於它能夠生成逼真圖片。這一網絡通過使用生成器和判別器之間的最小最大（minimax）博弈，GAN 能夠建模高緯度、複雜的數據分布。在 GAN 中，生成器用於生成假的樣本，而判別器進行判斷（是否為生成數據）。

年度榮譽提名：

1、《Wasserstein GAN & Improved Training of Wasserstein GANs（WGAN）》

WGAN 是 GAN 的改進版本，取得了更好的效果。

論文連結：https://arxiv.org/abs/1701.07875

2、《StyleGAN》

StyleGAN 生成的圖像

論文連結：https://arxiv.org/abs/1812.04948

3、《Neural Machine Translation by Jointly Learning to Align and Translate（attention 機制）》

論文連結：https://arxiv.org/abs/1409.0473（被引用量 9882）

注意力的可視化結果

這篇論文介紹了注意力機制的思路。與其將所有信息壓縮到一個 RNN 的隱層中，不如將整個語境保存在內存中。這使得所有的輸出都能和輸入對應。除了在機器翻譯中使用外，attention 機制還被用於 GAN 等模型中。

《Adam: A Method for Stochastic Optimization》

論文連結：https://arxiv.org/abs/1412.6980（被引用量 34082）

Adam 由於其易微調的特性而被廣泛使用。它基於對每個參數的不同學習率進行適應這種思想。雖然近來有對 Adam 性能提出質疑的論文出現，但它依然是深度學習中最受歡迎的目標函數優化器。

年度榮譽提名：

1、《Decoupled Weight Decay Regularization》

論文地址：https://arxiv.org/abs/1711.05101

2、《RMSProp》

和 Adam 一樣出名的目標函數優化器。

論文地址 https://www.cs.toronto.edu/~tijmen/csc321/slides/lecture_slides_lec6.pdf*

2015：超越人類的 ResNet；神奇的批歸一化

《Deep Residual Learning for Image Recognition》

論文連結：https://arxiv.org/abs/1512.03385(被引用量 34635)

Residual Block 結構。

大名鼎鼎的 ResNet，從 ResNet 開始，神經網絡在視覺分類任務上的性能第一次超越了人類。這一方法贏得了 ImageNet 2015、以及 COCO 競賽的冠軍，也獲得了 CVPR2016 的最佳論文獎：該研究的作者是何愷明、張祥雨、任少卿和孫劍。

最初 ResNet 的設計是用來處理深層 CNN 結構中梯度消失和梯度爆炸的問題，如今 Residual Block 已經成為了幾乎所有 CNN 結構中的基本構造。

這個想法很簡單：將輸入（input）從卷積層的每個塊添加到輸出（output）。殘差網絡之後的啟示是，神經網絡不應分解為更多的層數，在最不理想的情況下，其他層可以簡單設置為恆等映射（identity mapping）。但在實際情況中，更深層的網絡常常在訓練上遇到困難。殘差網絡讓每一層更容易學習恆等映射，並且還減少了梯度消失的問題。

儘管並不複雜，但殘差網絡很大程度上優於常規的 CNN 架構，尤其在應用於更深層的網絡上時。

幾種 CNN 之間的對比。

眾多 CNN 架構都在爭奪「頭把交椅」，以下是一部分具有代表意義的樣本：

Inceptionv1 結構。

年度榮譽提名：

1、《Going Deeper with Convolutions》

論文連結: https://arxiv.org/abs/1409.4842

2、《Very Deep Convolutional Networks for Large-Scale Image Recognition》

論文連結: https://arxiv.org/abs/1409.1556

3、《Neural Ordinary Differential Equations》

論文連結: https://arxiv.org/abs/1806.07366（NIPS 2018 最佳論文獎）

《Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift（批歸一化）》

論文連結：https://arxiv.org/abs/1502.03167（14384 次引用）

批歸一化（Batch normalization）是如今幾乎所有神經網絡的主流趨勢。批歸一基於另外一個簡單但是很棒的想法：在訓練過程中保持均值和方差統計，藉此將 activation 的範圍變換為零均值和單位方差。

關於批歸一化效果的確切原因還未有定論，但從實踐上說確實有效的。

年度榮譽提名：

不同歸一化技術的可視化呈現。

1、《層歸一化（Layer Normalization）》

論文連結：https://arxiv.org/abs/1607.06450

2、《實例歸一化（Instance Normalization）》

論文連結：https://arxiv.org/abs/1607.08022

3、《組歸一化（Group Normalization）》

論文連結：https://arxiv.org/abs/1803.08494

2016 年：攻陷最複雜的遊戲——AlphaGo

登上 Nature 的 AlphaGo 論文《Mastering the game of Go with deep neural networks and tree search》

論文連結：https://www.nature.com/articles/nature16961（被引用量 6310）

很多人對於現代 AI 的理解始於 DeepMind 的圍棋程序 AlphaGo。AlphaGo 研究項目始於 2014 年，目的是為了測試一個使用深度學習的神經網絡如何在 Go 上競爭。

AlphaGo 比以前的 Go 程序有了顯著的改進，在與其他可用圍棋程序（包括 Crazy Stone 和 Zen）的 500 場比賽中，在單台計算機上運行的 AlphaGo 贏得了除一個之外的所有勝利，而運行在多台計算機上的 AlphaGo 贏得了與其他 Go 程序對戰的所有 500 場比賽，在與單台計算機上運行的 AlphaGo 比賽中贏下了 77％的對陣。2015 年 10 月的分布式版本使用了 1,202 個 CPU 和 176 個 GPU，當時它以 5: 0 的比分擊敗了歐洲圍棋冠軍樊麾（職業 2 段選手），轟動一時。

這是計算機圍棋程序第一次在全局棋盤（19 × 19）且無讓子的情況下擊敗了人類職業棋手。2016 年 3 月，通過自我對弈進行練習的加強版 AlphaGo 在比賽中以 4: 1 擊敗了世界圍棋冠軍李世石，成為第一個在無讓子情況下擊敗圍棋職業九段棋手的電腦程式，載入史冊。賽後，AlphaGo 被韓國棋院授予名譽職業九段的稱號。

年度榮譽提名：

1、DeepMind 的另一篇 AlphaGo Nature 論文《Mastering the game of Go without human knowledge》

論文連結：https://www.nature.com/articles/nature24270

作為 AlphaGo 的後繼版本，2017 年 10 月，DeepMind 發布最新強化版的 AlphaGo Zero，這是一個無需用到人類專業棋譜的版本，比之前的版本都強大。通過自我對弈，AlphaGo Zero 經過三天的學習就超越了 AlphaGo Lee 版本的水平，21 天后達到 AlphaGo Maseter 的實力，40 天內超越之前所有版本。

2017 年：幾乎人人都用的 Transformer

《Attention Is All You Need》

論文連結：https://papers.nips.cc/paper/7181-attention-is-all-you-need.pdf（被引用量 5059）

著名的 Transformer 架構出現了。2017 年 6 月，谷歌宣布又在機器翻譯上更進了一步，實現了完全基於 attention 的 Transformer 機器翻譯網絡架構，並且還在 WMT 2014 的多種語言對的翻譯任務上超越了之前 Facebook 的成績，實現了新的最佳水平。

在編碼器-解碼器配置中，顯性序列顯性轉導模型（dominant sequence transduction model）基於複雜的 RNN 或 CNN。表現最佳的模型也需通過注意力機制（attention mechanism）連接編碼器和解碼器。

谷歌提出了一種新型的簡單網絡架構——Transformer，它完全基於注意力機制，徹底放棄了循環和卷積。兩項機器翻譯任務的實驗表明，這些模型的翻譯質量更優，同時更並行，所需訓練時間也大大減少。新的模型在 WMT 2014 英語轉德語的翻譯任務中取得了 BLEU 得分 28.4 的成績，領先當前現有的最佳結果（包括集成模型）超過 2 個 BLEU 分值。在 WMT 2014 英語轉法語翻譯任務上，在 8 塊 GPU 上訓練了 3.5 天之後，新模型獲得了新的單模型頂級 BLEU 得分 41.0，只是目前文獻中最佳模型訓練成本的一小部分。

Transformer 在其他任務上也泛化很好，把它成功應用到了有大量訓練數據和有限訓練數據的英語組別分析上。

《Neural Architecture Search with Reinforcement Learning》

論文連結：https://openreview.net/forum?id=r1Ue8Hcxg（被引用量 1186）

神經結構搜索（NAS）表示自動設計人工神經網絡（ANN）的過程，人工神經網絡是機器學習領域中廣泛使用的模型。NAS 的各種方法設計出的神經網絡，其性能與手工設計的架構相當甚至更優越。可以根據搜索空間，搜索策略和性能評估策略三個方面對 NAS 的方法進行分類。其他方法，如《Regularized Evolution for Image Classifier Architecture Search》（即 AmoebaNet）使用了進化算法。

2018 年：預訓練模型大熱

當然是谷歌的 NLP 預訓練模型 BERT：《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》，這篇論文現在已經有 3025 次引用量了。

論文連結：https://arxiv.org/abs/1810.04805

本文介紹了一種新的語言表征模型 BERT——來自 Transformer 的雙向編碼器表征。與最近的語言表征模型不同，BERT 旨在基於所有層的左、右語境來預訓練深度雙向表征。BERT 是首個在大批句子層面和 token 層面任務中取得當前最優性能的基於微調的表征模型，其性能超越許多使用任務特定架構的系統，刷新了 11 項 NLP 任務的當前最優性能記錄。

BERT 與 GPT-2 和 ELMo 的模型結構對比。

年度榮譽提名：

自 BERT 被提出以來，基於 Transformer 的語言模型呈井噴之勢。這些論文尚需時間考驗，還很難說哪一個最具影響力。

1、《Deep contextualized word representations》

論文連結：https://arxiv.org/abs/1802.05365

2、《Improving Language Understanding by Generative Pre-Training》

論文連結：https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf

3、《Language Models are Unsupervised Multitask Learners》——即 OpenAI 在 2 月份推出的，參數量高達 15 億的預訓練模型 GPT-2。

論文連結：https://d4mucfpksywv.cloudfront.net/better-language-models/language_models_are_unsupervised_multitask_learners.pdf

4、《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》

以往的 Transformer 網絡由於受到上下文長度固定的限制，學習長期以來關係的潛力有限。本文提出的新神經架構 Transformer-XL 可以在不引起時間混亂的前提下，可以超越固定長度去學習依賴性，同時還能解決上下文碎片化問題。

論文連結：https://arxiv.org/abs/1901.02860

5、《XLNet: Generalized Autoregressive Pretraining for Language Understanding》

BERT 帶來的影響還未平復，CMU 與谷歌大腦 6 月份提出的 XLNet 在 20 個任務上超過了 BERT 的表現，並在 18 個任務上取得了 SOTA。

論文連結：https://arxiv.org/abs/1906.08237

6、《Neural Machine Translation of Rare Words with Subword Units》

論文連結：https://arxiv.org/abs/1508.07909

2019 年：深度學習的原理改進

論文《Deep Double Descent: Where Bigger Models and More Data Hurt》，本文討論的 Double Descent 現象與經典機器學習和現代深度學習中的流行觀點背道而馳。

論文連結：https://arxiv.org/abs/1912.02292

在本文中研究者證明，各種現代深度學習任務都表現出「雙重下降」現象，並且隨著模型尺寸的增加，性能首先變差，然後變好。此外，他們表明雙重下降不僅作為模型大小的函數出現，而且還可以作為訓練時間點數量的函數。研究者通過定義一個新的複雜性度量（稱為有效模型複雜性，Effective Model Complexity）來統一上述現象，並針對該度量推測一個廣義的雙重下降。此外，他們對模型複雜性的概念使其能夠確定某些方案，在這些方案中，增加（甚至四倍）訓練樣本的數量實際上會損害測試性能。

來自 MIT CSAIL 研究者的論文《The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks》，它也獲得了 ICLR 2019 的最佳論文獎。

論文連結：https://arxiv.org/abs/1803.03635

研究者們發現，標準的神經網絡剪枝技術會自然地發現子網絡，這些子網絡經過初始化後能夠有效進行訓練。基於這些結果，研究者提出了「彩票假設」（lottery ticket hypothesis）：密集、隨機初始化的前饋網絡包含子網絡（「中獎彩票」），當獨立訓練時，這些子網絡能夠在相似的疊代次數內達到與原始網絡相當的測試準確率。

未來？

因為深度學習和基於梯度的神經網絡出現技術突破，過去十年是人工智慧高速發展的一段時期。這很大程度上是因為晶片算力的顯著提高，神經網絡正在變得越來越大，性能也越來越強。從計算機視覺到自然語言處理，新的方法已經大面積取代了傳統的 AI 技術。

但是神經網絡也有其缺點：它們需要大量已標註數據進行續聯，無法解釋自身的推斷機制，難以推廣到單個任務之外。不過因為深度學習的推動，AI 領域快速發展，越來越多的研究者正在致力於應對這些挑戰。

在未來的幾年裡，人們對於神經網絡的理解還會不斷增加。人工智慧的前景還是一片光明：深度學習是 AI 領域裡最有力的工具，它會使我們進一步接近真正的智能。

讓我們期待 2020 年的新成果吧。

參考連結：https://leogao.dev/2019/12/31/The-Decade-of-Deep-Learning/