MIT警示「深度學習過度依賴算力」，研究三年算法不如用10倍GPU

作者 | 蔣寶尚、青暮

編輯 | 叢末

目前深度學習的繁榮過度依賴算力的提升，在後摩爾定律時代可能遭遇發展瓶頸，在算法改進上還需多多努力。

根據外媒Venturebeat報導，麻省理工學院聯合安德伍德國際學院和巴西利亞大學的研究人員進行了一項「深度學習算力」的研究。

在研究中，為了了解深度學習性能與計算之間的聯繫，研究人員分析了Arxiv以及其他包含基準測試來源的1058篇論文。論文領域包括圖像分類、目標檢測、問答、命名實體識別和機器翻譯等。

得出的結論是：訓練模型的進步取決於算力的大幅提高，具體來說，計算能力提高10倍相當於三年的算法改進。

而這算力提高的背後，其實現目標所隱含的計算需求——硬體、環境和金錢成本將無法承受。

圖註：模型指標的線性增長和計算代價的指數增長相關。

為什麼說「深度學習過度依賴算力」？

他們得出這個結論的根據，是在1058篇論文中所統計的兩個信息：

1、在給定的深度學習模型中，單次傳播（即權重調整）所需的浮點操作數。

2、硬體負擔，或用於訓練模型的硬體的計算能力，計算方式為處理器數量乘以計算速率和時間。（研究人員承認，儘管這是一種不精確的計算方法，但在他們分析的論文中，對這種計算方式的報告比其他基準要廣泛。）

為了更清楚的說明「單次傳播所需的浮點操作數」和「硬體負擔」這兩個指標，作者在合著的研究報告中，舉了ImageNet的例子。

作者說，通過分析這些論文，目標檢測、命名實體識別和機器翻譯尤其顯示出硬體負擔的大幅增加，而結果的改善卻相對較小。在流行的開源ImageNet基準測試中，計算能力貢獻了圖像分類準確率的43％。

另外，即使是最樂觀的計算，要降低ImageNet上的圖像分類錯誤率，也需要進行10^5次以上的計算。

深度學習需要的硬體負擔和計算次數自然涉及巨額資金花費。據Synced的一篇報告估計，華盛頓大學的Grover假新聞檢測模型在大約兩周的時間內訓練費用為25,000美元。OpenAI花費了高達1200萬美元來訓練其GPT-3語言模型，而Google估計花費了6912美元來訓練BERT，這是一種雙向Transformer模型，重新定義了11種自然語言處理任務的SOTA。

在去年6月的麻薩諸塞州大學阿默斯特分校的另一份報告中指出，訓練和搜索某種模型所需的電量涉及大約626,000磅的二氧化碳排放量。這相當於美國普通汽車使用壽命內將近五倍的排放量。

當然，研究人員也同時指出，在算法水平上進行深度學習改進已經成為提升算力性能的重要方向。他們提到了硬體加速器，例如Google的TPU、FPGA和ASIC，以及通過網絡壓縮和加速技術來降低計算複雜性的嘗試。他們還提到了神經架構搜索和元學習，這些方法使用優化來搜索在某一類問題上具有良好性能的架構。

OpenAI的一項研究表明，自2012年以來，將AI模型訓練到ImageNet圖像分類中相同性能所需的計算量每16個月減少一半。Google的Transformer架構超越了seq2seq，在seq2seq推出三年後，計算量減少了61倍。DeepMind的AlphaZero可以從頭開始學習如何掌握西洋棋、將棋和圍棋遊戲，與一年前該系統的前身AlphaGoZero相比，其計算量減少了八倍。

計算能力的爆髮結束了「AI的冬天」，並為各種任務的計算性能樹立了新的基準。但是，深度學習對計算能力的巨大需求限制了它改善性能的程度，特別是在硬體性能改善的步伐變得緩慢的時代。研究人員說：「這些計算限制的可能影響迫使機器學習轉向比深度學習更高效的技術。」

深度學習會被算力鎖死麼？頂層設計仍有希望

論文地址：https://science.sciencemag.org/content/368/6495/eaam9744

關於深度學習是否達到了計算能力上限這件事情，之前就有過討論，例如MIT、英偉達、微軟研究者合著的一篇 Science 論文便從軟體、算法、硬體架構三個維度分析了算力的發展趨勢。

在Science這篇論文中，作者給過去算力的提升歸納了兩個原因：一個是「底部」的發展，即計算機部件的小型化，其受摩爾定律制約；另一個是「頂部」的發展，是上面提到的軟體、算法、硬體架構的統稱。

在文章中，作者提到，在後摩爾定律時代，提升計算性能的方法，雖然「底部」已經沒有太多提升的空間，但「頂部」還有機會。

在軟體層面，可以通過性能工程（performance engineering）提高軟體的效率，改變傳統軟體的開發策略，儘可能縮短軟體運行時間，而不是縮短軟體開發時間。另外，性能工程還可以根據硬體的情況進行軟體定製，如利用並行處理器和矢量單元。

在算法層面，在已有算法上的改進是不均勻的，而且具有偶然性，大量算法進展可能來源於新的問題領域、可擴展性問題、根據硬體定製算法。

另外，在今年的5月份，OpenAI針對AI算法在過去數年中性能的提升做了一個詳細的分析。他們發現，自2012年以來，在 ImageNet 分類上訓練具有相同性能的神經網絡，所需要的計算量，每16個月降低一半。與2012年相比，現在將神經網絡訓練到 AlexNet 的性能，所需的計算量僅為原來的1/44（相比之下，摩爾定律僅降低為1/11）。

顯然，算法上的進步相比服從摩爾定理的硬體的進步，能產生更多的效益。

在硬體層面，由於摩爾定律的制約，顯然需要改進的是硬體的架構，主要問題就是如何簡化處理器和利用應用程式的並行性。通過簡化處理器，可以將複雜的處理核替換為電晶體數量需求更少的簡單處理核。由此釋放出的電晶體預算可重新分配到其他用途上，比如增加並行運行的處理核的數量，這將大幅提升可利用並行性問題的效率。

簡化的另一種形式是領域專門化（domain specialization），即針對特定應用程式定製硬體。這種專門化允許考慮領域的特點，自定義簡化硬體結構，具有極強的針對性。

Via https://venturebeat.com/2020/07/15/mit-researchers-warn-that-deep-learning-is-approaching-computational-limits/

招聘