海上院士講壇|陶大程：人工智慧的深度學習時代

CFIC導讀

◆在第三次技術革命的時代浪潮下，人工智慧和機器學習無疑是當下最受關注的話題。在AI高速發展的今天，如何正確認識人工智慧，如何訓練AI達到深度學習，如何看待人工智慧與深度學習的未來趨勢？這些都是我們亟待探討的問題！日前，人工智慧和信息科學領域國際知名學者、澳大利亞科學院院士、雪梨大學教授陶大程博士受邀出席"海上院士講壇"特別專場，並做"走進人工智慧，探索深度學習"的主題演講。

講壇現場

2019年12月30日，由中國金融信息中心、中國科學院上海分院主辦，中科院院士上海浦東活動中心協辦，與浙江省新昌縣人民政府全程戰略合作，中國信息通信研究院華東分院（簡稱"中國信通院華東分院"）特別支持的"海上院士講壇"特別專場在中國金融信息中心舉行。人工智慧和信息科學領域國際知名學者、澳大利亞科學院院士、雪梨大學教授陶大程博士受邀做"走進人工智慧探索深度學習"主題演講。

以下為會議實錄：

領導致辭

中國金融信息中心副總裁張鳳明

中國金融信息中心副總裁張鳳明在致辭中表示，作為新一輪科技革命和產業變革的重要驅動力量，人工智慧正在深刻改變世界。上海市委書記李強指出，上海將把發展人工智慧作為優先戰略選擇，主動謀劃，加緊布局，密集發力，加快建設人工智慧發展的"上海高地"，全力打造要素齊全、開放協同的良好生態。近期，為加快建設上海金融科技中心，市有關部門制定了《關於加快推進上海金融科技中心建設的實施方案》，方案指出要聚焦大數據、人工智慧、5G等新技術，推進金融科技核心技術研發及應用。

無論是政策層面，還是應用場景和市場，人工智慧已是未來已來。今天我們很榮幸地請到了人工智慧和信息科學領域國際知名學者，澳大利亞科學院院士、歐洲科學院外籍院士陶大程為我們暢談人工智慧與深度學習理論，分享前沿觀點。

中國金融信息中心是新華社直屬機構，是新華社和上海市政府戰略合作的成果，服務於上海國際金融中心建設的國家戰略，是一個開放、服務、共享、多贏的專業化、國際化平台。上海國際金融中心的建設，背後必然需要信息、知識和智慧中心的支撐，我們舉辦的眾多講壇、活動匯聚思想、傳播聲音，為推進上海金融科技中心發聲，也希望能為構建人工智慧發展的"上海高地"貢獻力量。

中國信通院華東分院副院長匡曉烜

中國信通院華東分院副院長匡曉烜表示，現實生活中，人工智慧技術正面臨著許多待解決的難題，人工智慧的應用還存在很大的局限性，它的發展需要政府、學術界、產業界等多方協同，共創共贏。作為由中國信息通信研究院（簡稱"中國信通院"）、上海市經濟和信息化委員會等聯合共建的地方政府智庫和研發創新平台，中國信通院華東分院正致力於人工智慧領域的研究和發展。

中國信通院華東分院這次有幸邀請到陶大程博士出席"海上院士講壇"特別專場，陶教授作為人工智慧和信息科學領域國際知名學者，是澳大利亞科學院院士、雪梨大學教授，在人工智慧領域，包括計算機視覺、機器學習、表征學習及相關應用等方面做出了卓越的貢獻。2014年陶教授當選IEEE Fellow，2019年當選ACM Fellow。12月30日是一場跨年演講，希望他在深度學習領域的探索心得將為大家帶來啟發和思考。

主旨演講

澳大利亞科學院院士、雪梨大學教授陶大程博士

人工智慧和信息科學領域國際知名學者、澳大利亞科學院院士、雪梨大學教授陶大程博士從"什麼是深度學習、為什麼要深度學習、為什麼要使用殘差連接skip connections、深度學習中的部分超參的關係、深度神經網絡的風險函數的性質、對抗生成網絡的重要性、以及未來在倫理道德框架下構建四元融合一體的人工智慧系統的重要性"等方面剖析了人工智慧與深度學習理論。

什麼是深度學習？

我們今天演講的內容是人工智慧中的一個關鍵技術--深度學習。首先我們探討一下，什麼是人工智慧？根據維基百科的解釋：人工智慧就是機器所展示出來的智能，人工智慧的目的是用機器模仿人的智能，那就要求我們理解人的智能。人的智能包括四個方面，Perceiving、Learning、Reasoning和Behaving。所以我們對人工智慧期望是：在符合人的倫理道德規範的框架下，能夠有效地去實現並且整合這四個方面的智能。

談到人工智慧，目前大家一定會想到的技術就是深度學習。深度學習在今天的機器視覺領域裡無處不在，比如上面顯示的這張圖是我們在2018年的時候做的一個demo的截圖,使用我們自己的算法和模型，一年多以前就已經可以做精確的場景分割、實例分割、單目標跟蹤、多目標跟蹤、人體姿態估計、人臉檢測、人臉的特徵點檢測、人臉的表情分析、年齡估計、性別的識別等,甚至如果我們有每一個人的參考圖像，我們還可以識別出每一個人。利用深度學習技術，我們還可以估算出圖像中每一個人或者每一個物體到攝像機的距離。

除了從圖象和視頻中精準的獲取這些基礎語義信息，深度學習還能處理圖像，比如去噪、去霧、去雨、去模糊、超分辨等。這裡展示了三張非常模糊的照片，看到這樣的圖像，我們會很自然的想到這樣的問題：為什麼照相的時候會產生模糊？過去我們拿到這樣的照片，主要考慮如何有效的去除模糊，今天有了深度學習，我們能夠想一些更有意思的事情。既然模糊是由於相機運動產生的，那麼有運動，我們是不是可以把這個視頻恢復出來？是不是可以把場景的光流恢復出來？甚至是不是可以把整個場景的三維結構恢復出來？2019年的CVPR上，我們首次利用深度學習成功的從單張模糊圖像中把場景的三維結構恢復出來。

深度學習似乎完全改變了機器視覺研究的基本方案和思路，可以說今天的機器視覺，幾乎離不開深度學習。不少人也詬病深度學習沒有實質的技術進展，只是傳統的神經網絡進行了加深。目前的成功應用，主要的貢獻來自於大數據、超級計算（或者說是雲計算）。有了大數據、有了雲計算，才能使得我們今天的深度學習能夠訓練成功，這一切的原動力很大程度上要歸功於產業界的需求、政府的需求、以及我們自身的需求。

深度學習，為什麼要深以及其它基本問題

目前的深度學習是不是僅僅是網絡層的簡單堆疊？它對於機器視覺等領域的貢獻到底是什麼呢？要深入理解這樣的問題，我們需要回到統計學習。

我們知道統計學習涉及訓練誤差、測試誤差和泛化誤差。隨著模型複雜度的增加，訓練誤差一定是減小的，但是泛化誤差是增加的。所以我們需要找到訓練誤差和泛化誤差的平衡點，保證測試誤差儘可能的小。

如果說隨著網絡層數的增加，泛化誤差是增加的，那訓練極深層網絡的意義是什麼？我們也知道訓練神經網絡的時候，各個公司之前都標榜可以訓練更深的神經網絡模型。而事實也是，隨著網絡層數的增加，只要訓練得當，測試誤差也通常是減小的。這似乎與我們的傳統認識是矛盾的：因為越深的神經網絡，參數空間越大，模型複雜度也應該越高。傳統的統計學習理論認為，參數空間越大，模型複雜度越高，那麼它對訓練數據的擬合能力就越強，但是泛化能力會變得越差。對於一個機器學習模型，如果它的訓練誤差遠小於測試誤差，那麼它就發生了過擬合。因此，在現有的統計學習理論框架下，對於神經網絡，有兩個尚未解決的問題：首先，為什麼模型複雜度非常高的深度神經網絡，不會發生過擬合？其次，深度神經網絡是越深越好嗎？我們最近的研究有三個觀察（"An Information-Theoretic View for Deep Learning"）：

和傳統的淺層學習模型（例如，SVM）不同，深度神經網絡具有層級的特徵映射結構。神經網絡的這種層級的結構是否是在模型複雜度很高的情況下，避免發生過擬合的關鍵呢？我們的工作肯定地回答了這個問題：層級結構是深度神經網絡泛化能力的關鍵保證。

1、傳統的泛化誤差上界，都是通過模型的函數空間的複雜度來估計的，例如VC維，Rademacher複雜度。這種估計忽略了數據分布，考慮模型的函數空間裡最壞的情況。因此泛化誤差上界的估計對於函數空間很大的深度模型會非常松，而因此不再適用，而實際情況下，模型的泛化能力是和數據分布相關的。受到最近的一些在資訊理論和自適應數據分析的工作的啟發，我們可以用神經網絡學到的特徵T_L和最後一層網絡的參數h的互信息，來作為泛化誤差的上界。直觀地來講，網絡的輸出對於輸入的依賴性越小，其泛化能力越強。

3、受到資訊理論中數據處理不等式的啟發，只要網絡每一層的映射不是可逆的，例如使用了Relu激活函數，卷積和池化，網絡所學到的特徵和最後一層參數的互信息都會隨著層數的增加而減少。因此，網絡越深，模型的泛化能力越強。但是隨著網絡層數的增加，在映射過程中可能會丟失對於數據擬合的有用的信息，這種情況下，在訓練集上的擬合誤差會變大。因此，網絡越深泛化能力雖然隨著層數增加變得更強，但是要想整個網絡性能好，是建立在對訓練數據的擬合誤差很小的情況下。

我們的主要結論是這樣一個泛化誤差的上界，假設網絡的層數為L，那麼其泛化誤差會隨著層數的增加而指數衰減。當然這裡還有一些假設，比如不能有skip connections。深入理解深度學習的價值和意義，還需要大家付出更多的努力。但是目前的結論已經讓我們有足夠的信心，堅定深度學習這個大方向。

那麼殘差連結skip connections有什麼樣的作用呢？殘差連接已被眾多實驗證明，可以顯著降低神經網絡的訓練難度，且不會降低神經網絡的泛化能力。我們的工作"Why ResNet works? Residual generalize"（TNNLS 2020）使用covering number、Rademacher複雜度等理論工具，給出了ResNet的假設空間複雜度和泛化誤差的上界。這些結果進而和鏈狀網絡的結果進行了比較。比較顯示，引入殘差連接不會增大神經網絡的假設空間複雜度，進而不會降低神經網絡的泛化能力，從而從理論方面驗證了現有的實驗結果。這樣的分析具有相當的普適性，可以用於深入理解ResNeXt、DenseNet、U-Net等目前常用的網絡結構。

神經網絡的訓練過程極端依賴超參數的設置。我們的工作"Control batch size and learning rate to generalize well: Theoretical and empirical evidence"（NeurIPS 2019）從理論和實驗兩個角度，研究學習率和批量規模對神經網絡泛化能力的影響。在理論方面，我們使用Ornstein-Uhlenbeck過程和PAC-Bayes 理論得到了神經網絡的泛化誤差上界。該上界表明，神經網絡的泛化能力和學習率與批量規模的比值負相關。在實驗方面，我們在相同數據集上，基於相同網絡結構，用不同的學習率和批量規模訓練了1600個網絡。這些網絡的測試精度被劃分為164組進行了斯皮爾曼秩相關檢驗，實驗結果充分驗證了上述提到的相關關係。

理解神經網絡風險函數的幾何性質對研究神經網絡的表示能力、優化性質、泛化性質都非常重要。然而損失曲面（風險函數所對應的曲面）的幾何結構極端複雜，鮮有理論工作進行了精確地刻畫。曾有工作建議，可以把線性網絡（激活函數全部線性的神經網絡）損失曲面的幾何性質推廣到一般網絡。例如，線性網絡中，所有局部最優點都同樣地好，它們都是全局最優點。我們的工作"Piecewise linear activations substantially shape the loss surface of neural networks"（ICLR2020）指出，往線性網絡中引入非常常見的分段線性激活函數（例如，ReLU 和 Leaky-ReLU），可以顯著改變損失曲面的幾何性質。具體來說，我們得到了以下幾個結論：

1、損失曲面存在無窮多局部最優點劣於全局最優點（這些局部最優點又叫"謬點（spurious local minima）"）；

2、極端不可微且非凸的損失曲面被不可微的邊界劃分為若干幾何性質良好（光滑、多線性）的"細胞"；

3、在每一個細胞中，所有局部最優點都同樣好，它們都是細胞內的全局最優點；

4、有無窮多的謬點分布在同一個細胞中，它們連在一起，構成一個聯通的"山谷"；

5、線性網絡的損失曲面也包含在上述理論之中，對應了單細胞的情形。

今天的深度學習，和過去傳統的機器學習或者統計學習，有很好的縱向對比關係。基於統計學習的系統：拿到原始數據之後我們先抽特徵，然後是數據降維，最後做分類。這三個步驟的目標往往是不一致的，比如分類的目標是不同類的樣本的邊界最大化、降維的目標是保持數據網差、特徵提取是根據數據的一些屬性進行設計的。

過去我們沒有考慮到如何把特徵設計、數據降維和分類的目標一致化，因為特徵的設計完全是基於人的經驗，非常的複雜。深度學習把特徵提取、數據降維和分類整合到了一個網絡框架下，因此這三個步驟的目標都一致了，並且通過數據驅動的方式，深度學習在一定程度上可以減少人對問題的偏見，但是也同時引入的數據對問題的偏見。這也要求我們在構建訓練數據集的時候，要從不同角度考慮問題，減少偏見。

對抗生成網絡的重要性

學習和操控現實世界數據（如圖像）的機率分布是統計和機器學習的主要目標之一，而近些年提出的深度生成對抗網絡（GAN）就是學習複雜數據機率機率分布的常用方法。

GAN網絡一經提出就引起了學術界和工業界的廣泛關注，這是因為這個學習框架在許多生成相關的任務上取得了令人信服的表現，例如圖像生成，圖像"翻譯"和風格變換。但是，現有算法仍面臨許多訓練困難，例如，大多數GAN需要仔細平衡生成器和判別器之間的能力。不適合的參數設置會降低GAN的性能，甚至難以產生任何合理的輸出。根據我們的觀察，現有生成對抗網絡的訓練函數具有不同的優點和缺點，其預定義的對抗優化策略可能導致生成對抗網絡訓練時的不穩定。受自然演化啟發，我們設計了一個用於訓練生成對抗網絡的演化框架。在每次疊代期間，生成器經歷不同的突變以產生多種後代。然後，給定當前學習到的判別器，我們評估由更新的後代產生樣本的質量和多樣性。最後，根據"適者生存"的原則，去除表現不佳的後代，保留剩餘的表現良好的發生器並用於進一步對抗訓練。

基於的進化模型的生成對抗網絡克服了個體對抗訓練方法所存在的固有局限性，極大的穩定了生成對抗網絡的訓練過程病提升了生成效果。實驗證明，所提出的E-GAN實現了令人信服的圖像生成性能，並減少了現有GAN固有的訓練問題。

構建四元融合一體的人工智慧系統

最近自動機器學習得到了大家的廣泛關注，並且有人說自動機器學習以後，就沒有必要讓人來設計神經網絡了，聽起來特別的震撼。當然也是恐慌，感覺即使沒有相關的基礎知識和對於問題的深入理解，只要有大型計算設備和相關的數據，我們都可以構建高效的人工智慧系統。但目前對於一個具體的實際問題，我們還沒有辦法完全依靠自動機器學習來構建人工智慧系統，對於問題本身、機器視覺、統計學習等相關方面的深入理解，是我們目前搭建高效人工智慧系統的根本。

另外，過去我們基本上是獨立的研究Perceiving、Learning、Reasoning和Behaving這四個方面，包括如何考慮人工智慧倫理道德的約束。未來，我們需要在倫理道德框架約束下研究人工智慧的四個方面，需要有效的整合這四個方面。這樣的綜合模式(在倫理道德框架約束下的perceiving、learning、reasoning、behaving功能的綜合體)能夠幫助我們實現在特定環境下的高效的人機混合系統或者無人系統。

主持人：中國金融信息中心吳天宇

文字：白伊美、吳天宇

圖片：陳奕屹

統籌：李志琴、吳天宇

部分圖片由中國信通院華東分院提供

本文來源：陸家嘴金融網