第一本《圖深度學習》重磅出爐!KDD 新星獎大神湯繼良力作 | 免費下載

ai科技評論 發佈 2020-09-03T08:42:24+00:00

而現在來自密西根州立大學的湯繼良團隊即將出版一本全面性介紹圖深度學習的書:《Deep Learning on Graphs》。

作者 | 陳大鑫

編輯 | 陳彩嫻

近年來深度學習最大的進展之一就是將深度學習擴張到圖領域,也就是圖深度學習。雖然市面上有很多關於深度學習的書本,而且這些書本得到了很廣泛地關注。但是還沒有一本專門針對圖深度學習的系統介紹性的書。

而現在來自密西根州立大學的湯繼良團隊即將出版一本全面性介紹圖深度學習的書:《Deep Learning on Graphs》。

該書的中英文版將同時出版。英文版由劍橋出版社出版,作者包括馬耀和湯繼良。中文翻譯版由電子工業出版社出版,作者包括王怡琦,金衛,馬耀和湯繼良。

今日湯繼良團隊發布了英文版的預印本,可以通過文章之後提供的連結,免費下載。

湯繼良,密西根州立大學數據科學與工程實驗室(Data Science and Engineering Laboratory)教授,於今年8月剛剛榮獲新設立的第一屆KDD年度新星獎(Rising Star Award)。

湯老師的學術成果卓著,在影響因子期刊與多個頂級學術會議發表過上百篇研究成果。他的研究貢獻具有開創性,探索了數據挖掘領域的新思想或新方向,因此被其他研究人員廣泛引用。他論文引用量突破12000次,h-index 52, 超過30篇論文的單篇引用量超過100,並屢獲學科領域大獎,其中包括美國自然科學基金傑出青年獎 (NSF Career Award),KDD最佳博士論文獎亞軍和頂會如KDD與WSDM上獲得7次最佳論文獎(包括提名)。

AI科技評論之前有幸對湯繼良老師進行了專訪,更多內容可移步「湯繼良:從小鎮走出來的KDD科研新星 | 專訪」一文。

接下來AI科技評論將重點介紹這本即將出版的《圖深度學習》專著。

1 全書概要

為了最好地適應具有不同背景和閱讀目的的讀者,該書由四個部分組成。

第1部分介紹了基本概念;第2部分討論了該領域最成熟的方法;第3部分介紹了最具代表性的實際應用,而第4部分介紹了有可能成為將來研究熱點的高級方法和應用。每部分的內容如下:

第1部分:基本概念篇

在該部分的章節重點介紹圖和深度學習的基礎知識,這些基礎將為圖的深度學習奠定基礎。在第1章中,介紹了圖的關鍵概念和屬性,圖傅立葉變換,圖形信號處理,並正式定義了各種類型的複雜圖和在圖上的計算任務。在第2章中,討論了各種最基礎的神經網絡模型,訓練深度模型的關鍵方法以及防止訓練過程中過度擬合的實用技術。

第2部分:方法篇

這些章節涵蓋了從基本設置到高級設置的最成熟的圖深度學習方法。在第3章中,從信息保存的角度介紹了一種通用的圖嵌入框架,提供了有關在圖像上保留多種類型信息的代表性算法的技術細節,並介紹了專門為複雜形設計的嵌入方法。典型的圖神經網絡模型包括兩個重要操作,即圖過濾操作和圖池化操作。

在第4章中,回顧了最新的圖過濾和池化操作,並討論了如何在給定下游任務的時學習GNN參數。GNNs是傳統深度模型在圖上的泛化,因此它們繼承了傳統深度模型的缺點,容易受到對抗攻擊。

在第5章中,重點介紹圖對抗攻擊的概念和定義,並詳細介紹了具有代表性的對抗攻擊和防禦技術。GNN執行跨層鄰域的遞歸擴展。單個節點鄰域的擴展會迅速涉及圖的很大一部分甚至整個圖。因此,可擴展性是GNN需要解決的緊迫問題。

在6章中詳細介紹了用於可擴展性GNN的代表性技術。在第7章中,討論了為更複雜的圖設計的GNN模型。為了使深度學習技術能夠在更廣泛的設置下推進更多的圖應用,在第8中介紹了GNN之外的眾多圖深度模型。

第3部分:實際應用篇

圖提供了真實數據的通用表示方法;因此,在圖深度學習方法已應用於各個領域。在這部分的章節中,將介紹了GNN的最具代表性的應用,包括第9章中的自然語言處理,第10章中的計算機視覺,第11章中的數據挖掘和第12章中的生物化學與醫療保健。

第4部分:進展篇

在該部分章節中,重點介紹方法和實際應用方面的最新進展。在13章中,從表達性,深度,公平性,可解釋性和自我監督學習方面介紹了高級GNNs。在第14中,討論了GNN應用的更多領域,包括組合優化,物理,程序表示, 和計算機網絡。

英文書預印本免費下載連結如下。大家可以訂閱該書。訂閱者會自動推送關於該書的最新信息包括針對該書的中英文版的幻燈片和教程視頻。同時歡迎大家提供反饋。

英文書免費下載連結:http://cse.msu.edu/~mayao4/dlg_book/

2 圖深度學習

為什麼深度學習需要在圖上進行?

由於實際應用程式中的數據具有非常多樣化的形式,比如從矩陣和張量到序列和時間序列,一個自然出現的問題就是為什麼我們試圖將數據表示為圖?

這有兩個主要動機:

第一,如下圖所示,圖提供了數據的通用表示來自不同領域的很多系統的數據可以明確地表示為圖,如社交網絡、交通網絡、蛋白質相互作用網絡、知識圖譜和大腦網絡。同時,很多其他類型的數據也可以轉換成圖的形式。

圖:將真實世界的數據表示為圖形。這個圖片來自 (Xu, 2017),實線表示無損表示,虛線表示有損表示(我們將原圖中的「network」替換為了「graph」)。

第二,大量的現實問題可以作為圖上的一組計算任務來處理。推斷節點屬性、檢測異常節點(如垃圾郵件發送者或恐怖分子)、識別與疾病相關的基因、向患者推薦藥物等都可以歸結為節點分類問題。推薦、多藥副作用預測、藥物靶向相互作用識別、知識圖譜完善等實質上也是節點連接預測問題。

圖的節點本質上是連接的,這意味著節點不獨立且分布不同。因此,傳統的機器學習技術不能直接應用於圖上的計算任務。

這裡有兩個主要的解決方向,如下圖所示,我們將使用節點分類作為示例來討論這兩個方向。

第一個方向是建立一種新的圖機制。其中為圖設計的分類問題被稱為集合分類,如上圖a所示。這與傳統分類不同,對於一個節點,集合分類不僅考慮其特徵與其標籤之間的映射,還考慮了其鄰域的映射。

第二個方向是通過構造一組特徵來表示可以應用傳統分類技術的節點,從而使圖扁平化,如上圖b所示。這個方向可以利用到傳統的機器學習技術,因此,它變得越來越流行以及占據了主導地位。這個方向成功的關鍵是如何為節點(或節點表示)構造一組特徵。

深度學習已經被證明在表征學習中是非常強大的,它極大地促進了計算機視覺、語音識別和自然語言處理等各個領域。因此,將深度學習與圖表征聯繫起來將提供前所未有的大好機會。然而,圖深度學習也面臨著巨大的挑戰。

首先,傳統的深度學習是針對圖像和序列等規則結構數據設計的,而圖是不規則的,圖中的節點是無序的,並且可以有不同的鄰域。

其次,規則結構的數據信息簡單,而圖的結構信息比較複雜,特別是複雜圖的種類會很繁多,因為節點和邊可以關聯豐富的信息,而傳統的深度學習不足以捕捉到如此豐富的信息。

圖深度學習這個新的研究領域被培育出來了,這將為我們帶來前所未有的機遇和巨大的挑戰。

3 圖特徵學習簡史

如前所述,為了利用傳統的機器學習來處理圖上的計算任務,必須要找到向量節點表示。

如下圖所示,實現這一目標的方法主要有兩種:特徵工程和特徵學習。特徵工程依賴於手工設計的特徵,如為圖節點的度做統計,而特徵學習則是自動學習節點特徵。

一方面,我們通常不知道哪些特徵是必要的,尤其是對於給定的下游任務;因此,特徵工程中的特徵對於下游任務可能是次優的,這個過程需要大量的人工努力。

另一方面,特徵學習是自動學習特徵,下游任務可以指導此過程。因此,通過學習得到的特徵很可能適用於通過特徵工程獲得更好性能的下游任務。

同時,這個過程需要最少的人工干預,並且可以很容易地適應新的任務。因此,基於圖的特徵學習得到了廣泛的研究,並針對不同的需求和場景提出了各種類型的特徵學習技術。

我們將這些技術大致分為圖特徵選擇和圖表征學習,前者的目的是去除不相關和冗餘的節點特徵,後者的目的是生成一組新的節點特徵。我們現在簡要回顧這兩組技術,它們為讀者理解圖深度學習提供了通用的歷史背景。

4 圖特徵選擇

現實世界中的數據往往是高維的,會存在噪聲、無關和冗餘的特徵(或維度),尤其是在考慮給定任務時。

而特徵選擇的目的正是自動選擇冗餘度最小但與目標相關性最大的一小部分特徵,如監督設置下的類標籤。

在許多應用中,原始特徵對於知識提取和模型解釋至關重要。例如,在癌症的基因分析研究中,除了區分癌組織外,更重要的是要確定誘發癌變的基因(即原始特徵)。

在這些要求很高的應用中,特徵選擇尤其受到青睞,因為它保持了原始特徵,並且它們的語義通常為學習問題提供了關鍵的見解。

傳統的特徵選擇假設數據實例是獨立同分布的(i.i.d.)。然而,在許多應用中,數據樣本嵌入在本質上不是獨立同分布的圖上,這推動了圖的特徵選擇研究。

給定一個圖G={V,E},其中V是節點集,E是邊集,我們假設每個節點最初與一組d個特徵 F={f1,f2,…,fd} 相關聯。

圖的特徵選擇是從F中選擇K個特徵來表示每一個節點的K個特徵, 該問題首次在監督環境下進行研究:利用線性分類器將所選特徵映射到類標籤,並引入圖正則化項來獲取特徵選擇的結構信息。特別是,該研究旨在確保具有所選特徵的連接節點可以映射到類似的標籤中。

之後,(Wei,Tang和Liu等人)在無監督的情況下進一步研究了該問題。在(Tang 和Liu,2012)的研究中,從結構信息中提取偽標籤,作為監督來指導特徵選擇過程。

在(Wei等人,2016)的研究中,假設節點內容和結構信息都是從一組高質量的特徵中生成的,這些特徵可以通過最大化生成過程的可能性來獲得。

後來,這些問題就從簡單圖擴展到了複雜圖,如動態圖、多維圖、符號圖和屬性圖。

4 圖表征學習

與圖特徵選擇不同,圖表征學習是學習一組新的節點特徵。幾十年來,人們對它進行了廣泛的研究,並通過深度學習大大加快了這一進程,現在我們將對它從淺層模型到深層模型進行簡要的歷史回顧。

在早期階段,人們已經在譜聚類、基於圖的降維以及矩陣因子分解等背景下對圖表征學習進行了研究。

在譜聚類中,數據點被視為一個圖的節點,然後聚類就是將圖劃分成節點群。譜聚類的一個關鍵步驟是譜嵌入,它的目標是將節點嵌入到一個低維空間中,在這個空間中,傳統的聚類算法(如k-means)可以用來識別聚類。

基於圖的降維技術可以直接應用於節點表示的學習。這些方法通常使用基於數據樣本的原始特徵的預定義距離(或相似性)函數來構建相似性圖。它們的目標是學習節點表示,以保存圖的結構信息。

矩陣是表示圖的常用方法之一,如鄰接矩陣、關聯矩陣和拉普拉斯矩陣。其中矩陣分解可以自然地應用於學習節點表示,假設我們用鄰接矩陣來表示一個圖,在這種情況下,它的目標是將節點嵌入到一個低維空間中,並利用新的節點表示來重構鄰接矩陣。

矩陣分解有以下應用:

  • 文檔語料庫可以表示為以文檔和單詞為節點的二分圖,當單詞出現在文檔中時,單詞和文檔之間存在一條邊。LSI使用截斷SVD來學習文檔和單詞的表示。

  • 在推薦系統中,用戶和項目之間的交互可以被描述為一個二分圖,其中矩陣分解被用來學習用戶和推薦項目的表示。

  • 矩陣分解還用於學習節點分類、鏈路預測和社區檢測的節點表示。

本書後面介紹的一系列現代圖嵌入算法也可以統一為矩陣分解

Word2vec是一種生成詞嵌入技術,它以大量的文本作為輸入,並為語料庫中每個唯一的單詞生成一個向量表示。Word2vec在各種自然語言處理任務中的巨大成功促使人們越來越多地應用Word2vec,尤其是用Skip-gram模型來學習圖域中的節點表示。

DeepWalk邁出了實現這一目標的第一步。具體來說,給定圖中被視為人工語言單詞的節點,這種語言中的句子是由隨機滑動生成的。

然後,利用Skip-gram模型學習節點表示,保持了隨機滑動中節點的共現性,之後,在三個主要方向上開展了大量的工作:

(1)開發先進的方法來保持節點的協同發生;

(2)保存其他類型的信息,如節點的結構角色、協同信息和節點狀態;

(3)設計複雜圖的框架,如有向圖、異構圖、二部圖、多維圖、有符號圖,超圖和動態圖。

鑒於DNNs在表示學習中的強大和成功,人們越來越努力將Dnn推廣到圖上。這些圖神經網絡方法(GNNs)大致可分為空間方法和譜方法。

空間方法明確地利用圖結構,例如空間上的近鄰,第一種空間方法是由Scarselli等人在2005年提出的。

譜方法採取圖的傅立葉變換和逆圖傅立葉變換優點來利用圖的譜視圖。

在深度學習時代,GNNs在以下幾個方面得到了迅速的發展。

  • 大量新的GNN模型已經被引入,包括譜方法和空間方法。

  • 對於以圖為中心的任務,如圖分類,需要整個圖的表示。因此,已經引入了許多方法來從節點表示中獲得圖表示。

  • 傳統Dnn易受對抗攻擊。GNNs繼承了這個缺點。研究了各種圖對抗攻擊並開發了各種防禦技術。

  • 如上所述,可縮放性按多個策略的問題已經進行了研究,以允許GNNs縮放到大型圖形。

  • GNN模型設計用於處理複雜圖,如異構圖、二部圖、多維圖,有符號圖,超圖和動態圖。

  • 不同的深層架構已被概括為圖,如autoencoder、變分eutoencoder、遞歸神經網絡和生成對抗網絡。

  • 由於圖是一種通用的數據表示,GNN已應用於許多領域,如自然語言處理、計算機視覺、數據挖掘和醫療保健。

最後,在文末我們再次給出本書的英文書免費下載連結:http://cse.msu.edu/~mayao4/dlg_book/

關鍵字: