杜克大學提出新型變分趨同嵌入VHE,實現更為通用的嵌入特徵抽取 | 將門好聲音

將門創投 發佈 2020-01-22T05:38:51+00:00

本文內容來自將門機器學習社群作者:王文麟本文為將門好聲音第30期,也是NeurlPS2019系列分享第·8·期。

本文內容來自將門機器學習社群

作者:王文麟

本文為將門好聲音第30期,也是NeurlPS 2019系列分享第·8·

這次要介紹的是杜克大學在讀博士王文麟及其團隊發表在NeurIPS 2019的工作「Improve Textural Network Learning with Variational Homophilic Embeddings」(變分趨同嵌入)。

如果你也想與廣大群友分享自己的研究工作、文章觀點、出坑經驗,點擊「閱讀原文」或聯繫將門小姐姐!只要內容合適,我"門"送你頭條出道!

關於作者

王文麟, 杜克大學(Duke University)電子工程專業博士,導師是Dr. Lawrence Carin. 他的研究方向是Deep Generative Model 及其在NLP和CV中的應用。

  • 文章連結:https://arxiv.org/pdf/1909.13456.pdf

摘 要

傳統的機器學習算法默認向量化的輸入作為模型的輸入,但是對於擁有圖結構的網絡數據,如何學習一個有效的網絡節點的embedding,是一個很困難的問題。一方面需要保持網絡節點自身的特性,另一方面要能夠表達網絡節點間的關係,同時根據現實的需要,能夠拓展到大尺度的網絡數據上。

其次,現存的網絡embedding學習算法幾乎無一例外的應用discriminative的目標函數——用已知的網絡拓撲結構信息或者利用額外的side information來預測未知的網絡圖譜結構。儘管這種方法取得了一定的成功,但是它往往使得學習到的embedding專注於link prediction,而不能很好地拓展到其他的網絡應用上。相比之下,生成模型致力於生成數據本身,具有潛在的可能性,學習更具普適性的embedding。

本文提出了一種新型的variational形式的網絡表達 – Variational Homophilic Embedding (VHE)。它是一個完整的生成模型,基本的模型假設是豐富的網絡內容信息(網絡節點的文本語意信息)可以基於其相應的結構信息(網絡的邊)來生成。和傳統的基於VAE的方法不同,對於複雜的網絡結構,本文中對網絡的邊建模,而不是網絡的節點。在大量真實的大尺度的網絡數據上,文章中證明VHE可以學習到更加豐富的網絡結構和節點自身的內容信息。

VariationalAutoencoder (VAE)

首先,簡要回顧一下VAE,在最大似然估計中,我們通常最大化log-likelihood的期望

,這裡x是數據點,在本文中對應網絡節點的文本序列; 一般情況下為了能夠對複雜數據建模,我們引入隱變量形式
,其中p(z) 是prior,一般是一些簡單的分布,比如高斯分布,數據的複雜性用條件機率
來建模。但是在這種包含隱變量的情況下cmarginallikelihood p(x) 很少有閉式解,VAE解決這個辦法用最大化EBLO的方式來實現:

在跟蹤系統中,相似度估計(similarity estimation)作為數據匹配(data association)的標準,是一個非常重要的部分。近期,隨著行人/車輛重識別技術的飛速發展,重識別特徵也被廣泛利用於跟蹤問題中的外觀相似度估計。

Variational Homophilic Embedding (VHE)

為了學習複雜的網絡結構信息以及更好的結合網絡節點自身的語義信息,VHE對一對網絡節點(網絡的邊)建模,具體來說

其中,

是兩個節點的連接信息,如果兩個節點間有連接為1,否則為0。這裡我們希望如果節點i和節點j見存在連接,那麼他們相應的embedding應該相似,這種現象稱為homophilic,因此我們定義了homophilic prior

為了讓prior既簡單又容易計算,選擇了如下的prior形式

它表示如果兩個節點存在一條邊,這對節點應該從一個具有強相關性的高斯分布中生成而來,否則應該從一個標準的高斯分布分布中生成。

是homophilic factor, 用來控制邊信息的影響強度。

定義了prior的形式,接下來我們考慮兩種形式的multivariate Gaussian 來近似真實的posterior, 具體形式如下

其中, 所有的未知變量將會由一個共享參數的inference network 來推斷。

所以, 當觀測到完整的網絡拓撲結構的情況下,類似於VAE,模型的目標函數是最大化如下的ELBO

但是,現實世界中,完整的連接信息通常是不存在的,即當觀測到兩個節點間不存在邊的時候,並不意味著他們之間真實不存在邊;基於此,我們進一步對與邊的不確定性建模, 並拓展homophilic prior如下

這裡我們的動機是當觀測到一對節點時,我們並不知道他們之間是否存在連接, 那麼它將有一定的機率存在邊。是一個服從伯努利分布的隨機變量,它的參數可以有從訓練的數據中估計出。在這種情況下,事實上homophilic prior衍生為一個具有結構化信息的高斯混合模型(GMM)。

相應的,為了更好的逼近真實的posterior, 這裡我們同樣用高斯混合模型(GMM)來逼近真實的posterior(由於prior 和近似的posterior 都是GMM,所以這裡ELBO的計算有非常簡單的閉式解),具體的ELBO形式如下

總結來說, 當對於邊的觀測是完整的的時候,我們的優化目標ELBO是

,當觀測是不完整的時候,相應的優化目標是
, 所以完整的目標函數可以寫成如下形式

具體的inference network 和 generate network 實現細節可以參見原文。

學習到了整個模型,對於每一個網絡節點我們需要一個全局的embedding,因為我們是對一對節點進行建模,一個簡單的解決方案是遍歷所有的網絡節點, 然後平均marginalized的embedding ,即是我們學習到的全局的embedding, 具體來說為:

實驗結果

本文所提出的方法相比於現存的方法有更好的泛化性。首先,我們比較了VHE和現存算法在link prediction 上的結果:

我們發現

(a) 引入文本信息作為網絡節點的side information 能夠提升網絡embedding的效果;

(b) 一般的基於VAE的模型在實際中效果並不顯著,相比之下,本文提出的VHE模型同時考慮的網絡的拓撲結構以及節點的文本信息,顯著提升了embedding的效果。

其次,為了研究所學習到的embedding的普適性,我們用學習到的embedding 來訓練一個SVM 做節點的分類 ,分類的效果如Table 3 所示, 並且我們在Cora數據集上可視化相應的embedding。

我們發現VHE可以更好的結果網絡的結構信息以及網絡節點的語義信息,並提供了一種更具普適性的embedding。

為了進一步理解VHE為什麼效果更好,我們在Cora數據集上,根據節點的邊的數量,將節點分成五大類,並研究在每個類別中模型的效果,

從Figure 3 中我們注意到,VHE在連接數較少的情況下效果尤其突出,說明我們提出的homophilic prior是一種更為合理的假設,為網絡的embedding提供了更強的魯棒性。

除此之外,現存的方法並不能解決未知節點的問題,即如果網絡的節點數是動態變化的,那麼現存的方法將無法應用學習網絡的embedding。VHE解決這個問題用了一種2-step的方案,首先在已知的網絡上學習模型的參數,然後固定所學習到的網絡參數,當觀測到一個新的節點時,我們僅僅優化新節點的結構化的embedding來最大化模型的ELBO。最終用學習到的結構化的embedding經過固定參數的模型來得到新節點的embedding。

從Table 4中我們可以發現,VHE在未觀測到的節點上提供了更好的embedding。

https://arxiv.org/pdf/1909.13456.pdf

將門好聲音·NeurlPS系列

1

國科大提出新型錨框匹配機制, 基於學習配準的靈活方法大幅提升目標檢測性能

2

牛津大學研究人員提出3D-BoNet—3D點雲實例分割新框架

3

普林斯頓高研院, 浙大, CMU和MIT聯合提出圖核函數與圖神經網絡的融合方法

關於我門

將門是一家以專注於發掘、加速及投資技術驅動型創業公司的新型創投機構,旗下涵蓋將門創新服務、將門技術社群以及將門創投基金。將門成立於2015年底,創始團隊由微軟創投在中國的創始團隊原班人馬構建而成,曾為微軟優選和深度孵化了126家創新的技術型創業公司。

將門創新服務專注於使創新的技術落地於真正的應用場景,激活和實現全新的商業價值,服務於行業領先企業和技術創新型創業公司。

將門技術社群專注於幫助技術創新型的創業公司提供來自產、學、研、創領域的核心技術專家的技術分享和學習內容,使創新成為持續的核心競爭力。

將門創投基金專注於投資通過技術創新激活商業場景,實現商業價值的初創企業,關注技術領域包括機器智能、物聯網、自然人機互動、企業計算。在近四年的時間裡,將門創投基金已經投資了包括量化派、碼隆科技、禾賽科技、寬拓科技、杉數科技、迪英加科技等數十家具有高成長潛力的技術型創業公司。

如果您是技術領域的初創企業,不僅想獲得投資,還希望獲得一系列持續性、有價值的投後服務,歡迎發送或者推薦項目給我「門」: bp@thejiangmen.com

關鍵字: