AAAI 2020 | 自動化所：基於對抗視覺特徵殘差的零樣本學習方法

作者 | 劉博、董秋雷、胡占義編輯 | Camel

本文對中科院自動化所胡占義團隊完成，被AAAI-20錄用的論文《Zero-Shot Learning from Adversarial FeatureResidual to Compact Visual Feature》進行解讀。

近年來，零樣本學習受到了計算機視覺領域的廣泛關注。目前的零樣本學習致力於在一個嵌入空間中學習一種具有可判別性的特徵，然而對於未見類別而言，這些特徵往往會互相重疊，從而導致識別準確率不高。

針對這個問題，本文提出了一種新的條件生成對抗網絡來學習具有更強判別能力的特徵。該網絡包括一個用於生成視覺特徵殘差的條件生成器，一個用於預測視覺原型的預測器，一個視覺特徵判別器，以及一個提取圖像特徵的特徵提取器。條件生成器以語義特徵為條件來生成視覺特徵殘差，原型預測器以語義特徵為輸入來預測視覺原型，將視覺殘差和視覺原型結合，就可以合成一個視覺特徵。

將合成的視覺特徵與特徵提取器提取的真實視覺特徵輸入特徵判別器進行對抗訓練，最終得到一個可以生成視覺特徵殘差的條件生成器。由於視覺特徵殘差在數值上一般小於不同類別視覺原型之間的距離，因此使用視覺特徵殘差和視覺原型合成的視覺特徵可望獲得更強的判別能力。

另外，為了減小視覺特徵和語義特徵之間的語義不一致性，本文提出了一種基於預測損失的視覺特徵選擇方法，它從原有的視覺特徵中選擇一些與語義特徵更加一致的特徵維度，構成一個更加緊湊的視覺特徵。

本文方法在六個國際公共數據集上進行了測試，對比實驗結果表明，本文方法相比於若干主流方法在計算精度方面得到了較大幅度的提升。

相關工作1、零樣本學習

零樣本學習近年來受到了廣泛的關注，大部分文獻的工作可以被分為兩類：其中一類是基於視覺特徵到語義特徵的映射，另一類是基於語義特徵到視覺特徵的映射。

基於視覺特徵到語義特徵的映射的方法【1】首先使用一般的CNN提取視覺特徵，然後通過一個全連接層將視覺特徵投射到語義空間，最後在語義空間中利用最近鄰分類器進行物體分類。

一些工作對該方法進行了進一步的改進，比如改進損失函數【2】，採用非線性的映射函數【3】等。語義特徵到視覺特徵的映射的方法可以被分為兩個子類，其中一個是基於確定性的映射函數。該方法【4】直接將語義特徵映射到視覺特徵，然後在視覺空間中利用最近鄰分類器分類。另一種是基於條件生成網絡，該方法【5】利用條件生成對抗網絡以語義特徵為條件來生成大量的視覺特徵，一旦生成了未見類別的視覺特徵，零樣本學習問題就被轉換為了一般的分類問題。

2、視覺原型預測

由於基於CNN的視覺特徵在特徵空間中具有良好的聚類性質，使用視覺原型去表示某一類物體的大致的視覺特徵是可行的。Changpingo等提出了一種通過在語義特徵和視覺原型之間建立一個回歸函數來預測其他類別的視覺原型的方法。

方法

本文提出了一種新的條件生成對抗網絡來解決零樣本學習問題，如圖1所示，它包含了一個用於生成視覺特徵殘差的條件生成器，一個用於預測視覺原型的預測器，一個視覺特徵判別器，以及一個提取圖像特徵的特徵提取器。

在特徵生成階段，條件生成器以語義特徵為條件來生成視覺特徵殘差，原型預測器以語義特徵為輸入來預測視覺原型，將視覺殘差和視覺原型結合，就可以合成視覺特徵。將合成的視覺特徵與特徵提取器提取的真實視覺特徵輸入特徵判別器進行對抗訓練，最終得到一個可以生成視覺特徵殘差的條件生成器。

在分類階段，利用生成的未知類別的視覺特徵以及相應的標籤，我們可以訓練一個未知類別的分類器，該分類器可以用於識別真實的未知類別的視覺特徵。下面詳細介紹一下視覺原型預測器和視覺特徵殘差生成器。

圖 1 模型結構

1、視覺原型預測器

視覺原型預測器的任務是利用某一類別的語義特徵來預測該類別的視覺特徵原型。一般而言，我們用同一個類別的視覺特徵的均值來表示該類的視覺原型特徵。這樣，對一個包含C個類別數據集，我們就可以得到C對語義特徵和視覺原型特徵。

利用這C對語義特徵和視覺原型特徵，我們就可以學習一個從語義特徵到視覺原型特徵的預測函數。當這個預測函數訓練好以後，給定一個新類別的語義特徵，我們就可以預測該類別的視覺原型特徵。

一般情況下，視覺特徵是一個高維的特徵向量。在本文的方法中，針對視覺特徵的每一個維度，我們都會學習一個預測器。該預測器採用SVR模型，以語義特徵為輸入，輸出一維的視覺特徵。

實際上，語義特徵和視覺特徵存在語義不一致性問題，這將導致由語義特徵預測的視覺原型特徵與真實的視覺原型特徵具有一定的偏差。針對這一問題，我們提出了一種基於預測損失的特徵選擇方法。該方法對每一個視覺特徵維度的預測損失進行排序，選擇前K個預測損失最小的視覺特徵維度，並以這K個視覺特徵維度代替原來的視覺特徵。通過視覺特徵選擇，我們得到了一種與語義特徵更加一致的更加緊湊的視覺特徵。

2、視覺特徵殘差生成器

視覺特徵殘差生成器的任務是以某一類別的語義特徵為條件生成大量的視覺特徵殘差，通過結合這些視覺特徵殘差和其相應的視覺原型，我們可以合成視覺特徵。將合成的視覺特徵和用特徵提取器提取的真實的視覺特徵輸入特徵判別器進行對抗訓練，我們就可以得到一個可以生成視覺特徵殘差的條件生成器。

現有的基於條件生成對抗網絡的零樣本學習方法一般都是利用對抗訓練的方法訓練一個條件生成器，該條件生成器以語義特徵為條件直接生成視覺特徵本身。在本文的方法中，我們同樣利用對抗訓練的方法訓練一個條件生成器，不過該條件生成器生成的是視覺特徵殘差，然後通過將視覺特徵殘差和視覺原型結合合成視覺特徵。

將視覺特徵原型預測和視覺特徵殘差生成結合，我們可以合成一種具有更好的可判別性以及具有更好的語義一致性的視覺特徵。更好的可判別性主要來自於視覺特徵殘差在數值上一般小於不同視覺原型之間的距離。更好的語義一致性主要來自於基於原型預測損失的視覺特徵選擇方法。

當視覺特徵殘差生成器訓練好以後，給定某一未見新類別的語義特徵，我們就可以合成該類別的視覺特徵。這樣，零樣本學習問題就被轉變為了一般的分類問題。

實驗結果

本文方法在現有的公開數據集上進行了廣泛地測試，其中包括4個粗粒度的數據集（APY,AWA1,AWA2,SUN）和2個細粒度的數據集（CUB,NAB）。在4個粗粒度的數據集上，我們採用了1種數據劃分方法對已見類別與未見類別進行劃分。在2個粗粒度的數據集上，我們採用了2種難度不同的數據劃分方法劃分已見類別和未見類別。在零樣本學習中，實驗結果評價方法一般採用未見類別上的準確率。本文方法的實驗結果與當前的最好的結果進行了比較，結果如表1-2所示。

表1 在4個粗粒度的公開數據集上的對比結果

表1 列出了本文的方法與當前主流方法在4個粗粒度的數據集上的實驗結果。從表1可以看出，本文的方法在每個數據集上都取得了最好的結果。在APY,AW1和AWA2數據集上，本文方法的識別準確率取得了較大的提升。在SUN數據集上，本文方法的識別準確率提升相對較小，這可能是因為SUN這個數據集的類別數目較多，每個類別的訓練圖像個數較少，不利於視覺原型的準確計算，從而導致了準確率的下降。

表2 在兩個粗粒度的公開數據集上的對比結果

表2 列出了本文的方法與當前主流方法在2個細粒度的數據集上的實驗結果。表2的實驗結果表明，本文的方法不僅在粗粒度的零樣本學習上具有較好的表現，在細粒度的零樣本學習上的表現同樣取得了較大的提升。對於兩種不同難度的數據劃分方法，本文的方法也都提升了識別的準確率。在較難的SCE數據劃分方式中，本文方法的實驗結果提升的更加明顯。這表明本文的方法在不同難度的零樣本學習問題中都具有良好的表現。

為了進一步分析本文提出的方法是否具有效果，我們進行了兩個對比實驗。在第一個對比實驗中，我們在2個細粒度的數據集上對比了基於殘差的對抗視覺特徵生成方法與直接的對抗視覺特徵生成方法的結果。結果如表3所示：

表3 基於殘差的對抗視覺特徵生成方法的對比結果

在表3中，AFRNet表示採用了基於殘差的對抗視覺特徵生成方法，AFRNet-non表示採用的是直接的對抗視覺特徵生成方法。通過表3我們可以看出，基於殘差的對抗視覺特徵生成方法可以明顯改進零樣本學習的性能。

在第二個對比實驗中，我們在2個細粒度的數據集上分析了基於預測損失的特徵選擇方法的作用。實驗結果如表4所示：

表4 基於損失的視覺特徵選擇方法的對比結果

在表4中，w/o表示沒有採用基於預測損失的特徵選擇方法， w表示採用了基於預測損失的特徵選擇方法。表4的結果表明，通過選擇預測損失較小的視覺特徵維度代替整體的視覺特徵，可以有效地增加視覺特徵與語義特徵之間的一致性。

參考文獻

【1】Frome,A.; Corrado, G. S.; Shlens, J.; Bengio, S.; Dean, J.; Mikolov, T.; et al. 2013.Devise: A deep visual-semantic embedding model. In NIPS, 2121–2129.

【2】Akata,Z.; Reed, S.; Walter, D.; Lee, H.; and Schiele, B. 2015. Evaluation of outputembeddings for fine-grained image classification. In CVPR, 2927–2936.

【3】Socher,R.; Ganjoo, M.; Manning, C. D.; and Ng, A. 2013. Zero-shot learning throughcross-modal transfer. In NIPS,935–943.

【4】Zhang,L.; Xiang, T.; and Gong, S. 2017. Learning a deep embedding model for zero-shotlearning. In CVPR, 2021–2030.

【5】Xian,Y.; Lorenz, T.; Schiele, B.; and Akata, Z. 2018b. Feature generating networksfor zero-shot learning. In CVPR,5542–5551.