AAAI 2020 | 北大&上交大:姿態輔助下的多相機協作實現主動目標追蹤

ai科技評論 發佈 2020-01-18T11:39:03+00:00

參考文獻[1]Bertinetto, L.; Valmadre, J.; Henriques, J. F.; Vedaldi, A.; and Torr, P. H. 2016. Fully-convolutional siamese networks for object tr

作者 | CVDA

編輯 | Camel

本文轉載自: 北京大學前沿計算研究中心

本文對北京大學、上海交通大學合作完成,被 AAAI 2020 錄用的論文《Pose-Assisted Multi-Camera Collaboration for Active Object Tracking》進行解讀。

項目連結:https://sites.google.com/view/pose-assisted-collaboration

對相機進行智能控制從而實現目標追蹤是一項非常具有挑戰性的任務。由於環境的複雜性,相機所接收到的視覺信息常常是不完美的,比如環境中存在的障礙物對目標極容易造成遮擋,目標距離遠的情況下形態變得不夠清晰,相似的背景容易導致目標的混淆等等。

傳統的方法只靠視覺信息做追蹤,在視覺信息質量不夠高的情況下很容易導致相機追蹤的失敗。因此,本文提出引入相機姿態的多相機協同合作機制進行監控場景下的目標追蹤,通過對比不同測試環境上的實驗結果,本文證實了這種合作機制的有效性和可拓展性。

圖1:多相機協作追蹤

方法介紹

在本文設計的多相機合作機制下,每個相機均有一個基於視覺信息的控制器,一個基於姿態信息的控制器和一個轉換器。基於視覺的控制器使用圖片作為輸入,輸出相機智能體的動作。基於姿態的控制器使用所有相機的姿態信息即所有相機的位置,視角及轉換器的二分類標籤作為輸入,輸出相機的動作。而轉換器負責在兩個控制器之間進行切換,當相機的視覺信息不足以進行追蹤即基於視覺信息的控制器失敗時,如圖1中的1號相機,轉換器將會使用輔助的基於姿態的控制器進行相機行為控制,從而保證多相機系統進行穩定的合作追蹤。

如圖2所示,

圖2:網絡結構

基於視覺信息的控制器模塊由 CNN(卷積神經網絡)進行特徵提取,後續接入 LSTM(長短期記憶神經網絡)進行歷史信息的處理,最後由 FC(全連接網絡)輸出動作;同時,LSTM 輸出的特徵會被轉換器中的 FC 處理後輸出二分類機率,相機的最終執行動作為最大機率的對應控制器所輸出的動作。基於姿態的控制器通過 GRU(門控遞歸神經網絡)進行多相機姿態信息的融合,然後由後續的 FC 網絡輸出每一個相機的動作。轉換器由一個 FC 網絡構成,輸入為 LSTM 處理後的特徵,輸出為二分類的機率。

通過這種合作機制,相機可以學到在視覺信息不足以支撐其決策時使用有效的姿態信息進行行為指導。

實驗結果

本文的方法使用強化學習的A3C算法進行兩個控制器的訓練,同時在基於視覺信息的控制器的訓練過程中,把轉換器的分類任務作為輔助任務協同訓練。

圖3:訓練環境和測試環境。從上到下代表不同環境,從左到右代表不同相機

訓練環境為虛擬環境 UnrealCV 中的 RandomRoom 場景(如圖3的前兩行所示),在訓練環境中,我們改變了房間的背景,目標人物的形態,並對場景中放置不同的障礙物等等。我們在新環境 Garden(如圖3的第三行所示)和 Urban City(如圖3的最後一行所示)中進行測試。

對於實驗結果的衡量,本文使用了平均角度誤差和成功率來度量多相機系統的追蹤性能,其中平均角度誤差為長度為 T 的追蹤時長下所有相機俯仰角和偏航角的誤差平均:

成功率指標(S)為所有相機長度為 T 的追蹤時長下的成功率平均值:

我們和傳統方法 TLD,BACF 及 DasiamRPN 進行對比,由於傳統方法在追蹤過程中沒有對相機的控制,我們對傳統方法增加了基於規則的動作控制器,即相機基於檢測邊框的位置進行相應旋轉。

實驗中,我們發現傳統方法在人物形態變化較大及障礙遮擋較大等情況中容易追蹤失敗,而我們的方法在相機丟失目標時,可以根據姿態信息的指導重新追蹤回目標,如圖4所示,

圖4:追蹤示例

3號相機的圖片中失去了目標信息,其行為由基於視覺的控制器轉為由基於姿態的控制器控制,通過保持和其他相機目標一致,基於姿態的控制器正確輸出3號相機的動作使其尋回目標,保證了長期追蹤的良好性能。實驗的具體量化結果(平均角度誤差和成功率)見表格1:

表格1:實驗結果

為了驗證本文設計的合作機制的有效性,我們設計了一系列消融實驗,對比了各相機單獨追蹤(SV),使用 Bi-GRU,進行多相機的視覺信息融合(MV),使用 FC 網絡進行視覺信息和姿態信息的融合(SV+P)的方法。其中我們的方法取得了最低的誤差結果和最高的成功率,證明了使用轉換機制對視覺信息和姿態信息進行結合可以達到最好的合作追蹤效果。

結論

對於監控場景下的多相機主動追蹤任務,本文提出一種新的多相機合作機制利用相機姿態輔助追蹤,可以在視覺信息不完善的情況下保證追蹤性能,給出了優於以往方法的結果。在全新測試環境(Garden/UrbanCity)上的結果展示了本文方法可以有效地拓展到更多場景。

參考文獻

[1] Bertinetto, L.; Valmadre, J.; Henriques, J. F.; Vedaldi, A.; and Torr, P. H. 2016. Fully-convolutional siamese networks for object tracking. In European conference on computer vision,850–865. Springer.

[2] Littman, M. L. 1994. Markov games as a framework for multi-agent reinforcement learning. In Machine Learning Proceedings 1994. Elsevier. 157–163.

[3] Luo, W.; Sun, P.; Zhong, F.; Liu, W.; Zhang, T.; and Wang, Y. 2018. End-to-end active object tracking via reinforcement learning. In International Conference on Machine Learning, 3286–3295.

更多AAAI 2020信息,將在「AAAI 2020 交流群」中進行,加群方式:添加AI研習社頂會小助手(AIyanxishe2),備註「AAAI」,邀請入群。

關鍵字: