Google發布MediaPipe,移動設備3D對象檢測模型

人工智能研究所 發佈 2021-08-05T14:47:14.146503+00:00

僅通過在照片上訓練模型,機器學習(ML)的最新技術就已經在許多計算機視覺任務中實現了卓越的準確性。基於這些成功和不斷發展的3D對象理解,在增強現實,機器人技術,自主性和圖像檢索等廣泛應用方面具有巨大潛力。

僅通過在照片上訓練模型,機器學習(ML)的最新技術就已經在許多計算機視覺任務中實現了卓越的準確性。基於這些成功和不斷發展的3D對象理解,在增強現實,機器人技術,自主性和圖像檢索等廣泛應用方面具有巨大潛力。例如,今年早些時候,Google發布了MediaPipe Objectron(一套針對移動設備設計的實時3D對象檢測模型),它們在完全注釋的真實3D數據集上進行了訓練,可以預測對象的3D邊界框。

然而,由於與2D任務(例如ImageNet,COCO和Open Images)相比,缺少大型現實世界的數據集,因此了解3D對象仍然是一項具有挑戰性的任務。為了使研究社區能夠不斷提高對3D對象的理解,迫切需要發布以對象為中心的視頻數據集,該數據集可以捕獲對象的更多3D結構,同時匹配用於許多視覺任務的數據格式( (例如視頻或攝像機流),以幫助訓練和確定機器學習模型的基準。

今天,Google發布Objectron數據集,這是一個短的,以對象為中心的視頻剪輯的集合,可從不同的角度捕獲更大的一組公共對象。每個視頻剪輯都隨附有AR會話元數據,其中包括相機姿勢和稀疏點雲。數據還包含每個對象的手動注釋3D邊界框,它們描述了對象的位置,方向和尺寸。數據集包括15K帶注釋的視頻剪輯,並補充了從不同地理區域的樣本中收集的超過4M帶注釋的圖像。

3D對象檢測解決方案與數據集一起,我們還將共享針對四類對象的3D對象檢測解決方案-鞋子,椅子,杯子和照相機。這些模型在MediaPipe中發布,MediaPipe是Google的用於實時和流媒體的跨平台可定製ML解決方案的開源框架,它還支持ML解決方案,例如設備上的實時手部,虹膜和身體姿勢跟蹤。

與以前發布的單階段Objectron模型相反,這些最新版本使用兩階段體系結構。第一階段採用TensorFlow對象檢測模型來查找對象的2D裁剪。然後,第二階段使用圖像裁剪來估計3D邊界框,同時為下一幀計算對象的2D裁剪,因此對象檢測器不需要運行每個幀。第二階段3D邊界框預測器在Adreno 650移動GPU上以83 FPS運行。

3D對象檢測的評估指標藉助地面真相注釋,我們使用3D聯合交叉點(IoU)相似度統計數據(用於計算機視覺任務的常用指標)評估3D對象檢測模型的性能,該指標可測量邊界框與目標之間的接近程度。基本事實。

Google提出了一種算法,可為通用的面向3D的盒子計算準確的3D IoU值。首先,我們使用Sutherland-Hodgman多邊形裁剪算法計算兩個盒子的面之間的交點。這類似於用於計算機圖形學的視錐剔除技術。相交的體積由所有修剪的多邊形的凸包計算。最後,根據兩個框的交點的體積和並集的體積計算IoU。我們將與數據集一起發布評估指標原始碼。

數據集格式

有關Objectron數據集的技術細節,包括用法和教程,請訪問數據集網站。數據集包括自行車,書籍,瓶子,照相機,穀物盒,椅子,杯子,筆記本電腦和鞋子,並存儲在Google Cloud存儲上的objectron存儲桶中:

· 視頻片段

· 注釋標籤(對象的3D邊界框)

· AR元數據(例如照相機姿勢,點雲和平面)

· 已處理的數據集:帶注釋幀的改編版本,圖像的格式為tf.example,視頻的格式為SequenceExample。

· 支持腳本以基於上述指標運行評估

· 支持腳本以將數據加載到Tensorflow,PyTorch和 Jax並可視化數據集,包括" Hello World"示例

對於數據集,我們還將開放數據源管道,以在流行的Tensorflow,PyTorch和Jax框架中解析數據集。還提供了示例colab筆記本。

通過發布此Objectron數據集,我們希望使研究界能夠突破3D對象幾何理解的極限。我們還希望促進新的研究和應用,例如視圖合成,改進的3D表示和無監督學習。

以上為Google官方介紹,後期我們分享如何代碼實現

關鍵字: