人工智慧新突破:計算機正在學習從更高維度觀察世界

36氪 發佈 2020-01-23T05:29:49+00:00

這是一篇「規範等變卷積神經網絡」的介紹讀物,作者是JOHNPAVLUS,原文發表在Quanta Magazine上,標題是:Computers Are Learning to See in Higher Dimensions描繪肺部3D形狀的圖像——新的深度學習技術有望更準確地識

神譯局是36氪旗下編譯團隊,關注科技、商業、職場、生活等領域,重點介紹國外的新技術、新觀點、新風向。

編者按:圖像識別既是深度學習最早的突破,也是最成功的應用之一。但是隨著應用的深入,傳統深度學習方法逐漸黔驢技窮。甚至令一些業界大牛喊出來AI新的凜冬將至。不過,最近AI研究人員從物理學規律上尋找到了靈感,找到了讓機器可以識別高維度對象的辦法,然後物理學家又發現,AI的這一進展甚至還能為物理研究做出更大的貢獻。這是一篇「規範等變卷積神經網絡」的介紹讀物,作者是JOHN PAVLUS,原文發表在Quanta Magazine上,標題是:Computers Are Learning to See in Higher Dimensions

描繪肺部3D形狀的圖像——新的深度學習技術有望更準確地識別出CT掃描的肺部腫瘤,從而幫助做出更好的醫學診斷

計算機現在能開車,下西洋棋和圍棋之類的棋盤遊戲比世界冠軍還要厲害,甚至還會寫文章。AI革命在很大程度上源於一種特殊類型的人工神經網絡的力量,其設計靈感則源自哺乳動物視覺皮層裡面的神經元連接層。事實證明,這些「卷積神經網絡」(CNN)二維數據模式學習能力驚人——這種AI尤其擅長計算機視覺任務,比方說識別手寫體和數字圖像裡面的對象。

但是,如果應用到沒有內置平面幾何的數據集(比方說3D計算機動畫用到的不規則形狀模型,或者無人車生成的映射周圍環境的點雲)裡面的話,這種強大的機器學習結構就做得不是很好了。2016年前後,出現了一種稱為幾何深度學習的新學科,其目標就是要讓CNN掙脫二維平面。

研究人員現在已經提出一個新的理論框架,用來構建可學習任何幾何表面模式的神經網絡。由阿姆斯特丹大學與高通 AI研究中心的Taco Cohen、Maurice Weiler、Berkay Kicanaoglu以及Max Welling 等人聯合開發的「規範等變卷積神經網絡」(gauge-equivariant convolutional neural networks,或者規範CNN), 不僅可以檢測2D像素數組裡面的模式,而且還可以檢測球體和不對稱曲面立體的模式。Welling說:「對於曲面深度學習問題來說,這個框架是個相當可以確定的答案。」

在學習模擬的(正好自然映射到球體上)全球氣候數據的模式中,規範CNN的表現已經比之前的框架要好很多了。該算法對於改善用3維觀察物體的無人機和無人車視覺有幫助作用,對檢測從心臟、大腦或其他器官的不規則曲面收集到的數據中隱藏的模式也許也有促進作用。

Taco Cohen,高通及阿姆斯特丹大學機器學習研究員,規範等變卷積神經網絡首席架構師

為了讓深度學習突破二維空間,研究人員的解決方案跟物理有著密切聯繫。就像愛因斯坦的廣義相對論與粒子物理學的標準模型那樣,描述世界的物理理論表現出一種所謂的「規範等變」的屬性。這意味著在這個世界上的數量及其關係並不依賴於任意參照系(或「規範」);無論觀察者是移動還是靜止,也不管標尺上的數字離得有多遠,它們都是一致的。用不同量表進行的測量必須以一種保持底層事物間關係不變的方式進行轉換。

比方說,假設先以碼為單位測一個足球場的長度,然後以米為單位再測一次。測出來的數字會變,但那是可預測的。同樣地,兩位攝影師從兩個不同的位置拍攝物體的照片會產生不同的圖像,但是這些圖像之間可以彼此關聯。不管視角或測量單位如何,規範等變均可確保物理學家的現實模型保持一致。而規範CNN即是對數據做出了相同的假設。

紐約大學的物理學家凱爾·克蘭默(Kyle Cranmer)說:「 (來自物理學的)同樣的想法是沒有特殊的方向,他們希望將其引入神經網絡。」他將機器學習應用於粒子物理學數據。「他們想出了辦法。」

擺脫二維

2015年,倫敦帝國理工學院計算機科學家Michael Bronstein創造了「幾何深度學習」這個詞來描述為擺脫二維並設計可學習非平面數據模式神經網絡的新努力。這個術語及相關研究工作很快就火起來了。

Bronstein及其合作者知道,要想突破歐幾里德平面,他們需要重新構思一種基本的計算方法,這方法先得讓神經網絡識別2D圖像特別高效。這個方法叫做「卷積」,它然神經網絡的一層對輸入數據的一小塊執行數學運算,然後把結果傳遞給網絡的下一層。

Bronstein解釋說:「大體上,你可以把卷積看作是一個滑動窗口。」卷積神經網絡就像濾波器一樣將很多這樣的「窗口」滑動過數據,從而檢測數據是否存在某種模式。對於貓照片,經過訓練的CNN也許會利用濾波器來檢測原始輸入像素裡面的低級特徵,比方說邊緣。而這些特徵又會被傳遞到網絡的其他層,去執行其他卷積並提取更高層特徵,比方說眼睛、尾巴或三角形的耳朵。接受過識別貓訓練的CNN最終會用這些分層卷積的結果為整幅圖像分配標籤(比方說「貓」或「不是貓」)。

這張信息圖顯示了神經網絡對一艘船的圖像進行掃描的過程

但是這種方法僅適用於平面。Welling說:「當你要分析的表面變得彎曲時,基本上就會遇到麻煩。」

在曲面(幾何上稱為流形)上進行卷積計算,就像在地球上拿著一小塊半透明的方格紙,然後試圖準確地畫出格陵蘭島的海岸線一樣。你是沒辦法在不讓紙起皺的情況下把一張方形的紙蓋上格陵蘭島,而這意味著當你再把紙鋪平時,你所描繪的海岸線會變形。但是,用墨卡托投影(把地球儀投影在圓柱筒上,再把圓柱筒上的地圖攤開成為平面地圖,並將之用一系列平行的經緯線進行切分)一樣也會產生變形。或者,你可以乾脆把坐標紙放到一張平面的世界地圖而不是地球上,然後再連這些變形也一併複製即可,比方說,地圖的整個上邊緣其實僅代表地球的一個點(北極)。而且,如果流形不是像球形那樣整齊的球體的話,而是類似瓶子的3D形狀或摺疊蛋白質之類更複雜或不規則物體的話,則在它上面進行卷積計算會變得更加困難。

2015年,Bronstein和他的合作者找到了解決非歐氏流形卷積問題的一種解決方案,方法是把滑動窗口重新想像成更像是圓形蜘蛛網而不是坐標紙的形狀,這樣把它按到地球(或任何彎曲表面)上就不會到導致其彎曲、拉伸或撕裂了。

用這種方式改變滑動濾波器的屬性能讓CNN更好地「理解」某些幾何關係。比方說,這種神經網絡可以自動識別出彎曲成兩個不同姿勢的3D形狀(比方說,一個站立的人像和抬起一條腿的人像)是同一對象的實例,而不是兩個完全不同的對象。這種改變也使得神經網絡的學習效率大大提高。Bronstein說,標準的CNN「要使用數百萬個形狀的樣本,而且需要訓練數周。我們只用了不同的姿勢的大概100種形狀,訓練只用了約半小時。」

同時, Taco Cohen和他在阿姆斯特丹的同事開始從相反的方向去解決同一問題。2015年,當時還是研究生的Cohen並沒有研究如何讓深度學習擺脫平面。相反,他對自認為很實用的一個工程問題很感興趣:那就是數據效能,或者說,通常訓練神經網絡需要數千或數百萬個樣本,怎麼才能把這個數量減少?Cohen說:「深度學習方法可以說是非常遲鈍的學習者。」 如果訓練CNN是用來識別貓(網際網路最不缺貓的圖像)的話,幾乎是不成問題的。但是,如果你想讓網絡檢測出更重要的內容,比方說肺組織圖像裡面的癌性結節的話,想要找到足夠的訓練數據(需要在醫學上進行準確適當的標記並且沒有隱私問題)並非易事。訓練網絡所需的樣本越少越好。

Cohen知道,提高神經網絡數據效率的方法之一是預先對數據進行特定的假設——比方說,一張圖像內的肺腫瘤經過旋轉或者鏡像後仍然是肺腫瘤。通常,卷積網絡必須用同一模式在不同方向上的許多樣本進行訓練來從頭學習才能掌握這一信息。2016年,Cohen和Welling合作撰寫了一篇論文,文章定義了如何將其中的一些假設以幾何對稱方式編碼進神經網絡。這種方法效果很好,好到2018年時,Cohen和共同作者Marysia Winkels甚至把它進一步推廣到CT掃描識別肺癌。成果是可喜的:他們的神經網絡只用了其他神經網絡所用數據的十分之一即可識別出這種疾病的視覺證據。

阿姆斯特丹的研究人員不斷地進行歸納。他們及時這麼找到規範等變的。

等變的延伸

物理和機器學習有著基本的相似之處。就像Cohen所說那樣:「兩個領域都牽涉到做出觀測,然後建立模型來預測未來的觀測。」他指出,關鍵的一點是,這兩個領域尋求的都不是對事物個體建模(氫原子一種描述,倒過來的氫原子是另一種描述是不好的),而是對事物的一般類別建模。「當然,物理學在這方面已經非常成功。」

等變(或物理學家更喜歡的「協變」)是自愛因斯坦以來的物理學家歸納模型所依賴的假設。阿姆斯特丹大學理論物理學家Miranda Cheng(跟Cohen等人合作寫過一篇探討物理學與規範CNN關係的論文)解釋說:「這只是意味著,如果你正確地描述了某種物理現象的話,那它應該跟你用什麼樣的『標尺』無關,或說得更籠統一點,跟你是什麼樣的觀察者無關。」就像愛因斯坦本人在1916年所說那樣:「自然的一般定律應由對所有坐標系都適用的方程式表示。

阿姆斯特丹大學物理學家Miranda Cheng

就利用了該原理的一個簡單的例子,「平移等變」,卷積網絡一舉成為深度學習最成功的方法之一。檢測到圖像中某個特徵(比方說垂直邊緣)的窗口濾波器會在像素平面滑動(或「平移」) ),並對所有這些垂直邊緣的位置進行編碼;然後,再建立起標記這些位置的「特徵圖譜」,並將其傳遞給網絡的下一層。因為有了平移等變,特徵圖譜的創建成為可能:神經網絡「假定」同一特徵可以出現在2D平面的任何位置,並且不管垂直邊緣出現在右上角還是左下角,自己都能夠將垂直邊緣識別為垂直邊緣。

Weiler 說:「等變神經網絡的關鍵是將這些明顯的對稱放置進網絡結構裡面,這有點類似一頓免費的午餐。」

到了2018年,Weiler、Cohen及其博士導師Max Welling已經擴大了這種「免費午餐」的範圍,將其他等變也納入進來。他們的「群等變」(group-equivariant) CNN無需用旋轉或鏡像方向樣本訓練即可檢測平面圖像上這些特徵的存在;球面CNN可以根據球體表面上的數據創建特徵圖譜而不需要將其扭曲為平面投影。

這些方法仍然不夠通用,沒法處理崎嶇不平、不規則結構流形(從土豆到蛋白質,再到人體,乃至於時空彎曲,幾乎涵括了所有物體的幾何形狀)的數據。對於神經網絡,這些類型的流形「全局」對稱性來讓神經網絡做出等變假設:因為它們上面的每個位置都是不同的。

用兩個水平圓柱體展示最曲面上的卷積計算

其挑戰在於,視選取的路徑不同,平面濾波器在某表面的滑動會改變該過濾器的方向。不妨想像一個用於檢測簡單模式(左側為深色斑點,右側為淺色斑點)的濾波器。在平面網格上上下左右滑動這個濾波器,它都將始終保持正面朝上。但是,哪怕是在球體的表面上,這一點也會改變。如果將過濾器圍繞球面的赤道移動180度,則濾波器的方向將保持不變:左側為深色斑點,右側為淺色斑點。但是,如果越過球體北極將其滑動到同一點的話,則過濾器將是是上下顛倒的——右側為深色斑點,左側為淺色斑點。濾波器將檢測不出數據存在相同的模式或對相同的特徵圖譜進行編碼。在更複雜的流形上移動濾波器的話,最終會指向許多不一致的方向。

幸運的是,自愛因斯坦以來的物理學家已經處理過同樣的問題,並找到了解決方案:規範等變。

Welling解釋說,關鍵是不要去管跟蹤濾波器沿不同路徑移動時其方向會如何變化。相反,你可以只選擇一個方向(或規範),然後定義一種將所有其他方向轉換為該方向的一致方法。

其要點是,儘管在初始方向上可以採用任意量規,但將其他量規轉換為該參考系時必須保留基本模式——就像將光速從米秒轉換為英里每小時必須保留基礎物理量一樣。有了這個規範等變方法,Welling說,「實際數字會變,但卻是以一種完全可預測的方式發生改變的。」

Cohen、Weiler和Welling 在2019年將規範等變(終極版的「免費午餐」)寫進了他們的卷積神經網絡裡面。他們給神經網絡通過卷積能「看到」什麼數據施加了數學約束來實現這一目標;只有規範等變模式才能通過網絡的各個層。從歐幾里德平面到任意彎曲的物體,包括類似克萊因瓶或四維時空的奇異流形等,Welling說:「基本上,你可以賦予任意表面以規範等變,這對在那種表面上進行深度學習非常有用。」

工作原理

規範等變CNN太過普遍了,以至於可自動包含之前的幾何深度學習方法內置的假設——比如球體的旋轉同變與平移濾波器等。即便是Michael Bronstein的早期方法,那種可以讓神經網絡識別彎曲成不同姿勢的單一3D形狀的方法,也符合規範等變。Bronstein說說:「規範等變是一個非常廣泛的框架。我們在2015年所做的事情是它的一個特例。」

理論上規範CNN可以適用於任意維度的任何彎曲表面,Cohen及其合作者已經用全球氣候數據(該數據必定具備3D球形結構)對其進行過測試。他們用自己的規範等變框架搭建了一個CNN,用來訓練從氣候模擬數據中檢測極端天氣現象模式,如熱帶氣旋。2017年,政府和學術研究人員用標準卷積網絡曾檢測出數據中的旋風,準確度為74%; 去年,規範CNN探測颶風的準確率已達到97.9%。(這個成績還超過了2018年專門為球體設計的不太通用的幾何深度學習方法,後者的準確度為94%。)

勞倫斯伯克利國家實驗室(Lawrence Berkeley National Laboratory)的氣候科學家Mayur Mudigonda也應用過深度學習,他表示自己會繼續關注規範CNN。他說:「這方面的人類視覺智能,即無論在什麼方向都可以準確識別出模式來這一點,我們想把這種能力轉化到氣候社區裡面。」 晶片巨頭高通最近收購了Cohen和Welling創建的一家初創公司,並將兩人招致麾下,把他們的早期工作納入到規範等變神經網絡裡面。現在,高通正計劃將規範CNN理論應用到改進型計算機視覺應用的開發上,比方說可以同時「看」 360度的無人機。(就像全球氣候數據一樣,可以對世界的魚眼視圖自然地映射到球形表面上。)

同時,規範CNN在像Cranmer這樣的物理學家當中也越來越受歡迎,他們計劃用來處理亞原子粒子相互作用的模擬數據。Cranmer說:「我們正在分析與強[核]力有關的數據,嘗試去聊解質子內部。」 他說,這種數據是四維的,「因此,我們給具備這種規範等變神經網絡提供了一個完美用例。」

前物理學家,現在正在研究等變神經網絡的Risi Kondor說,規範CNN的潛在科學應用可能比其在AI當中的應用還要重要。

他說:「 如果你做的是識別YouTube上的貓,但發現自己不太擅長識別上下顛倒的貓,你的感覺也許不太好,但可能還可以忍受。」 但是對於物理學家來說,至關重要的是要確保神經網絡不會因為方向原因把力場或粒子軌跡識別錯。Kondor說:「這不僅僅是不方便的問題,關鍵是要尊重基本的對稱性。」

儘管物理學家的數學啟發了規範CNN的誕生,且物理學家可能會為規範CNN找到大量用武之地,但Cohen指出,這些神經網絡本身並不能發現任何新的物理規律。他說:「我們現在能夠設計出可處理非常奇特數據的網絡,但是你必須事先知道這種數據的結構。」 換句話說,物理學家之所以可以用規範CNN,是因為愛因斯坦已經證明了時空可以用四維曲面流形表示。Cohen的神經網絡自己是「看」不出這種結構的。他說:「我們現在不學對稱性。」不過他希望將來能學會這一本領。

這種跨學科的關聯一度是科恩的直覺,現在又被以嚴格的數學方法證明,Cohen對此感到非常高興。他說:「我一直都覺得機器學習和物理學正在做著非常相似的事情。我認為這真是非常的奇妙:我們一開始只是琢磨一個工程問題,然後隨著我們慢慢改進自己的系統,我們逐漸發現了越來越多的關聯。」

譯者:boxi。

關鍵字: