GTC 2019回顧:GPU加速聯邦學習計算,降本增效節能首選

中國青年網 發佈 2019-12-23T10:14:51+00:00

2019年12月16日-19日,英偉達GPU技術大會(GTC 2019,以下簡稱「大會」)在蘇州金雞湖國際會議中心舉行,來自Amazon、FaceBook、騰訊、平安等諸多國內外知名企業機構的專家學者匯聚一堂,就人工智慧、深度學習、醫療科學、智慧金融、邊緣計算等領域展開深度討論。

2019年12月16日-19日,英偉達GPU技術大會(GTC 2019,以下簡稱「大會」)在蘇州金雞湖國際會議中心舉行,來自Amazon、FaceBook、騰訊、平安等諸多國內外知名企業機構的專家學者匯聚一堂,就人工智慧、深度學習、醫療科學、智慧金融、邊緣計算等領域展開深度討論。微眾銀行AI團隊於19日在【智慧金融】分會場上聯合星雲Clustar發表了《GPU在聯邦機器學習中的探索》主題演講,詳細介紹了其GPU加速聯邦學習的研究成果。

伴隨著計算力、算法和數據量的巨大進步,人工智慧迎來第三次發展高潮,開始了各行業的落地探索。然而,在「大數據」興起的同時,數據分散的情況也越發明顯,「數據孤島」現象廣泛存在。隨著政策法規的逐漸完善和公眾隱私保護意識的加強,隱私安全、數據保護等原因限制著數據不能輕易互通,如何在保護數據隱私的前提下實現行業協作與協同治理,是大數據時代人工智慧行業應用的一大難題。

多方獲益,聯邦學習破解「數據孤島」難題

「聯邦學習」(Federated Learning)指的是在滿足隱私保護和數據安全的前提下,設計一個機器學習框架,使各個機構在不交換數據的情況下進行協作,提升機器學習的效果。其核心就是解決數據孤島和數據隱私保護的問題,通過建立一個數據「聯邦」,讓參與各方都獲益,推動技術整體持續進步。大會上,來自微眾銀行AI部門的高級算法工程師黃啟軍也為觀眾展示了聯邦學習的落地案例之一——視覺橫向聯邦學習系統。

黃啟軍提到,在目標檢測領域,已標註數據是非常珍貴的資源,各家公司一般都有各自不同場景的標註數據,但這些數據相對散亂,如想利用其它公司已標註好的數據模型來建立更優模型,只能通過拷貝聚攏數據,但這種行為不符合GDPR、《數據安全管理辦法》等法律規範。而引入橫向聯邦學習機制以後,個體可以在本地設備中直接標註數據,無需上傳。本地模型的訓練數據標註完成後,客戶端將自動加入聯邦,等待進行訓練,當有兩台設備進入到等待訓練狀態時,則開始進行聯邦學習訓練模式。

視覺橫向聯邦學習系統示意

這一案例真實展現了聯邦學習技術的價值,相比於單點模型,聯邦學習使得本地設備的mAP大幅提升,同時Lossless更加穩定。mAP平均提升15%的數據顯示,整體上聯邦學習遠比單點模型效果更佳。

深度創新,GPU加速聯邦學習再升級

作為一門具有前景的新興技術,聯邦學習為了完成隱私保護下的機器學習,使用了很多與傳統機器學習不一樣的方法,也因此迎來了諸多新挑戰。在會上,黃啟軍也分享了微眾銀行AI部門攜手星雲Clustar突破的聯邦學習計算三大難題:

首先就是大整數運算問題,傳統機器學習一般使用的是32-bit的基本運算,這些基本運算一般都有晶片指令的直接支持,而聯邦學習中的Paillier/RSA算法依賴的是1024或2048-bit 甚至更長的大整數運算,但現實情況是,GPU流處理器並不直接支持大整數運算。面對這一情況,雙方基於分治思想做元素級並行,通過遞歸將大整數乘法分解成可並行計算的小整數乘法,從而實現「化繁為簡」,間接完成GPU流處理器的大整數運算。

通過遞歸將大整數乘法分解成可並行計算的小整數乘法示意

其次,大整數運算中多是模冪、模乘等複雜運算,即ab mod c (a,b,c均為N比特大整數),而GPU做模冪等運算的代價極大,傳統的樸素算法會優先計算ab,再計算值對c取模,這一算法的缺點是複雜度高達O(2^N),且中間乘積結果很大。而單一的平方乘算法則是通過ak = (ak/2)2 = ((ak/4)2)2實現,雖然複雜度下降至O(N),且中間結果大小不超過c,但因為需要做2N次取模運算,GPU在此項上花費時間極高。而雙方摘取平方乘算法優勢,並加入蒙哥馬利模乘算法計算模乘,就完全避免了取模運算,大幅度降低了GPU的消耗。

最後,在分布式計算時,聯邦學習不止涉及數據中心內網傳輸,也有廣域網傳輸的場景,且密文數據體積要增加幾十倍,傳輸的次數也是傳統機器學習的幾倍,雙方通過RDMA網絡技術加上自研的動態參數聚合模型技術以及機器學習專業的網絡傳輸協議,對聯邦學習在數據中心內通信場景以及跨廣域網通信場景都進行了很好的性能優化。

走在前沿,聯邦學習推動AI行業大變革

聯邦學習近年來在學術研究、標準制定和行業落地等方面發展迅速,有望成為下一代人工智慧協同算法和協作網絡的基礎,全球範圍內也正在掀起「聯邦學習」的熱潮。從GPU加速聯邦學習這樣的底層技術研究,到IJCAI 2019首屆聯邦學習國際研討會等學術交流,再到IEEE標準制定推動行業規範化,聯邦學習在人工智慧領域漸露崢嶸,在該領域的影響力顯著提升。而在工具層面,也有諸多企業機構開展研發,如微眾銀行AI團隊開源的全球首個工業級的聯邦學習技術框架 Federated AI Technology Enabler(FATE),不僅提供一系列開箱即用的聯邦學習算法,更重要的是給開發者提供了實現聯邦學習算法和系統的範本,使大部分傳統算法可以經過改造適配到聯邦學習框架中,從而快速加入聯邦生態。

此外,在行業應用落地方面,聯邦學習也扇動了一股「變革」的颶風:在金融領域,基於該技術的多家機構聯合風控模型能更準確地識別信貸風險,聯合反欺詐。多家銀行建立的聯邦反洗錢模型,能解決該領域樣本少、數據質量低問題,在微眾銀行的實踐中AUC顯著提升12%。

在智慧零售領域,該技術能有效提升信息和資源匹配的效率。例如,銀行擁有用戶購買能力的特徵,社交平台擁有用戶個人偏好特徵,電商平台則擁有產品特點的特徵,聯邦學習能在保護三方數據隱私的基礎上進行聯合建模,為用戶提供更精準的產品推薦等服務,從而打破數據壁壘,構建跨領域合作,經應用實踐,採購備貨準確率提升可達21.4%。

聯邦學習是大數據使用的未來範式,也是破解數據隱私保護難題的新思路。人工智慧不僅是一個工具,更應該是讓社會更加公平美好的強大推動力。聯邦學習勢必將在未來助力更多行業、更多場景發揮無限潛能,推動AI普惠的實現。而作為致力於在全球範圍內引領和推動數據隱私保護下的AI協作生態建設的微眾銀行AI團隊,也必將與諸多企業機構一起,共建行業更美好的未來。

關鍵字: