谷歌、蘋果、英特爾們的「醫療數據隱私保衛戰」:三種前沿 AI 技術你最傾向哪一個?

ai掘金志 發佈 2020-01-01T18:31:01+00:00

總有一天,我們將擁有使機器學習中的隱私無懈可擊的工具和能力,但我們還沒有走到那一天。這還不包括《健康保險可攜帶性和責任法案》,該法案要求公司在披露個人健康信息之前必須獲得授權。

總有一天,我們將擁有使機器學習中的隱私無懈可擊的工具和能力,但我們還沒有走到那一天。

編譯 | 李雨晨

人工智慧有希望改變(事實上已經改變了)現有行業,但隱私問題仍是一個懸而未決的挑戰。

此前,英國的NHS基金會被曝出,在沒有經過160萬名患者的同意下公布了DeepMind的數據。

但是,從全世界範圍來看,數據隱私尤其是醫療數據的隱私保護問題,並不是一個新鮮的話題。

去年11月,Google與Ascension的健康數據共享合作夥伴關係成為了審查的對象,該公司放棄了公布胸部X光掃描圖的計劃,原因是擔心這些掃描圖中含有個人身份信息。

去年夏天,微軟悄悄地刪除了一個擁有超過1000萬張用戶圖片的數據集(MS Celeb),此前有消息稱,這些人並不知道他們被包括在內。

另外,一些報告揭露了包括蘋果和谷歌在內的科技巨頭為改進Siri和Google Assistant等可能非法使用收集的錄音。今年4月,Bloomberg披露,亞馬遜僱傭合同工對Alexa供電設備數千小時的音頻進行注釋,促使亞馬遜推出面向用戶的工具來快速刪除雲存儲的數據。

隱私不僅僅是一個倫理問題,而且是商業過程中的博弈。美國的州、地方和聯邦各級的法律旨在將隱私權作為法規管理的強制性內容。美國50個州、地區和哥倫比亞特區,數百項涉及隱私、網絡安全和數據泄露的法案正在等待或已經通過。

可以說,其中最全面的一項———《加州消費者隱私法》———大約在兩年前已成為法律。這還不包括《健康保險可攜帶性和責任法案》(HIPAA),該法案要求公司在披露個人健康信息之前必須獲得授權。而像歐盟一般隱私數據保護條例(GDPR)這樣的國際規定,其目的在於讓消費者對個人數據的收集和使用有更大的控制權。

回顧人工智慧技術的發展歷史可以看到,隱私問題並沒有被當成一把懸在頭上的「達摩克利斯之劍」。但是機器學習的一個分支———保護隱私的機器學習——試圖探索可能防止個人識別數據泄露的方法。而聯邦學習、微分隱私和同態加密被認為是最有前景的三種技術。

神經網絡的「漏洞」

大多數人工智慧系統的核心是神經網絡,它由層層排列的功能神經元組成,神經元將信號傳遞給其他神經元。這些信號輸入到網絡中,從一層傳遞到另一層,並緩慢地「調整」網絡,實際上調整了每個連接的突觸強度(權重)。隨著時間的推移,網絡從數據集中提取特徵並識別交叉樣本,最終做出預測。

神經網絡不會直接處理原始圖像、視頻、音頻或文本。訓練語料庫中的樣本通過數學轉換成多維數組,如標量(單個數字)、向量(標量的有序數組)和矩陣(標量排列成一列或多列和一行或多列)。第四種實體類型,封裝標量、向量和矩陣形成張量添加到有效線性轉換(或關係)中。

儘管存在這些轉換,但通常可以從神經網絡的輸出中識別出敏感信息,數據集本身也易受攻擊,因為它們通常不會被打亂,而且存儲在易受數據泄露攻擊的集中存儲庫中。

到目前為止,最常見的機器學習逆向工程為成員推斷攻擊,攻擊者使用單個數據點或多個數據點來確定它是否屬於訓練目標模型的語料庫。事實證明,從數據集中刪除敏感信息並不意味著無法重新推斷,因為人工智慧特別擅長重新創建樣本。除非使用隱私保護技術,訓練後的模型包含了所有訓練集的信息。

Wisconsin大學和Marshfield臨床研究學會的研究人員能夠從一個被訓練用於預測藥物劑量機器學習模型中提取患者的基因組信息。

而在另一項研究中,卡內基梅隆大學和Wisconsin-Madison大學的研究人員成功地從用來進行面部識別的訓練模型中重建了頭部拍攝圖像。

一個更複雜的數據提取攻擊方法使用生成性對抗網絡,或GANs,由兩部分人工智慧系統組成,分別是生成樣本的生成器和區分生成樣本和真實樣本的鑑別器組成。他們被訓練生成與原始語料庫中的樣本非常相似的樣本,而無需接觸原始樣本,並通過與有辨別力的深層神經網絡交互來學習數據的分布。

2017年,研究人員證明,GANs可以被訓練來產生私有數據集集的原始樣本,從中揭示敏感信息。在另一項研究中,一個團隊使用GANs來推斷用於訓練圖像生成機器學習模型的樣本,在「白盒」設置中,他們可以訪問目標模型的參數(例如AI技術用來擬合數據的變量),成功率高達100%。

幸運的是,像聯邦學習和微分隱私這樣的方法是有希望保護數據隱私的。

聯邦學習

聯邦學習是今年AI領域的熱詞之一,多位學術大咖和企業界的研究者都對這種方法表示看好。

簡單地說,聯邦學習是一種採用分布式設備或伺服器(即節點)訓練人工智慧算法的技術,這些設備或伺服器保存數據樣本,而不交換這些樣本,使各個節點能夠在不共享數據的情況下構建通用的機器學習模型。這與傳統的分布式方法不同,後者假設本地數據樣本分布廣泛。

中央伺服器可用於安排算法的執行步驟並充當參考時鐘,或者執行步驟可能是對等的(在這種情況下,不存在中央伺服器)。不管怎樣,局部模型都是在局部數據樣本上訓練的,並且在模型之間以一定的頻率交換權值以生成全局模型。

這是一個疊代過程,被分解成一組聯合學習輪次的交互,其中每輪都將當前全局模型狀態傳輸到參與節點。在節點上訓練局部模型,每個節點上生成一組可能的模型更新,然後將局部更新聚合併處理為單個全局更新,並應用於全局模型。

谷歌最早探索了聯邦學習的方法,並且已經將其部署到生產中。谷歌在其「數千萬」iOS和Android設備的Gboard預測鍵盤中使用它進行個性化。在Pixel4發布的同時,谷歌推出了一個改進版的「正在播放的音樂識別」功能,該功能以聯合方式聚合歌曲的播放次數,按地區識別最受歡迎的歌曲,以提高識別率。

據雷鋒網AI掘金志了解,谷歌最近推出了一個名為TensorFlow federed的TensorFlow機器學習框架模塊,該模塊旨在更容易在分布式數據上進行深度學習和其他計算。

當然,沒有哪種技術是完美的;聯邦學習需要在學習過程中進行節點間頻繁的通信。為了使機器學習模型能夠交換參數,它們需要大量的處理能力和內存。其他挑戰包括無法檢查訓練示例,以及由於人工智慧模型僅在供電和傳輸參數方法可用時才能訓練造成的偏差。

微分隱私

聯邦學習與微分隱私密切相關,微分隱私是一種通過描述語料庫中組的模式而公開共享數據集信息的系統,同時保留個人的數據。它通常需要在原始數據輸入到本地機器學習模型之前向其注入少量噪聲,這樣竊取數據者就很難從訓練模型中提取原始數據。

直觀地說,如果一個觀察者看不到某個特定個體的信息是否被用於計算,那麼這個算法可以被認為是微分隱私的。微分隱私的聯合學習過程允許節點共同學習一個模型,同時隱藏任何節點所持有的數據。

開源的TensorFlow庫TensorFlow Privacy基於微分隱私方法。具體地說,它使用改進的隨機梯度下降方法來調參,該梯度下降將訓練數據引起的多個更新平均起來,剪切每個更新,並將噪聲添加到最終平均值。

這就防止了對少數細節的記憶,並更加保險,即兩種機器學習模型無法區分一個人的數據是否用於他們的訓練。

自2017年以來,蘋果一直在使用微分隱私來識別流行的表情符號、Safari中的媒體播放偏好等,該公司在最新的移動作業系統版本(iOS 13)中將其與聯邦學習相結合。這兩種技術都有助於改善Siri的結果,以及蘋果QuickType鍵盤和iOS等應用程式的apps功能。後者掃描日曆和郵件應用程式以查找聯繫人和呼叫者的姓名,這些聯繫人和呼叫者的號碼不存儲在本地。

Nvidia和倫敦國王學院的研究人員最近利用聯邦學習訓練了一種用於腦腫瘤分割的神經網絡,Nvidia聲稱這是醫學圖像分析的第一個里程碑。他們的模型使用了來自BraTS(多模式腦腫瘤分割)挑戰的285名腦腫瘤患者數據集,與Google和Apple採取的方法一樣,該模型利用微分隱私為該資料庫添加噪音。

Nvidia高級研究員Nicola Rieke在之前的一次採訪中說到:「通過這樣的方式每個參與節點存儲更新,並限制我們在機構之間實際共享的信息的粒度。」如果50%或60%模型進行更新,我們還能以全局模型聚合的方式合併更新嗎?我們發現「是的,我們可以。」這真是振奮人心的結果。甚至只共享模型的10%,也可以聚合模型。」

當然,微分隱私也不是完美的。注入底層數據、輸入、輸出或參數中的任何噪聲都會影響整個模型的性能。在一項研究中,在訓練數據集中加入噪聲後,作者注意到預測精度從94.4%下降到24.7%。另一種保護隱私的機器學習技術———同態加密———沒有這些缺點,但它離完美也還很遠。

同態加密

同態加密並不是什麼新鮮事,IBM研究員克雷格·根特里(Craig Gentry)在2009年開發了第一個方案。

但近年來,隨著計算能力和效率的提高,同態加密得到了廣泛的應用。它本質上是一種密碼學形式,允許對使用算法加密的明文(文件內容),也稱為密文,進行計算,使生成的加密結果與對未加密文本執行的操作結果完全匹配。

使用這種技術,一個「加密網」(例如,任何可以應用於加密數據的學習神經網絡)可以對數據執行計算,並將加密結果返回給某個客戶端,然後客戶端可以使用加密密鑰(不公開共享)來解密返回的數據並獲得實際結果。

英特爾物聯網集團副總裁Jonathan Ballon今年早些時候接受VentureBeat 採訪時說:「如果發送核磁共振圖像,我希望我的醫生能夠立即看到,但其他人看不到。

同態加密可以做到這一點。此外,模型本身也是加密的。所以公司可以把這個模型放在公共雲上,而雲提供商不知道他們的模型是什麼樣子的。「實際上,同態加密庫還沒有充分利用現代硬體,而且至少比傳統模型慢一個數量級。但是像cuHE這樣的新項目,一個加速的加密庫,聲稱在各種加密任務上比以前實現快12到50倍的加速。

此外,像PySyft和tf-encrypted這樣的圖書館———它們分別建立在Facebook的PyTorch和TensorFlow機器學習框架上———在最近幾個月取得了長足的進步。有像HE Transformer這樣的抽象層,它是nggraph(Intel's neural network compiler)的後端,可以在一些密碼網絡上提供領先的性能。

事實上,就在幾個月前,英特爾的研究人員提出了nGraph-HE2,它是HE-Transformr 的繼承者,它可以利用自身的激活函數對標準的、預先訓練的機器學習模型進行推理。他們在一篇論文中報告說,其運行時標量編碼(將一個數值編碼成一個比特數組)的速度要快3倍到88倍,吞吐量要翻一番,此外,額外的乘法和加法優化使運行時的速度進一步提高了2.6倍至4.2倍。

IBM高級研究科學家Flavio Bergamaschi研究了使用邊緣硬體實現同態加密操作的方法。

在最近的一項研究中,他和同事在一個裝備了人工智慧攝像頭的設備上部署了一個本地同態資料庫,使得搜索能夠直接在該攝像頭上進行。他們報告說,這是「同態加速」的性能,每個資料庫條目的查找僅需1.28秒,這相當於5分鐘內查詢200條條目。

他在最近的一次電話採訪中表示:「我們正處於性能轉折點。目前完全同態加密在性能上足夠快,足夠滿足某些用例。」

在生產方面,Bergamaschi和他的團隊與一個美國銀行客戶合作,使用同態技術對機器學習過程進行加密。這個機器學習過程是一個線性回歸模型,有十幾個變量,分析了24個月當前帳戶持有人的交易數據,以預測這些帳戶的財務狀況,部分原因是為了推薦貸款等產品。

出於客戶的隱私和遵從性的考慮,IBM團隊加密了現有模型和所使用的事務數據,並且他們使用加密和未加密的模型進行預測以比較性能。雖然前者跑得比後者慢,但準確度是一樣的。

「這是很重要的一點。如果我們沒有任何預測模型,我們可以獲取交易數據,並在運營中執行新模型的訓練。」Bergamaschi說。

對同態加密的研究熱情催生了一個將其引入商業的創業公司。

總部位於新澤西州紐瓦克的Duality Technologies最近得到了英特爾風險投資部門的投資,將其同態加密平台定位為「眾多」企業(尤其是被監管行業中的企業)的隱私保護解決方案。銀行可以跨機構進行隱私保護的金融犯罪調查,該公司的銷售宣傳也是如此,而科學家可以利用它來研究基於患者就醫記錄的問題。

但是像聯邦學習和微分隱私一樣,同態加密也不是沒有缺點的。即使是領先的技術也只能計算多項式函數———對於機器學習中許多非多項式的激活函數來說,這是一個非標準函數。另外,對加密數據的操作只能涉及整數的加法和乘法,這在學習算法需要浮點計算的情況下是一個挑戰。

巴倫說:「在你可以用10秒來進行推斷的項目里,同態加密也可以,但是如果你今天只有3毫秒的周轉時間,那就沒有辦法了。」「計算量太高,這要追溯到工程領域。」

自2014年以來,Bergamaschi和他的同事們一直在試驗加速同態運算的硬體方法。從歷史上看,帶寬一直是最大的絆腳石———雖然加速器單獨產生了強大的基準性能,但總體上並不能產生強大的系統性能。這是因為執行操作所需的數據需要處理器和加速器之間的大量帶寬。

解決方案可能在於更有效地利用處理器上存儲的技術。韓國高級科學技術研究所的研究人員發表的一篇論文主張對所有正常和安全的數據使用組合緩存,並對安全處理器和緩存插入模塊使用內存調度和映射方案。

他們說,綜合起來,在典型的8核和16核安全處理器中,這兩種方法可以將加密性能的下降從25%-34%降低到8%-14%以下,同時將額外的硬體成本降到最低。

保護數據隱私——任重而道遠

新技術或許可以解決人工智慧和機器學習中固有的一些隱私問題,但它們還處於初級階段,並非沒有弱點。

聯邦學習在分布式伺服器上訓練算法,而不需要交換數據樣本,但是在功率、計算和網際網路的波動下很難檢查和控制。

微分隱私,在保存個人信息時暴露數據集的信息,由於注入噪聲而導致準確性下降。

至於同態加密—一種允許對加密數據進行計算的加密形式———它有點慢,計算量也很高。

不過,像巴倫這樣的人相信,這三種方法都是朝著正確方向邁出的一步。「這與從HTTP到HTTPS非常相似。」Ballon說,「總有一天,我們將擁有使機器學習中的隱私無懈可擊的工具和能力,但我們還沒有完全實現。」

關鍵字: