微軟與哈佛大學合作開發開放數據差異隱私平台（附連結）

作者：John Kahan - Chief Data Analytics Officer

翻譯：吳金笛

校對：和中華

本文約2400字，建議閱讀5分鐘

本文介紹了一個基於差異隱私技術的數據分享平台。

我們生活在一個充斥著數據的世界，我們每天都在創造越來越多的數據。然而，數據通常包含敏感的個人信息，這些信息可以通過允許重新標識數據所有者的方式對其進行操作。因此，我們需要找到一種方法來分析數據，以釋放其全部潛力，同時又不為數據所有者的隱私帶來風險。最近人工智慧和數據科學的進步使這成為可能，這就是為什麼我很高興宣布，微軟與哈佛大學的Gary King，Weatherhead大學的教授、哈佛大學定量社會科學研究所的創始人兼領導者，合作構建一個平台來使用差異隱私以保證數據的私密性,同時使跨部門的研究人員包括學術界、政府和私營部門獲得新的可以迅速提高人類知識的見解。

「我們很高興能與微軟合作這個重要的項目。我們的目標不是平衡個人隱私和公眾利益，而是消除衝突，實現兩者。」 Gary King說。

差異隱私，是一項對大型數據集的隱私保護分析而量身定製的技術，於2006年發明，由微軟研究員傑出的科學家 Cynthia Dwork和哈佛大學計算機科學教授Gordon McKay帶頭的，與Kobbi Nissim、Frank McSherry和Adam Smith合作，進行了為期四年的研究。差異隱私使研究人員和分析人員能夠從包含個人信息的數據集中提取對公共利益有用的見解，同時提供當今最強大的隱私保護。

這種看似矛盾的結果是通過在計算中引入相對較小的誤差或統計噪聲來實現的。這些誤差大到足以保護隱私，但又小到提供給分析師和研究人員的答案仍然有用。我們的目標是建立一個差異化的隱私平台以提供一個更通用的解決方案，最終可能會有廣泛的研究人員和公司對此做出貢獻。

「差異隱私體現了對基礎研究進行投資的回報，也展示了理論計算機科學作為社會變革工具的巨大潛力。創建一個具有工業實力、公眾可用的平台將促進實踐和藝術發展」。Cynthia Dwork說。

以前，研究人員依靠去識別等技術，這是一種在更大的數據集中剝離敏感數據的過程。不幸的是，這種方法不安全，並且很容易被通過重複和複雜的查詢以及將其與其他數據結合使用的方法而破壞。

差異隱私背後的數學是複雜的,但如果你想了解更多信息,我建議閱讀Cynthia Dwork一篇簡短的論文，即隱私數據分析的一個堅實的基礎（https://www.microsoft.com/en-us/research/publication/a-firm-foundation-for-private-data-analysis/），它專為廣泛的技術受眾編寫,和另一篇論文，即差異隱私:非技術受眾入門（https://dash.harvard.edu/handle/1/38323292），由哈佛大學計算機科學和應用數學教授Salil Vadhan和Vicky Joseph共同編寫，他們也將與我們在這個項目上合作。

這些論文很好地總結了差異隱私給那些想要分析敏感數據的人帶來的好處:

差異隱私本質上是保護個人信息，就像在分析中沒有用到她的信息一樣。
差異隱私本質上保證了使用個人數據不會泄露任何特定於她的個人身份信息。在此，特定指的是除非在分析中使用的信息，否則無法被推斷出的信息。
差異隱私本質上掩蓋了任何個人的貢獻，使得無法推斷任何特定於個人的信息，包括個人的信息是否被使用。

在微軟方面,我們的平台的開發是由Azure AI團隊領導, 由微軟 AI平台的副總裁Eric Boyd帶領, 他說:「這種合作匯集了微軟巨大的工程資源和Azure AI以及一些最有才華的數據科學家,工程師和科學家來開發一種數據共享工具,這將從根本上改變我們做研究的方式。我們正在研究來自政府、醫療保健、學術和商業部門的實際情況，這些情況將展示差異隱私如何提供最強大的可能的隱私保護，我們很高興看到更深層次的見解和新的解決方案。」

一但構建了基本架構並實施治理，我們將向全世界的開發人員、研究人員和公司開放平台和算法，讓他們在未來參與構建和支持該平台。我們認為，這種開放的方法對成功至關重要，因為它保證了透明性，使所有人都能信任產出。

我們的項目還建立在微軟的同態加密和機密計算的工作之上，這些工作旨在提高雲計算的安全性。當將同態加密與差異隱私相結合以確保數據安全時，用戶將能夠釋放其數據的全部潛力，並確信其數據將保持安全和在他們的控制之下。

一旦該平台可用，研究人員將能夠使用它使他們自己的數據集可供世界各地的其他研究人員使用。因此，我們可以將各種各樣的、以前沒有聯繫的甚至不相關的數據集組合成可以被人工智慧分析的海量數據集，這將進一步釋放數據的力量。也許更重要的是，由此產生的見解將開闢新的研究途徑，使我們能夠為人類面臨的一些最緊迫的問題開發新的解決方案。

目標是使用我們的集體創新和取得的突破為每一個人服務:對抗癌症和其他疾病，設計工具來幫助有學習障礙者，幫助難民找到生活的地方，以及保護我們的地球不受氣候變化的危害，同時保護為我們提供數據的數據所有者的隱私。

該項目也將是Cascadia數據發現計劃的一個關鍵組成部分，該計劃旨在建立一個強大的健康數據生態系統，重點是在西北地區開展協作、數據共享和數據驅動的癌症研究。下周我將參加Cascadia創新會議，屆時我們將討論我們在差異隱私方面的工作，以及它如何推進我們的合作夥伴Fred Hutchinson癌症研究中心和其他CDDI合作夥伴正在開展的工作。

我們將在今年秋天宣布如何讓更多開發人員和研究人員參與我們的細節。

原文標題：

Microsoft and Harvard’s Institute for Quantitative Social Science Collaboration Develops Open Data Differential Privacy Platform, Opens New Research

原文連結：

https://www.linkedin.com/pulse/microsoft-harvards-institute-quantitative-social-science-john-kahan/?trackingId=f0rsxujTTHapEOmCYHSdfw%3D%3D

編輯：王菁

校對：林亦霖

譯者簡介

吳金笛，雪城大學計算機科學碩士一年級在讀。迎難而上是我最舒服的狀態，動心忍性，曾益我所不能。我的目標是做個早睡早起的Cool Girl。

— 完 —

關注清華-青島數據科學研究院官方微信公眾平台「THU數據派」及姊妹號「數據派THU」獲取更多講座福利及優質內容。