資料智農

本文轉自:Federated Learning

導讀:大資料的發展已經在不同的領域和行業發揮作用,但是由於公司競爭、安全問題、審批流程等因素,公司之間甚至公司內部的資料之間實現真正的互聯互通仍然存在很大的阻礙,資料之間巨大壁壘導致了“資料孤島”的現象存在。同時,伴隨著歐盟出臺的新法案——《通用資料保護條例》(General Data Protection Regulation, 簡稱GDPR),資料隱私保護已經成為全世界關注的趨勢。目前,谷歌針對以上“資料孤島”和“資料隱私保護”的問題提出了“聯邦學習”演算法技術。那麼什麼是“聯邦學習”?“聯邦學習”的具體應用場景有哪些?

【技術觀點】聯邦學習的研究及應用

中國計算機協會在“聯邦學習技術及資料隱私保護”專題講座分別從研究及應用兩方面對此做了介紹,本文簡要總結了報告的內容。

【技術觀點】聯邦學習的研究及應用

圖中楊強教授正在做聯邦學習的相關介紹

聯邦學習的介紹

1、聯邦學習的定義

聯邦學習(Federated Learning)實際上是一種加密的分散式機器學習技術,參與各方可以在不披露底層資料和底層資料的加密(混淆)形態的前提下共建模型。它可以實現各個企業的自有資料不出本地,而是透過加密機制下的引數交換方式,即在不違反資料隱私法規的情況下,建立一個虛擬的共有模型。在這樣一個機制下,參與各方的身份和地位相同,成功實現了“共同富裕”的目標。

2、聯邦學習的過程

聯邦學習的過程分為自治和聯合兩部分。

自治的部分:首先,兩個或兩個以上的的參與方們在各自終端安裝初始化的模型,每個參與方擁有相同的模型,之後參與方們可以使用當地的資料訓練模型。由於參與方們擁有不同的資料,最終終端所訓練的模型也擁有不同的模型引數。

聯合的部分:不同的模型引數將同時上傳到雲端,雲端將完成模型引數的聚合與更新,並且將更新好的引數返回到參與方的終端,各個終端開始下一次的迭代。以上的程式會一直重複,直到整個訓練過程的收斂。

【技術觀點】聯邦學習的研究及應用

圖源:H.Bredan McMahan et al, Communication-Efficient Learning of Deep Networks form Decentralized Data, Google, 2017

3、聯邦學習的特點

使用者隱私資料的保護

:聯邦學習的根本目標和最大的優點在於使用者隱私資料的保護,向雲端傳輸的是終端模型的引數,而非終端資料資訊。但是,是否向雲端只更新模型引數就能保證使用者隱私資料沒有任何的資訊洩漏?根據目前的研究,答案是否定的。例如,在影象領域,影象資料的梯度和原始資料是成正比關係的,對於單個影象資料,可以透過梯度還原影象效果。解決梯度資訊暴露的方法主要有以下幾種,一是加大量梯度資料進行混淆,減弱某個梯度對於整個資料樣本的影響;二是透過同態加密對原始梯度資料進行加密,保護原始梯度資料的洩漏;三是由谷歌提出的痛過私密共享上傳梯度資料,效果與同態加密類似。

解決“資料孤島”問題

:由於競爭關係、安全問題、審批流程等因素,資料之間的流通存在難以打破的壁壘。即使行業間有意交換資料,也可能遭遇政策問責,因為重視資料隱私和安全已經成為世界性的趨勢。透過聯邦學習,可以在無需打通資料的前提下實現聯合建模,真正得使用大資料提高模型預測效果。

4、聯邦學習的分類

我們透過樣本的使用者和使用者特徵兩個維度將聯邦學習分為橫向聯邦學習、縱向聯邦學習和聯邦遷移學習。

橫向聯邦學習

:參與方們的資料集具有高度重疊的特徵維度,樣本重疊較小,我們將資料集進行橫向切分,提取出資料集間特徵一致而樣本不完全相同的部分作為訓練資料。例如,聯邦學習+智慧醫療,同一地區醫院之間作為參與方共同建模,預測宮頸癌存活率,醫院之間的病人資料特徵維度高度重疊,屬於橫向聯邦學習。

縱向聯邦學習

:參與方們的資料集具有高度重疊的樣本緯度,特徵維度重疊較小,我們將資料集進行縱向切分,提取出資料集間樣本一致而特徵不完全相同的部分作為訓練資料。例如,同一地區的外賣APP和出行APP的使用者間有高度的重疊,但是交易資料的特徵維度重疊較小,外賣企業和出行公司之間聯合建模屬於縱向聯邦學習。縱向聯邦學習的目標是兩個或兩個以上參與方聯合建模,假設是隻有一方的資料帶有資料標籤Y,同時參與方們都不想要暴露資料資訊,挑戰是沒有資料樣本標籤的參與方是無法獨自建模的。在這種情況下可透過聯邦學習的方式聯合建模,既達到了資料保護的預期又保證了資料的無損性,所謂無損性就是聯合建模的訓練的模型效果與在無資料隔閡的情況下將所有資料進行訓練的模型效果一致。

聯邦遷移學習

:如果參與方們資料集在樣本和特徵維度上都沒有足夠的重疊,我們可以使用聯邦遷移學習,不對資料進行切割。假設有兩個參與方,參與方的A資料帶有標籤,參與方B的資料沒有標籤,兩方原始資料在樣本和特徵維度上都沒有足夠的重疊。聯邦遷移學習實現的基礎在於找到參與方A與B資料集特徵向量的最小距離。

5、資料安全的假設

聯邦學習的根本目標是為了保障資料資訊保安,但是在不同的場景,不同的主體對於隱私和資料安全的要求或者定義不相同。因此在聯邦學習中,參與方們在進行隱私保護下的機器學習之前需要定義資料安全的概念,達成共識。

在聯邦學習中,我們有以下4個假設:

1。 所有參與方們都是誠實但好奇的。所有的參與方們會遵循聯邦學習的資料保密規則,但同時他們也會利用所得到的所有資訊去推測其他參與方的資料資訊。

2。 在參與方們之間存在潛在的惡意的一方,該參與方會透過控制或者篡改自己資料去影響聯合建模的效果。

3。 零知識和一些知識的博弈。零知識是一種理想的狀態,指的是在聯合建模之後,參與方們對彼此的資料資訊一無所知。但是零知識的現象伴隨著高度複雜的系統和傳輸方式,在實際中並不可取。在資料安全的假設允許建模的參與方們知道對方部分的非關鍵資訊,在一些知識假設下的聯合建模可以達到更高的系統效率。

4。 聯邦學習既存在中心也存在節點,安全定義需要防禦惡意中心和惡意資料節點。

6、隱私保護下的技術工具

在定義了資料安全之後,參與方們需要使用工具來進行資料的隱私保護,主要的工具包括安全多方計算,同態加密,私密共享和差分隱私,以下主要介紹各個工具的優缺點。

【技術觀點】聯邦學習的研究及應用

圖中劉洋博士正在做關於聯邦學習分類的分享

安全多方計算

優點在於可以保證知識在資訊層面的資料安全,缺點在於資訊傳輸量大。為了降低資料傳輸成本,參與方們可能需要在降低對資料安全的要求來提高訓練的效率。

同態加密

的優點在於對所有資料進行加密處理,參與方們接收到的是密文,無法推理出原始資料資訊,保障了資料層面的安全,缺點是計算效率低。在實際應用中,為了提高計算效率,參與方們一般採用半同態加密,半同態加密可以在密文上做加法和乘法運算。

私密共享

需要信任第三方的存在,優點在於計算效率較高,缺點在於資訊傳輸效率低,因為需要做多次的傳輸。

差分隱私

優點在於保證資料資訊保安,透過在參與方各自的原始資料上不斷加噪音來減弱任意一方資料對於整體資料的影響,缺點在於犧牲訓練效果,過多的噪音會降低模型訓練的效果,因此參與方們使用差分隱私時需要在資料安全和準確度上做取捨。研究表明,在聯邦學習中,如果參與方數量較少,用差分隱私來進行資料的隱私保護,模型的準確率會較低。

7、聯邦學習的構架

我們假設有兩個企業A與B,企業的A擁有模型需要預測的資料標籤,企業B的使用者資料沒有標籤。

考慮到使用者資料隱私安全,企業A與B無法直接打通資料進行建模,他們可以透過聯邦學習的方式來進行聯合建模。當然,兩個B2B的聯邦學習構架也適用於多個B2B和B2C的場景。

【技術觀點】聯邦學習的研究及應用

圖源:聯邦學習-楊強、劉洋、陳天健、童詠昕-CCCF 2018年第11期

聯邦學習的架構包括:

第一部分

:加密樣本的匹配。兩個企業的資料之間存在很多區別,需要先將加密樣本進行橫向或縱向的切分和對齊。在不暴露使用者資料資訊的前提下,確認資料集間共同的特徵維度或者使用者,以便訓練資料特徵維度的確立。

第二部分

:加密模型訓練,本案例中使用同態加密作為資料隱私保護工具,引入信任第三方。

(1)第三方C將公鑰分發給企業A與B,用於加密各自的計算出的梯度資訊,只有第三方C擁有私鑰可以解密資訊。

(2)企業A與B以加密形式互動用於計算梯度的中間結果。

(3)A和B分別基於加密的梯度值進行計算,同時B根據其標籤資料計算損失,並把結果彙總給C,C透過彙總結果計算總梯度值並將其解密。

(4)C將解密後的梯度分別傳回A和B,A和B根據梯度更新各自模型的引數。

以上的程式會一直重複,直到整個訓練過程的收斂。聯邦學習的應用案例

聯邦學習在金融領域的應用案例

同一地區的線上商城和銀行使用者具有高度的重疊,銀行的使用者資料具有很好的資料標籤,例如逾期和信貸等級等,但是使用者在銀行屬於低頻交易,相比起網際網路公司的使用者資料,銀行的資料量較小。線上商城的資料涉及使用者消費習慣和消費水平的特徵。如果在網際網路公司和銀行使用者資料上進行聯合建模,銀行信貸預測的各項指標都會得到提高。

聯邦學習在城市管理的應用案例

在城市管理中,馬路上四處分散的攝像頭可以幫助監控和管理違規行為。在這個場景中,每個攝像頭終端所儲存的標籤資料較少而且無法及時反饋做標註工作,所以過往的方法是將各個終端資料上傳到雲端,離線更新模型。但是離線模型更新會有延遲性和資料分散的問題。針對這個問題,微眾銀行提出了橫向聯邦學習的解決方案,即各個終端聯合建模在本地進行標資料標註和模型的更新,使得本地資料無需上傳終端。

聯邦學習在城市計算中的應用案例

【技術觀點】聯邦學習的研究及應用

圖中張鈞波博士正在分享聯邦學習+城市計算相關內容

在智慧城市建設中,各個政府機關已經建立了各種資訊系統或資料平臺。大型企業尤其是央企國企也積累了各類海量資料。當前一些社會重要的發展專案,例如徵信體系的建設,需要聯合政府和大型企業的資料共同完成。考慮到政府資料和商業資料的保密性,使用聯邦學習在政府與企業間共同建模才能完成整個完善的徵信體系的建立。

聯邦學習技術是隱私保護下機器學習的可實現路徑和”資料孤島問題“的可解決方案。同時,聯邦學習技術適用於B2B和B2C業務,可以賦能智慧城市、智慧金融和智慧醫療等多個領域,應用十分廣泛。

【技術觀點】聯邦學習的研究及應用

長按二維碼關注

如有任何問題

您可以傳送郵件至

dataintellagr@126。com

或關注微博/知乎/微信後臺留言

我們期待您的提問!

微博:資料智農

知乎:資料智農

郵箱:dataintellagr@126。com

製作:王琳雅