作者:Murph

1、無線邊緣聯邦學習背景

隨著5G 時代的帶來,未來的無線系統將支援超密集的節點組成的邊緣節點[1],包括基站的邊緣伺服器和無線接入點、智慧邊緣裝置例如智慧汽車和無人機等。邊緣計算被認為是5G 與工業網際網路、

物聯網等的重要結合點,能夠推動相關產業帶來飛躍性發展。與此同時,以深度學習為代表的人工智慧技術的發展,新一代基礎設施的AI賦能,使得邊緣節點和終端裝置具備了參與AI 計算與決策的能力(或稱“邊緣智慧”)。

網聯汽車、物聯網等密集終端場景下,訓練資料通常以分散式的形式產生和儲存在不同使用者裝置中。聯邦學習作為一種分散式機器學習框架,它允許使用者利用本地資料集進行模型的訓練,在訓練的過程中,資料本身不會離開使用者本地,共享的只是模型的引數改變數,從而保證了資料的安全性,預測效果也往往會好於每個聯邦使用者單獨訓練的模型。因此,在網路邊緣利用聯邦學習,可以充分利用終端節點的計算資源,並能夠在保護使用者個人資訊的前提下,進行更廣泛和高效的機器學習。

然而,將聯邦學習框架推向無線網路邊緣絕非易事。無線網路下非獨立正交和非均衡的使用者資料,異質和能量受限的裝置、隱私與安全需求以及不穩定的通訊條件,都使得高效的無線網路邊緣聯邦計算成為挑戰。目前,無線網路中的聯邦學習相關研究包括不同網路環境下的聯邦學習效能分析與提升,隱私保護與安全增強的聯邦學習研究等。

2、無線邊緣聯邦學習現有研究

1)無線網路下聯邦學習效能分析與提升研究

針對聯邦學習在無線網路中的效能分析與提升,目前已有研究成果中對於網路場景和限制的考慮包括:通道衰落[2,3]、噪聲影響[4]、大規模MIMO[5]、資源受限[6]、異構資料[7,8]等,對於聯邦學習效能的提升考慮包括計算或通訊能量消耗[8,9]、模型收斂時間[4,10]、模型損失[11]、訓練效率[12]等。

2)隱私保護與安全增強的無線聯邦學習相關研究

在[13]中,作者指出,聯邦學習過程容易受到拜占庭攻擊、資料

投毒、模型反推理等攻擊的影響,從而導致模型準確率降低或隱私保護受損等,尤其是在無線網路開放的環境中。然而,目前針對無線系統中聯邦學習的隱私保護與安全增強相關的研究相對較少。文獻[14]提出一種基於模擬訊號的聯邦學習框架,利用無線通道本身的疊加特性,本地裝置同時傳送模擬訊號來在差分隱私的要求限制下,實現訓練效率、模型收斂性和傳輸資料量之間的目標均衡。利用區塊鏈的可追溯和不可篡改等優勢,與分散式的聯邦學習相結合,可以很好的解決聯邦學習過程中網路節點之間的不可信以及模型引數傳輸受損等問題,這一思路已經在一些研究成果中得到應用[15-17]。

3、基於區塊鏈和聯邦學習來實現隱私保護的電信資料共享

A. 基於區塊鏈的資料共享與提取

基於區塊鏈的電信索引與共享過程如所示,它的實現過程包括以下幾步:

初始化:首先,在許可鏈上資料提供方與資料服務方將被劃分在不同的組織,每個節點將會根據自己的角色在註冊時被分配距離相近的ID,以方便管理與查詢。同時每個組織內根據參與節點的能力可以分為普通節點與高階節點,高階(審計或資料擁有方)節點可以進行對資料服務節點的管理、對資料請求和結果的快取等。

資料索引與授權:當一個數據擁有方加入鏈時,首先對將要釋出的電信資料或初始化的模型以及所要授權的應用場景釋出授權宣告,其他節點收到授權宣告對此進行驗證,並在驗證後生成相應的資料索引記錄在鏈上,記錄內容包括資料擁有方的簡介、資料種類、檔案型別、資料大小等。

當資料服務方註冊到許可鏈時,資料擁有方或高階節點透過確認資料服務方的資質或根據智慧合約的內容,許可資料服務方的註冊。當資料服務方需要資料來進行聯邦學習或模型訓練時,資料服務方透過發起資料獲取請求,並在透過其他節點的驗證後獲取資料。所有的資料分享與獲取過程都會被以交易的形式記錄在塊上,如圖1所示。

無線邊緣聯邦學習初探

圖1: 區塊資料格式示意圖

4。 資料服務方根據合約的授權簽名和演算法要求等,執行資料使用和計算,並可以將更新後的模 型引數進行釋出。

5。 模型需求方(可能同時是資料提供方或電信運營商)也可以共享預置的訓練模型,或請求模型的更新。當其他節點接收到模型資料或該請求後,生成事件並記錄在塊。同時,臨近的電信服務方從區塊鏈上獲取請求以及其他服務方更新的模型引數,可以採用聯邦學習的方式參與模型的共同更新,直到模型引數的更新小於某個閾值為止。

B. 實現差分隱私的聯邦學習

當資料提供方之間只分享模型而不是原資料時,為了抵禦模型推理攻擊,針對模型的訓練過程採用差分隱私的方式來進一步進行隱私保護。假設聯邦學習的目標是為了訓練一個全域性模型

M

,假設有

n

個參與方共同進行模型的訓練,記為

P_1…P_n

。將

P_i

利用原資料訓練的本地模型記為

m_i

P_i

進行分享的本地模型記為

\hat m_i

P_{(i+1)}

將根據接收到的

\hat m_i

和自己的本地資料進行模型的更新,並進一步廣播

\hat m_i

。針對每個參與方

P_i

,可以對訓練資料集

D

新增拉普拉斯噪聲來取得差分隱私,也可通對模型引數新增拉普拉斯噪聲,例如

\hat m _i=m_i+Lap(\frac{s}{ϵ})

,其中

s

為資料集敏感度。

C. 模型訓練結果驗證的共識過程

資料和模型的分享需要共識機制的驗證過程。為了平衡開銷和安全性,我們提供了基於訓練結果驗證的共識過程。在共識過程中,驗證者將透過驗證模型推理結果精確度的方式實現對資料/模型共享過程的驗證。只有當模型的精確度大於一定的表現時,才被認為透過共識過程。

D. 安全分析

在面向人工智慧應用的電信網路中採用許可鏈的框架來進行資料的分享,並可在鏈上實現聯邦學習,可以實現以下安全與隱私保護能力。

實現差分隱私:根據差分隱私的性質可知,當對原資料實現差分隱私保護時,後處理的資料仍然可以滿足差分隱私特性。當對訓練之前的原資料進行差分隱私處理後,對映操作獨立於資料,而且且不會洩露任何個人資訊,同時訓練後的模型將仍然滿足差分隱私特性。

保證共享資料的質量:不誠實的提供者可能共享無效資料,但透過PoT的方式,只有精確度超過一定閾值的模型才會被保留在塊上,從而實現了高質量的資料和模型分享。

安全的資料管理:資料提供方可以僅在許可鏈上廣播自己擁有的資料檢索和預置的模型,而只在本地儲存真實的資料。資料提供方在許可鏈上公開共享的資料,則是本身的隱私和安全要求比較低的資料,同時其餘節點對資料的獲取過程將被作為事件記錄在塊上,從而保證了資料的安全流通。

參考文獻

[1] G。 Zhu, D。 Liu, Y。 Du, C。 You, J。 Zhang and K。 Huang, “Toward an Intelligent Edge: Wireless Communication Meets Machine Learning,” in IEEE Communications Magazine, vol。 58, no。 1, pp。 19-25, January 2020。

[2] Amiri M M, Gündüz D。 Federated learning over wireless fading channels[J]。 IEEE Transactions on Wireless Communications, 2020, 19(5): 3546-3557。

[3] Sery T, Cohen K。 A Sequential Gradient-Based Multiple Access for Distributed Learning over Fading Channels[C]//2019 57th Annual Allerton Conference on Communication, Control, and Computing (Allerton)。 IEEE, 2019: 303-307。

[4] F。 Ang, L。 Chen, N。 Zhao, Y。 Chen, W。 Wang and F。 R。 Yu, “Robust Federated Learning With Noisy Communication,” in IEEE Transactions on Communications, early access。

[5] Vu T T, Ngo D T, Tran N H, et al。 Cell-free massive MIMO for wireless federated learning[J]。 IEEE Transactions on Wireless Communications, 2020, early access。

[6] S。 Wang et al。, “Adaptive Federated Learning in Resource Constrained Edge Computing Systems,” in IEEE Journal on Selected Areas in Communications, vol。 37, no。 6, pp。 1205-1221, June 2019。

[7] J。 Ahn, O。 Simeone and J。 Kang, “Wireless Federated Distillation for Distributed Edge Learning with Heterogeneous Data,” 2019 IEEE 30th Annual International Symposium on Personal, Indoor and Mobile Radio Communications (PIMRC), Istanbul, Turkey, 2019, pp。 1-6。

[8] J。 Mills, J。 Hu and G。 Min, “Communication-Efficient Federated Learning for Wireless Edge Intelligence in IoT,” in IEEE Internet of Things Journal, 2019, early access。

[9] Yang Z, Chen M, Saad W, et al。 Energy Efficient Federated Learning Over Wireless Communication Networks[J]。 arXiv preprint arXiv:1911。02417, 2019。

[10] Chen M, Poor H V, Saad W, et al。 Convergence time optimization for federated learning over wireless networks[J]。 arXiv preprint arXiv:2001。07845, 2020。

[11] M。 Chen, Z。 Yang, W。 Saad, C。 Yin, H。 V。 Poor and S。 Cui, “Performance Optimization of Federated Learning over Wireless Networks,” 2019 IEEE Global Communications Conference (GLOBECOM), Waikoloa, HI, USA, 2019, pp。 1-6

[12] Yang H H, Arafa A, Quek T Q S, et al。 Age-based scheduling policy for federated learning in mobile edge networks[C]//ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)。 IEEE, 2020: 8743-8747。

[13] Kairouz P, McMahan H B, Avent B, et al。 Advances and open problems in federated learning[J]。 arXiv preprint arXiv:1912。04977, 2019。

[14] Seif M, Tandon R, Li M。 Wireless Federated Learning with Local Differential Privacy[J]。 arXiv preprint arXiv:2002。05151, 2020。

[15] Y。 Lu, X。 Huang, Y。 Dai, S。 Maharjan and Y。 Zhang, “Differentially Private Asynchronous

Federated Learning for Mobile Edge Computing in Urban Informatics,” in IEEE Transactions

on Industrial Informatics, vol。 16, no。 3, pp。 2134-2143, March 2020。

[16] Lu Y, Huang X, Zhang K, et al。 Blockchain empowered asynchronous federated learning for secure data sharing in Internet of Vehicles[J]。 IEEE Transactions on Vehicular Technology, 2020, 69(4): 4298-4311。

[17] J。 Kang, Z。 Xiong, D。 Niyato, S。 Xie and J。 Zhang, “Incentive Mechanism for Reliable

Federated Learning: A Joint Optimization Approach to Combining Reputation and Contract

Theory,” in IEEE Internet of Things Journal, vol。 6, no。 6, pp。 10700-10714, Dec。 2019。