學術咨詢服務,正當時......期刊天空網是可靠的職稱工作業績成果學術咨詢服務平臺!!!

聯邦學習中的隱私保護技術

發布時間:2022-04-29所屬分類:法律論文瀏覽:1

摘 要: 摘 要: 聯邦學習是順應大數據時代和人工智能技術發展而興起的一種協調多個參與方共同訓練模型的機制. 它允許各個參與方將數據保留在本地, 在打破數據孤島的同時保證參與方對數據的控制權. 然而聯邦學習引入了大量參數交換過程, 不僅和集中式訓練一樣受到模型使用者的威

  摘 要: 聯邦學習是順應大數據時代和人工智能技術發展而興起的一種協調多個參與方共同訓練模型的機制. 它允許各個參與方將數據保留在本地, 在打破數據孤島的同時保證參與方對數據的控制權. 然而聯邦學習引入了大量參數交換過程, 不僅和集中式訓練一樣受到模型使用者的威脅, 還可能受到來自不可信的參與設備的攻擊, 因此亟需更強的隱私手段保護各方持有的數據. 分析并展望了聯邦學習中的隱私保護技術的研究進展和趨勢. 簡要介紹聯邦學習的架構和類型, 分析聯邦學習過程中面臨的隱私風險, 總結重建、推斷兩種攻擊策略, 然后依據聯邦學習中的隱私保護機制歸納隱私保護技術, 并深入調研應用上述技術的隱私保護算法, 從中心、本地、中心與本地結合這 3 個層面總結現有的保護策略. 最后討論聯邦學習隱私保護面臨的挑戰并展望未來的發展方向.

聯邦學習中的隱私保護技術

  關鍵詞: 聯邦學習; 隱私保護; 隱私攻擊; 差分隱私; 同態加密; 安全計算

  近年來, 大數據驅動的人工智能迸發出巨大潛力, 在金融、醫療、城市規劃、自動駕駛等多個領域完成了大規模復雜任務學習. 機器學習作為人工智能的核心技術, 其性能和隱私性也廣受關注. 傳統的機器學習需要由服務商收集用戶的數據后集中訓練, 但是用戶的數據與用戶個體緊密相關, 可能直接包含敏感信息, 如個人年齡、種族、患病信息等; 也可能間接攜帶隱含的敏感信息, 如個人網頁瀏覽記錄、內容偏好所隱含的用戶政治傾向. 如果這些敏感信息在收集過程中被服務商泄露或者利用, 將直接威脅用戶的人身安全、個人名譽和財產安全. 即便服務商沒有直接公開用戶數據, 集中訓練后發布的模型也可能因為受到隱私攻擊而泄露參與訓練的數據. 隨著隱私問題受到的關注程度日益提高, 用戶分享數據的意愿越來越低. 與之矛盾的是, 人工智能技術卻必須依靠大量數據收集和融合, 如果不能獲取完整豐富的信息來訓練模型并發展技術, 人工智能應用的發展將受到嚴重限制.

  在數據孤島現象與數據融合需求的矛盾逐漸凸顯的背景下, 聯邦學習(federated learning, FL)應運而生. 2017 年, Google 公司首次提出了聯邦學習的概念[1], 這是一種由多個數據持有方(如手機、物聯網設備, 或者金融、醫療機構等)協同訓練模型而不分享數據, 僅在中間階段交換訓練參數的學習機制. 理想狀況下, 聯邦學習得到的共享模型與數據集中在中心服務器上訓練所得模型相比, 效果相近或更好[2]. 由此, 企業能夠通過合法且高效的方式融合數據提取信息, 個人或其他持有數據的機構依然能夠在享受企業提供的人工智能服務的同時, 保有數據的控制權.

  盡管聯邦學習避免了將數據直接暴露給第三方, 對于數據隱私有天然的保護作用, 但是其中依然存在大量隱私泄露的風險.

  • 首先, 聯邦學習需要交換中間參數協同訓練, 可能泄露隱私. 與集中式學習不同, 聯邦學習訓練過程需要交換大量中間參數, 其所攜帶原始數據會暴露在所有參與訓練的角色面前, 帶來泄露的風險. 例如, 已有研究表明, 可以通過梯度還原部分原始數據[3], 或根據中間參數推斷掌握的記錄內容是否來自某個特定參與者[4].

  • 其次, 不可靠的參與方加劇了隱私泄露的風險. 聯邦學習中, 各個參與方由于地理、設備等條件不同, 通信內容的有效性和身份的真實性都難以確認, 因此一旦出現不可靠的參與方攻擊, 極易泄露隱私. 例如, 半誠實的參與方能夠根據合法獲取的中間參數推斷出其他參與方的標簽或數據; 而惡意的參與方更進一步, 能夠通過上傳精心設計的有害信息誘導其他參與方暴露更多自身數據, 或者不遵守隱私協議進而影響全局的隱私性.

  • 此外, 訓練完成的模型也面臨著隱私泄露的風險. 即便聯邦學習的過程中參數沒有泄露, 直接發布訓練所得的模型依然存在極大風險. 這種風險來自機器學習自身的脆弱性. 在訓練中, 模型提高準確性依賴于對數據樣本的規律挖掘. 但是研究者[4]注意到, 追求模型在訓練樣本上的準確度, 可能導致模型的參數乃至結構“記住”訓練樣本的細節, 使得模型攜帶訓練集的敏感信息. 根據這一特性, 攻擊者可以通過反復查詢模型的預測接口來推測某條記錄是否存在于訓練集、推測模型的具體參數, 而根據模型發布的參數能夠進一步推測訓練集成員或訓練集具體樣本.

  由此可見, 不加保護的進行聯邦學習, 訓練中涉及的眾多參與者的數據都將面臨泄露的風險. 而數據一旦泄露, 不僅隱私泄露者面臨嚴重損失, 參與者間彼此信任合作的聯合訓練模式也將難以為繼. 解決聯邦學習信息泄露問題迫在眉睫. 然而, 聯邦學習中數據分布復雜、應用場景豐富且需要多次數據交換, 這些因素為隱私保護帶來一系列挑戰.

  • 第一, 聯邦學習的訓練場景多樣且需求復雜, 現有的隱私保護方法無法通用. 已有的集中式機器學習隱私保護研究以中心服務器誠實為前提, 僅考慮模型發布后可能受到的攻擊, 沒有針對內部攻擊者的解決方案. 而且現有算法大多針對單一的集中式訓練場景, 沒有考慮多個參與方、多種架構、多種數據分布方式下的數據交換和模型協同訓練的情況. 因此, 設計適應不同場景和不同需求的隱私保護算法, 同時抵御外部和內部攻擊, 是聯邦學習隱私保護的重要挑戰.

  • 第二, 聯邦學習中參與方的可信程度低, 潛在的攻擊角度多, 對隱私保護算法的魯棒性要求更高. 這里, 魯棒性指模型容忍惡意攻擊穩定運行的能力. 聯邦學習中, 參與者一旦發起攻擊, 能夠觀察到更多的中間參數, 甚至能夠篡改參數影響訓練過程, 隱私防御的難度遠高于外部出現的攻擊. 而參與者之間如果共謀, 可能獲取更多敏感信息. 因此, 提高隱私保護算法的魯棒性, 減少隱私算法中對參與者的可信程度的假設, 是聯邦學習隱私保護面臨的難題.

  • 第三, 聯邦學習本身通信不穩定, 模型計算代價高, 因而對隱私保護機制的通信量和復雜度要求嚴格. 現實場景下的聯邦學習所面臨的復雜松散的網絡結構導致終端通信不穩定, 在此基礎上的隱私保護算法難以簡化. 而復雜的隱私保護算法將帶來更高的計算量、更大通信代價, 進一步制約聯邦學習的訓練效率. 研究高效率、輕量級的聯邦學習隱私保護算法, 降低額外開銷, 是聯邦學習隱私保護必須面對的挑戰.

  • 第四, 聯邦學習中參數維度高、數據分布不均, 難以在提供隱私保護的同時保持模型的可用性. 聯邦學習中間參數的維度與模型結構和輸入數據維度相關, 參數維度往往極高, 造成了極大的隱私開銷. 此外, 聯邦學習的用戶數量不定且數據集大小不一, 如何在平衡不同數據集的同時保護隱私, 也是一個巨大挑戰.

  綜上所述, 更加精細的隱私策略設計、更加精確的隱私預算分配、更加適應數據交換的隱私協議構建, 是聯邦學習隱私保護進一步發展必須面對的議題. 而明確現有的隱私問題和保護手段, 是技術發展的基礎. 聯邦學習的基礎——機器學習的隱私攻擊和防御已經被充分調研[5]. 機器學習面臨的外部攻擊同樣威脅著聯邦學習的發布模型, 但是機器學習的隱私保護手段卻遠遠不足以為聯邦學習提供保護. 這是由于聯邦學習同時面臨著傳統的外部攻擊和其獨有的內部攻擊, 因此聯邦學習的隱私保護方案必須同時為內部訓練過程和外部模型發布提供雙重保護.

  另外, 已有學者調研了聯邦學習隱私保護的現狀, 但由于思路與本文不同, 側重的方法和文獻也不相同. Lyv 等人[6]和 Wang 等人[7]對聯邦學習可能受到的攻擊作了詳細的闡述, 但是在安全攻擊和隱私攻擊的區分上沒有進一步調研. 本文明確兩種攻擊的概念范圍: 以竊取數據、破壞模型隱私性和機密性為目的的攻擊為隱私攻擊, 以干擾模型訓練結果、破壞模型可用性和完整性的攻擊為安全攻擊. 此外, 本文還依據現有的隱私攻擊技術的原理歸納了主要策略分類. 現有文獻[7−10]均從技術或訓練階段的角度分析了目前的聯邦學習隱私保護算法, 而本文根據聯邦學習自身特性分析其特有的隱私泄露內容和泄露位置, 從隱私保護的對象的角度出發建立分類框架, 并歸納每個類別中主要的保護機制, 進而分析采用不同技術的算法的共性并探究機制本身的優勢和不足. 進一步地, 本文建立了攻擊策略與保護機制之間的聯系, 并在此基礎上嘗試為聯邦學習隱私保護的發展提出建議.

  本文第 1 節介紹聯邦學習的架構和類型, 以及相應場景下的訓練方式. 第 2 節分析聯邦學習面對的隱私泄露風險來源, 總結具體的攻擊策略. 第 3 節介紹多種隱私保護技術原理, 并將其歸納為信息模糊、過程加密兩種隱私保護機制. 第 4 節調研隱私保護技術在聯邦學習中的應用, 涵蓋本地保護、中心保護、中心與本地結合這 3 種保護策略, 并對每種策略展開更加詳細的闡述. 第 5 節討論現有不足并展望未來方向.

  1.1 聯邦學習架構

  常見的聯邦學習架構為客戶-服務器. 典型的客戶-服務器架構由一個中心服務器和多個持有數據的客戶端組成. 被廣泛采用的聯邦平均 FedAvg[1]即是基于客戶-服務器架構設計的算法. 在訓練中, 中心服務器將隨機初始化的模型結構和參數分發給客戶端, 客戶端根據本地數據訓練并更新模型后將參數上傳. 中心服務器收到各方參數后聚合計算, 更新模型參數再次下發. 該過程循環, 直至模型收斂或訓練終止. 除了常見的模型參數交換以外, 也存在梯度交換、數據特征的嵌入式表示交換等方式. 在此架構下, 原始數據不需要傳輸, 但是本地中間參數暴露給了中心服務器, 全局中間參數則會被每個客戶端獲取, 數據交換過程中, 巨大的通信量也會影響訓練效率. 而當參與訓練的客戶端數量過多時, 中心服務器的聚合計算甚至可能成為全局訓練效率的瓶頸.

  當沒有中心服務器時, 聯邦學習采用另一種常見架構: 端對端的網絡架構[12]. 這種架構僅由持有數據的終端組成. 參與訓練的終端 Fi 直接將訓練參數發送給下一個(或多個)終端 Fi+1, 下一個(或多個)終端 Fi+1 在收集到的一個(或多個)參數基礎上繼續訓練, 直到模型收斂或者訓練終止. 端對端網絡架構不依賴中心服務器這樣的第三方機構, 本地中間參數直接在參與方之間傳送. 因此需要考慮參與方如何協商使用相同的模型、算法、初始化參數等基本信息, 協調各方參與訓練的順序.

  為了下文中概念統一、表述清晰, 本文將客戶-服務器中的服務器稱為中心服務器; 將客戶-服務器中的客戶端和端對端架構中的參與訓練終端統稱為終端; 所有參與訓練的服務器、終端統稱為參與方. 訓練過程中發送的梯度、模型參數、嵌入式表示等, 統稱為中間參數. 上述兩種典型架構如圖 1 所示.

  1.2 聯邦學習類型

  根據參與方的樣本分布情況, 聯邦學習按照數據的劃分情況可以分為 3 種類型: 橫向聯邦學習、縱向聯邦學習、遷移聯邦學習. 不同的數據的劃分方式需要的訓練方式和中間參數不同, 也為隱私泄露的風險和保護方式帶來影響. 橫向聯邦學習中, 各個參與方持有的數據特征相同, 但掌握的樣本不同. 例如, 幾個不同城市的醫院可能掌握著不同病人的情況, 但是由于具備相似的醫療手段, 醫院獲取屬性的屬性相同. 橫向聯邦學習中典型的方式之一是第 1.1 節所描述的聯邦平均算法 FedAvg, 包括梯度平均和模型平均兩種類型[13], 多由客戶-服務器架構實現. 梯度平均是指終端交換和聚合模型梯度, 而模型平均指聚合模型參數. 在端對端架構中, 各個參與方訓練本地模型, 通過循環發送給下一個(或多個)訓練方或者隨機傳輸某個(或多個)終端[14]實現模型參數的共享.

  而縱向聯邦學習則針對相反的情形, 即各個參與方持有的數據特征不同, 但掌握的樣本相同. 例如, 同一個城市中的醫院和銀行都接待過同一個市民, 保留著該市民的就診記錄或資金狀況. 顯然, 醫院和銀行獲取的數據屬性完全不同, 但是所持有的樣本 ID 是重疊的. 縱向聯邦學習首先需要參與方對齊相同 ID 的樣本, 然后, 各個參與方在對齊的樣本上分別訓練本地模型并分享參數. 不同架構同樣都適用于縱向聯邦學習, 但由于數據的縱向分布, 參與方之間的依賴程度更高, 模型需要更加精細地設計. 縱向聯邦學習已應用于線性回歸[11]、提升樹[15]、梯度下降[16]等多種模型上. 以縱向聯邦學習線性回歸算法[11]為例, 該算法在樣本對齊后, 將損失函數的梯度拆分, 使得兩個參與方能夠使用各自的本地數據分別計算梯度的一部分, 而需要共同計算的部分則通過雙方交換參數協同完成. 縱向分布的數據之間緊密的相關性, 為縱向學習的效率和容錯性帶來挑戰.

  上述兩種類型都是比較理想的情況, 現實生活中, 大部分參與方所持有的數據, 在特征和樣本 ID 上的重疊都比較少且數據集分布不平衡. 針對這樣的情形, 遷移學習被應用到聯邦學習中來. 遷移學習作為一種有效的學習思想, 能夠將相關領域中的知識遷移到目標領域中, 使得各個參與方共同學習得到遷移知識. 以兩方遷移學習為例[17], 假設一方 A 掌握樣本的部分特征和全部標簽, 另一方 B 掌握部分特征, 雙方特征和樣本 ID 之間都有少量重疊. 聯邦遷移學習首先對齊樣本并共同訓練模型, 然后預測 B 方樣本的標簽. 為了達到預期效果, 訓練的目標函數包含兩個部分: 一部分是根據已有的標簽預測 B 方樣本, 使預測誤差最小化; 另一部分是 A 與 B 對齊的樣本之間的嵌入式表示的區別最小化. 各方根據目標函數在本地訓練, 并交換中間參數更新模型, 直至模型收斂.

  目前, 縱向和遷移聯邦學習的隱私保護算法研究還不成熟, 且保護方式與橫向聯邦學習場景類似. 為了表述簡潔, 下文中調研的隱私保護算法若無特別說明, 即為橫向聯邦學習場景.

  2 聯邦學習中的隱私泄露風險

  盡管聯邦學習不直接交換數據, 比傳統的集中式機器學習訓練有了更高的隱私保障, 但聯邦學習本身并沒有提供全面充分的隱私保護, 依然面臨著信息泄露的威脅. 模型面臨的隱私泄露風險來自模型訓練自身的脆弱性和攻擊者的強大能力: 模型訓練過程中, 獨特架構和訓練階段決定了隱私泄露的位置和時機; 攻擊者的角色和能力, 決定了隱私泄露的內容和程度. 而攻擊者依據自身特性所采取的攻擊策略, 則進一步影響攻擊者的能力, 從而影響模型隱私泄露的風險. 理清隱私泄露的風險, 才能為聯邦學習隱私防御找到總體方向.

  2.1 隱私泄露風險來源

  為了在下文中更好地描述隱私攻擊, 我們首先建立聯邦學習攻擊模型. • 根據角色, 攻擊者分為內部和外部: 內部攻擊者包括掌握訓練的中間參數并且參與訓練過程的終端和中心服務器; 而外部攻擊者包括掌握模型發布的參數及查詢接口但沒有參與訓練過程的模型使用者. 與外部攻擊者相比, 內部攻擊者掌握模型的更多信息, 攻擊能力更強.

  • 根據可信程度, 攻擊者分為半誠實角色和惡意角色: 半誠實角色指參與方嚴格遵守訓練協議和流程, 僅根據合法獲取的信息分析推斷, 對于訓練結果沒有影響; 惡意角色指參與方不遵守協議, 在參與過程中惡意篡改數據、注入模塊, 誘導目標泄露隱私并影響訓練結果.

  • 根據攻擊模式, 攻擊分為被動和主動: 被動攻擊指攻擊者僅觀察或訪問模型獲取信息; 主動攻擊指攻擊者篡改數據或模型, 參與并影響訓練過程. 需要說明的是, 攻擊模式與可信程度并非完全對應. 存在少數主動攻擊者能夠在修改上傳參數誘導目標泄露隱私的同時不影響聯邦訓練目標, 誠實正確地完成訓練任務.

  • 根據攻擊者知識, 攻擊分為白盒攻擊和黑盒攻擊: 白盒攻擊指攻擊者掌握模型的相關信息, 包括數據的分布和統計信息、模型訓練完成的結構參數或模型訓練過程中的中間參數; 黑盒攻擊指攻擊者對相關信息一無所知, 僅有請求查詢的權限.

  聯邦學習包含參數上傳、下發、參數傳輸、模型發布等多個階段, 其中, 參數上傳、下發為客戶-服務器架構所特有的階段, 參數傳輸為端對端架構所特有的階段, 模型發布為兩種架構都有的階段. 每個階段隱私泄露的位置和內容不同, 威脅隱私的攻擊者角色也不相同. 研究聯邦學習不同階段隱私泄露風險, 有助于為隱私保護提供清晰的思路和方向. 隱私泄露風險來源的對比見表 1.

  在客戶-服務器架構下, 訓練分為 3 個階段.

  • 第 1 階段, 本地(終端)訓練后, 上傳本地參數給中心服務器. 此階段的潛在攻擊者多為中心服務器. 中心服務器根據收集的本地參數能夠發起重建攻擊, 恢復目標終端的原始數據; 或者發起屬性推斷攻擊, 推斷目標終端的數據中是否含有某些敏感屬性.

  • 第 2 階段, 中心服務器聚合各個終端的參數處理后, 再次下發全局參數. 此時的潛在攻擊者是不可信的終端. 終端能夠根據全局中間參數發起攻擊重建某個類別樣本(generic sample), 或推斷某條記錄的敏感屬性是否存在, 進而根據訓練集的共同特征推斷擁有該記錄的個體的情況, 例如訓練集是艾滋病患者基因數據, 如果該個體屬于該訓練集, 則一定也患有艾滋病.

  • 第 3 階段, 模型訓練完成, 由中心服務器發布模型. 一般的發布方式包括直接將模型部署在用戶端, 或提供 API 訪問接口兩種. 此時的潛在攻擊者是外部使用者. 不可信的外部使用者能夠根據模型的參數或模型的預測結果發起推斷攻擊、重建攻擊或參數提取攻擊[18−22]. 通過發布的模型推測參與訓練的數據集樣本, 或根據 API 訪問接口推測模型參數, 進而攻擊訓練數據. 在端對端架構下, 訓練分為兩個階段:

  • 第 1 階段, 本地(終端)訓練后, 將本地參數傳輸給下一終端. 攻擊者為不可信的接收終端. 終端接收本地參數后, 同樣能夠發起重建攻擊或屬性推斷攻擊, 致使本地的原始數據泄露.

  • 第 2 階段, 模型訓練完成后, 終端若發布模型, 則面臨與客戶-服務器架構同樣的外部攻擊; 若僅供內部使用, 則無須考慮.

  需要說明的是, 聯邦學習的隱私攻擊主要由內部參與方發起. 與外部攻擊者相比, 內部攻擊者具備更強的能力, 不僅可以在訓練過程中通過直接獲取數據交換中的特征嵌入式表示、梯度和模型參數等發起攻擊, 還能夠通過替換樣本、更改梯度甚至修改損失函數等方式影響模型的訓練過程, 誘導目標終端暴露更多隱私信息, 完成推斷攻擊和重建攻擊. 聯邦學習為了協同訓練和共享模型需要更多參與者, 卻缺乏與之對應的身份確認機制和誠信保障, 難以防范“內部”泄露. 傳統的集中式機器學習隱私保護能夠抵御外部攻擊, 卻沒有抵御內部攻擊的能力. 為了理清聯邦學習面對的風險, 本文首先介紹外部攻擊作為基礎, 重點針對其特有的內部隱私攻擊展開分析.

  2.2 隱私攻擊策略

  根據上述的隱私泄露風險和攻擊者的能力, 研究者設計了不同的聯邦學習架構及階段下可能的隱私攻擊, 并通過實驗展現了這些攻擊對敏感數據的巨大威脅. 隱私攻擊者包括參與模型訓練的內部角色和未參與模型訓練僅能接觸發布模型的外部角色. 攻擊者采取的主要策略有重建攻擊和推斷攻擊: 重建攻擊中, 攻擊者根據掌握的中間參數以及模型信息恢復部分訓練數據; 推斷攻擊中, 攻擊者根據中間參數和發布參數推斷訓練集中是否含有特定的記錄. 內部以及外部攻擊者采用上述策略對聯邦學習發起隱私攻擊, 獲取訓練集的敏感信息. 其中, 內部隱私攻擊方案的總結參見表 2.

  2.2.1 重建攻擊

  重建攻擊(reconstruction attack)指攻擊者根據訓練中間參數、模型的參數或者請求查詢所得輸出, 恢復參與訓練的數據集中的信息. 根據攻擊者角色, 重建攻擊分為外部和內部攻擊: 外部重建攻擊是在模型訓練完成并發布后, 外部使用者發起的攻擊; 內部重建攻擊則是在模型訓練階段, 內部參與方發起的攻擊.

  相關知識推薦:論文審稿人怎么精準推薦

  外部重建攻擊中, 攻擊者僅能掌握模型的查詢結果或模型發布的結構和參數, 因此只能不斷試探模型的輸出結果, 通過調整輸入數據使輸出值向預期方向靠攏. Fredrikson 等人[20]首次設計了外部攻擊者在黑盒情況下發起的模型倒推攻擊, 該算法基于模型的輸出和一些非敏感屬性恢復了病人的基因信息. 攻擊者假設樣本共有 d 維特征, 其中, f1到 fd−1為非敏感特征, 在給定非敏感特征和模型輸出時, 最大化敏感特征 fd的后驗概率. 上述工作僅能推斷敏感屬性, Fredrikson 等人[21]在隨后的工作中設計了白盒情況下的模型倒推攻擊. 外部攻擊者根據訓練完成的模型參數訓練深度學習模型, 恢復訓練集中的全部特征. 該攻擊通過保持網絡結構和參數不變, 對輸入的隨機像素值和隨機標簽梯度下降. 當模型預測置信度達到最優時, 生成的圖片像素與訓練集數據高度近似. Luo 等人[32]首次提出了縱向聯邦學習中的特征重建攻擊. 掌握標簽的主動參與方在獲取最終模型的預測結果后, 能夠根據公式倒推或通過路徑限制重建不掌握標簽的被動參與方的數據特征. 上述算法的攻擊者角色均為外部攻擊者, 僅能掌握模型得查詢結果或模型發布的結構和參數, 因此只能不斷輸入數據試探模型的輸出結果.

  外部攻擊以模型輸出以及發布的最終參數為依據, 重建整個數據集的泛化樣本(generic sample), 難以獲取詳細的敏感信息. 此外, 借助有效的泛化、降低輸出精度等手段, 即可在很大程度上抵御這類攻擊. 相比之下, 聯邦學習的內部重建攻擊具有更加豐富的知識背景, 能夠以中間參數為依據發起攻擊. 中間參數不僅與用戶數據緊密相關, 而且在迭代中多次暴露. 內部攻擊者能夠據此重建特定用戶的具體敏感信息. 在主動攻擊的情況下, 還能夠通過修改中間參數、上傳有害信息來影響模型的訓練過程, 甚至誘導隱私泄露. 具體的內部重建攻擊包含兩種類型: 類別重建和樣本重建.

  內部類別重建是重建攻擊中的常見類型, 該攻擊通過重建某個類別的通用樣本模式獲取目標類別(target class)中的敏感信息. 例如, 在訓練圖片識別分類器時, 訓練集的一個類別中包含的圖片主體是一致的, 則類別重建能夠恢復目標類別中主體的共性信息. Hitaj 等人[23]針對客戶-服務器架構的聯邦學習, 提出了基于生成對抗網絡(generative adversarial networks, GAN)的主動重建攻擊. 攻擊者作為參與訓練的終端, 上傳篡改參數給服務器誘導其他誠實終端暴露信息, 從而推測僅由目標終端掌握的類別的樣本. 具體來說, 假設目標終端擁有類別[a,b]的樣本, 攻擊者擁有類別[b,c]的樣本. 為獲取目標類別 a 的信息, 攻擊者首先在本地訓練生成對抗網絡, 利用從中心服務器獲取的全局梯度更新其判別器后生成目標類別 a 的近似樣本, 然后將近似樣本故意標注為類別 c 訓練本地分類器, 并上傳參數到中心服務器. 在迭代過程中, 由于攻擊者故意將真實標簽為 a 的樣本分類到 c 中, 目標終端需要暴露更多與 a 相關信息來“糾正”全局梯度, 這些信息使得攻擊者的生成對抗網絡獲得更加準確的參數, 恢復的樣本信息比 Fredrikson 等人[20]面向模型輸出的攻擊結果更加豐富、清晰. 但是這種算法要求攻擊者主動篡改模型參數來影響全局模型的訓練結果, 對于攻擊者的能力假設過強. 而篡改后的參數影響力也會在聚合平均時被稀釋, 導致攻擊者的能力不能得到完全發揮. Wang 等人[24]隨后提出了一種被動攻擊模型 mGAN-AI, 攻擊者能夠在不干擾訓練過程的情況下達到較好的攻擊效果. 具體來說, mGANAI 假設半誠實的中心服務器能夠根據每次迭代所獲取的各個終端的局部參數更新訓練多任務生成對抗網絡. 它利用目標終端的參數更新樣本判別器, 以區分目標終端數據的樣本類別、生成目標終端的近似數據; 利用其他終端的參數訓練身份判別器, 以區分目標終端和其他終端的身份; 利用輔助數據集添加噪聲訓練真實數據判別器, 以區分真實數據和生成數據. 該模型能夠在重建類別的同時不干擾模型的正常訓練過程, 攻擊手段更加隱蔽. 但是上述攻擊中的身份識別環節假設中心服務器知曉各局部參數所對應的終端身份, 如果終端匿名上傳參數則攻擊失效. 針對此問題, Song 等人[25]基于 Orekondy 等人[33]的鏈接攻擊思想, 進一步提出了匿名環境下的 mGAN-AI 攻擊模型. 半誠實的中心服務器根據終端上傳的匿名參數生成對應的參數表示 (parameter representative), 通過衡量本輪的所有參數表示與上一輪的所有參數表示的相似度進行匹配, 相似的參數表示即屬于同一個終端. 為使參數表示更加全面地表征此次更新, 參數表示的計算由終端梯度和終端模型參數同時參與完成. 為了準確衡量參數表示的相似度的同時生成合適的終端身份表示(identification representative), 攻擊者輔助集訓練卷積孿生網絡融合身份識別和相似匹配兩個訓練目標, 以學習更有區分度的終端身份表示.該模型能夠在匿名更新的環境下識別終端上傳的參數, 并重建終端的泛化樣本.

  但是, 類別重建仍然存在一些局限: 首先, 它不能還原目標類別中的不同樣本, 只適用于一個類別中的樣本都類似的場景, 所能獲取的敏感信息有限; 其次, 基于生成對抗網絡的重建方式對攻擊者的計算能力要求較高, 在手機終端等場景下并不適用. ——論文作者:

2023最新分區查詢入口

SCISSCIAHCI

7799精品视频