發布時間:2020-02-06所屬分類:計算機職稱論文瀏覽:1次
摘 要: 摘 要:作為一種應對信息過載問題的有效手段,協同過濾推薦系統被廣泛應用到諸多領域.然而托攻擊的存在嚴重影響了推薦系統的推薦質量,因此如何保障推薦系統不受托攻擊的影響已經成為推薦系統安全領域的研究熱點.本文首先介紹托攻擊產生的動機及分類,然后對
摘 要:作為一種應對“信息過載”問題的有效手段,協同過濾推薦系統被廣泛應用到諸多領域.然而托攻擊的存在嚴重影響了推薦系統的推薦質量,因此如何保障推薦系統不受托攻擊的影響已經成為推薦系統安全領域的研究熱點.本文首先介紹托攻擊產生的動機及分類,然后對推薦系統中的托攻擊檢測技術和魯棒推薦算法的現狀進行分析,最后對推薦系統安全領域的未來發展趨勢進行了展望.
關鍵詞:推薦系統;協同過濾;托攻擊;攻擊檢測;魯棒推薦
推薦系統(recommendersystems)[1]是一種解決“信息過載”的有效手段,能夠基于用戶-項目評分矩陣為用戶提供推薦.協同過濾(collaborativefiltering,CF)是推薦系統中應用最為廣泛的一種,目前已被廣泛應用于電子商務、電 影 和 視 頻 網 站、音 樂 網 絡 電 臺、社 交 網 絡 等 諸 多 領 域[2-3],如 著 名 的 Amazon、Netflix、YouTube、Facebook等平臺均使用協同過濾推薦系統.這種技術能夠依據用戶的歷史評分概貌尋找與其相似的近鄰,根據多個最近鄰的概貌信息為目標用戶產生推薦結果.協同過濾推薦系統的預測模式符合現實生活中人的行為模式,然而自身的開放性也為惡意用戶提供了可乘之機,即惡意用戶可通過向評分系統中注入大量虛假用戶概貌來產生對其有利的推薦結果[4-5].例如,在電子商務應用環境,一些不法商家可能會委托提供專門服務的灰色組織對其產品評最高分或者對其競爭對手的產品評最低分,以提升或降低目標產品被系統推薦的頻率.2014年,19家虛假評論公司被檢測出在 Yahoo、Yelp等多個評分系統中進行虛假欺詐評價[6].惡意用戶的 這 種 行 為 被 稱 為 托 攻 擊(shillingattack),也稱為概貌注入攻擊(profilesinjectionat-tack)或推薦攻擊(recommenderattack)[4].已有研究表明,協同過濾推薦系統在面對“托攻擊”時呈現脆弱性[4,7],因此推薦系統安全一直是一個不容忽視的問題.
由于推薦系統具有重要的應用價值,而推薦系統安全能夠影響和制約推薦系統的使用及發展,因此托攻擊問題自出現以來一直受到國內外學者的廣泛關注.德國的漢諾威大學、美國的德保爾大學、愛爾蘭都柏林大學等及國內的西安交通大學、南京財經大學、重慶大學、燕山大學等研究團隊均對該領域進行了深入研究并取得了豐碩成果.目前,盡管已有少量針對托攻擊檢測的綜述文獻[4,8-9],但未能包含近幾年該領域取得的最新研究成果,且攻擊檢測技術并不是實現推薦系統安全的唯一手段.根據已有的研究[10],推薦系統安全機制包括攻擊檢測技術和魯棒推薦算法.為此,本文總結自托攻擊概念出現以來,托攻擊模型、攻擊檢測技術和魯棒推薦算法領域的最新進展,討論已有工作的局限性,進而對未來的發展趨勢和研究方向進行預測.
1 托攻擊模型的產生及發展
協同過濾推薦系統中,系統根據每個用戶最近鄰的概貌信息為其生成推薦列表,因此惡意用戶可利用推薦系統的開放性,人為地向系統中注入大量虛假概貌,企圖成為多個真實用戶的近鄰,進而達到影響真實用戶推薦結果的目的.這種向推薦系統注入虛假概貌的行為即為托攻擊,2004年由 Lam 等[11]首次正式提出.自此以后,推薦系統中的托攻擊問題一直備受關注.依據攻擊目的的 不 同,托攻擊可分為推攻擊(pushat-tack)和核攻擊(nukeattack).推攻擊試圖提升目標項目的推薦排名,而核攻擊則相反.
圖1為攻擊概貌的一般結構,其中:IS 和IF 分別為選擇項目集合和填充項目集合,it 表示目標項目,IΦ 則為未評分的項目集合.由圖1可知,為達到攻擊目的和意圖,攻擊用戶除對目標項目進行異常評分外,還需對許多其他項目進行評分,這些被評分的非目標項目被稱為選擇項目或填充項目.不同攻擊模型中,IS和IF 的選擇方式不同,這些項目上的評分值生成策略也不同,分別由函數δ 和σ確定.攻擊的目標項目可以是單個或多個,目標項目it 的評分值由函數γ 確定.
1.1 標準攻擊
文獻[11]最先提出了2種基本的標準攻擊模型,分別為隨機攻擊(randomattack)和均值攻擊(averageattack).隨后文獻[12-13]提出了流行攻擊(bandwagonattack)、分段攻擊(segmentattack)和love/hate攻擊.Gunes等[4]則在流行攻擊 基礎上,討 論 了 逆 流 行 攻 擊 (reversebandwagonattack).近 來,Seminario等[14-15]提出了 PUA(poweruserattack)和 PIA(poweritemattack).不同攻擊模型對推薦系統評分集所需的先驗知識不同,表1列出了8種標準攻擊模型的生成策略,推攻擊時目標項目均被注入最高分,核攻擊時目標項目則被評最低分.
表1中,rrandom表示對應項目上的評分值服從整個評分集上的評分均值和方差的正態分布,raverage表示評分值服從對應項目上的評分均值和方差的正態分布,rmax和rmin分別表示推薦系統中的最高評分值和最低評分值.
1.2 模糊攻擊
為逃避檢測,攻擊用戶可采用混淆技術來增大攻擊檢測的難度,目前已有的混淆技術[16]主要有:噪音注入(noiseinjection)、用戶偏移(usershifting)、目標偏移(targetshifting)和流行裝填[7].
1)噪音注入:在選擇項目或填充項目的評分上加上一個隨機數.
2)用戶偏移:對攻擊用戶u,在其攻擊概貌中,任意挑選部分選擇項目和填充項目,在這些項目的原有評分值上均增加一個偏移量,偏移量的具體值由用戶u 對應的偏移函數決定.
3)目標偏移:將每個攻擊概貌中對應目標項目的評分值替換為次高分(推攻擊)或次低分(核攻擊).
4)流行裝填:即 AoP攻擊,在前x%的流行項目集合上選擇填充項目構造均值攻擊.項目流行程度依據項目上的被評分數量.
將這些混淆技術應用在標準攻擊上即為模糊攻擊,顯然混淆技術使得模糊攻擊比普通的標準攻擊更為復雜,其檢測難度也相應增大.
1.3 群組攻擊
Su等[17]最先提到了推薦系統中的組攻擊場景,即每個攻擊用戶僅攻擊目標項目集中的一部分而非全部.這種組攻擊場景的檢測并不復雜,因此很長一段時間以來,群組攻擊模型并未被單獨討論.不同于傳統的托攻擊模型,組攻擊模型應是一種全新的攻擊模型.攻擊群組內的多個攻擊概貌彼此協同,共同攻擊一個或一組關聯的目標項目.2012年,Wang等[18]提出了一種新的群組攻擊模型的生成算法,在基于均值攻擊或隨機攻擊模型生成的攻擊概貌基礎上,按照一定的策略生成攻擊組中的組成員概貌,嚴格條件的群組攻擊生成模型需滿足:1)群組內的任意2個不同概貌間均有共同評分項目;2)任意3個不同概貌間均無共同評分項目;3)任意2個不同概貌間的相似度均為-1.由于每個組成員其評分行為都和正常用戶相近,這使得從個體檢測角度出發的托攻擊檢測模型失效.由于這些攻擊概貌間相似度較低,因此與傳統的托攻擊模型相比,組攻擊的檢測也更為復雜.然而,按照文獻中組攻擊模型的生成策略構造的群組其規模是受限的,即能夠同時滿足這3個條件的概貌較少,因此群組攻擊模型的生成方法還有待深入研究.
2 托攻擊檢測技術
自2004年托攻擊模型被提出以來,國內外學者對托攻擊檢測方法進行了深入研究并取得了一系列成果.托攻擊檢測問題常被視為二分類問題,可從機器學習角度將托攻擊檢測技術分為基于監督學習的攻擊檢測、基于半監督學習的攻擊檢測和基于無監督學習的攻擊檢測.
2.1 基于監督學習的攻擊檢測
基于監督學習的攻擊檢測將托攻擊檢測問題視為分類問題,首先基于訓練集中的標記樣本訓練分類器,進而對測試集中的攻擊 概 貌 進 行 分 類.Burke等[19]在 提 出 的 通 用 特 征 和 專 有 特 征 基 礎 上,利 用 訓 練 好 的KNN 分類器檢測隨機攻擊和均值攻擊.伍之昂等[20]提出了一種有效的特征選擇方法,在已知攻擊類型的先驗條件下,使用樸素貝葉斯分類(NaiveBayesianClassifier)來檢測托攻擊.李文濤等[21]提出了3種基于項目流行度的檢測特征,利用所提特征訓練決策樹算法檢測攻擊概貌,對于包含大量隨機選擇項目的攻擊概貌具有較好的檢測效果.Zhang等[22]從項目流行度和新穎度角度,利用互信息知識和 Hilbert-Huang變換提取評分項目序列上的檢測特征,訓練支持向量機(SVM)分類器檢測攻擊概貌.Yang等[23]和 Zhang等[24]對集成檢測算法進行了研究,通過訓練多個基分類器實現攻擊概貌的集成檢測,提升了托攻擊檢測器的檢測精度.Zhou[25]針對 AoP展開研究,利用詞頻-逆文檔頻率法提取 AoP攻擊特征.周巍等[26]提出了基于 SVM和目標項目的托攻擊檢測方法,通過使用自適應人工合成樣本方法 Borderline-SMOTE 方法對邊界樣本進行擬合,緩解了推薦系統托攻擊檢測中存在的類不均衡問題,一定程度上提高了檢測性能.此外,Zhou等[27]針對未知類型的攻擊檢測問題,提出了一種基于仿生模式識別的檢測方法,利用仿生模式識別實現訓練集(僅包含真實概貌)上的最佳覆蓋,覆蓋范圍外的測試樣本則被判別為攻擊概貌.
基于監督學習的托攻擊檢測方法通常在檢測單一的已知攻擊類型時具有優越的檢測性能,但對于混合攻擊卻效果不好,這是因為不同攻擊類型下攻擊概貌的特征不同,需要根據混合攻擊的類型及比例調整特征的權重參數,從而達到理想的分類效果.此外監督學習需要在標記數據集上訓練分類器,而在許多真實場景中,大量標記數據的獲取是困難的,這很大程度上制約了基于監督學習的托攻擊檢測方法的發展.
2.2 基于半監督學習的攻擊檢測
盡管在很多實際場景中獲取大量標記數據是困難的,但通常有部分概貌是很容易識別和標記的,同時大量無標記數據是容易獲取的,據此出現了一系列基于半監督學習的攻擊檢測方法.Cao等[28]提出了一種兩階段的半監督檢測模型,首先在部分標記數據上訓練樸素貝葉斯分類器,然后通過帶參數的最大期望(EM)算法組合無標記數據,從而檢測出攻擊概貌.伍之昂等[29]提出了一種針對混合托攻擊的半監督檢測器——— HySAD.HySAD基于常用的統計特征,利用半監督樸素貝葉斯方法在部分標記數據上訓練初始分類器,然后利用無標記數據對初始分類器進行改進.該方法利用極大似然估計參數值,使用類似最大期望算法迭代求解,能夠將隨機攻擊和均值攻擊二者構成的混合攻擊下的攻擊用戶和正常用戶進行有效區分,提升了混合攻擊的檢測效果.此外,Zhang等[30-31]提出了一種基于半監督學習的群組攻擊檢測方法.
基于半監督學習的攻擊檢測方法能夠在大量無標記數據場景下,充分利用部分標記數據的準確性,實現真實概貌和攻擊概貌的有效區分,相比于需要大量標記數據的有監督檢測方法具有更廣闊的應用場景.
2.3 基于無監督學習的攻擊檢測
基于監督學習和半監督學習的攻擊檢測均依賴于特征指標和訓練集,因此無需訓練過程的無監督方法一直受到廣泛關注.
Mehta等[32-33]利用主成分分析(principalcomponentanalysis,PCA)計算概貌的主成分系數得分,認為攻擊概貌對推薦系統貢獻的信息較少,因此在主成分空間上取值較小.這種方法對推薦系統中的多種托攻擊模型均具有優越的檢測性能,但需要預先獲知攻擊規模(攻擊概貌數量),這在實際中較難準確獲取.Bry-an等[34]提出了一種基于基因領域 Hv-score的無監督檢測方法,首先借鑒基因領域 Hv-score指標的計算方法度量推薦系統中每個用戶的可疑度,然后基于高 Hv-score值的用戶識別出目標項目,最后結合識別出的目標項目檢測出所有的攻擊概貌.這種方法能夠檢測多種標準攻擊及模糊攻擊,但僅適用于檢測單個目標項目的攻擊場景.Hurley等[7]提出了一種基于 Neyman-Pearson理論的無監督檢測方法,該方法不需先驗知識,但僅用來檢測高填充率和大規模的標準攻擊和 AoP攻擊,對低填充率和小規模的攻擊檢測效果較差.Lee等[35]認為有效的攻擊概貌應位于真實概貌分布的中心,利用聚類的方法將用戶劃分為多個簇,進而利用所提出的簇參數檢測出攻擊概貌所在的簇.該方法僅對填充規模較大的均值攻擊具有良好的檢測效果.文獻[36]提出了一種基于信念傳播(beliefpropapation)算法的無監督檢測方法.該方法不依賴用戶的評分模式,而是在假定已知多個目標項目前提下,利用信念傳播算法推斷出概貌是否屬于攻擊用戶,然而該方法的檢測性能與目標項目數量有關,在目標項目數量較少時其檢測性能較差.文獻[37-38]從圖論的角度解決托攻擊檢測問題,他們認為攻擊概貌間是彼此高度相似的,因此用戶評分相似矩陣中的最大子陣包含了所有的攻擊用戶.文獻[39]在用戶-項目的二分圖中,基于部分已標記的攻擊用戶迭代計算所有用戶和項目的可疑程度.所提方法的檢測性能不受攻擊模型類型的影響,對傳統的托攻擊模型或群組攻擊均具有優越的檢測性能,但該方法需要預先標記出一些攻擊概貌并且需預先獲取攻擊概貌數量.Yang等[40]提出了一種基于圖挖掘和圖相似的無監督檢測方法,首先利用圖挖掘方法構建可疑用戶集,然后結合目標項目分析方法識別出可疑用戶集中的攻擊 用 戶.這種檢測方法不受具體的攻擊類型影響,但 不 能 檢 測 小 規 模 的 攻 擊.另 外,Yang等[41]在已有的大量托攻擊檢測特征基礎上,應用自適應的結構學習選擇更有效的特征,利用基于密度的聚類算法聚類可疑用戶,最后結合目標項目識別攻擊用戶.近來,Zhang等[42]提出了一種基于隱馬爾科夫模型和層次聚類的無監督檢測方法,首先基于隱馬爾科夫模型計算每個用戶的可疑度,然后通過層次聚類技術識別出攻擊用戶.這種方法對多種傳統托攻擊模型具有卓越的檢測性能,但不能有效檢測出 AoP攻擊.
3 魯棒推薦技術
協同過濾推薦算法對托攻擊呈現脆弱性,為使推薦算法具備抑制托攻擊的能力,人們圍繞推薦算法自身的魯棒性進行研究,提出了各種魯棒推薦技術.
3.1 基于內存的魯棒推薦算法
針對基于用戶的協同過濾算法中攻擊用戶對目標用戶的影響問題,文獻[43]最先采用了鄰域過濾機制,通過聚類技術將目標用戶的近鄰分為攻擊用戶組和真實用戶組,僅利用真實用戶組的評分概貌對目標用戶進行評分預測.后來,信任的概念被引入推薦系統中,文獻[44]利用目標用戶與近鄰間的信任關系來為目標用戶選取最近鄰居,文獻[45]提出了一種基于雙重鄰居選取策略的魯棒推薦算法,一方面考慮與目標用戶的興趣相近,另一方面考慮與目標用戶間的可信程度,綜合這2方面為目標用戶選取可信近鄰.由于在近鄰中引入了可信度量機制,從而緩解了攻擊用戶對目標用戶的影響.文獻[46]提出了一種自動建立信任的防攻擊推薦算法,能夠依據評分系統動態調整用戶間信任關系,從而為目標用戶選取可信鄰居進行推薦.文 獻[47]提出了一種基于k-距離的用戶可疑度度量技術,利用基于距離的離群點檢測技術尋找可疑用戶,并綜合用戶可疑度和用戶間相似度為目標用戶選取最近鄰,從而達到魯棒推薦的目的.此外,Yi等[48]也提出了一種基于可疑用戶度量和多維信任的魯棒推薦方法,從用戶評分的權威性、客觀性和相似性這3個方面度量與目標用戶間的隱含信任關系,綜合用戶的可疑度及用戶間的信任關系為目標用戶選擇可信的最近鄰.
3.2 基于模型的魯棒推薦算法
基于模型的推薦算法不是直接利用用戶-項目評分數據產生推薦,而是利用訓練得到的抽象模型為目標用戶進行推薦.目前,基于模型的協同過濾推薦算法廣泛使用的技術是矩陣分解.與基于內存的協同過濾推薦算法相比,基于模型的推薦算法本身具有一定的魯棒性.然而矩陣分解中的最小二乘估計量對離群點敏感,為此出現了魯棒矩陣分解算法.
文獻[49-50]提出了基于 M-估計量的魯棒推薦算法,該算法對于中、小規模的托攻擊具有一定的魯棒性.此外,Mehta等[51]也提出了基于奇異值分解的魯棒推薦算法,該方法在過濾掉可疑概貌后的評分數據集上進行基于奇異值的矩陣分解,但所提方法不適合應用在大規模數據集.文獻[52]提出了基于 L-估計量的魯棒推薦算法,通過限制目標函數的范圍來降低攻擊概貌的影響,該方法雖然提高了推薦算法的魯棒性,但由于舍棄了部分真實概貌數據而降低了推薦精度.Zhang等[53]引入核函數計算用戶間相似度,引入 Welsch加權 M-估計量進行模型訓練,通過對特征矩陣的魯棒參數估計實現了推薦算法的魯棒性.文獻[54]提出了基于用戶聲譽的魯棒推薦算法,將用戶聲譽和矩陣分解模型進行了結合,增強了系統抵御均值攻擊的能力.文獻[55]提出了基于核矩陣分解的魯棒推薦方法.近來,伊華偉等[56]提出了一種新的魯棒推薦算法,首先利用模糊核聚類方法對用戶概貌進行聚類,然后對含有攻擊概貌的聚類利用支持向量機進行分類,進而過濾掉識別出的攻擊概貌,最后通過矩陣分解技術實現魯棒推薦.
相關期刊推薦:《河北大學學報(自然科學版)》(雙月刊)創刊于1962年,是河北大學主辦的自然科學綜合性學術刊物,國內外公開發行。本刊主要刊登數學、物理學、化學、生物學、電子及計算機科學等學科的基礎研究和應用研究方面的原創性學術論文。本刊在編輯出版過程中,始終堅持辦刊宗旨,堅持質量第一的原則,嚴把稿件質量關。近年來,本刊曾多次榮獲各種榮譽稱號,取得了明顯的社會效益。為保證本刊的權威性,杜絕任何形式的抄襲稿。稿件文責由作者自負,編輯部有權作必要的修改。文稿在3個月內未收到退修或錄用通知,作者可自行處理,另投他刊。未被錄用的稿件一般不退稿,請自留底稿。有投稿需求的作者,可以咨詢期刊天空在線編輯。
SCISSCIAHCI