發布時間:2022-05-07所屬分類:計算機職稱論文瀏覽:1次
摘 要: 摘 要:網絡信息有 3 類,分別用于描述客觀世界、記錄人類行為、描述虛擬世界. 現有信息隱藏技術大多以第 1 類信息為載體,以輕微修改載體數據的方式進行隱蔽通信,并保證感知逼真與統計逼真. 該文在總結載體修改式信息隱藏的基礎上,重點探討以后兩類信息為偽裝的非載
摘 要:網絡信息有 3 類,分別用于描述客觀世界、記錄人類行為、描述虛擬世界. 現有信息隱藏技術大多以第 1 類信息為載體,以輕微修改載體數據的方式進行隱蔽通信,并保證感知逼真與統計逼真. 該文在總結載體修改式信息隱藏的基礎上,重點探討以后兩類信息為偽裝的非載體修改式的新型信息隱藏方法,介紹了適合于特定載體類型的半構造式信息隱藏、完全構造式信息隱藏及行為信息隱藏的基本形式與代表性方法. 信息隱藏的形態在新的網絡環境下將不斷發展變化,各種信息媒介均可作為秘密信息的偽裝,因此努力開展新型信息隱藏研究將大大有助于占據新時期信息戰的主動地位.
關鍵詞:信息隱藏;隱寫;半構造式信息隱藏;構造式信息隱藏;行為信息隱藏
機密信息的安全傳遞是信息戰及保密通信的核心任務. 作為信息安全傳遞的重要方式,信息隱藏(information hiding,或稱隱寫steganography) 將機密信息偽裝為不引人注意的普通信息而達到隱蔽傳輸或隱蔽存儲的目的,對國家安全與信息安全具有重要意義. 有時人們將用于版權保護的數字水印及其他分支也歸為信息隱藏技術,而本文主要關注以偽裝方式進行隱蔽通信的信息隱藏技術.
當前的信息隱藏技術大多以輕微修改載體數據(數字圖像、視音頻)的方式將秘密信息嵌入載體,將含密載體作為秘密信息的偽裝. 個人計算機的普及與互聯網上多媒體數據的泛濫為實施信息隱藏提供了便利條件,使信息隱藏得到了迅速發展,但近年來的發展速度有所放緩. 主要原因如下:1)在信息隱藏發展的同時,針對隱蔽信息的檢測技術——又稱隱寫分析(steganalysis)——也得到了迅速發展. 該技術根據信息嵌入引起的載體數據統計異常來判斷秘密信息是否存在,已對信息隱藏構成嚴重威脅;2)目前主流信息隱藏方法在修改載體數據時遵循“經驗性地設定風險(失真)指標”再“利用編碼方法最小化隱寫總風險(失真)”的框架,鮮有突破性成果;3)相對而言,信息隱藏的理論研究顯得滯后,不能為技術發展提供強有力的支撐.
隨著信息技術的不斷革新及網絡環境的不斷變化,只有不斷突破信息對抗的固有模式并開拓新形態的信息作戰方式,才能在網絡空間中占據主動地位. 網絡信息可以分為3大類:1)描述客觀世界的信息,2)記錄人類行為的信息,3)描述想象世界(虛構世界)的信息. 第1類信息曾經是網絡信息的主流,而以感知逼真與統計逼真為要求的傳統信息隱藏也正是以第1類信息(例如多媒體數據)為載體的,但隨著物聯網、大數據、社交網絡、虛擬現實等技術的發展,后兩類信息也必然飛速增長,必須積極探討以后兩類信息為偽裝的信息隱藏新方式:行為信息隱藏與構造式的信息隱藏.
1 信息隱藏研究現狀
信息隱藏研究始于20世紀90年代中期,并于21世紀得到了迅速發展,主要通過修改載體數據來實現信息隱藏. 與此同時,針對信息隱藏的檢測技術(隱寫分析)也不斷進步. 該技術根據載體數據的統計異常察覺秘密信息,進而估計秘密數據量、隱藏方式及密鑰,是信息隱藏的主要威脅. 本節簡述信息隱藏研究的現狀.
早期的信息隱藏與檢測 早期的信息隱藏方法大多能保證BMP、JPEG、GIF 等格式載體圖像的視覺質量,但對載體數據統計特性考慮不多,如最不重要位 (LSB)替換隱寫、最佳奇偶分配(OPA)隱寫等. 檢測者可根據直方圖異常、JPEG分塊效應、調色板奇異顏色等異,F象有效擊破這些早期的隱藏方法或工具(SecureEngine、Jsteg、JPHS、OutGuess 等) [1-2] . 隨后,研究者提出了一些可維持某些統計特征無異常的信息隱藏方法,但安全性仍不令人滿意. 例如,LSB 匹配方法避免了統計不對稱性和直方圖異常,但檢測者可根據直方圖Fourier域質心位置的變化[3]、最低兩層位平面的統計特征變化[4]或解壓圖像的噪聲特征異常[5]來察覺秘密信息;Model-Based 方法可維持原始分布模型[6],但與理想模型的過分吻合反而引起懷疑[7] . 檢測者還可進一步估計秘密信息嵌入量[8],且準確性不斷提高[9] . 可同時檢測多種隱藏方法的隱寫分析被稱為通用分析或盲檢測. 通用分析不再依據少量敏感統計特性判斷載體是否含密,而是從大量原始樣本與含密載體樣本中提取特征向量再訓練分類器,然后區分原始載體與含密載體[10] . 早期用于隱寫分析的特征有圖像質量測度[11]、DCT與馬爾科夫特征[12]、高階統計特征[13]等,分類方法包括神經網絡[14]、支持向量機[15]、幾何模型[16]等.
信息隱藏安全性 理想的信息隱藏應使含密載體在整個載體空間的分布與原始載體分布完全一致. 兩種分布之間的差異程度可用KL散度(KL divergence)度量,該指標也可用于衡量信息隱藏系統安全性[17] . 然而,載體空間異常巨大,研究者往往在簡化數據統計模型后再討論安全性,如假定載體采樣數據服從獨立同分布[18]、或將載體數據空間投射為統計特征空間[19] . 與KL divergence 相比,最大均值差異(maximum mean discrepancy, MMD)更易于計算,且在高維空間比較穩定,也可作為安全性指標[20];研究者們還利用Fisher信息量給出了安全嵌入容量并對其進行優化[21-23] . 當隱藏者知曉隱寫分析方法時,可采取相應措施使隱寫分析失效,如文獻[24] 利用凸集投影法獲得失真小且高階特征無異常的含密圖像,對抗文獻[13] 中的隱寫分析方法;文獻[25] 將圖像數據分為兩部分:一部分用于隱藏秘密信息,另一部分用于校正隱藏引起的統計特征變化,可抵抗文獻[12] 中利用274維特征的隱寫分析方法. 然而,信息隱藏必然引起載體數據變化,如選用其他統計特征進行分析,仍可察覺秘密信息. 文獻[25] 討論了統計特征完備性對隱寫分析的幫助.
隱寫編碼 隱寫編碼可用更少的改動嵌入同等數據量的秘密信息,是提高安全性的重要手段. 根據線性分組碼可反向構造一系列隱寫編碼方法[26],并發展快速算法[27];根據卷積碼可構造動態游動方式的隱寫編碼方法[28-29] . 當載體數據變化方向也用于負載秘密信息時,編碼性能可進一步提高[30-32],文獻[33] 給出了隱寫編碼在一定失真條件下的性能理論極限. 濕紙編碼是另一類信息隱藏手段,隱藏者可自由選擇嵌入位置,而接收方不必知曉嵌入位置也可提取秘密信息[34] . 文獻[35] 結合濕紙編碼與隱寫編碼,構造了雙層隱寫編碼方法,并證明了雙層編碼結構在性能提升方面可達到理論極限[36] . 集中多種編碼方法的優勢還可以提高總體性能[37] . 文獻[38] 利用低密度生成矩陣構造了性能接近理論極限的二元編碼方法,文獻[39] 提出了一種新的編碼結構,可由文獻[38] 中的少數優質方法派生出一族性能優異的隱寫編碼方法,所得結果的性能目前最接近二元嵌入的理論極限[40-41] . 學術界對載體數據調整幅度為2或3時的隱寫編碼方法也進行了研究[42] .
STC 框架 隱寫編碼提升安全性的策略是“改得少”,而安全隱藏不但要改得少,還要改得好,即基于載體內容自適應地選擇修改位置及修改方式. 早期PVD方法在差值較大的像素對中嵌入更多信息[43-45],就是一種自適應的隱藏方法,但直方圖異常會暴露秘密信息[46] . 上文提及的濕紙編碼也支持秘密信息的自適應嵌入[34,47] . 作為隱寫編碼和濕紙編碼的拓展,Filler與Fridrich 于2010年提出了基于STC (Syndrome-Trellis codes) 的信息隱藏框架[48] . 該框架中定義了一般形式的失真函數,并在嵌入秘密信息的條件下最小化失真函數值. STC主要有兩方面的貢獻:一是使用了卷積碼的校驗陣,從而使上述極小化問題可以在二元嵌入條件下快速求解,二是構造了一種雙層二元嵌入方法來快速實現±1嵌入,并推向實際應用. STC 框架將信息隱藏分解為兩部分:一是設計失真函數,以合理度量載體數據變換引起的失真(風險);二是利用編碼技術實現總失真的最小化. 由于STC 方法較好地解決了第2部分問題,設計基于圖像內容的自適應隱藏方法變得非常方便,從而使信息隱藏研究進入了一個新階段. 這個階段主要集中在失真代價函數的設計,如HUGO、WOW、UNIWARD、HILL等[49-54] . 與經驗地設計失真代價函數不同,文獻[55] 將安全性度量指標KL divergence 表征為失真代價的函數,進而尋找最優失真代價的設計方法以期優化隱寫安全性度量,并給出了合理選擇失真代價函數的理論依據和未來的探索方向. 此外,文獻[56] 考慮了更加通用的失真函數以期將相鄰像素點之間的協同變化對載體的影響也考慮在內,但只能得到次優解而并沒有真正解決該問題. 后續實驗也表明,基于文獻[56] 的工作沒有得到比STC 更好的隱寫方法[57] . 文獻[58] 進一步拓展了文獻[55] 的方法,并提出一種改進的圖像模型參數估計方法用于隱寫設計,其性能略優于 HILL[53]. STC 框架也使JPEG圖像信息隱藏研究大為改觀,與早期較為成功的JPEG信息隱藏方法(如F5、PQ及其改進、nsF5、YASS 及其改進)不同,目前主流JPEG信息隱藏方法是在DCT系數上應用STC,其核心問題也是合理設計失真代價函數[59-64] .
相關知識推薦:論文質量報告怎么弄
隱寫分析的發展 隱寫分析技術隨著信息隱藏的發展而發展,當前主流隱寫分析都是先進行特征提取再利用訓練集進行學習分類. JPEG圖像隱寫分析特征從23維DCT域特征[65]、18維二元相似性度量特征[66]發展到193維擴展DCT特征[67]、324維Markov特征[68]、432維小波系數幅度和相位特征[69] . 研究表明,小波系數的特征函數矩特征的性能更好[70] . 利用笛卡爾校準方法[71]對Markov特征和擴展DCT特征進行校準,分別構造了648維的CC-SHI 特征和548維的CC-PEV特征. 在空域中根據像素差分平面計算一階二階的條件概率,分別提取578維和686維的SPAM 特征[72] . 文獻[73] 在DCT系數平面上計算差分相鄰系數的聯合密度,據此設計出216維特征,在大大降低特征維數的同時保持了性能上的優勢. 隱寫分析在分類時往往選擇成熟的分類器,如神經網絡、SVM 等. 這些分類器通過非線性變換對特征空間進行高維映射,顯著增加了計算復雜性,因此常用于低維特征. 隱寫分析特征的高維化是近年來重要的發展趨勢,如將CC-PEV特征和SPAM 特征合并構造交叉域的1 234維特征[74] . 文獻[75] 利用共生矩陣構造了7 850維的CFstar特征,其檢測性能超越了以往任何方法. 文獻[76] 根據DCT系數聯合分布的多個子模型構造出11 255 維的DCT域特征,利用笛卡爾校準模型構造22 510維的變換域富模型(rich model, RM)特征. 文獻[77] 在空域中分別利用線性和非線性計算量化圖像的噪聲殘差,并聯合各個子模型得到了34 671 維的空域富模型特征. 為解決高維特征帶來的計算量激增問題,可選擇簡單分類(如Fisher線性分類器)進行集成判決,還可通過降維[78]、分類結果的加權集成[79]進一步提高分析準確率. 文獻[80] 通過64個三角函數濾波器將隱寫變化體現在不同尺度的差分信息中,形成 8 000 維DCTR特征用于隱寫分析,并說明了DCTR與CC-JRM 的異構融合特征比單一特征集性能更好. 文獻[81-86] 使用“圖像建模+假設檢驗”的方法進行隱寫分析,該類方法先驗地假設載體圖像滿足某個統計分布,然后根據具體的嵌入方法建立含密圖像所滿足的統計模型,最后利用所假設的檢驗理論中的似然比檢驗方法建立最優檢測子,以實現隱寫分析. 與此前的隱寫分析工作有很大不同,該類方法保證了統計意義下檢測子的最優性,并經實驗證明能提升隱寫分析性能.
多載體信息隱藏與聯合分析 如果秘密信息量較大,隱藏者不可避免地利用多個載體負載秘密信息,而檢測者則要判斷一批載體中是否含有秘密信息. 這類問題被稱作多載體信息隱藏/批量隱藏(batch steganography, BS)和聯合分析(pooled steganalysis, PS). Ker研究了可疑載體計數分析、平均聯合分析、廣義似然率測試3種不同策略下的情況[87],以及可疑載體計數分析中關于閾值選取的博弈均衡[88],并證明了多載體安全嵌入容量正比于載體數量的平方根而非載體數量[89],單載體安全嵌入容量正比于載體大小的平方根[90-91],進而給出最小化KL divergence 的多載體隱藏策略[92-93] . 文獻 [94] 嘗試解決多參與者的聯合分析問題,利用最大均值差異(MMD) 方法度量特征集之間的距離,通過層級聚類識別隱藏者. 文獻[95] 以局部異常因子(local outlier factor)代替層級聚類,所得檢測結果更準確. 文獻[96-97] 給出了最大貪婪、最大隨機、線性、均值、平方根等5種嵌入策略以提高對抗聯合分析的能力. 近期亦有學者將聯合分析用于社交網絡圖像[98] .
基于載體選擇與合成的信息隱藏 上述方法都是通過修改載體數據進行信息隱藏,而其他方式的信息隱藏非常少見. 文獻[99] 討論了基于載體選擇與合成的信息隱藏方式:在載體選擇的信息隱藏方式中,隱藏者根據秘密信息在正常圖像庫中選擇圖像發送,接收者計算圖像Hash 得到秘密信息,這種方法因負載量太低而無法推廣到實際應用中;在載體合成的信息隱藏方式中,隱藏者根據秘密信息將圖像局部內容的不同曝光版本拼成含密圖像,接收者計算圖像局部Hash 得到秘密信息. 由于實際場景中很難獲得一個信號的多次采樣(曝光版本),這種方法也不實用[100] . 文獻[101]提出了一種不需原始載體的文本信息隱藏方法,利用mimic函數將秘密信息偽裝成類似垃圾郵件的文本,但也容易引起檢測者的警覺.
文獻[102-105]對信息隱藏進行了深入而系統的研究,所獲成果具有重影響,已從10余年前的“跟跑”發展為近年來的“并跑”,并對突破修改式的信息隱藏發展瓶頸有許多有益的探索. 本文作者將另文專述對抗檢測、理論研究和突破STC 框架等問題,下面重點討論非修改方式的信息隱藏.
2 半構造式信息隱藏
構造式信息隱藏,是指在不預先指定原始載體的情況下,由秘密信息按照一定規則直接生成含密載體,而含密載體可以不表示真實的客觀世界,但與正常內容相比應具有不可區分性. 已有的半構造式信息隱藏方法往往事先給出載體構造的預設條件,然后根據秘密信息并遵循一定的構造規則生成含密載體. 含密載體屬于特定類型,如圖1所示.
2.1 紋理合成信息隱藏
紋理合成技術可由一小塊樣本紋理圖像生成大幅紋理圖像[106-109],紋理合成信息隱藏即在紋理合成的過程中實施信息隱藏,最終生成的大幅紋理圖像是與秘密信息有關的. Otrori和Kuriyama最先提出在紋理合成過程實現數據嵌入的思路[110-111],該方法首先在樣本圖像中選擇若干彩色點,然后使用LBP 碼(local binary pattern)來映射二值數據和彩色點之間的關系,接著根據秘密信息內容預先確定若干位置的彩色點,最后從樣本圖像中尋找合適內容合成大幅紋理圖. 圖2是一個示例,其中圖(a)為樣本圖像,圖(b)是根據秘密信息在白紙上描繪的LBP 碼對應的彩色點,其中包含25 byte的秘密數據,圖(c)是由圖(b)生成的大幅紋理圖像.
文獻[112]指出Otrori和Kuriyama的方案有容量低和提取誤碼的局限,于是提出了新的解決方案,可實現大容量無誤碼的信息隱藏. 該方法在樣本圖像中逐點移動獲得多個候選塊,將每一個候選塊分為內核(kernel)和外圍(border)兩部分,比較每一個候選塊的外圍與其他候選塊外圍之間的匹配程度,由大到小建立直接與二進制數據相映射的索引表. 在紋理合成時用候選塊填充大幅圖像的空白部分,具體選取哪個候選塊取決于秘密數據,最終可得到一幅由秘密數據決定的紋理圖像. 最新研究表明,該方法仍然存在安全漏洞[113] . 因為生成的含密紋理圖像完整地保存了原始樣本圖像的所有分塊,所以攻擊者可通過分析含密圖像中塊與塊之間的縫補(quilting)關系重建原始樣本紋理圖案,進而重建候選塊索引并提取秘密信息.——論文作者:張新鵬, 錢振興, 李 晟
SCISSCIAHCI