發布時間:2022-04-09所屬分類:計算機職稱論文瀏覽:1次
摘 要: 摘要: 為了提高電網數據處理的安全性和效率,提出基于 Hadoop 的智能電網時序大數據處理方法。依據智能電網時序大數據簡析,結合 Map、Reduce 及 Partition 三個函數具備的過濾器和工廠法以及監聽器等一系列模式,實現數據清洗處理。依據分布式計算思想,結合近鄰分類
摘要: 為了提高電網數據處理的安全性和效率,提出基于 Hadoop 的智能電網時序大數據處理方法。依據智能電網時序大數據簡析,結合 Map、Reduce 及 Partition 三個函數具備的過濾器和工廠法以及監聽器等一系列模式,實現數據清洗處理。依據分布式計算思想,結合近鄰分類法和 Map - Reduce 模型設計的并行分類混合法,實現數據分類處理。對分類數據進行安全存儲,通過消息摘要算法針對需要存儲的智能電網時序大數據生成相應數字摘要; 根據密鑰生成函數獲取隨機密鑰,同時利用上述密鑰針對待存儲數據實行加密,獲取對應密文。針對獲取的隨機密鑰實行信息隱藏處理; 把密文存儲至云中; 當密文成功存儲至云之后,把獲取的密鑰和數字摘要兩種信息并同文件名至 HBase 中,實現數據存儲。仿真結果表明,上述方法具有較強的安全性與時效性。
關鍵詞: 智能電網; 時序大數據; 處理
1 引言
分布全網的各種類型信息數據采集裝置生成了大規模時序數據,關于此類數據的存儲、處理等均面臨著嚴峻的挑戰[1 - 3]。由此,針對智能電網中的時序大數據進行高效處理有著十分關鍵的作用和重要的意義。
曲朝陽[4]等人將 Spark 應用至電力設備監測數據可視化處理中。過程中,以快速提取大數據環境下電力監測數據整體狀態信息為目的,基于 Spark 大數據計算平臺,設計并構建了設備狀態評價指標體系和模糊 C 均值聚類算法下的電力設備狀態數據提取法。對數據具備的多維和時序等特征,構建三維平行散點圖,實現數據可視化展示,完成電力設備狀態信息可視化處理。喻宜[5]等人以解決電力大數據背景下大規模時序數據無法高效處理的問題為目的,結合當前分布式技術框架設計并構建真正意義上的 GAIA 大規模時序數據管控平臺,以此保障系統具備穩定性與可靠性。根據具備可配置層次關系架構的模型中心解決大規模測點管控問題。依據時間分片和事件驅動下前置數據采集平臺解決大規模終端實時數據采集處理問題。張宇航[6]等人指出,智能電網具備的數字化建設能夠提供大規模數據信息,深度學習發展能夠為數據價值提取提供可靠途徑。在研究過程中,先對深度學習發展史和基礎結構進行分析,并歸納了深度學習理論基礎與技術體系; 然后與電力系統實際需要相結合,將圖像數據和時空數據了兩種類型的數據當作基礎,綜合描述了深度學習在電力數據處理中的應用和具體價值,同時給出了一些相關發展建議。
電網時序數據具有規模大、實時性要求高和訪問方式多變等特點,對其進行處理需要注意的點比較多,其中包含安全性、效率。為此,提出基于 Hadoop 的智能電網時序大數據處理方法。
2 基于 Hadoop 的智能電網時序大數據處理
2. 1 智能電網時序大數據
實際生活中,智能電網時序大數據通常指的是根據設備或者儀表產生,利用傳感器進行采集,和某個對象或者設備存在具體關聯性,在事件上先后關聯的一類數據。詳細如圖 1 所示,其中包含的電壓等即為典型時序數據。
2. 2 數據清洗
在基于 Hadoop 的智能電網時序大數據處理方法中,大數據清洗是不可或缺的一個步驟。針對 Map 和 Reduce 及 Partition 三個函數均進行了精心設計,通過 xml 配置,實現對應的清洗類動態收集和清洗規則設定等。
數據清洗過程中,Map 函數是該架構中最為核心的部分,把數據由原始狀態清洗到可利用數據。Map 設計中使用了過濾器和工廠法以及監聽器等一系列模式,能夠使清洗系統具備良好的擴展性。圖 2 為 Map 函數核心設計示意圖。
圖 2 中,LogProcess 類主要負責 Map 階段基礎性的配置文件前期準備以及使用方案調用 Handler 類,梳理實際數據處理邏輯。其中,Handler 類為處理邏輯中實際控制類,均需在 Map 階段初始化環節完成。實際處理過程中根據 Handler 調用圖 2 中的流程部分完成: 利用 FilterChain 以相似管道的模式進行逐步解析與清洗,FilterChain 主要作用為配置過濾條件。在 Map 設計過程中,所有類都使用了可配置方式,能夠基于實際數據清洗需求任意替換與修改。
在日志處理過程中,原始日志利用 JournalClean 類實現基礎處理,從而生成部分基礎字段,同時以 table 形式保存至 Journal,以此構成 Journal 日志類,把該類在過濾器鏈中依據具體要求下的邏輯實行解析,生成最終所需字段,利用 JournalWriter 日志寫入相應文件,將最終數據輸出。
2. 3 數據分類
依據分布式計算思想,解決智能電網時序大數據分類問題,根據近鄰分類法具備的優勢,結合 Map - Reduce 模型和其融合設計一個并行的分類混合法—PCHA。
輸入: 要實現 PCHA 算法,構建接口提供 Map 函數與Reduce 函數,并表明輸入、輸出以及其它運行參數。利用輸入環節把大數據集合分解成若干個獨立的數據集合,便于接下來的處理,在此設置為M'份數據集合,提交至 JobTracker 之后,利用對應的 TaskTracker 執行任務。
Map: 在 Map - Reduce 模型中通常分解一個大數據集變為小數據集合,該環節是針對每一組分解數據集合的{ ke, va } 對實行映射操作,此時 TaskTracker 調用空閑數據資源執行 Map 與 Reduce 任務。Map 過程重點是針對分類數據集合實行鍵值映射操作,任務基于各屬性規范化操作,同時依據重要性并獲得加權歐式距離結果,獲取( ( 節點,屬性) ,( 相似程度) ) 鍵值對,基于相似程度實現歸類。
Reduce: 該環節主要責任為遍歷所有 Map 環節處理之后生成的中間結果集合,依據同一( 節點,屬性) 值的排序和歸納,統一將( ( 節點,屬性) ,( 相似程度) ) 輸出,基于相似程度實現并行分類。
輸出: 該環節是和輸入環節相呼應的,也就是功能為針對 Reduce 環節的輸出結果集合實行輸出操作,同時將輸出保存到指定位置,該環節獲取的即為 PCHA 算法運行所得的分類結果集合,方便下一步安全存儲處理。
2. 4 數據安全存儲
在基于 Hadoop 的智能電網時序大數據存儲處理中,根據云安全實現數據的安全存儲。因云安全核心為密碼技術與加固技術,由此能夠通過密碼技術保護智能電網時序大數據存儲具有保密性與完整性[9 - 10]。其中,摘要信息為消息簽名操作之后所得數據,密文為數據加密之后所得數據,密鑰信息為針對數據加密過程中用到的密鑰實行信息隱藏之后所得數據。
綜上,數據加密存儲的過程可表示以下幾步:
步驟 1: 生成摘要,通過消息摘要算法針對需要存儲的智能電網時序大數據生成相應數字摘要。
步驟 2: 加密數據,根據密鑰生成函數獲取隨機密鑰,同時利用該密鑰針對待存儲數據實行加密,獲取對應密文。
步驟 3: 隨機密鑰隱藏,針對上述獲取的隨機密鑰實行信息隱藏處理。
步驟 4: 存儲密文,把密文存儲至云中。
步驟 5: 保存有關信息數據,當密文成功存儲至云之后,把上述步驟中獲取的密鑰和數字摘要兩種信息并同文件名至 HBase 中,實現數據保存。
隨機密鑰信息隱藏過程中,以解決對稱加密法密鑰管理相關問題為目的,要針對隨機密鑰實行信息隱藏操作。加密為一種非常高效的信息隱藏策略。由此,為了針對隨機密鑰實行信息隱藏處理,設計如圖 3 所示的密鑰隱藏策略。
在上述策略中,通過數據源具備的各種屬性和一個填充數即可生成摘要信息,然后利用 Hash 函數生成數據加密所需密鑰。其中,屬性中能夠包括用戶密碼數據,在用戶修改密碼之后,可以使隨機密鑰也隨之修改,無需重加密,能夠有效提升效率。
結合隨機填充數目的為避免字典攻擊與預先計算攻擊等安全問題。以增強保密性為目的,數據源屬性組合信息和詳細 Hash 應事先保密。以變電站為例,該變電站屬性將 Substation 類屬 性 當 作 標 準,設計的密鑰生成架構如圖 4 所示。
為了 把 密 鑰、摘要兩種信息存儲至 HBase 中,對 表MetaTable 結構進行設計。
其中,MetaTable 主要分為三列,分別為行關鍵字 RowKey 應用至存儲文件名稱,時間戳 Timestamp 和列族 Metadata( 包括密鑰信息與摘要信息的保存標簽) 。除此之外,針對無需進行加密的數據而言,使用 hiddenKey 是全 0 進行區分。
采用 HBase 主要原因為電網中的數據采集及存儲頻率均非常高,一般關系數據庫無法承受此種壓力。HBase 查詢效率不會隨著數據庫中的數據量規模變大降低,其為一個具有可伸縮性能的分布式存儲系統。
數據讀取過程為:
步驟 1: 數據讀取,在分布式文件系統中讀取密文,在 HBase 中將有關數據讀取出來。
步驟 2: 確定數據類型,基于密鑰信息,判斷分布式文件系統中數據需要解密與否。假設密鑰信息為 0,那么表明數據為明文,無 需 進 行 解 密,直 接 到 步 驟 4; 反 之,表 明 需 要解密。
步驟 3: 得到隨機密鑰,通過數據源屬性,也就是密鑰信息得到密 鑰,同時針對密鑰信息實行信息恢復獲取隨機密鑰。
步驟 4: 對數據進行解密,利用上述獲取的密鑰針對密文實行解密。
步驟 5: 對數據完整性進行檢查,生成密文數字摘要信息,同時和步驟 1 中的摘要信息進行對比,確定數據完整性。假設不一致,那么表示云中數據已經被篡改; 反之,說明數據正常。
3 實驗結果與分析
為了驗證基于 Hadoop 的智能電網時序大數據處理方法有效性,進行一次實驗。實驗在某省電科院實驗室所搭建的 Hadoop 并行計算平臺上完成,該平臺由 23 個節點構成。節點物理配置的 CPU 為 8 核、內存為 32G,硬盤為 300G,網絡為千兆以太網。實驗過程中,文件備份為 3。
相關知識推薦:大數據方面的期刊雜志
實驗分別以 CPU 利用率和數據安全性為驗證指標。其中,以驗證所提方法 CPU 利用率為目的,在大小不一的數據文件下開展實驗,為避免時間因素導致實驗結果帶來的主觀性,本次實驗將分別在三臺電腦上進行,并在規定時間內進行檢測,測試時間為 19: 15 ~ 19: 33。依據智能電網數據量存在差異大的特性,分別取文件大小為 10MB、50MB、500MB 的條件下進行實驗,所得實驗結果如 6 所示。
分析圖 5 可知,基于 Hadoop 的智能電網時序大數據安全存儲處理與直接存儲耗時相差不大,表現出了良好的運行性能,存儲處理效率高。主要原因為數據存儲過程中網絡傳輸時間占據了主導地位,其它時間在數據量比較大時影響不是很大,且數據的清洗和分類均為高效率存儲奠定了基礎,有效提高了電網時序大數據存儲速度。
為進一步驗證本文方法的處理安全性,本次實驗將在 500MB 的數據文件中加入字典攻擊與預先計算攻擊,并設置攻擊數據和異常數據大小為 20MB,檢驗本文方法是否能夠有效、安全、準確的查詢到系統原始數據,以此分析所提方法的安全性。實驗結果如表 1 所示。
由表 1 可知,所提方法可高效抵御攻擊,保障數據安全性。在數據加密存儲過程中,結合了隨機填充數目的為避免字典攻擊與預先計算攻擊等安全問題,并以增強保密性為目的,數據源屬性組合信息和詳細 Hash 也做了保密。
4 結束語
鑒于現實需求,提出基于 Hadoop 的智能電網時序大數據處理方法。在數據處理過程中,有效結合了數據清洗、分類、安全存儲幾個部分,并通過實驗對該方法進行測試,結果顯示,該方法抗攻擊性能強,且耗時少,是一種可行的電網數據處理方法。下一步可將跨節點計算并行化方面當作重點進行研究,進一步提高數據處理效率。——論文作者:孫利宏
參考文獻:
[1] 賀紅燕. 基于大數據的智能電網關鍵技術研究[J]. 電源技術,2016,40( 8) : 1713 - 1714.
[2] 陳敬德,盛戈皞,吳繼健,等. 大數據技術在智能電網中的應用現狀及展望[J]. 高壓電器,2018,54( 1) : 35 - 43.
[3] 葛磊蛟,王守相,瞿海妮. 智能配用電大數據存儲架構設計[J]. 電力自動化設備,2016,36( 6) : 194 - 202.
[4] 曲朝陽,熊澤宇,顏佳,等. 基于 Spark 的電力設備在線監測數據可視化方法[J]. 電工電能新技術,2016,35( 11) : 72 - 80.
[5] 喻宜,呂志來,齊國印. 分布式海量時序數據管理平臺研究[J]. 電力系統保護與控制,2016,44( 17) : 165 - 170.
[6] 張宇航,邱才明,楊帆,等. 深度學習在電網圖像數據及時空數據中的應用綜述[J]. 電網技術,2019,43( 6) : 1865 - 1873.
[7] 李俊楠,李偉,李會君,等. 基于大數據云平臺的電力能源大數據采集 與 應 用 研 究[J]. 電 測 與 儀 表,2018,56 ( 12 ) : 104 - 109.
[8] 余容,黃劍,何朝明. 基于 SM4 并行加密的智能電網監控與安全傳輸系統[J]. 電子技術應用,2016,42( 11) : 66 - 69.
[9] 張思佳,顧春華,溫蜜. 智能電網中的數據聚合方案分類研究[J]. 計算機工程與應用,2019,55( 12) : 83 - 89.
[10] 張子棟,張杰敏,茅劍. 大數據處理警示性圖像顏色紋理特征選取仿真[J]. 計算機仿真,2019,36( 5) : 434 - 437,470.
SCISSCIAHCI