發布時間:2020-04-11所屬分類:教育論文瀏覽:1次
摘 要: 摘要:針對基于關鍵詞字符匹配和粗粒度情感分析方法的傳統不良信息檢測方法準確率低的問題,提出一種基于短語級情感分析的不良信息檢測方法.該方法制定語法規則來提取敏感詞所在短語,結合二次分類的情感詞典,通過分析短語的情感傾向來判斷表達者對敏感關鍵
摘要:針對基于關鍵詞字符匹配和粗粒度情感分析方法的傳統不良信息檢測方法準確率低的問題,提出一種基于短語級情感分析的不良信息檢測方法.該方法制定語法規則來提取敏感詞所在短語,結合二次分類的情感詞典,通過分析短語的情感傾向來判斷表達者對敏感關鍵詞的情感傾向,從而判定內容的敏感性.本文方法克服了字符串匹配方法的缺點,如:傳統的字符串匹配方法忽視敏感詞上下文,從而導致大量誤報的缺點,及粗粒度情感分析方法由于無法準確定位情感對象,只能以文本整體情感傾向代表表達者主觀情感,導致不能精準分析與敏感詞相關的情感傾向及敏感性.實驗表明,本文方法與傳統方法相比,準確率有較大的提升.
關鍵詞:不良信息;語法規則;短語提取;情感詞典;情感分析
1引言.
我國網民數量眾多,互聯網環境復雜,存在少部分人員利用網絡傳播暴力、反動、色情及邪教等不良信息,如何檢出這些信息是一個重要問題.當前,對不良信息的檢測研究主要集中在對敏感詞的檢測上,即基于敏感詞庫,如何高效、準確地檢出敏感詞本身或其變體形式.目前廣泛采用的方法是基于字符串匹配通過建立敏感詞庫,對待檢測文本進行檢索,若其中含有敏感詞,則標記為不良信息.這種方法實現簡單,但僅能識別敏感詞庫中的詞.對此,文獻[1]提出一種基于決策樹的過濾算法,該算法通過將敏感詞按照拼音首字母分類,最終形成一個前綴樹結構的決策樹,將待檢測文本視作信息流,查找決策樹,最終輸出文本中所含敏感詞.文獻[2]提出了一種識別敏感詞變形體的方法,該方法結合了漢字的發音結構與特征,能夠識別出中文敏感詞的拼音、簡稱和拆分三種變形體形式.文獻[1-2]的方法拓展了檢測的范圍,可以識別敏感詞的部分變形形式,但由于仍是基于字符串匹配,檢出對象都為“詞”,缺少上下文信息的考慮,因此準確率較低.
相關期刊推薦:《四川大學學報(自然科學版)》(雙月刊)曾用刊名:四川聯合大學學報(自然科學版),1955年創刊,是自然科學綜合性學術期刊,國內外公開發行,主要刊登四川大學理科基礎研究和應用研究方面的、具有創造性價值的研究論文、快報和綜合評述,包括數學,物理學,化學和生物學等基礎學科以及無線電電子學,計算機科學,核科學與技術,生物工程,光電技術及材料科學等新興學科和高新技術學科的內容。
為了將文本上下文納入考慮,文獻[3]使用情感分析來識別微博中的敏感信息.作者對微博的情感極性進行了度量,通過計算文本情感得分將文本情感傾向分為正向情感和負向情感兩類,通過分析發現負向情感的微博內容具有較高的敏感性,由此建立了含有情感極性因素的敏感度模型,通過情感傾向計算敏感度,使用敏感度來判別微博的敏感性.文獻[4]提出了一種Laplace平滑情感判定算法,通過細化文本語義分析規則計算文本情感值.文獻[5]通過結合情感詞典和卡方模型,將情感詞的情感極性值與句中的否定詞納入考慮,提升了判定的準確率.以上通過計算文本情感得分或極性值來判斷文本情感傾向方法的問題在于一段文本通常包含多個情感詞語,這些情感詞所修飾的對象互不相同,因此整段文本所展現的整體情感不一定代表表達者對敏感詞的情感傾向,以文本為粒度進行的情感分析得出的情感傾向十分籠統,因此無法制定通用的告警策略,導致其準確率仍然較低.如:
例句1)支持法輪功學員研習法輪功;
例句2)譴責公安機關迫害法輪功.
在以上兩個例句中,敏感詞都為“法輪功”,從“支持”和“迫害”可以看出表達者對其情感傾向是正面的.但如果采用文獻[3]和文獻[4]的方句法,例句1)的輸出將是正面情感,例句2)的輸出將是負面情感,然而兩句包含的內容顯然都應屬于不良信息.粗粒度情感分析不能正確地提取表達者對“法輪功”的情感傾向,因此需要細化情感分析的粒度.細粒度情感分析的關鍵是對評論對象及其對應情感詞進行識別[6].例如,在例句2)中,如果能提取出“迫害法輪功”,就可以僅對這一短語進行情感分析,從而得出表達者對“法輪功”的情感.目前廣泛使用的從文本中提取短語的統計方法是PMI(pointwisemutualinformation,點互信息)[7]。
基于上述問題,本文提出一種基于短語級情感分析的不良信息檢測方法,該方法考慮了敏感詞上下文信息,在基于詞典的情感分析方法的基礎上,將情感詞典細分為主體正向、主體負向、受體正向、受體負向、褒義詞和貶義詞6類而不僅是正面情感和負面情感兩類,同時將敏感詞按照其性質歸為正向敏感詞、負向敏感詞和超級敏感詞三類,使用一種基于語法規則的短語提取策略,通過提取敏感詞所在短語,分析其情感傾向,結合敏感詞的歸類作出告警決策.該方法將分析的粒度由文本細化到包含敏感詞的上下文短語,檢出對象由“敏感詞”擴展到“不良信息”,有效地提高了準確率.最后通過在真實數據上的實驗驗證了該方法的正確性.
2基于短語級情感分析的不良信息檢測
在情感分析中,“情感”的概念被認為是表達者的主觀觀點、態度和情緒等,所以情感分析也被成為觀點挖掘、評價抽取和主觀分析[9].按照分析粒度的不同,情感分析可分為粗粒度情感分析和細粒度情感分析,粗粒度情感分析只能判斷文本的整體情感傾向,對于某產品來說,產品評論文本的整體情感傾向并不一定能和產品各個屬性的情感傾向保持一致[10].本文使用的短語級情感分析屬于細粒度情感分析,目的是分析表達者對某敏感詞的主觀情感,而不是表達者的整體情感傾向.
由于PMI方法不適用于小規模文檔,本文提出一種基于語法規則的短語提取策略來提取短語,并與二次分類后的情感詞典結合,提出一種短語級情感分析的方法.方法總體流程如圖1.
目前廣泛使用的情感詞典有知網情感詞典、臺灣大學情感詞典等.這類情感詞典僅簡單地將情感詞分為正面情感、負面情感兩類,但在中文中,同一個詞表達的情感可能因其使用方式不同而不同.如“迫害”一詞,在情感詞典中屬于負面情感,但在句子“A迫害B”中,表達者對A的主觀情感是負面的,而對B的主觀情感是正面的(包含一種同情的感情),因此不能簡單地將“迫害”分為負面情感詞,而應視實際情況分類.對此,本文將情感詞典進行了二次分類,進一步細化了情感詞的情感傾向,然后使用二次分類后的情感詞典,制定了語法規則集用于提取短語,同時將敏感詞按照其性質歸類.在檢測階段,首先進行文本預處理,將文本按標點符號分句后,對每個短句進行分詞、去除停用詞處理.然后對每個詞進行標注,標明該詞屬于情感詞,敏感詞,還是其他詞.若屬于情感詞,同時標注其所屬類別.接下來逐一對分詞后的短句進行短語級情感分析,使用語法規則提取敏感詞所在短語并輸出其情感傾向,最后結合敏感詞所歸類別進行告警決策.
3情感詞典的二次分類
本文使用的情感詞典衍生自知網情感詞典和臺灣大學情感詞典,將兩個情感詞典合并、去重后,從結果中人工挑選出具有明顯情感傾向的詞語,將其二次分類為6大類:主體正向、主體負向、受體正向、受體負向、褒義和貶義.前四類主要包含動詞,后兩類主要包含形容詞,“主體”、“客體”泛指動詞的主語和賓語,“正向”、“負向”表示該詞的情感傾向,如“主體正向”代表該詞對主體的情感是正面的.其中.(1)主體正向(負向)類包括動作的主語一般為正面(反面)形象的詞語,或表達者對動作的主語帶有明顯正面(負面)情感的詞語;(2)受體正向(負向)類包括動作一般表達了對賓語正面(負面)情感的詞語,或表達者對動作的賓語帶有明顯正面(負面)情感的詞語;(3)褒義、貶義分別包含褒義詞和貶義詞.
分類后得到的情感詞典數量如表1和表2列出了部分例詞.除褒義、貶義外,其余四類所包含的詞語允許交叉,如“迫害”、“殲滅”二詞都屬于兩個不同的類別.
4短語級情感分析
4.1基于語法規則的短語提取
在二次分類情感詞典的基礎上,可以根據其中的情感詞類別組合出人們習慣使用的表達不同情感的詞語搭配.如在例句2)中,“迫害”一詞屬于受體正向類,“法輪功”是其受體且為待檢測敏感詞對象,則二者可以組成“受體正向+敏感詞”短語,該短語明顯地表達了對敏感詞的情感傾向.
結論
針對使用字符串匹配方法和粗粒度情感分析方法來檢測不良信息時出現的準確率低的問題,本文綜合考慮了敏感詞與其所在上下文表現的情感極性,提出了一種基于語法規則的短語級細粒度情感分析方法,結合二次分類的情感詞典判定短語情感傾向進行告警決策.實驗表明,本文方法在準確率上較傳統方法有較大的提升.
從實驗結果來看,該方法的召回率和準確率依賴于情感詞典與語法規則的完整性.本文使用的情感詞典數量偏少,還應進行擴充;目前的規則集由經驗產生,由于中文語法的多樣性,該規則集不能完全覆蓋所有句型,在以后的工作中將持續更新規則集提高其覆蓋率.
SCISSCIAHCI