發布時間:2019-04-24所屬分類:科技論文瀏覽:1次
摘 要: 摘要:在常用評論特征的基礎上,提出了一種基于搜索引擎(如百度)的文本相似性方法獲取評論與產品標題之間的相似性,并作為新的評論特征建立評論推薦模型。實驗證明,引入評論與產品相似性特征可明顯改進評論推薦機制的有效性,同時文本相似性評價的準確性可
摘要:在常用評論特征的基礎上,提出了一種基于搜索引擎(如百度)的文本相似性方法獲取評論與產品標題之間的相似性,并作為新的評論特征建立評論推薦模型。實驗證明,引入評論與產品相似性特征可明顯改進評論推薦機制的有效性,同時文本相似性評價的準確性可以借助搜索引擎得到較大提升。
關鍵詞:評論推薦,文本相似性,搜索引擎,點互信息,指派問題
1引言
近年來,憑借在線瀏覽以及移動支付的便捷性,電子商務持續繁榮,商品評論的重要性日益凸顯。據統計,認為可以借鑒評論購買商品的人群占比82%[1]。超過85%的消費者在網上研究或購買大件商品如電子產品和汽車,63%的人選擇帶有評論推薦的網站[2]。同時,隨著用戶的急劇增長,評論不可避免地出現了信息過載問題[3]。而研究表明,潛在消費者的購買意愿與信息檢索時間成反比[4],信息采納程度與用戶評論的信息質量成正比[5]。
為此各平臺先后推出了自己的評論推薦機制,以期提升平臺服務質量及經濟效益。亞馬遜采用評分加互評的方式進行排序,準確率高,但構建時間長,篩選效率有待進一步提升;淘寶根據字數多少、是否有圖、是否追評、是否近期、賬號等級高低作為標準,沒有深度的評價評論內容與意義,存在刷評論的漏洞;京東和當當多了一個管理員的角色,增加后臺人工篩選,置頂優質評論,增強了對文本內容的考察,卻也增加了新的成本,同時無法消除管理員個體因素的影響。
隨著文本挖掘的快速發展,評論篩選的研究有了重大進展,篩選效率進一步提升,篩選成本持續降低,平臺服務質量也有了較大改善。文獻6將所有評論的特征匯總,提出了特征提取規約模型[6],該種方法簡單方便,但未對每個特征下的所有評論進行有效篩選或推薦。文獻7從語義層次將意見表達形式分為情感、評判、鑒賞三種類別,依據評論數據價值評價體系,完成評論數據排序[7],但沒有進行驗證。文獻8運用潛在狄利克雷分布(LatentDirichletAllocation,LDA)獲取評論的主題,不過提取的主題詞出現交叉[8]。
文獻9通過支持向量機分析評論中與評論質量相關的多個影響因素[9]。文獻10提出的無監督的主題對立情感混合模型綜合考慮了評論詞語的主題分布與評論本身的情感極性,取得了較好的結果[10]。文獻11基于k-means聚類的異常點檢測算法,通過剔除不能反映用戶需求的評論來提升評論集的質量[11]。不過目前各種方法所選語料庫差異較大,所選指標不一致,存在無法進行有效對比的問題。國內外評論排序研究在綜合考慮評論整體、單條評論本身、用戶特異性等各類變量后,開始偏重建模方法的改進,忽視了即使是同類商品,不同廠家不同型號的產品也存在差異性。
同時,部分學者忽略了模型中變量的個數并非越多越好,有時變量之間相關關系的存在會引發多重共線性,反而會影響模型的精度。本文以此作為研究的出發點,認為潛在消費者在搜索產品時帶有一定的傾向或目的性。因此,本文增加了“評論與產品標題相似性”作為評論的特征,并對短文本相似性評價方法進行改進。最后,通過具體案例進行驗證。
2文本相似性分析
文本相似性分析指通過對目標文本與測試文本的內容、語法、結構等因素分析,建立算法模型量化評價文本之間的相似程度。可用于解決機器翻譯、圖書檢索、論文查重等實際問題。由于文本相似度評價方法中多用到相關性概念,也有學者將其稱為“文本相關性”[12]。將“產品標題”作為目標文本,對應所有“產品評論”作為測試文本,建立文本相似性分析模型可得“評論與產品標題相似性”變量的特征值。
2.1問題描述
文本相似性方法主要分為基于統計和基于語義規則兩類[13];诮y計的方法簡單有效但忽視了詞語之間的位置和語義關系,精度不高;谡Z義的方法一般通過對語料庫進行訓練挖掘語義關系,語義關系越明顯,精度越高。而電商評論文本長度短、表達隨意、非規范化等特點致使評論文本語義關系稀疏,基于語義的方法無法有效適用于電商評論。
也有部分學者基于已有的語義知識庫或編碼規則建立文本相似性評價模型直接應用于短文本,如基于《同義詞詞林》語義知識庫或基于hash碼等。該方法避免了短文本語義關系難以識別的問題,但語義知識庫具有主觀性,且建立過程耗時耗力,精度難以提升。
2.2模型建立
本文認為搜索引擎(如百度)中不同關鍵詞的相關信息(如共現結果數目)是二者之間語義相關性的綜合體現,同時搜索引擎的形成更加客觀,因此提出了基于搜索引擎的文本相似性評價(TextSimilarityEvaluationbasedonSearchEngine,SimSE)模型。該模型基于文本信息主要體現在關鍵詞及其權重上的假設,將文本相似性求解分為三部分:a)向量空間模型將非結構化的文本轉換成結構化的關鍵詞權重矩陣。b)詞語相似度模型求解不同文本的不同關鍵詞之間的相關性。c)文本相似度模型將詞語的相關性轉化為文本的相關性。
3應用分析
本文將SimSE方法應用到電子商務評論推薦問題中,以期能建立電商評論的低成本快速推薦模型,進一步提升平臺的服務質量,同時驗證引入“評論與產品標題相似性”變量對于評論推薦有效性及SimSE方法對于短文本相似性評價的準確率的影響。參考相關論文中所選評論特征和方法[1,3,6,8],在引入相似性變量前后分別建立評論推薦模型,同時選擇不同的文本相似性方法求解評論與產品標題相似性,對各個模型預測結果的對比得出結論。
3.1數據概況
爬取亞馬遜上所有空氣凈化器產品的基本信息及評論內容,經過數據清洗、刪除低贊(<5)及近期評論(<3個月)后,保留相關評論超過200個的單個產品組成評論集,最終得到11種產品的2433條評論。每條評論包含“產品標題、用戶名稱、用戶評分、評論時間、評論正文、配圖數量及獲贊數”。
3.2相關定義
評論的有效性:衡量評論本身對于用戶行為產生影響的程度。以單條評論所獲點贊數為衡量標準。評論特征向量:評論在所選有序特征維度上的取值序列。
4結論
本文針對評論推薦問題,提出了基于搜索引擎的文本相似性評價方法,并選擇更加客觀的亞馬遜評論獲贊數作為有效性的評價指標。實驗結果表明,消極情感分值、主題覆蓋率、評價時間、功能、圖片數量、形容詞數量、副形詞數量、詞性復雜度、評論長度、與產品標題相似性、性價比對于評論的有效性有顯著的影響。相似性特征的引入明顯提升了評論推薦的有效性,同時證明了SimSE在短文本相似性評價方面更加有效。以上結論對于評論推薦模型的建立及改進具有明顯的參考價值,有助于消費者和商家快速找到有用信息,進而提升平臺的服務質量。不過應用中的評論推薦模型在低贊評論或同贊評論的篩選上有待改進。
參考文獻:
[1]郭林方.影響在線評論有用性的相關因素研究[D].東北財經大學,2013.
[2]劉翔,范嬌嬌.供應商與客戶智能協同決策規則識別研究[J].中國商貿,2013,(6):175-177.
[3]余文菇,沙朝鋒,何曉豐,等.考慮觀點多樣性的評論選擇問題[J].計算機研究與發展,2015,52(5):1050-1060.
[4]李啟庚,趙曉虹,余明陽.服務型產品在線評論信息特征對評論感知有用性與購買意愿的影響[J].工業工程與管理,2017,(6):148-153.
[5]李雪,劉益,高偉.用戶評論信息特征與信息采納——產品涉入與社區涉入的不同調節作用[J].情報科學,2018,36(11):117-123.
[6]HongY,LuJ,YaoJ,etal.Whatreviewsaresatisfactory:novelfeaturesforautomatichelpfulnessvoting[C]//Proceedingsofthe35thinternationalACMSIGIRconferenceonResearchanddevelopmentininformationretrieval.ACM,2012:495-504.
[7]曹高輝.基于語義理解的意見挖掘研究[D].武漢大學,2010.
相關刊物推薦:《情報科學》曾用刊名:(國外情報科學),1980年創刊,本著求實創新的理念,始終站在學科研究的前沿,全面反映學科發展的動態,著力突出刊物與時俱進的時代特征,抓住圖書情報界的研究熱點,刊發了一大批既有理論水平,又有學術影響的重要論文,及時反映了情報學、信息管理、圖書館學等諸領域的最新研究進展。
SCISSCIAHCI