發布時間:2020-04-11所屬分類:計算機職稱論文瀏覽:1次
摘 要: 摘要:采用復雜網絡分析特定屬性群體。以互聯網企業高管簡歷作為原始數據,以高管姓名和分詞系統抽取實體關鍵詞作為節點,個人簡歷中是否包含關鍵詞作為連接邊的條件進行建模,使用復雜網絡理論對所建網絡進行分析。實驗結果表明,部分關鍵詞節點度值存在明
摘要:采用復雜網絡分析特定屬性群體。以互聯網企業高管簡歷作為原始數據,以高管姓名和分詞系統抽取實體關鍵詞作為節點,個人簡歷中是否包含關鍵詞作為連接邊的條件進行建模,使用復雜網絡理論對所建網絡進行分析。實驗結果表明,部分關鍵詞節點度值存在明顯差異,歸一化后的特征向量明顯大于介數。通過統計分析發現,美國和北京相關背景很重要,同時對比歸一化后的介數和特征向量證明兩點:第一,社會關系中個體涉及的實體對象比在社會關系網絡中的位置更為重要;第二,跨行業跳槽人員的職業背景經歷可能會給其在新的企業中的個人發展帶來不利影響。
關鍵詞:復雜網絡;分詞系統;中心性
人類對于網絡的研究由來已久,18世紀偉大的數學家歐拉對于七橋問題(Konigsberg)的研究是目前公認的最早關于網絡的研究。20世紀60年代由Erdos和Renyi兩位匈牙利數學家建立的隨機圖理論(randomgraphtheory)[1]被公認是在數學上最早開創了復雜網絡拓撲結構的系統性分析。在20世紀末,小世界網絡模型[2]和無標度網絡模型[3]的相繼提出,使得復雜網絡成為學術界熱門的研究方向。而且小世界網絡模型和無標度網絡模型有著和現實世界網絡[4]相似的網絡特性。例如,小世界網絡的小世界性和高聚集度系數;無標度網絡的小世界性和節點度分布服從冪律分布的特點。不過,這兩種網絡都存在一定的不足之處,如小世界網絡的節點度值服從指數分布問題及無標度網絡的聚集系數很小等問題,但實際上現實世界的網絡也存在著不同程度的差異。針對以上網絡,大量的學者進行了改進,如Newman和Watts對小世界網絡模型作了進一步改進[5],使得網絡不存在孤立節點,也是目前最廣為使用的小世界網絡模型;Li等對無標度網絡模型作了進一步改進[6],由于網絡中的節點并不能獲取到網絡的全局信息,從而提出了局域世界概念。
使用復雜網絡來對現實世界中的一些問題進行研究,可以指導和預測現實世界中事物的發展趨勢和走向,將現實世界中的有限資源合理利用,使得資源利用效益最大化。同時也可以利用復雜網絡分析現實世界網絡的脆弱邊或是脆弱節點,從而有針對性地改善和防止問題的發生。肖盛等[7]基于復雜網絡理論對某地區真實電網進行脆弱性評估,結果表明,分析所得脆弱節點的分布情況與該地區電力網絡脆弱節點的真實情況基本相符。譚陽紅等[8]對傳統評估電網節點重要度的方法進行了改進,引入相對熵和灰色關聯度,提高了評估結果的準確度。文獻[9]以武漢市路網作為原始數據,通過計算復雜網絡的中心性,發現武漢市路網具有層次結構特征且結構構成符合“二八分率”的規律。文獻[10]分析了我國礦業并購演變過程,通過計算中心性指標,使用K-核分解算法發現礦業并購市場易受到外部環境影響等特點。這也就進一步證明了復雜網絡不僅具有理論研究價值,同時也具備在現實中的應用價值。
現實世界中充斥著各種各樣的信息,按照類型可分為文字、視頻、圖片及音頻等,但最為常見的還要屬文本信息。而文本信息為了提高可讀性和信息邏輯性,在表達上存在著冗余性,如文本信息中的介詞、代詞及標點符號等內容實際上一般并不包含有效的信息要素。為了提取出文本信息的有效信息要素,必須使用合理的分詞方式來實現。分詞是指將連續的字序列按照一定規范重新組合成詞序列的過程。其中,分詞的規范重組部分實際上是分詞的核心部分,因為,無論中文還是英文都不能完全按照固定模式進行分詞,文本信息中往往會含有大量專有名詞、機構名、人名及地名等信息,如果按照完全固定模式分詞,會使大量文本有效信息失真,所以,分詞時必須進行文本語義分析,結合語義分析結果進行分詞才能得到更為準確的分詞結果,這樣的結果對于研究也更具有現實意義。文獻[11]基于復雜網絡理論對文本關鍵詞進行提取,提出了綜合考慮目標詞匯以及相鄰節點的貢獻度來提取關鍵詞的方法。文獻[12]通過詞序統計組合來提取文本信息關鍵詞,綜合使用詞序統計、詞性標記、停用詞過濾等方式提高關鍵詞提取準確性。
在現代社會和企業發展中,人才是最寶貴的資源,很多企業和國家都在強調這一點,甚至出現企業為了得到一個關鍵人物或團隊出手將整家公司收購的極端現象,由此看出現代社會對于有才能人士的重視。同時,人才也是不同國家、不同企業的必爭之地。我國提出的“千人計劃”、“萬人計劃”以及現在各個城市都在不斷推出的引進人才計劃和為留住人才而推出的各種優惠政策都從側面證明了人才對于社會和企業發展的重要性。文獻[13]通過趨勢外推法和灰色模型對湖北科技人才需求進行演化預測,文獻[14]分析了人才分析對戰略人力資源管理的價值,總結了人才分析的主要用途并提出了實施人才分析需要注意的相關問題。本文基于復雜網絡和NLPIR(naturallanguageprocessing&informationretrieval)分詞系統以百度百科詞條信息作為原始數據對幾家互聯網企業的高管進行研究分析。
1高管復雜網絡模型建立
本文使用的高管人員名單來自于以下互聯網企業:百度、阿里巴巴、騰訊、滴滴、美團、京東、今日頭條;每位高管人員的個人信息均來自于百度百科官方詞條。
建模算法設計:
a.由于使用爬蟲技術獲取到的文本信息不規范,存在格式不統一、包含異常的符號等問題,所以,在獲取到文本信息后,根據預先設定的處理規則進行處理。例如,刪除多余的空格、換行符號及少部分的不規則網頁標簽等。經過預處理后原始數據成為姓名與個人百度百科詞條一一對應的形式。例如,通過預處理得到以李彥宏為文件名的文本文件。k
b.NLPIR(https://github.com/NLPIR-team/NLPIR)是一套能夠將給定文本進行分詞并提取實體詞(有意義的詞匯,如人名、地名、公司名稱等)、關鍵詞、敏感詞的分詞系統。本文使用該分詞系統對處理好的文本信息進行實體抽取,獲得有意義的實體詞匯作為關鍵詞信息。例如,李彥宏對應百度、創始人、董事長、北京大學、華爾街等實體關鍵詞。VpVpVkVkc.通過以上a,b這2個步驟,獲得了兩類網絡節點,一類節點為個人姓名,代表本文網絡所使用的高管人員姓名;另一類節點為關鍵詞,代表分詞系統實體抽取得到的有意義的實體描述關鍵詞。
通過圖3和表1可以看出,根據上述模型所建復雜網絡有著與現實世界網絡相似的網絡參數[15]。例如,網絡的平均路徑長度為3.641,滿足現實世界網絡的小世界特性[16],而聚集系數為0.092,相對較大,滿足高聚集性,圖3為網絡的度分布情況,可以看出,網絡的度分布與現實世界網絡度分布的無標度特點相對應。
2高管網絡中心性
描述復雜網絡的參數主要包含以下幾種:網絡密度、度、平均最短路徑和網絡的聚集系數。其中,網絡密度主要刻畫了網絡連接的總體特征,網絡的度主要描述個體節點的連接情況,平均最短路徑能夠體現網絡信息流傳遞效率,而網絡的聚集系數則能夠體現網絡的局部聚集情況。
分別將度值排名在前25的關鍵詞及關鍵詞對應的度值進行橫向對比分析,可以得到柱狀圖如圖5所示。
從圖5可以看出,橫向對比下北京和美國這2個關鍵詞的度值相比于同類關鍵詞具有明顯的優勢,兩者的度值都遠大于同類關鍵詞的度值,其中,美國是同類關鍵詞的5~7倍,北京是同類關鍵詞的3~7倍。通過度值的橫向對比可以看出,這些互聯網企業的高管和北京、美國相關的背景信息顯得尤為重要。這一點也與現實世界的基本情況相符。美國作為自二戰以來的世界強國,對于計算機、互聯網這類高科技行業在全球范圍內都稱得上絕對領先,所以,我國大量互聯網人才在選擇留學、交流時,美國往往是他們的首選,文獻[18]中表明,美國仍然是多數人留學的首選目的地。另一方面,雖然我國大型互聯網公司在國內發展情況很好,但往往也會在美國硅谷等地設立研發中心等,網絡中涉及的7家(百度、阿里、騰訊、滴滴、美團、京東、今日頭條)公司中有71.43%的公司在美國有分公司、辦事處或研發中心。文獻[19]指出,設立海外研發中心具有從東道國獲取新信息、新技術服務于母公司的技術開發戰略的作用,而這時的東道國主要有兩類:一是擁有“技術高地”的技術發達國家,二是擁有“人才富地”的人力資源優質國家,而恰好美國在這兩方面都符合。
北京作為我們國家的首都及政治中心,對于任何一個企業而言,北京相對于我國的其他城市有著完全不同的意義,企業管理人員背景信息和北京有著較大的關系也屬于合理。另一方面,北京作為一線城市,有著眾多優秀的高校和人才,企業和一線城市有著較大的親密度,這對于屬于前沿行業的互聯網公司也是必不可少的,網絡中涉及的7家企業100%均在北京有分公司、研發中心等。其中,5家公司總部就在北京。文獻[20]針對我國互聯企業分布進行分析。圖6為互聯網企業數量前五的省市的統計分析圖?梢钥闯,北京互聯網企業數量有明顯優勢,這也進一步證明了本文所得分析結果的合理性。
2.2特征向量和介數
2.2.1特征向量
AaijaijλAe=(e1,e2,···,eN)Aλ一個節點的度指標僅僅描述了該節點對于其他節點的直接影響力,若一個節點與另一個度值很高的節點之間存在連接[17],則該節點的影響力也會受到影響而增強,這與現實世界中的很多情況是一致的,如果把每個人看作是一個節點的話,一個節點的信息占有率在很大程度上取決于它與什么樣的節點有連接。但是,這種類型的特征無法用度值進行衡量,故本文使用特征向量這一網絡指標來衡量節點這種特征的顯著與否。設網絡G的鄰接矩陣為,為矩陣第i行第j列的元素,的取值集合為{0,1},為的主特征值,是一個常量,為矩陣對應的特征向量。
3結 論
以復雜網絡為理論基礎,對幾家大型互聯網企業高管人員進行建模分析,通過復雜網絡的理論分析研究對象是否具有共性、具有哪些共性以及該類人員具有哪些顯著特點。以百度百科官方詞條作為原始數據,通過分詞系統抽取實體關鍵詞,獲得有信息要素的實體關鍵詞;以高管姓名和關鍵詞作為網絡節點,高管個人信息中是否包含關鍵詞作為連接邊的條件構建復雜網絡;最后通過復雜網絡的理論分析得到一些與現實世界具有一致性的網絡特征,同時這些一致性也證明模型的合理性。
分析網絡后,得到以下主要結論:首先,將度值較高的美國和北京分別整理統計對比后發現,美國和北京相對于其他同類別的關鍵詞確實有著明顯的度值優勢,證明對于大型互聯網企業高管而言美國和北京相關的背景信息確實很重要;其次,將特征向量指標值和介數指標值歸一化后作圖對比,發現一個與現實世界具有一致性的特點,一個人社交關系中的社交對象相比于他在社交關系中起到的信息傳遞的作用更為重要,也讓他更容易獲得成功;最后,對圖9中的異常節點進行分析,發現跨行業跳槽時過去不同的職業經歷可能會在未來的個人發展中產生不好的影響。
相關期刊推薦:《上海理工大學學報》是由上海理工大學主辦的理工科綜合性學術刊物,主要報道系統科學與復雜性科學、能源與動力工程、光電信息與計算機科學、機械材料科學、生物醫學科學、傳媒出版科學以及基礎學科(數學、物理、化學)等方面的學術研究和科研實踐成果。
SCISSCIAHCI