【2017年第2期】社交网络分析在公共安全领域的应用
邵鎣俠,?馮是聰
北京明略軟件系統有限公司,北京 102218?
摘要:社交網絡分析技術是一種通用有效的研究社會人員之間復雜關系模式的方法。以公安領域為背景,首先介紹了社交網絡分析理論,然后詳細闡述該技術在公安領域的3個應用案例,包括犯罪團伙挖掘、核心成員識別和串并案挖掘,以期為讀者了解社交網絡分析技術在公共安全領域的應用提供幫助。
關鍵詞:社交網絡分析;公共安全;犯罪團伙
中圖分類號:TP311 ? ? ? ? 文獻標識碼:A
Applications of social network analysis in public security
SHAO Yingxia, FENG Shicong
MiningLamp Software System Co., Ltd., Beijing 102218, China?
Abstract:?Social network analysis (SNA) is a general and effective approach of studying the complex relationship patterns among social members. Public security field was focused. Firstly, the theory of SNA was introduced, and then three applications of applying SNA in public security were described, including crime gang mining, core criminal member identification, and serial and joint cases analysis. It’s beneficial to readers to know about the capability of SNA in public security fields.
Key words:?social network analysis, public security, criminal gang
論文引用格式:邵鎣俠, 馮是聰.?社交網絡分析在公共安全領域的應用[J]. 大數據, 2017, 3(2): 38-44.
SHAO Y X, FENG S C.?Applications of social network analysis in public security[J]. Big Data Research,?2017, 3(2): 38-44.
1 ?引言
近幾年來,在線社交媒體(online social media)的迅速發展,微博、人人網、Facebook、Twitter等社交服務商的出現,給社交網絡分析(social network analysis,SNA)技術的發展提供了充足的土壤。曾經只能通過調查問卷的方式收集幾百到幾千人的社交網絡數據,如今通過公司合作或者數據交換等方式,可輕易獲得千萬到百億級別的社交網絡數據。為了處理和分析大數據環境下的社交網絡數據,工業界和學術界都給社交網絡分析技術注入了新鮮血液,提出了許許多多新的技術方案和指標。
社交網絡分析主要研究人在社會網絡中的位置及其信息在整個社會網絡中傳播形式等內容,通過關系分析,發現網絡系統背后潛在的信息及價值,輔助決策者進行決策。如前文所述,隨著社交媒體的出現, SNA技術變得越來越成熟,越來越完善。如今,它已經被應用到各個領域。比如,在社交媒體領域,服務提供商通過社交網絡分析技術分析用戶間好友或關注網絡,可以發現網絡中具有影響力的用戶,進行廣告投放,或者發現網絡中的群體進行特定主題的內容推薦。在電子商務領域,利用用戶的消費信息,可以得到用戶與購買物品間的購物網絡,進而抽取用戶間的共同購買網絡。在共同購買網絡上,利用社交網絡分析方法可以發現特定用戶群體,從而推薦相應的商品。
同樣地,社交網絡分析技術作為一種社會研究的科學方法也為公安執法部門的智慧警務建設提供了一種有利手段。在實際的警務工作中,公安干警對案件的研判會利用犯罪嫌疑人既有的復雜社會關系,對犯罪嫌疑人的可能動向、嫌疑性大小進行分析。與社交網絡分析相同,整個研判過程可以使用網絡結構進行建模。網絡中的一個節點可以表示一個人、一個公司、一個組織,而邊則代表著二者之間不同的信息交互類型,例如買賣雙方的毒品交易、恐怖分子之間的通信聯系、歹徒與受害者之間的聯系等。由此構建的社交網絡圖,首先通過可視化技術,既可在視覺上直觀地體現出犯罪嫌疑人之間、犯罪嫌疑人與受害人之間、犯罪嫌疑人與其親人朋友之間的聯系,又將抽象的案件分析具體化、數據化;然后,利用社交網絡分析技術的定量分析,能夠刻畫出案件中的關鍵人物、團伙間的協作流程,為警員的案件偵破或者復盤提供豐富多角度的信息。
然而,由于公安領域內的信息化建設相對于互聯網起步較晚,許多成熟的分析技術還并未真正運用到實戰之中,社交網絡分析技術就是一個實例。通過前面的簡單分析可知,公安執法部門日常工作的服務對象還是以人為主,通過人與人之間的關系偵察辦案,為社交網絡分析技術的應用提供了充分的條件。下文筆者將討論社交網絡分析技術中的基本理論和方法,隨后通過幾個真實場景給出社交網絡分析在公安領域進行實戰的可能性。
2 ?社交網絡分析理論及方法
社交網絡分析理論是研究社會生活中人與人之間的網絡如何形成、網絡中的行為模式以及信息在網絡中如何傳遞的一門學科。它重點關注人在網絡中所處的位置和人的行為受整個網絡的影響。從方法論角度出發,社交網絡分析提供了一套面向網絡的量化分析方法,能對網絡中的關系模式、節點影響力等內容進行定量討論。
一張社交網絡主要包括兩類基本元素,分別是節點和邊。其中節點可以為現實生活中的人、組織、地點、物品等各類實體,邊則為實體間的不同關系,比如人與人之間的好友、血緣關系,人和公司的從屬關系,人與物品的擁有關系等。面向社交網絡的分析輸出內容主要有兩方面:定量分析結果和可視化展示。下面從這兩方面介紹相關的技術手段。
2.1 ?定量分析
定量分析的結果類型多種多樣,包括網絡中的頂點分析、鏈接分析、社區分析等內容。
頂點分析主要研究節點在網絡中所處位置的重要性。通過量化的重要性反映該節點在網絡中信息傳播的影響力,影響越大的節點就越重要。在社交網絡分析中主要通過中心性(centrality)[1]對節點的重要性進行測量。經過多年的研究,已經提出了多種不同的中心性定義,包括 PageRank、超文本敏感標題搜索(hypertext-induced topic search, HITS)、中介(betweenness)中心性、緊密(closeness)中心性、基于度(degree)的中心性等。每一種中心性對網絡中信息流的傳播做了不同的假設,從不同角度刻畫一個節點在網絡中的重要程度。以基于度的中心性為例,一個節點的度越大,即該節點直接聯系的人越多,則認為其越重要。這個衡量指標適用于對事件型信息的刻畫。以發表學術文章為例,兩個作者若發表同一個文章,則互相之間產生一條邊,那么在這樣的一個社交網絡下,一個人的合作者越多,即網絡中度越大,就說明該人在此學術界中影響力很大。另外,定量分析還包括對網絡中群體的刻畫,即期望發掘網絡中具有相似特征的群體,以便進行定向深入分析。
鏈接分析的主要研究對象則是網絡中的邊。類似頂點的研究,關于邊的重要性的定量分析有邊中心性的概念。除此之外,一個重要的研究方向是網絡中的鏈接預測,即根據網絡的全局拓撲結構及相關屬性,預測節點間邊存在的可能性。目前預測的方法主要分為兩類。第一類方法是基于內容的特征工程,建立預測模型。它主要利用節點上的屬性構造特征向量,比如年齡、性別、職業、興趣愛好標簽等。第二類方法是考慮網絡結構特征構建預測模型。在生成特征向量時,除了考慮基本屬性特征以外,還會引入共同好友數、ego-network信息等特征,增加預測模型的維度特征。
社區分析則是關注群體在網絡中的分布情況。此項技術在互聯網應用中,經常用于發現具有相同興趣愛好的人群,為互聯網上的定向廣告推薦提供重要的信息。針對此問題的方法同樣可以分為兩類:第一,基于特征工程的聚類算法,類似鏈接預測問題中的方法,對每個節點提取特征,利用聚類算法對頂點進行聚類;第二,一般認為屬于同一社區的成員之間都存在一定的聯系,于是有了如下的經驗總結,社區成員間的邊要比社區間的邊更加稠密。基于上述經驗總結,研究界提出了模塊化(modularity)的概念,即模塊內的稠密度(density)比模塊間的高,具體定義可參考參考文獻[2]。
2.2 ?可視化展示
可視化展示直接把網絡的拓撲結構及不同屬性的關系以點和線的方式呈現給用戶,同時,用戶可以通過交互式的方式探索和分析該網絡。目前,針對社交網絡的可視化研究同樣可以分為兩類。第一類是針對局部圖或者小規模圖的展示,便于用戶觀察全圖的局部,比如一個頂點的鄰居網絡,抑或是某個感興趣的群體。關于此類小規模圖的可視化布局已經有成熟的算法,比如Spring布局、Force-based布局等。第二類是針對大規模網絡可視化問題研究相關技術方案。現實的社交網絡規模越來越大,像Facebook、新浪微博等社交網絡包含幾億個節點。傳統的圖布局算法無法處理新的大規模網絡。最新的研究嘗試利用圖嵌入(graph embedding)方法,通過保留圖結構中的鄰近性,把圖嵌入二維空間中[3]。而圖嵌入方法通過優化,可以獲得高效性能,從而支持大規模網絡數據的可視化展示,為用戶處理和分析大規模網絡提供一種強有力的方法。
3 ?社交網絡分析技術在公安領域的應用
本節主要探討社交網絡分析技術在公安領域的具體應用場景。
3.1 ?犯罪團伙挖掘
隨著社會的發展,犯罪手段和技術也在不斷地演進,呈現出團伙作案的趨勢。在一個犯罪團伙內部,成員們分工明確,通過相互協作實現隱蔽作案的目的。比如,電信網絡詐騙團伙內部,有人負責編撰故事,有人負責跟受騙者溝通,有人負責洗錢;在涉毒團伙中,有人專門購買原材料,有人專門制毒,有人負責販毒,還有人專門洗錢;在販嬰團伙中,有人負責尋找嬰兒,有人運輸,有人找買家,有人收賬。總之,團伙往往分工明確,在辦案過程中僅僅打掉其中一個環節或某幾個環節,效果都不盡如人意,團伙仍有可能重新組織人手繼續犯罪。因此,明確團伙成員、分析清楚團伙內部成員的地位等級,將給執法辦案提供極大的幫助,同時也是需要解決的一大難題。
社交網絡分析為上述這一難題的解決帶來了希望。前文提到,社區發現是社交網絡分析的一項基本內容。而基于以往的經驗了解到,犯罪團伙間都存在或多或少的聯系,團伙內部的關系與團伙外部的關系有著顯著的差異,比如,團伙的結構相對稀疏,但外圍的人員與外界關系頻繁等。根據上述經驗,設置合理的模塊優化目標[2],可以利用社區發現的思想得到一個粗略的群體,然后再利用精細的分類方法,比如基于圖核函數的聚類算法,從群體中分離出小團體。
舉個具體的例子,在實際工作中,可以結合社會人員的出行軌跡、通信情況、住宿記錄等信息建立多種關系,并形成一張異構網絡。針對得到的異構網絡,利用經典的圖劃分算法得到一系列高內聚性的群體。對于群體內部有較多(如大于3人)犯罪前科的人,則可以初步判定此群體為嫌疑犯罪團伙。針對感興趣的犯罪團伙,再通過提取頂點特征,利用k-means算法對群體內頂點進行分類,形成精細的團伙。其中,頂點特征可以包括最近軌跡行為時間、通信頻繁程度等。最后,根據團伙最新的活躍軌跡篩選出活躍度較高的群體,供業務人員進行研判分析。
綜上,通過SNA技術,能有效地從海量數據中篩選出可疑度較高的團伙,從而降低了警員挖掘潛在團伙的人力成本。
3.2 ?犯罪團伙中的核心成員識別
在分析出犯罪團伙以后,需要進一步識別團伙中各個成員的角色和地位。比如處于聚簇邊緣、與外界聯系相對較緊密(與其他聚簇相連)的節點,可能是聯絡人,也可能是新入伙的人;在聚簇中心的可能是組織中的核心人物。所謂“擒賊先擒王”,首先識別出網絡中的核心人員,警方再根據分析結果,選擇特定的突破口,對這一組織實施打擊粉碎行動。這里利用節點重要指標可以迅速定位挖掘犯罪團伙中的核心成員。前文已經提到過多個中心性衡量指標,這里具體介紹一下每類指標的含義及其應用條件。
首先,基于度定義的中心性Cdeg是最流行且最直接的一種定義。此中心性即相應節點的度數,一個節點關聯的邊越多就越重要。進一步,度中心性可以解釋為統計了節點周圍路徑長度為1的路徑數目。在此基礎上,一個直接的泛化就是利用節點周圍長度為K的路徑數目表示節點的重要性,稱為K-path中心性。從路徑長度定義類型的不同角度出發,K-path中心性也產生了很多變種:基于距離的K-path中心性、邊獨立的K-path中心性和節點獨立的K-path中心性。從這類中心性指標定義出發,可以看出它們對信息傳播的一個假設是信息以K長度的路徑進行傳播。
相應地,一種流行的假設是信息的傳播與節點間的最短路徑有關。一般認為路徑越短,信息傳遞越快。基于最短路定義的中心性主要有緊密中心性和中介中心性。緊密中心性[4]可以描述為一個節點到網絡中各個節點的平均最短路距離的倒數,則節點v的緊密中心c(v)可按式(1)計算:
其中,n表示網絡中節點數目,d(v,v')表示節點v和v'之間的最短路距離。緊密中心性是一個基于節點的單源最短路距離分布的衡量指標,形象地描述了節點在網絡中所處位置的重要程度。緊密中心性越大的節點到其他節點的平均最短路徑距離越小,處于網絡的越中央,越能迅速地將信息傳遞給其他節點,同時也能更快速地接收其他節點的信息。
中介中心性的具體定義如下:
其中,Cb(u)表示節點u的中介中心性, δst表示節點s和t之間最短路的數目,δst(u)表示節點s和t之間經過節點u的最短路的數目。由定義可知,中介中心性反映了一個點所在的最短路徑數目在全局所有最短路徑對之間的一個占比。中介中心性越大,全網中將有越多的信息通過該點進行傳遞。
其次,以通路(walk)的概念為基礎,也產生了多種相應的中心性概念。其中, Katz中心性用節點出發的通路數目表示,形式化表示為,其中ei表示一個第i個位置為1、其他位置為0的列向量。β表示一個大于零的懲罰系數,反映了路徑越長,其對中心性的貢獻越小。在Katz中心性基礎上,產生了Bonacich中心性,其形式化為,并允許β取負值。Katz中心性和Bonacich中心性都是Hubbell中心性的特殊形式。Hubbell中心性可以表示為,其中,X表示矩陣,y表示向量。
最后,為了從網絡的全局信息衡量一個點的重要性,提出了基于信息流的節點中心性定義。其中,PageRank、HITS等用來衡量一個網頁節點在整個網絡中的重要性的指標,就是經典的基于信息流的中心性定義。
上述多種中心性定義,從不同角度對網絡中的節點重要性進行了刻畫,根據實際網絡情況,選擇合理的指標對網絡中的重要節點進行識別。比如,在一個涉恐網絡中,領導人物的命令要以最快的速度傳播到整個網絡中,那么緊密中心性將很好地識別出這類信息發布角色的重要節點。以美國“9·11”恐怖襲擊的犯罪網絡[5]為例,作者以新聞報道資料為基礎構建了“9·11”襲擊中的19個恐怖分子構成的關系網絡。然后利用緊密中心性和中介中心性等中心性指標識別出了網絡中的關鍵節點—— Mohamed Atta,而事后證實確認該關鍵節點即該團伙的領導者。此例子給社交網絡分析技術在公共安全中的應用提供了強有力的證據。
3.3 ?串并案挖掘
串并案是公安機關提高辦案效率的一個有效途徑,它是指把多個可能相關的案件一起進行研判分析。這里的相關包括同一伙犯罪成員或者是相似的作案手段等。通過對多個案件的串并分析,不僅能起到信息互補的作用,而且能解決不少冤假錯案。社交網絡分析有利于將同一犯罪團伙所為的案件進行串并。若獨立地分析多個由同一犯罪團伙所為的各個案件,警員無法有效洞察其背后千絲萬縷的聯系。結合社交網絡分析技術同樣能給案件偵破提供線索。
以美國某州的警局針對該地區一系列便利店的搶劫案為例,介紹如何利用社交網絡分析進行并案,從而抓捕了多個之前未被發現的犯罪嫌疑[6]。他們首先把單獨的案件中涉及的人、事、物映射到一張網絡上,然后在調查中發現某個正在被調查的人A與其他轄區的有案底的人B存在聯系。于是,他們以這兩人(A和B)的姓名為種子,利用類似標簽傳播的算法,構造了一張未知網絡,即網絡中出現了多個未被關注的人員。對這個未知網絡進一步分析,發現該有案底人員A又與多個青少年有頻繁的聯系,于是就把之前未被人視為同一伙人作案的搶劫案給串聯起來了。最后,通過可視化展現的方式,對多張網絡進行瀏覽和管理,為干警破案提供了快速有效的線索。
4 ?結束語
公安領域利用網絡分析進行偵查辦案的歷史由來已久。傳統的方式是將涉案人員以圖釘和連線的方式在黑板上展示出來。近年來,社交網絡分析技術的發展,不僅將傳統的方式數字化,利用計算機就能快速分析案情,而且使得干警能夠處理和分析更大規模網絡,從而提高辦案的效率和質量。除了社交網絡分析技術,時序分析、數據挖掘、機器學習等多種其他大數據分析技術同樣能夠提升公安的偵查能力,從而極力保證社會更加穩定、和諧地發展。
參考文獻:
[1]FREEMAN?L C.?Centrality in social networks conceptual clarification[J].?Social Networks,?1978,?1(3):?215-239.
[2]NEWMAN?M E J.?Fast algorithm for detecting community structure in networks[J].?Physical Review E Statistical Nonlinear & Soft Matter Physics,?2004,?69(6): 066133.
[3]TANG?J,?LIU?J Z,?ZHANG?M,?et al.?Visualizing large-scale and highdimensional data[C]//?The 25th International Conference on World Wide Web, April 11-15, 2016, Montréal, Québec, Canada.?New York: ACM Press,?2016:?287-297.
[4]邵鎣俠,?崔斌,?馬林,?等.?一種基于 Sketch 的Top-k 緊密中心性快速搜索算法[J].?計算機學報,?2016,?39(10):?1965-1978.
SHAO?Y X,?CUI?B,?MA?L,?et al.?A fast sketch-based approach of Top-k closeness centrality search on large networks[J].?Chinese Journal of Computers,?2016,?39(10):?1965-1978.
[5]KREBS?V E.?Mapping networks of terrorist cells[J].?Connections,?2002,?24(3):?43-52.
[6]JOHNSON?J A,?REITZEL?J D,?NORWOOD?B F,?et al.?Social network analysis: a systematic approach for investigating[J].?FBI Law Enforcement Bulletin,?2013,?82(3): 1.
邵鎣俠(1988-),男,博士,北京明略軟件系統有限公司技術經理,主要研究方向為大規模圖計算優化、圖挖掘應用以及復雜網絡分析等。目前在SIGMOD、VLDB、TKDE等國際一流學術會議和期刊上發表10余篇相關學術論文。曾獲得2014年谷歌博士獎學金和微軟學者等稱號。
馮是聰(1973-),男,博士,北京明略軟件系統有限公司聯合創始人兼CTO,中國中文信息學會(CIPS)理事,中國計算機學會(CCF)大數據專家委員會委員,上海市數據科學重點實驗室(復旦大學)數據科學家,中國人民大學信息學院企業碩士導師,上海交通大學大數據與商業創新實驗室客座研究員。主要研究方向為大數據、云計算、計算廣告學、信息檢索等。
總結
以上是生活随笔為你收集整理的【2017年第2期】社交网络分析在公共安全领域的应用的全部內容,希望文章能夠幫你解決所遇到的問題。
                            
                        - 上一篇: python的.arsort()函数的用
 - 下一篇: .compute() 函数