【社交網(wǎng)絡中的社交機器人檢測方案設計案例7600字】_第1頁
【社交網(wǎng)絡中的社交機器人檢測方案設計案例7600字】_第2頁
【社交網(wǎng)絡中的社交機器人檢測方案設計案例7600字】_第3頁
【社交網(wǎng)絡中的社交機器人檢測方案設計案例7600字】_第4頁
【社交網(wǎng)絡中的社交機器人檢測方案設計案例7600字】_第5頁
已閱讀5頁,還剩20頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

社交網(wǎng)絡中的社交機器人檢測方案設計案例 1 1 1 2 4 5 法通過改進圖嵌入算法來提取網(wǎng)絡結構的局部特征,再結合基于圖濾波的GCN算法獲取全局結構特征,建立了端到端的半監(jiān)督組合模型——命名為Semi-GSGCN,所提方法用于檢測社交機器人具有較高的通用性和有效性,方法1.1社交機器人檢測框架1.1.1問題定義定義1社交網(wǎng)絡用戶包括很多類型的用戶,本文主要檢測異常用戶中的機為是一個反例。設用戶全集是V={v?,V?,…,Vn},類別集合是C={Cman,Cbot},其中,F(xiàn)(vi,cj)∈{0,1}是一個二分類函數(shù),0表示用戶vi是正常用戶,1表示定義2社交網(wǎng)絡可定義為一個圖G=(V,E,L),那么V代表所有用戶節(jié)點集,E是用戶節(jié)點之間的邊關系集,L是節(jié)點標記集,本文社交網(wǎng)絡中所涉符號定義如表4-1所示。G由節(jié)點和節(jié)點間關系構成社交網(wǎng)絡圖GVELXAG中的第i個節(jié)點,vi∈V,節(jié)點v的標簽分布節(jié)點v?的特征向量1.1.2檢測框架2020年BadBot報告[6指出,惡意流量跟網(wǎng)站的大小也有一定的關系,網(wǎng)站越小其惡意流量(25.6%)占比越高。而大型網(wǎng)站則會更好一些,惡意流量占比為19.5%。但不管是大型還是小型網(wǎng)站都存在一定的惡意流量,惡意的社交機器過網(wǎng)絡挖掘潛藏信息。本文設計的社交機器人檢測方案如圖4-2所示,包括以下(c)為提取節(jié)點的重要屬性和自我特征(根據(jù)數(shù)據(jù)集提取節(jié)點基本信息)。(e)為圖嵌入層,這一層的圖嵌入可以從暗含大掘新的信息,本文選擇GraphSage并對其改進,更適應于加權轉發(fā)關系,該圖嵌入方法是通過鄰域聚合得到節(jié)點的表示,整個過程是以歸納的方式進行。征包括(e)所學的嵌入表示和(c)中提取的特征。(g)為增強版的圖卷積神經(jīng)網(wǎng)絡,現(xiàn)實中標的節(jié)點占少數(shù),如何利用少量帶標記樣本和大量的未標樣本進行訓練和分類是值得考慮的,相比于有監(jiān)督學習算法,半監(jiān)督學習可以減少樣本標記的代價,使用少量的標記數(shù)據(jù)就可以達到較好的學習效果。所以圖4-1不同網(wǎng)站惡意流量分布Fig.4-1DistributionofmalicioustrafficondifCiticalAIrbuhes的影響力。DCi表示節(jié)點i的度中心度,值越息量。BCi表示節(jié)點i的介數(shù)中心度。該值越大該節(jié)點在信息傳播中的影響力越存在一個節(jié)點i,它的任意兩個鄰居節(jié)點之間產(chǎn)生聯(lián)系的可能性。LCi表示節(jié)點i其中,節(jié)點i的鄰居節(jié)點集合為N,節(jié)點集合之間構成的種計算方法為PageRank,用PR;表示節(jié)點i的PageRank。社交機器人達到某種目該方法還采用用分批量(Mini-batch)處理數(shù)據(jù)。這樣做的好處是,對于每一批學習節(jié)點表示,對GraphSage進行了改進,提出了兩種改進算法和NGraphSage:此改進算法在聚合節(jié)點特征時,考慮邊權對鄰居節(jié)點特征有法如表4-2所示,表4-2中wvu表示節(jié)點v和u之間的權重。Input:GraphG(VE,L);inputfeh()←AGGREGATE({w,·h?1,V,∈Nh←σ(w*·CONCAT(h-1,B節(jié)點間的權重不是邊權,而是注意力系數(shù),算法改進如表4-3所示,表中eb,u參數(shù)用于計算更新迭代k時節(jié)點間的注意力分數(shù),Consin代表余弦相似度αb,u通過注意力分數(shù)歸一化得到節(jié)點間的注意力權重系數(shù).計算的圖形化表示過程如圖4-3所示。相比干邊權.注意力系數(shù)更加表現(xiàn)出節(jié)點間的相似程度。Input:GraphG(V,EL);inputfeatures{x,V,∈V}4.e={consin(n-1,n-1),Vu∈N(v)}上述本文的改進算法NGraphSage和AGraphSage分別如表4-2和表4-3所示,kV改進的兩個算法用K表示更新迭代次數(shù)。此外,h表示更新迭代第k次時節(jié)點Vv的特征。在每次更新迭代時,前一次迭代中v和v鄰域的特征以及權重矩陣wk基于聚合函數(shù)來更新h聚合函數(shù)包括有:Meanaggregator、Inductiveaggregator、LSTMaggregator和Poolingaggregator(包括MeanPooling與目標節(jié)點embedding拼接后進行非線性轉換,鄰居聚合計算如公式4-7。每個維度取平均,后再非線性轉換,更新節(jié)點3.LSTM聚合器:LSTM函數(shù)不符合排序不變量的性質(zhì),需要先對鄰居隨4.Pooling聚合器:先對每個鄰居節(jié)點上一層embedding每個維度乘以權重再按維度應用Meanpooling(鄰居聚合計算如式(4-9))或Maxpooling(鄰居聚合計算如式(10)),捕獲鄰居集上在某方面的突出的綜合的表現(xiàn)以此表示目標節(jié)希望臨近的頂點具有相似的向量表示(對應公式第一項),而與“沒有交集”的GCN:圖嵌入算法獲取的是社交機器人網(wǎng)絡關系中的局部信息,獲取的特征和結構以及自我特征結合,作為下一步分類算法的輸入,本文采用GCN?3進結合GCN和圖嵌入有效利用了網(wǎng)絡結構的局部特征與全局特征,那么目標輸出=σ(D-1/2·?·D-1/2·σ(D-1/2·?·D-1/2.HO.WO))·W(1數(shù)是ReLu,H?)=X。第二層函數(shù)是softmax。鄰接矩陣A的每個節(jié)點添加一個自環(huán),得到一個新的鄰接矩陣?=In+A,D=D+In,Dii=是A的對角上面是標準的GCN,那么為提高半監(jiān)督學習中少量標簽的利用率,基于圖A(5)是過濾器,L是新的鄰接矩陣?下的正則化拉普拉斯矩陣L=Φ入φ?1,所以,濾波器的頻率響應函數(shù)A(S)=(In-L)?,利用指數(shù)s方便地調(diào)整濾波如下:Loss=-∑leYL∑=1YifInZ?f目前很多學者對社交機器人進行了一定的研究,有學者收集了研究中的一些描述如表4-4所示,許多公開的數(shù)據(jù)集無法提取朋友關系的拓撲圖,但是用戶與用戶之間除了朋友和關注關系外,還有轉發(fā)關系,社交網(wǎng)絡中的很多社交行為(點贊、關注、評論等)并不能直接體現(xiàn)網(wǎng)絡社交機器人的活動。而轉發(fā)行為可以幫助信息的傳播,轉發(fā)就是將別人的所發(fā)的博文轉發(fā)到自己的主頁上。由于社交機器人要達到一定的傳播目的,在平時就需要與其他用戶保持一定的聯(lián)系,所以社交網(wǎng)絡的拓撲結構在一定時間內(nèi)是結構穩(wěn)定的。本章研究選取cresci-rtbust-2019數(shù)據(jù)集中可構成加權轉發(fā)拓撲圖,以759個用戶數(shù)據(jù)為中心,選取了其他跟這些節(jié)點有關聯(lián)的節(jié)點,如圖4-4所示是本研究提取的轉發(fā)拓撲結構,共13835個節(jié)點,其中759個標簽,未標記標簽13076,python腳本通過twitterAPI為用戶數(shù)據(jù)打標簽,botmeter給出一個分數(shù),區(qū)間是[0,5],越高表示越像機器人,如圖4-5所示是botmeter為用戶打分。所有的13835個節(jié)點中社交機器人占少數(shù),為了保持樣本正負平衡共2000個節(jié)點被標注,其中,機器人(906):正常用戶(1094)=1:1.2。Tab.4-4Publicsoci0圖4-4轉發(fā)拓撲結構;a)為全局結構b)為局部結構Fig.4-4Forwardingtopology;a)petasnglinnglinanieaniecarblecarblegmurtudngmurtudnma0L檢測用戶的可視化結果Fig.4-5Botometerdetectionsocialrobot;a)Botdetectionplatform,whichi在前面的1.2節(jié)已提取初始的經(jīng)典特征,包括自我特征和結構特征共十維,檢測的影響,實驗對比三種方案,分別是原始的GraphSage,NGraphSage和AGraphSage,三個方案下嵌入特征維度取8、16、32、128、256,再采用GCN檢驗各嵌入表示的效果,GCN參數(shù)一致采用默認參數(shù)。在三種嵌入方案的特征學習模塊中,不同的聚合器所學習的嵌入表示也不一樣,如圖4-6所示,其中,LSTM、Inductive聚合器在64維時最大,維度為8-64逐漸增大,64-256逐漸減小,維度為8最小,GraphSage下三個聚合器取得的效果分別為66.4%、66.8%、AGraphSage下三個聚合器取得的效果分別為68.8%、68.2%、67.2%。而Maxpool和Meanpool聚合器在128維最大,維度為8最小,維度為8-128逐漸增大,維個聚合器取得的效果分別為69.2%、68.6%。比GraphSage效果好,大部分情況下AGraphSage的效果高于GraphSage。本文還與經(jīng)典的無監(jiān)督嵌入算法Node2vec進行比較,Node2vec取得65.6%的效果,低于本文的改進方法NGraphSage和AGraphSajGrachSaseAooeoatorAagregator實驗二:本實驗通過對比不同算法來驗證本文提出的方法的有效性,根據(jù)實驗一可知,檢測效果最好的是Maxpool聚合器取得的128維,本實驗采用不同嵌入方案下Maxpool聚合器所取得的128維,為了維持原有重要信息,融合自我特征和結構特征,共138維作為各算法的特征輸入。根據(jù)調(diào)研之前的研究,選擇研究中常用的DT,SVM,邏輯回歸(LogisticRegression,LR),多層感知機 (Multi-layerPerceptron,MLP),RF以及基于圖的分類算法標簽傳播算法(LabelPropagation,LP)作為對比算法。由于DT,SVM,LR,RF是有監(jiān)督算法,本實驗選擇所有帶標簽的2000個節(jié)點用于模型訓練和測試。表4-5是各算法的在不同圖嵌入方案下的檢測效果,在三種嵌入方案中,本文所提出的框架的檢測效果優(yōu)于其他方案,但檢測時間高于其他方法,是很大的不足之處。AGraphSageRF是在NGraphSage

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論