版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
社交機器人檢測基礎(chǔ)基礎(chǔ)概述1.1社交網(wǎng)絡(luò)相關(guān)概念現(xiàn)在大多數(shù)人們喜愛并愿意在大眾社交媒體平臺積極發(fā)表言論,整個社交網(wǎng)絡(luò)已逐漸趨于復雜化和多元化,社交網(wǎng)絡(luò)的特點對特征選取有著很大的影響,現(xiàn)有的社交網(wǎng)絡(luò)的特點可歸納為以下幾點:(1)從內(nèi)容上看,文本短,大部分社交網(wǎng)絡(luò)平臺限制用戶發(fā)表博文的字符數(shù)在一個小范圍之內(nèi),傳統(tǒng)的分析方法并不適用于這樣的平臺。(2)從格式上看,形式不規(guī)范,符號標記多,文字較少,大部分博文的信息量往往在所附帶的圖片或者視頻中,格式多樣且形象。(3)從使用方式上看,大部分社交網(wǎng)絡(luò)通常開放自身接口,如微博,用戶可以使用不同的終端如網(wǎng)頁、手機客戶端等方式發(fā)布博文,其中移動平臺上的客戶端已經(jīng)成為當前的主流。(4)從內(nèi)容傳播方式上看,實時性高,社交網(wǎng)絡(luò)復雜。由于社交網(wǎng)絡(luò)的信息傳播范圍呈幾何級數(shù)式擴大,使得信息可以快速地傳遞給大量用戶。但同時,大量惡意機器人也正是利用這一特性致使網(wǎng)絡(luò)垃圾信息泛濫。社交網(wǎng)絡(luò)的轉(zhuǎn)發(fā)評論等各種操作離不開唯一身份標識—賬號,賬號是一種由多個不同字符組成的用戶身份證書,攻擊者攻擊常利用社交賬號進行各種非法行為。被使用并對網(wǎng)絡(luò)造成危害的賬號稱為異常賬號,人們使用賬號的目的不同(騷擾、廣告、竊取信息、欺詐、引導輿論等問題),因此存在多種類型的異常用戶,常見異常用戶分類表如表2-2所示。表2-2常見異常用戶分類表Tab.2-2Classificationofcommonabnormalusers異常用戶類型異常用戶定義惡意機器用戶實施惡意行為、傳播惡意信息的,由計算機編程語言編寫的在社交網(wǎng)絡(luò)中能模擬真實用戶操作實現(xiàn)各種功能的用戶。僵尸粉由特定軟件生成的惡意賬號,主要目的是為急需成為熱門用戶和熱門話題的用戶服務(wù),經(jīng)常假裝是普通用戶,不會通過向其他用戶發(fā)布垃圾郵件來暴露自己。垃圾用戶主要利用社交平臺大量發(fā)布相似無信息量的信息。但是大部分情況是發(fā)垃圾郵件,對組織無實質(zhì)性的傷害。虛假用戶注冊的虛假賬號,用于發(fā)布虛假信息和虛假評論等。水軍一群出于政治或經(jīng)濟目的,在網(wǎng)絡(luò)社交網(wǎng)絡(luò)中傳播信息,引導輿論方向,使信息在短時間內(nèi)大范圍傳播的網(wǎng)絡(luò)用戶。異常情緒用戶指自由地在平臺發(fā)表個人意見和觀點,發(fā)泄情感,并表現(xiàn)出情緒波動較大的用戶。1.2社交機器人相關(guān)檢測技術(shù)社交機器人特征主要包括基于內(nèi)容和用戶本身兩大類,為了描述社交網(wǎng)絡(luò)賬戶背后的人為干預,檢測模型使用多種特征。文獻[31]將特征歸為五種類型,如表2-3所示,即內(nèi)容特征、情感特征、賬戶信息特征、用戶活動特征和網(wǎng)絡(luò)特征。表2-3特征類型Tab.2-3Featurestype特征類型特征定義內(nèi)容特征是與消息相關(guān)的特性,通過消息解析分析獲得的,可以是推文中的字數(shù),標點符號和n個字母序列的數(shù)目和類型,URL,話題或提及其他用戶的數(shù)量。情感特征情感特征的目的是衡量對某一主題的不同情緒,以及對每一種情緒表達的程度,還有計算推文中表達的情緒是否屬于某個主題和屬于某個主題的強度。賬戶信息特征用戶的基本信息,包括用戶名、帳戶描述、帳戶語言、好友數(shù)量、粉絲的數(shù)量等,由于這些特征不傾向于頻繁變化,因此不需要按照內(nèi)容或情感特征一樣的規(guī)則來提取它們。用戶活動特征用戶活動包括發(fā)布博文的頻率、多條博文之間的相似性以及發(fā)博文方式的任何度量。還有些統(tǒng)計指標根據(jù)用戶的博文計算,表示一個獨特元素的出現(xiàn)次數(shù)與博文數(shù)量之間的比率。網(wǎng)絡(luò)特征用于測量消息流和用戶交互,比如不同用戶之間博文的相似性和其他典型的行為,包括回復或轉(zhuǎn)發(fā)一條博文的次數(shù)、用戶之間的雙向鏈接的次數(shù),以及對一組賬戶中某個主題的情緒一致性。使用這些特征需要觀察多個相關(guān)用戶的行為。特征提取是社交機器人等異常用戶檢測的重要一步,選取特征的原則包括特征區(qū)分度大,特征之間的相關(guān)性最小和特征全面。目前,許多研究者為維持社交網(wǎng)絡(luò)健康和信息安全,提出了很多針對異常用戶檢測的方法。雖然垃圾用戶和虛假用戶等異常用戶的日常行為以及活動與機器用戶表現(xiàn)有所不同,但這些用戶的行為不符合正常社交行為模式。因此,對于機器用戶的檢測,我們可借鑒水軍和垃圾用戶等異常用戶檢測的思路。根據(jù)這些檢測方法的不同思想,從分類、聚類、混合、圖論和眾包幾個角度出發(fā),將檢測方法分為五類,下面對這五類檢測方案進行一些簡單介紹,更詳細的檢測方法可參考相關(guān)文獻。(1)基于分類的檢測技術(shù)。機器用戶檢測可看作二分類問題,基于分類的檢測目前研究最多,應(yīng)用最廣,包括樸素貝葉斯[27],決策樹[28],隨機森林[47],SVM[48]等,基于分類的檢測有著統(tǒng)一的檢測框架,如圖2-3所示,包括監(jiān)控社交平臺來獲取原始數(shù)據(jù),對數(shù)據(jù)進行預處理并提取能區(qū)分正常用戶和惡意機器用戶的特征,再選用合適的分類器或改進分類器進行分類,從而識別出兩類用戶。上述檢測方案采用傳統(tǒng)的機器學習方法居多,最近幾年,深度學習得到眾多研究者重點關(guān)注和研究,深度學習方法也用于檢測惡意機器用戶,例如文獻[30]提出了一種新的上下文LSTM架構(gòu)。像這樣的深度學習方法很少用于社交網(wǎng)絡(luò)異常檢測中,此研究提議的架構(gòu)在機器人檢測方面達到一個比較先進的性能(超過96%的AUC分數(shù))。圖2-3基于分類的社交機器人檢測框架Fig.2-3Socialrobotdetectionframeworkbasedonclassification(2)基于聚類的檢測技術(shù)。聚類屬于無監(jiān)督技術(shù),無監(jiān)督檢測技術(shù)雖然不像有監(jiān)督的方法那么受歡迎,但無監(jiān)督的方法也非常適用發(fā)現(xiàn)機器人群和真正的用戶群體之間的差異?;诰垲惖臋z測方案的基本思想是,把機器賬號檢測當作是聚類問題。如圖2-4所示,首先挖掘賬號的某些有區(qū)分度的特征,然后根據(jù)特征進行聚類,聚類結(jié)果分為正常賬號和機器賬號,聚類有兩種方式,第一種是只聚類正常賬號,不在正常賬號類中的為機器用戶;或者分別將正常賬號和機器用戶各聚為一類,再通過對各類中的賬戶進行抽樣驗證,即判斷該類別的其他賬戶是否異常,沒有必要提前識別樣本數(shù)據(jù)。以往研究主要集中在收集大規(guī)模數(shù)據(jù)以對用戶的行為模式進行聚類,主要包括:劃分聚類首先設(shè)定類簇的個數(shù),然后反復循環(huán)聚類,將樣本集劃分為多個互斥聚類,若屬于同類簇,樣本相似度較大,相反相似度較小。文獻[49]采用雙層采樣算法進行檢測,提取基本用戶特征,包括關(guān)注數(shù)和賬戶年齡等,內(nèi)容特征包括鏈接數(shù)等,行為特征包括發(fā)文數(shù)等,還有一些關(guān)系圖特征和鄰居特征,提取特征之后,采用排序與聚類算法相結(jié)合的方式進行檢測。層次聚類顧名思義就是對樣本集一層一層聚類,然后構(gòu)成聚類樹的一個過程。文獻[50]提出的方法是基于層次聚類檢測虛假用戶,先通過字符串模式將大量數(shù)據(jù)進行分類,然后再計算各類別中字符串的相似度,最后通過層次聚類算法尋找海量數(shù)據(jù)中的異常異常用戶。密度聚類通過使用密度對不同的簇進行劃分,Nguyen等人[51]提出一種組合分類和密度聚類檢測機器用戶的方法。增量式聚類可以減少訓練開銷。典型的有Single-Pass算法,此算法思想是,首先把第一個文檔作為一個話題,然后計算后續(xù)文本與現(xiàn)有話題之間相似度,給定一個閾值,判斷閾值和相似度的大小,若閾值大于相似度,則表示此文本無法歸屬于已有話題的來別,需重新創(chuàng)話題類別,相反,如果閾值比相似度值小,則將文本劃分為該話題。圖2-4基于聚類的檢測方案Fig.2-4Detectionschemebasedonclustering(3)基于混合的檢測技術(shù)。考慮到不管是有監(jiān)督還是無監(jiān)督檢測算法,都有其固定的缺陷,因此有些學者提出了將多種機器學習算法結(jié)合,包括無監(jiān)督和有監(jiān)督的結(jié)合以及多種分類算法的結(jié)合。比如,Chitrakar等人[52]結(jié)合支持向量機和聚類算法進行異常檢測,首先采用K-medoids將樣本進行聚類分組,然后采用支持向量機進行分類。此研究進行的實驗結(jié)果表明,方法對于檢測準確率有一定的提升,但對大規(guī)模數(shù)據(jù)集不敏感,時間復雜度非常高。文獻[53]在特征方面考慮了統(tǒng)計和語義特征,首先從語料庫中提取這兩類特征,再融合隱含狄利克雷分布模型所提取的主題特征作為分類器的輸入,此論文分類器采用支持向量機實現(xiàn)對垃圾文章的檢測。Nguyen等人[51]提出了一種將協(xié)同過濾與基于密度的聚類相結(jié)合的方法,用于檢測網(wǎng)絡(luò)中的機器用戶。談磊等人[54]結(jié)合樸素貝葉斯模型與K近鄰模型,該方法通過選擇策略來選擇合適的檢測算法,此模型的算法達到了提高檢測準確率的目的,但需注意特征的選取。(4)基于圖論的檢測技術(shù)。基于社交網(wǎng)絡(luò)結(jié)構(gòu)特征的方法是一種比其他類型方法更為昂貴和復雜的方法?;诮Y(jié)構(gòu)的方法可以是有監(jiān)督,無監(jiān)督和半監(jiān)督,在檢測惡意機器用戶方面具有廣闊的應(yīng)用前景。目前通過網(wǎng)絡(luò)結(jié)構(gòu)檢測社交機器人的研究極少,可以借鑒網(wǎng)絡(luò)水軍和僵尸粉以及垃圾郵件發(fā)送者的檢測的思想,通過網(wǎng)絡(luò)結(jié)構(gòu)挖掘相關(guān)特征來檢測。如果將社交網(wǎng)絡(luò)中的某用戶i看作為網(wǎng)絡(luò)圖中的節(jié)點,則用戶i的朋友關(guān)系網(wǎng)絡(luò)可以視為有向圖G’,={V,E}。其中,V表示所有與用戶i有關(guān)系的集合,E是節(jié)點之間關(guān)系。ki表示節(jié)點i的度,Ei是節(jié)點i的ki個鄰居之間鄰居對數(shù)。聚類系數(shù)Ci衡量i的朋友圈的親密度,聚類系數(shù)的定義如下:(2-9)其中,聚類系數(shù)值越大,表明好友關(guān)系緊密。檢測特征也可包含核節(jié)點數(shù)。圖的k核是指在網(wǎng)絡(luò)圖中刪除小于等于k的節(jié)點后剩下的子圖,機器用戶由于朋友間關(guān)系松散,核數(shù)較低。除了使用提取圖特征進行檢測之外,還可以對社交網(wǎng)絡(luò)結(jié)構(gòu)進行分析。正常用戶和惡意機器用戶之間的鏈接需要正常用戶的操作,在他們之間存在一個結(jié)構(gòu)性的間隙?;诤糜殃P(guān)系結(jié)構(gòu)相比行為和內(nèi)容更難模擬,惡意社交機器人以及其他類型異常用戶利用社交網(wǎng)絡(luò)平臺的便捷性,大肆發(fā)布和轉(zhuǎn)發(fā)惡意信息。如圖2-5是惡意機器用戶和正常用戶間關(guān)注網(wǎng)絡(luò)局部鏈接結(jié)構(gòu),社交網(wǎng)絡(luò)中的交友方式包括單向關(guān)注和雙向關(guān)注,圖中A和C為惡意機器用戶,B為正常用戶,A和C關(guān)注B,而B沒有關(guān)注A和C,B關(guān)注惡意機器用戶的可能性極小,正常用戶之間基本是互相關(guān)注或者單向關(guān)注,關(guān)注惡意機器用戶的通常是惡意機器用戶。惡意機器用戶會傾向發(fā)布大量的博文以提高自己的影響力,吸引更多粉絲的關(guān)注,但難得被正常用戶所關(guān)注,通常造成用戶的關(guān)注數(shù)與朋友數(shù)之比失衡。而正常用戶的關(guān)注數(shù)與朋友數(shù)相差不會很大。圖2-5惡意機器用戶和正常用戶間關(guān)注網(wǎng)絡(luò)局部鏈接結(jié)構(gòu)Fig.2-5Locallinkstructurebetweenmaliciousmachineusersandnormalusers此外,現(xiàn)有基于結(jié)構(gòu)的方法包括基于隨機游走(RandomWalking,RW)和循環(huán)信念傳播(LoopyBeliefPropagation,LBP)兩種?;赗W的方法不能同時利用帶標簽的異常用戶和帶標簽的良性用戶,這限制檢測精度,并且對噪聲標簽不具有魯棒性?;贚BP的方法是不可擴展的,不能保證收斂性。為了利用不同好友關(guān)系(關(guān)注與被關(guān)注)的帶來的影響力變化。經(jīng)典的方案包括Cao等人[55]提出的SybilRank,Gong等人[56]提出的SybilBelief,和Wang等人提出了一個統(tǒng)一基于RW和LBP方法的框架—SybilSCAR[57],之后Wang在此基礎(chǔ)上采用有向圖來建模好友關(guān)系[58],并基于節(jié)點間影響力進行建模,節(jié)點的可疑程度采用馬爾科夫隨機場模型和循環(huán)信念傳播進行計算,論文中的實驗表明,與傳統(tǒng)的只考慮可疑節(jié)點和正常節(jié)點、或只考慮無向圖以及使用隨機游走的方法相比,循環(huán)信念傳播算法結(jié)合有向邊節(jié)點,同時考慮可疑節(jié)點和正常節(jié)點,所提出的方法有更好的檢測效果。隨后王等人設(shè)計了一個新的局部規(guī)則,sybilSCAR迭代地應(yīng)用于每個用戶來檢測異常用戶[59]。(5)基于眾包的檢測技術(shù)。眾包方法也稱黑名單方法[60],這種方法用的比較少,當使用此方法時,需要“專家”工作人員來準確地檢測虛假賬戶。具體來說,檢測需要專門的標注人員,當有任務(wù)時,將任務(wù)分發(fā)給他們,然后標記人員對用戶進行標記,若大多數(shù)標記為社交機器人,則該用戶為機器用戶。之前有少數(shù)研究是基于眾包進行檢測。Wang等[61]設(shè)計一個可擴展系統(tǒng)來檢測社交機器人,并在公共平臺上招募標注者參與系統(tǒng)檢測。系統(tǒng)分為兩層:第一層為過濾層,首先根據(jù)一些特征來判斷用戶是否偏離正常模式,當出現(xiàn)偏離,需要采集用戶信息。第二層是眾包層,在這一層主要是標注者根據(jù)某些判斷標準人工標記第一層中認為偏離正常的用戶。實驗過程中,研究者分了兩組標記組,第一組是語言學專家和研究生組成的專家組,另一組是社會科學專業(yè)的本科生組成。標注者是有權(quán)利在網(wǎng)站上查看這些用戶的相關(guān)信息,然后根據(jù)用戶所發(fā)表的文章或所填寫的信息來判斷賬戶的身份。結(jié)果表明,專家組的檢測精度較高?;诒姲姆椒ㄊ且环N趨勢,能得到較高的準確率,但是也暴露了不少問題,包括隱私保護,眾包系統(tǒng)的安全性等。以上五種方案是對檢測技術(shù)進行了分類概括,事實上,這幾種檢測方案之間是具有一定的聯(lián)系的,無明確界限。比如基于混合的方案既會包含基于分類的檢測方案,也會包含聚類的相關(guān)算法。不同的檢測方案適用于不同的場景,其共同目標都是所提取的特征和所用的算法能夠提高異常用戶檢測的效率。上面的概括并不是所有的研究都有描述,選取了一些研究作為代表,各方案的優(yōu)缺點如表2-4所示。表2-4檢測方案的
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 四川省引大濟岷水資源開發(fā)有限公司公開遴選工作人員考試備考題庫及答案解析
- 2026年武漢經(jīng)開區(qū)教育系統(tǒng)校園專項招聘教師50人筆試備考試題及答案解析
- 2026年濟寧市直教育系統(tǒng)急需緊缺人才招聘(52名)考試參考題庫及答案解析
- 2026江西吉安市吉水縣城控人力資源服務(wù)有限公司招聘勞務(wù)外包1人(一)考試參考題庫及答案解析
- 2026中國聯(lián)通招聘博士后工作站校園招聘(福建有崗)考試參考題庫及答案解析
- 資陽市雁江區(qū)區(qū)屬國有企業(yè)招聘(15人)考試備考試題及答案解析
- 2025黑龍江交通職業(yè)技術(shù)學院“黑龍江人才周”招聘38人考試備考題庫及答案解析
- 2026上海虹口紅樹林志愿服務(wù)分隊招募考試參考試題及答案解析
- 2026年金華武義縣中心血庫招聘編外衛(wèi)技人員1人考試備考題庫及答案解析
- 2026內(nèi)蒙古赤峰市寧城縣八里罕中學招聘公益性崗位人員1人考試參考試題及答案解析
- GB/T 2091-2008工業(yè)磷酸
- GB/T 12234-2019石油、天然氣工業(yè)用螺柱連接閥蓋的鋼制閘閥
- GA/T 947.4-2015單警執(zhí)法視音頻記錄系統(tǒng)第4部分:數(shù)據(jù)接口
- 手衛(wèi)生規(guī)范-課件
- 隱身技術(shù)概述課件
- 主題班會PPt-敬畏規(guī)則
- (卓越績效)質(zhì)量獎申報材料
- 樂業(yè)彎里金礦采礦權(quán)評價報告廣西壯族自治區(qū)國土資源廳
- 因私出國(境)申請(備案)表
- DB50-T 867.29-2022 安全生產(chǎn)技術(shù)規(guī)范 第29部分:有色金屬壓力加工企業(yè)
- 危重病人搶救配合PPT課件(PPT 29頁)
評論
0/150
提交評論