版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
身份認(rèn)證與社交機器人檢測相關(guān)技術(shù)基礎(chǔ)概述 11.1社會工程學(xué)攻擊介紹 11.2基于鼠標(biāo)和鍵盤動力學(xué)認(rèn)證 2 2 31.3社交機器人檢測 6 61.3.2社交機器人相關(guān)檢測技術(shù) 71.1社會工程學(xué)攻擊介紹導(dǎo)致社會工程學(xué)進(jìn)行攻擊被越來越多的黑客所利用,比如高級持續(xù)性威脅(AdvancedPersistentThreat,APT)攻擊就是安全領(lǐng)域中的社會工程學(xué)攻擊經(jīng)典方法。常見的攻擊(1)冒名頂替:通過冒充他人身份達(dá)到自己的目的。這是非常常見的社會工程學(xué)(2)社會關(guān)系:使用最廣的社會工程攻擊方法之一。比如,社交網(wǎng)絡(luò)中對各賬戶高級行為的程序,有些社交機器賬戶傳播虛假信息、發(fā)動DDoS攻擊,對網(wǎng)絡(luò)健康產(chǎn)生(3)利益相關(guān):顧名思義是與被攻擊者的利益相關(guān),利用人類貪欲獲取信息,比如為獲取發(fā)送禮品填寫問卷,泄露自己信息,認(rèn)為同信任的人可交換更有價值的東西,(4)漏洞攻擊:利用客戶端或者電腦應(yīng)用程序的漏洞來獲取目標(biāo)的信息。比如,部分。所謂的身份認(rèn)證就是一個認(rèn)證過程,即在(1)提供可識別的物件。生活中經(jīng)常會用到的門禁卡和信用卡進(jìn)行身份認(rèn)證,但(3)生物特征識別。生物特征包括兩類特征,第一類是生理特征。在現(xiàn)階段,生某幾個:口用,未來的關(guān)鍵選擇之一是提供基于生物特征的安全的技術(shù)比傳統(tǒng)身技術(shù)有更大的優(yōu)勢,如表2-1所示,對比了基于生物特征和傳統(tǒng)身份認(rèn)易變程度密碼容易容易容易鑰匙容易容易困難困難原始數(shù)據(jù)訓(xùn)練階段測試階段鼠標(biāo)為分析和清洗數(shù)據(jù)或非法?準(zhǔn)據(jù)標(biāo)數(shù)1.數(shù)據(jù)獲取現(xiàn)有研究中數(shù)據(jù)獲取的方法包括兩種,一種是采用公開的數(shù)據(jù)集,但是公開的鼠標(biāo)和鍵盤行為數(shù)據(jù)非常少,也不一定適用用于研究方向。第二種方法是通過真實環(huán)境采集數(shù)據(jù),大部分研究采取的是這種方案,通常會采用消息鉤子API的方式來采集所需數(shù)據(jù)。對于靜態(tài)檢測,會先指定一些任務(wù),并要求用戶登錄前完成。而持續(xù)性檢測,程序會在人機交互期不斷收集用戶行為。這個階段主要是對采集的數(shù)據(jù)進(jìn)行規(guī)范和約束,去除噪音將有效提高檢測的性能。比如,采集鼠標(biāo)時易產(chǎn)生大量小范圍的位移行為,也就是抖動數(shù)據(jù),這類數(shù)據(jù)跟行為特性不存在太大關(guān)聯(lián),而大的位移過行為出現(xiàn)概率低,這些噪音的存在降低對行為特性的識別,需要進(jìn)行降噪處理,剔除一些噪音。數(shù)據(jù)在進(jìn)行預(yù)處理之后,會對數(shù)據(jù)進(jìn)行復(fù)雜的計算來得到行為特征。比如,基于時間間隔計算的鍵盤特征,鼠標(biāo)特征有低級行為特征和高級行為特征,低級行為特征是基于元數(shù)據(jù)可直接得到的,高級行為特征是進(jìn)一步組合低級行為特征再細(xì)化,包括有移動的角度、速度曲線等。選取的特征對用戶認(rèn)證效果有非常大的影響,也影響計算資源,常用操作是進(jìn)行特征選擇或者降維,來提高認(rèn)證效率。4.模型生成經(jīng)過第三步的特征提取后會得到特征向量矩陣,接下來這階段需要使用算法對行為特征進(jìn)行建模。算法一直是研究的重點,目前主要的研究方法都是一些經(jīng)典的機器學(xué)習(xí)支持向量機的核心是尋求最大分類間隔,是二分類算法,可用于分類,也可用于回歸,同時支持線性與非線性的,支持向量機也已被許多學(xué)者選作首要分類或回歸應(yīng)用方法。如圖2-2描述的是支持向量機在二維平面的分類,圖中實線A稱為“決策面”。圖分類間隔。在每個方向上都有一個最優(yōu)決策面來終目標(biāo)是找到使得分類間隔最大的決策面。支持向量機最優(yōu)解就支持向量機可以解決如何尋找滿足分類要求的超平面的問題,并調(diào)整超平面位置,問題。經(jīng)拉格朗日乘子法和KKT條件推導(dǎo)后,得到如下式子,最大化:由于數(shù)據(jù)或許會存在誤差,這里引入松弛變量i,進(jìn)行問題優(yōu)化,則式子(2-3)變5.身份認(rèn)證特征模型進(jìn)行比較,就可以對當(dāng)前用戶的身份做出判斷,如果是非法用戶便鎖定系統(tǒng),(1)從內(nèi)容上看,文本短,大部分社交網(wǎng)絡(luò)平臺限制用戶發(fā)表博文的字符數(shù)在一(2)從格式上看,形式不規(guī)范,符號標(biāo)記多,文字較少,大部分博文的信息量往(3)從使用方式上看,大部分社交網(wǎng)絡(luò)通常開放自身接□,如微博,用戶可以使用不同的終端如網(wǎng)頁、手機客戶端等方式發(fā)布博文,其中移動平臺上的客戶端已經(jīng)成為當(dāng)前的主流。(4)從內(nèi)容傳播方式上看,實時性高,社交網(wǎng)絡(luò)復(fù)雜。由于社交網(wǎng)絡(luò)的信息傳播范圍呈幾何級數(shù)式擴大,使得信息可以快速地傳遞給大量用戶。但同時,大量惡意機器人也正是利用這一特性致使網(wǎng)絡(luò)垃圾信息泛濫。社交網(wǎng)絡(luò)的轉(zhuǎn)發(fā)評論等各種操作離不開唯一身份標(biāo)識一賬號,賬號是一種由多個不同字符組成的用戶身份證書,攻擊者攻擊常利用社交賬號進(jìn)行各種非法行為。被使用并對網(wǎng)絡(luò)造成危害的賬號稱為異常賬號,人們使用賬號的目的不同(騷擾、廣告、竊取信息、欺詐、引導(dǎo)輿論等問題),因此存在多種類型的異常用戶,常見異常用戶分類表如表2-2所示。Tab.2-2Classificationofcommonabn異常用戶類型惡意機器用戶真實用戶操作實現(xiàn)各種功能的用戶。垃圾用戶虛假用戶注冊的虛假賬號,用于發(fā)布虛假信息和虛假評論等。水軍異常情緒用戶1.3.2社交機器人相關(guān)檢測技術(shù)社交機器人特征主要包括基于內(nèi)容和用戶本身兩大類,為了描述社交網(wǎng)絡(luò)賬戶背后的人為干預(yù),檢測模型使用多種特征。文獻(xiàn)[31]將特征歸為五種類型,如表2-3所示,即內(nèi)容特征、情感特征、賬戶信息特征、用戶活動特征和網(wǎng)絡(luò)特征。特征類型特征定義內(nèi)容特征網(wǎng)絡(luò)特征個字母序列的數(shù)目和類型,URL,話題或提及其他用推文中表達(dá)的情緒是否屬于某個主題和屬于某個些特征不傾向于頻繁變化,因此不需要按照內(nèi)容或情感特征一樣的規(guī)則特征提取是社交機器人等異常用戶檢測的重要一步,選取特征的原則包括特征區(qū)分度大,特征之間的相關(guān)性最小和特征全面。目前,許多研究者為維持社交網(wǎng)絡(luò)健康和信息安全,提出了很多針對異常用戶檢測的方法。雖然垃圾用戶和虛假用戶等異常用戶的日常行為以及活動與機器用戶表現(xiàn)有所不同,但這些用戶的行為不符合正常社交行為模式。因此,對于機器用戶的檢測,我們可借鑒水軍和垃圾用戶等異常用戶檢測的思路。根據(jù)這些檢測方法的不同思想,從分類、聚類、混合、圖論和眾包幾個角度出發(fā),將檢測方法分為五類,下面對這五類檢測方案進(jìn)行一些簡單介紹,更詳細(xì)的檢測方法可參考相關(guān)文獻(xiàn)。(1)基于分類的檢測技術(shù)。機器用戶檢測可看作二分類問題,基于分類的檢測目前研究最多,應(yīng)用最廣,包括樸素貝葉斯127,決策樹[28,隨機森林[471,SVM481等,基于分類的檢測有著統(tǒng)一的檢測框架,如圖2-3所示,包括監(jiān)控社交平臺來獲取原始數(shù)據(jù),對數(shù)據(jù)進(jìn)行預(yù)處理并提取能區(qū)分正常用戶和惡意機器用戶的特征,再選用合適的分類器或改進(jìn)分類器進(jìn)行分類,從而識別出兩類用戶。上述檢測方案采用傳統(tǒng)的機器學(xué)習(xí)方法居多,最近幾年,深度學(xué)習(xí)得到眾多研究者重點關(guān)注和研究,深度學(xué)習(xí)方法也用于檢測惡意機器用戶,例如文獻(xiàn)[30]提出了一種新的上下文LSTM架構(gòu)。像這樣的深度學(xué)習(xí)方法很少用于社交網(wǎng)絡(luò)異常檢測中,此研究提議的架構(gòu)在機器人檢測方面達(dá)到一個比較先進(jìn)的性能(超過96%的AUC分?jǐn)?shù))。(2)基于聚類的檢測技術(shù)。聚類屬于無監(jiān)督技術(shù),無監(jiān)督檢測技術(shù)雖然不像有監(jiān)督的方法那么受歡迎,但無監(jiān)督的方法也非常適用發(fā)現(xiàn)機器人群和真正的用戶群體之間的差異?;诰垲惖臋z測方案的基本思想是,把機器賬號檢測當(dāng)作是聚類問題。如圖2-4所示,首先挖掘賬號的某些有區(qū)分度的特征,然后根據(jù)特征進(jìn)行聚類,聚類結(jié)果分為正常賬號和機器賬號,聚類有兩種方式,第一種是只聚類正常賬號,不在正常賬號類中的為機器用戶;或者分別將正常賬號和機器用戶各聚為一類,再通過對各類中的賬戶進(jìn)行抽樣驗證,即判斷該類別的其他賬戶是否異常,沒有必要提前識別樣本數(shù)據(jù)。以往研究主要集中在收集大規(guī)模數(shù)據(jù)以對用戶的行為模式進(jìn)行聚類,主要包括:1)劃分聚類首先設(shè)定類簇的個數(shù),然后反復(fù)循環(huán)聚類,將樣本集劃分為多個互斥聚類,若屬于同類簇,樣本相似度較大,相反相似度較小。文獻(xiàn)[49]采用雙層采樣算法進(jìn)行檢測,提取基本用戶特征,包括關(guān)注數(shù)和賬戶年齡等,內(nèi)容特征包括鏈接數(shù)等,行為特征包括發(fā)文數(shù)等,還有一些關(guān)系圖特征和鄰居特征,提取特征之后,采用排序與聚類算法相結(jié)合的方式進(jìn)行檢測。2)層次聚類顧名思義就是對樣本集一層一層聚類,然后構(gòu)成聚類樹的一個過程。文獻(xiàn)[50]提出的方法是基于層次聚類檢測虛假用戶,先通過字符串模式將大量數(shù)據(jù)進(jìn)行分類,然后再計算各類別中字符串的相似度,最后通過層次聚類算法尋找海量數(shù)據(jù)中的異常異常用戶。3)密度聚類通過使用密度對不同的簇進(jìn)行劃分,Nguyen等人51提出一種組合分類和密度聚類檢測機器用戶的方法。4)增量式聚類可以減少訓(xùn)練開銷。典型的有Single-Pass算法,此算法思想是,首先把第一個文檔作為一個話題,然后計算后續(xù)文本與現(xiàn)有話題之間相似度,給定一個閾值,判斷閾值和相似度的大小,若閾值大于相似度,則表示此文本無法歸屬于已有話題的來別,需重新創(chuàng)話題類別,相反,如果閾值比相似度值小,則將文本劃分為該話題。正常賬號機器賬號(3)基于混合的檢測技術(shù)??紤]到不管是有監(jiān)督還是無監(jiān)督檢測算法,都有其固檢測,首先采用K-medoids將樣本進(jìn)行聚類分組,然后采用支持向量機進(jìn)行分類。此研文分類器采用支持向量機實現(xiàn)對垃圾文章的檢測。Nguyen等人51提出了一種將協(xié)同過(4)基于圖論的檢測技術(shù)?;谏缃痪W(wǎng)絡(luò)結(jié)構(gòu)特征的方法是一種比其他類型方法征來檢測。如果將社交網(wǎng)絡(luò)中的某用戶i看作為網(wǎng)絡(luò)圖中的節(jié)點,則用戶i的朋友關(guān)系其中,聚類系數(shù)值越大,表明好友關(guān)系緊密。檢測特征也可包含核節(jié)點數(shù)。圖的k于好友關(guān)系結(jié)構(gòu)相比行為和內(nèi)容更難模擬,惡意社交機器人以及其他類型異常用戶社交網(wǎng)絡(luò)平臺的便捷性,大肆發(fā)布和轉(zhuǎn)發(fā)惡意信息。如圖2-5是惡意機器用戶和正常用戶間關(guān)注網(wǎng)絡(luò)局部鏈接結(jié)構(gòu),社交網(wǎng)絡(luò)中的交友方式包括單向關(guān)注和雙向關(guān)注,圖中A和C為惡意機器用戶,B為正常用戶,A和C關(guān)注B,而B沒有關(guān)注A和C,B關(guān)注惡失衡。而正常用戶的關(guān)注數(shù)與朋友數(shù)相差不會很大。BABCC此外,現(xiàn)有基于結(jié)構(gòu)的方法包括基于隨機游走(RandomWalking,RW)和循環(huán)信念傳播(LoopyBeliefPropagation,LBP)兩種。基于RW的方法不能同時利用帶標(biāo)簽的異常用戶和帶標(biāo)簽的良性用戶,這限制檢測精度,并且對噪聲標(biāo)簽不具有魯棒性?;贚BP的方法是不可擴展的,不能保證收斂性。為了利用不同好友關(guān)系(關(guān)注與被關(guān)注)的帶來的影響力變化。經(jīng)典的方案包括Cao等人55提出的SybilRank,Gong等人56提出的SybilBelief,和Wang等人提出了一個統(tǒng)一基于RW和LBP方法的框架一SybilSCARI?71,之后Wang在此基礎(chǔ)上采用有向圖來建模好友關(guān)系8,并基于節(jié)點間影響力進(jìn)行建模,節(jié)點的可疑程度采用馬爾科夫隨機場模型和循環(huán)信念傳播進(jìn)行計算,論文中的實驗表明,與傳統(tǒng)的只考慮可疑節(jié)點和正常節(jié)點、或只考慮無向圖以及使用隨機游走的方法相比,循環(huán)信念傳播算法結(jié)合有向邊節(jié)點,同時考慮可疑節(jié)點和正常節(jié)點,所提出的方法有更好的檢測效果。隨后王等人設(shè)計了一個新的局部規(guī)則,sybilSCAR迭代地應(yīng)用于每個用(5)基于眾包的檢測技術(shù)。眾包方法也稱黑名單方法[601,這種方法用的比較少,當(dāng)使用此方法時,需要“專家”工作人員來準(zhǔn)確地檢測虛假賬戶。具體來說,檢測需要專門的標(biāo)注人員,當(dāng)有任務(wù)時,將任務(wù)分發(fā)給他們,然后標(biāo)記人員對用戶進(jìn)行標(biāo)記,若大多數(shù)標(biāo)記為社交機器人,則該用戶為機器用戶。之前有少數(shù)研究是基于眾包進(jìn)行檢測。Wang等61設(shè)計一個可擴展系統(tǒng)來檢測社交機器人,并在公共平臺上招募標(biāo)注者參與系統(tǒng)檢測。系統(tǒng)分為兩層:第一層為過濾層,首先根據(jù)一些特征來判斷用戶是否偏離正常模式,當(dāng)出現(xiàn)偏離,需要采集用戶信息。第二層是眾包層,在這一層主要是標(biāo)注者根據(jù)某些判斷標(biāo)準(zhǔn)人工標(biāo)記第一層中認(rèn)為偏離正常的用戶。實驗過程中,研究者分了兩組標(biāo)記組,第一組是語言學(xué)專家和研究生組成的專家組,另一組是社會科學(xué)專業(yè)的本科生組成。標(biāo)注者是有權(quán)利在網(wǎng)站上查看這些用戶的相關(guān)信息,然后根據(jù)用戶所發(fā)表的文章或所填寫的信息來判斷賬戶的身份。結(jié)果表明,專家組的檢測精度較高。基于眾包的方法是一種趨勢,能得到較高的準(zhǔn)確率,但是也暴露了不少
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年民生銀行沈陽分行社會招聘備考題庫有答案詳解
- 2025年欽州市靈山生態(tài)環(huán)境局關(guān)于向社會公開招聘工作人員的備考題庫附答案詳解
- 2025年廣州越秀區(qū)文聯(lián)招聘合同制輔助人員備考題庫完整參考答案詳解
- 2026年短期影院影片策劃合同
- 2026年綠電交易合同
- 2025年鄭州市中原銀行農(nóng)村普惠金融支付服務(wù)點招聘備考題庫及一套答案詳解
- 2026年國際傳統(tǒng)醫(yī)藥國際城市關(guān)尹子星城市合同
- 中國人民銀行清算總中心所屬企業(yè)城銀清算服務(wù)有限責(zé)任公司2026年校園招聘16人備考題庫及參考答案詳解1套
- 2026年長沙市中小學(xué)素質(zhì)教育實踐基地岳麓營地編外合同制教師、教官招聘備考題庫及參考答案詳解一套
- 2025年嘉睿招聘(派遣至市第四人民醫(yī)院)備考題庫及1套完整答案詳解
- 現(xiàn)代精細(xì)化工生產(chǎn)技術(shù) 課件 模塊1-4 表面活性劑 -涂料
- 合伙開母嬰店協(xié)議合同
- 2025年事業(yè)單位招聘考試綜合類專業(yè)能力測試試卷(新聞類)新媒體運營與管理實戰(zhàn)
- GB/T 23436-2025汽車風(fēng)窗玻璃清洗液
- 冷庫安全培訓(xùn)演練課件
- 2025年高考物理山東卷試卷評析及備考策略(課件)
- 農(nóng)業(yè)產(chǎn)業(yè)新質(zhì)生產(chǎn)力
- 五金廠生產(chǎn)部工時統(tǒng)計制度
- 研磨鉆石的專業(yè)知識培訓(xùn)課件
- 以青春之名赴時代之約-高中愛國主題班會-2025-2026高中主題班會
- 2025年傳達(dá)學(xué)習(xí)醫(yī)療機構(gòu)重大事故隱患判定清單會議記錄
評論
0/150
提交評論