《APT攻擊中的CC加密信道檢測(cè)模型設(shè)計(jì)》3500字_第1頁(yè)
《APT攻擊中的CC加密信道檢測(cè)模型設(shè)計(jì)》3500字_第2頁(yè)
《APT攻擊中的CC加密信道檢測(cè)模型設(shè)計(jì)》3500字_第3頁(yè)
《APT攻擊中的CC加密信道檢測(cè)模型設(shè)計(jì)》3500字_第4頁(yè)
《APT攻擊中的CC加密信道檢測(cè)模型設(shè)計(jì)》3500字_第5頁(yè)
已閱讀5頁(yè),還剩3頁(yè)未讀 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

APT攻擊中的C&C加密信道檢測(cè)模型設(shè)計(jì)綜述目錄TOC\o"1-3"\h\u1661.1模型評(píng)價(jià)指標(biāo) 1307071.2基于隨機(jī)森林的C&C加密信道檢測(cè)模型 394701.3實(shí)驗(yàn)結(jié)果與分析 4248881.3.1實(shí)驗(yàn)環(huán)境 4117511.3.2模型參數(shù)的選取 585661.3.3模型分類性能 5248031.3.4特征的重要性 680651.3.5特征集的子集 7模型評(píng)價(jià)指標(biāo)(1)二分類問(wèn)題評(píng)價(jià)指標(biāo)APT攻擊中的惡意加密流量識(shí)別是一個(gè)二分類問(wèn)題。在之后的分類器訓(xùn)練與測(cè)試中,分類預(yù)測(cè)結(jié)果用Positive和Negative表示,Positive(P)代表惡意流量(malware),Negative(N)代表正常流量(benign);Ture表示分類器做出了正確的預(yù)測(cè),而False則表示預(yù)測(cè)錯(cuò)誤。根據(jù)這些定義,表5-1列出了用于評(píng)估模型的指標(biāo)。當(dāng)測(cè)試集在分類器上運(yùn)行后,可以以表5-1的結(jié)構(gòu)給出一個(gè)混淆矩陣用于評(píng)估模型。表5-1二分類問(wèn)題術(shù)語(yǔ)預(yù)測(cè)標(biāo)簽實(shí)際標(biāo)簽正常惡意正常TureNegative(TN)FalsePositive惡意FalseNegative(FN)TurePositive除此之外,定義假正率(FalsePositiveRate,F(xiàn)PR)和真正率(TruePositiveRate,TPR)如下:FPR=TPR=FPR代表的是被錯(cuò)誤標(biāo)記為惡意的正常流量的比例。TPR代表的是分類器正確標(biāo)記的惡意流量的比例。(2)準(zhǔn)確率、精確率、召回率、F1-score準(zhǔn)確率(Accuracy)是最主要的分類評(píng)價(jià)指標(biāo),它給出了正確標(biāo)記的流相對(duì)于數(shù)據(jù)集中樣本總數(shù)的比例,計(jì)算公式如下:Accuracy=精確率(Precision)給出了在所有被分類器標(biāo)記為惡意的流量中真正惡意流量的比例:Precision=召回率(Recall)也被稱為真正率(TPR),它給出了分類器在所有真正的惡意流量中正確發(fā)現(xiàn)的惡意流量的比例:Recall=F1F(3)ROC曲線接收者操作特性曲線(ReceiverOperatingCharacteristicCurve,ROC)表示隨著分類閾值的變化,F(xiàn)PR和TPR之間的關(guān)系。ROC曲線上的每一個(gè)點(diǎn)對(duì)應(yīng)著一個(gè)閾值,每個(gè)閾值下會(huì)有一個(gè)TPR和FPR。圖5-1給出了Scikit-learnADDINEN.CITE<EndNote><Cite><Author>Pedregosa</Author><Year>2011</Year><RecNum>6</RecNum><DisplayText><styleface="superscript">[25]</style></DisplayText><record><rec-number>6</rec-number><foreign-keys><keyapp="EN"db-id="0erv5drx8aspfxettwm50prge0zvs5d2tea0"timestamp="1621320394">6</key></foreign-keys><ref-typename="JournalArticle">17</ref-type><contributors><authors><author>Pedregosa,Fabian</author><author>Varoquaux,Ga?l</author><author>Gramfort,Alexandre</author><author>Michel,Vincent</author><author>Thirion,Bertrand</author><author>Grisel,Olivier</author><author>Blondel,Mathieu</author><author>Prettenhofer,Peter</author><author>Weiss,Ron</author><author>Dubourg,Vincent</author></authors></contributors><titles><title>Scikit-learn:MachinelearninginPython</title><secondary-title>theJournalofmachineLearningresearch</secondary-title></titles><periodical><full-title>theJournalofmachineLearningresearch</full-title></periodical><pages>2825-2830</pages><volume>12</volume><dates><year>2011</year></dates><isbn>1532-4435</isbn><urls></urls></record></Cite></EndNote>[25]的用戶指南中的一個(gè)示例。理想最優(yōu)情況下,ROC曲線經(jīng)過(guò)左上角,此時(shí)對(duì)于這個(gè)特定的閾值,假正率為0,真正率為1。圖5-1ROC曲線示例AUC(AreaUndertheCurveofROC)是ROC曲線與X軸圍成的面積,AUC的大小在[0,1]之間。AUC=1,表示是完美的分類器,該模型至少存在一個(gè)閾值,可以將正負(fù)樣本完美的劃分開;0.5<AUC<1,表示分類器性能優(yōu)于隨機(jī)猜測(cè),且數(shù)值越大,分類器性能越好;AUC=0.5,相當(dāng)于隨機(jī)猜測(cè),模型沒(méi)有預(yù)測(cè)價(jià)值;AUC<0.5,表示分類器性能比隨機(jī)猜測(cè)還差,然而若反向預(yù)測(cè),該模型也可優(yōu)于隨機(jī)猜測(cè)。基于隨機(jī)森林的C&C加密信道檢測(cè)模型隨機(jī)森林是一種通過(guò)多棵決策樹進(jìn)行決策優(yōu)化的算法。因此先簡(jiǎn)單介紹一下決策樹算法的原理,再介紹隨機(jī)森林算法的原理。決策樹決策樹是隨機(jī)森林的基本構(gòu)成要素,將決策樹做出決策看作詢問(wèn)一系列關(guān)于數(shù)據(jù)的是/否問(wèn)題,從而最終做出關(guān)于數(shù)據(jù)所屬類別的決定。決策樹中的葉節(jié)點(diǎn)代表決策結(jié)果,其它各節(jié)點(diǎn)則代表一個(gè)屬性測(cè)試,每個(gè)節(jié)點(diǎn)包含的樣本集合根據(jù)測(cè)試的結(jié)果被劃分到子節(jié)點(diǎn)中,根節(jié)點(diǎn)包含全部樣本。決策樹的關(guān)鍵在于如何選擇最優(yōu)劃分屬性。一般來(lái)說(shuō),隨著決策樹劃分過(guò)程不斷進(jìn)行,我們希望決策樹的分支節(jié)點(diǎn)所包含的樣本盡可能屬于同一類別,即節(jié)點(diǎn)的“純度”越來(lái)越高。CART決策樹既能用于分類任務(wù)也能用于回歸任務(wù),它使用基尼指數(shù)來(lái)選擇劃分屬性。節(jié)點(diǎn)D的基尼指數(shù)(式5-7)是指,根據(jù)節(jié)點(diǎn)中樣本(D)的分布對(duì)樣本分類時(shí),從節(jié)點(diǎn)中隨機(jī)選擇的樣本被分錯(cuò)的概率。Gini因此,在選擇屬性時(shí),選擇那個(gè)使得劃分后基尼指數(shù)最小的屬性作為最優(yōu)劃分屬性。隨機(jī)森林隨機(jī)森林是一種典型的集成學(xué)習(xí)算法。集成學(xué)習(xí)(Ensemblelearnin),是指整個(gè)模型的內(nèi)部是由多個(gè)弱監(jiān)督模型組成,而每個(gè)弱監(jiān)督模型只在某個(gè)方向表現(xiàn)比較好,這樣當(dāng)我們把這些監(jiān)督算法合而為一,就會(huì)得到一個(gè)穩(wěn)定而且各方面都表現(xiàn)較好的模型。森林指的是這個(gè)模型包含了很多決策樹,從而可以將這個(gè)包含了很多決策樹的模型看成一個(gè)森林。隨機(jī)指的是森林中的每棵決策樹都隨機(jī)的采樣數(shù)據(jù)集中的一小部分用于訓(xùn)練決策樹,即看問(wèn)題的角度不一樣,以保證每棵決策樹的輸出相似但不一樣。從而,在最后我們可以將每棵樹的輸出結(jié)果綜合在一起作為隨機(jī)森林模型最終的輸出。一個(gè)典型的隨機(jī)森林算法典型流程如圖5-2所示。圖5-2隨機(jī)森林算法典型流程圖隨機(jī)森林的訓(xùn)練過(guò)程如下:(1)設(shè)定模型中的超參數(shù),比如森林中有多少棵樹,每棵樹最多幾層深度,(2)為了訓(xùn)練每個(gè)決策樹,我們從完整的數(shù)據(jù)集N個(gè)樣本、D個(gè)特征中隨機(jī)采樣,取n個(gè)樣本、d個(gè)特征(N>>n,D>>d)用于訓(xùn)練各個(gè)決策樹,從而保證每棵樹看問(wèn)題的角度都不一樣。(3)當(dāng)每棵樹都完成了訓(xùn)練,我們?cè)侔炎詈蟮慕Y(jié)果再整合在一起。對(duì)于回歸問(wèn)題,一般采用求均值的方法計(jì)算輸出;對(duì)于分類問(wèn)題,一般采用求眾數(shù)的方法決定隨機(jī)森林的輸出值。隨機(jī)森林算法有以下優(yōu)點(diǎn):(1)抗擬合能力和抗噪性強(qiáng)。由于該算法會(huì)隨機(jī)從數(shù)據(jù)集中進(jìn)行采樣,模型隨機(jī)性強(qiáng),且模型最后的整合會(huì)包含不同看問(wèn)題角度的結(jié)果,因此,模型不易過(guò)擬合,并且對(duì)于異常點(diǎn)也不敏感。(2)處理高維數(shù)據(jù)速度快。對(duì)于每次采樣,我們只選取原數(shù)據(jù)集中的一小部分,意味著對(duì)于高維數(shù)據(jù),訓(xùn)練速度會(huì)并傳統(tǒng)的速度快很多(3)支持并行運(yùn)算??梢圆⑿械娜ビ?jì)算森林中每棵決策子樹的決策結(jié)果,從而可以提高模型訓(xùn)練和調(diào)參的效率。(4)模型可解釋性高。由于隨機(jī)森林是樹狀的結(jié)構(gòu),它的模型可解釋度很高,它可以輸出數(shù)據(jù)集中每個(gè)特征的重要性。實(shí)驗(yàn)結(jié)果與分析實(shí)驗(yàn)環(huán)境本模型在算法服務(wù)器上進(jìn)行訓(xùn)練與測(cè)試,算法服務(wù)器硬件環(huán)境:CPU為Inter(R)Xeon(R)CPUIntelE5-2650v4@3.50GHz,內(nèi)存為16GB,GPU為1080Ti,GPU顯存大小為11GB。具體軟件環(huán)境如下表所示。表5-2實(shí)驗(yàn)環(huán)境類別名字版本操作系統(tǒng)LinuxUbuntu16.04集成開發(fā)環(huán)境VisualStudioCode1.56.0開發(fā)語(yǔ)言Python3.6開發(fā)框架Scikit-Learn0.23.0其他軟件Anaconda、numpy、pandas、matplotlib、seaborn等模型參數(shù)的選取隨機(jī)森林分類器的關(guān)鍵參數(shù)是N,即森林中決策樹的數(shù)量。隨機(jī)森林構(gòu)建N棵樹,每個(gè)樹都使用隨機(jī)的特征子集,然后對(duì)所有樹的預(yù)測(cè)結(jié)果進(jìn)行平均,這降低了模型的總體方差。雖然,更多的樹可以提供更好的性能,但也會(huì)導(dǎo)致更長(zhǎng)的計(jì)算時(shí)間。圖5-3繪制了不同N值下隨機(jī)森林分類器在測(cè)試數(shù)據(jù)集上100次運(yùn)行的平均精度。曲線圖的變化并不規(guī)則,但有一個(gè)明顯的趨勢(shì),準(zhǔn)確性隨決策樹數(shù)量的增加而上升。根據(jù)該圖,實(shí)驗(yàn)的其余部分選擇了130棵決策樹,這在精度和計(jì)算時(shí)間之間提供了良好的平衡。圖5-3分類器準(zhǔn)確率與樹的數(shù)量的關(guān)系模型分類性能如4.5節(jié)所述,實(shí)驗(yàn)通過(guò)分層10折交叉驗(yàn)證對(duì)數(shù)據(jù)集進(jìn)行劃分。實(shí)驗(yàn)結(jié)果見(jiàn)圖5-4。由于正負(fù)樣本的數(shù)據(jù)分布不均衡,因此使用加權(quán)平均評(píng)估指標(biāo)來(lái)衡量分類器的性能。圖5-410折交叉驗(yàn)證結(jié)果10折交叉驗(yàn)證的結(jié)果如圖5-4所示,可以看到分類器在數(shù)據(jù)集上的表現(xiàn)非常好,準(zhǔn)確度高達(dá)99.95%,且不論是準(zhǔn)確率、精確率、回歸率還是F1-Score都得到了很高的評(píng)價(jià)。因此,該分類器能有效識(shí)別C&C加密信道。特征的重要性隨機(jī)森林模型的一個(gè)很大的優(yōu)勢(shì)是它是高度可解釋的,這意味著我們可以知道分類器預(yù)測(cè)的依據(jù)。在隨機(jī)森林分類器訓(xùn)練完成之后,每個(gè)特征都可以得到一個(gè)代表其重要性程度的評(píng)價(jià)指標(biāo)(Gini指數(shù))。圖5-5展示了50個(gè)最重要的特征。該隨機(jī)森林分類器被訓(xùn)練了100次,且每次都對(duì)所有特征的重要性進(jìn)行計(jì)算,圖中顯示的重要性為100次訓(xùn)練的平均值。圖5-5最重要的50個(gè)特征(100次運(yùn)行的平均值)由圖5-5可以看出,最有區(qū)分度的特征是與加密組件和擴(kuò)展相關(guān)的特征,與加密組件相關(guān)的特征在前50中占據(jù)了32個(gè),與擴(kuò)展相關(guān)的特征在前50中占據(jù)了10個(gè)。最重要的4個(gè)加密組件特征為:cs_c02f:該特征對(duì)應(yīng)的加密組件名稱為TLS_ECDHE_RSA_WITH_AES_128_GCM_SHA256,是TLSv1.2推薦使用的一個(gè)加密組件,最常被用于正常TLS流量中。cs_c030:該特征對(duì)應(yīng)的加密組件名稱為TLS_ECDHE_RSA_WITH_AES_256_GCM_SHA384,這也是一個(gè)推薦使用的加密組件,也常被正常TLS流量使用。cs_0004:該特征對(duì)應(yīng)的加密組件名稱為TLS_RSA_WITH_RC4_128_MD5,這是一種不安全的加密套件,因?yàn)樗褂昧艘褩売玫腞C4算法,該加密組件主要被惡意軟件使用。cs_0005:該特征對(duì)應(yīng)的加密組件名稱為TLS_RSA_WITH_RC4_128_SHA,類似于前一個(gè),這也是一個(gè)不安全的加密組件。最重要的4個(gè)擴(kuò)展特征為:ext_23:該特征對(duì)應(yīng)的擴(kuò)展名稱為extended_master_secret,由圖3-6可知,該擴(kuò)展通常是正常流量使用。ext_5:該特征對(duì)應(yīng)的擴(kuò)展名稱為status_quest,也是通常是正常流量使用。ext_16:該特征對(duì)應(yīng)的擴(kuò)展名稱為application_layer_protocol_negoti-ation,也是主要是正常流量使用。ext_18:該特征對(duì)應(yīng)的擴(kuò)展名稱為signed_certificate_timestamp。特征集的子集由圖5-5可以看出,除了橢圓曲線點(diǎn)格式以外,所有的TLS元數(shù)據(jù)特征都在top50特征中,且排名很靠前。接著是證書特征,所有的證書特征也都在top50特征集中。至于流元數(shù)據(jù)特征,只有目的端口特征在top50特征集中,源端口特征排在68名。圖5-6展示了模型在只考慮特征子集時(shí)的表現(xiàn)。基于隨機(jī)森林模型給出的特征重要性排名,我們采用了一種貪

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論