CN114730339B 檢測(cè)計(jì)算機(jī)系統(tǒng)中未知的惡意內(nèi)容(微軟技術(shù)許可有限責(zé)任公司)_第1頁(yè)
CN114730339B 檢測(cè)計(jì)算機(jī)系統(tǒng)中未知的惡意內(nèi)容(微軟技術(shù)許可有限責(zé)任公司)_第2頁(yè)
CN114730339B 檢測(cè)計(jì)算機(jī)系統(tǒng)中未知的惡意內(nèi)容(微軟技術(shù)許可有限責(zé)任公司)_第3頁(yè)
CN114730339B 檢測(cè)計(jì)算機(jī)系統(tǒng)中未知的惡意內(nèi)容(微軟技術(shù)許可有限責(zé)任公司)_第4頁(yè)
CN114730339B 檢測(cè)計(jì)算機(jī)系統(tǒng)中未知的惡意內(nèi)容(微軟技術(shù)許可有限責(zé)任公司)_第5頁(yè)
已閱讀5頁(yè),還剩79頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

(12)發(fā)明專利(65)同一申請(qǐng)的已公布的文獻(xiàn)號(hào)(30)優(yōu)先權(quán)數(shù)據(jù)(85)PCT國(guó)際申請(qǐng)進(jìn)入國(guó)家階段日(86)PCT國(guó)際申請(qǐng)的申請(qǐng)數(shù)據(jù)PCT/US2020/0566922020(87)PCT國(guó)際申請(qǐng)的公布數(shù)據(jù)(73)專利權(quán)人微軟技術(shù)許可有限責(zé)任公司地址美國(guó)華盛頓州K·霍爾謝默US2018174033A1,2018.06.21檢測(cè)計(jì)算機(jī)系統(tǒng)中未知的惡意內(nèi)容本文討論的各種實(shí)施例能夠檢測(cè)惡意內(nèi)容。一些實(shí)施例基于特征加權(quán)通過(guò)確定已知為惡意的內(nèi)容、計(jì)算機(jī)對(duì)象或指示(例如,向量、文件哈件)或指示之間的相似性分?jǐn)?shù)來(lái)做到這一點(diǎn)。在各個(gè)訓(xùn)練階段內(nèi),可以學(xué)習(xí)每個(gè)標(biāo)記的惡意內(nèi)容或指示的某些特征特性。例如,對(duì)于計(jì)算機(jī)對(duì)象的第一惡意軟件族,最突出的特征可以是特定的URL,而其他特征對(duì)于計(jì)算機(jī)對(duì)象的第一惡意軟分類。呈現(xiàn)組件未知數(shù)據(jù)構(gòu)造組件未知構(gòu)造2接收請(qǐng)求以確定計(jì)算機(jī)對(duì)象是否包含惡意內(nèi)容;從所述計(jì)算機(jī)對(duì)象提取多個(gè)特征;至少部分地基于所述多個(gè)特征,經(jīng)由深度學(xué)習(xí)模型生成在所述計(jì)算機(jī)對(duì)象與已知包含惡意內(nèi)容的多個(gè)計(jì)算機(jī)對(duì)象中的每個(gè)計(jì)算機(jī)對(duì)象之間的相似性分?jǐn)?shù),所述深度學(xué)習(xí)模型與表示所述多個(gè)計(jì)算機(jī)對(duì)象的多個(gè)指示相關(guān)聯(lián),所述多個(gè)指示被嵌入在特征空間中,其中所述深度學(xué)習(xí)模型明確地接受一對(duì)匹配的惡意軟件文件和一個(gè)不匹配的良性文件作為輸入至少部分地響應(yīng)于所述相似性分?jǐn)?shù)高于針對(duì)所述多個(gè)計(jì)算機(jī)對(duì)象的集合以及所述計(jì)算機(jī)對(duì)象的閾值,使表示所述多個(gè)計(jì)算機(jī)對(duì)象的集合的標(biāo)識(shí)符集合以等級(jí)順序被提供給計(jì)算設(shè)備,其中等級(jí)最高的標(biāo)識(shí)符指示所述計(jì)算機(jī)對(duì)象可能屬于特定的惡意內(nèi)容族。2.根據(jù)權(quán)利要求1所述的方法,其中所述多個(gè)特征的所述提取包括提取解包文件串和提取API調(diào)用。3.根據(jù)權(quán)利要求2所述的方法,進(jìn)一步包括:將所述解包文件字符串和所述API調(diào)用以及相關(guān)參數(shù)編碼為N-Gram字符的組合。4.根據(jù)權(quán)利要求1所述的方法,其中所述深度學(xué)習(xí)模型包括兩個(gè)相同的子網(wǎng)絡(luò),所述兩個(gè)相同的子網(wǎng)絡(luò)共享權(quán)重并且通過(guò)距離學(xué)習(xí)函數(shù)連接。5.根據(jù)權(quán)利要求1所述的方法,其中所述深度學(xué)習(xí)模型包括連體神經(jīng)網(wǎng)絡(luò)SNN。6.根據(jù)權(quán)利要求1所述的方法,進(jìn)一步包括:在所述請(qǐng)求的所述接收之前訓(xùn)練所述深度學(xué)習(xí)模型,所述深度學(xué)習(xí)模型的所述訓(xùn)練包括:仿真文件集合,所述仿真包括從所述文件集合提取信息;通過(guò)所述深度學(xué)習(xí)模型處理所述文件集合的相似文件和不相似文件對(duì);至少部分基于所述處理,調(diào)整與所述深度學(xué)習(xí)模型相關(guān)聯(lián)的權(quán)重以指示針對(duì)預(yù)測(cè)或分類的所述文件集合的某些特征的重要性,其中所述調(diào)整包括:改變所述相似文件的第一文件在所述特征空間中的嵌入。7.根據(jù)權(quán)利要求6所述的方法,其中至少部分地基于匹配或接近所述第一文件的經(jīng)改變的所述嵌入的所述多個(gè)特征中的一個(gè)或多個(gè)特征,來(lái)設(shè)置針對(duì)所述計(jì)算機(jī)對(duì)象的所述相似性分?jǐn)?shù)。8.一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)介質(zhì),其上包含有計(jì)算機(jī)可執(zhí)行指令,當(dāng)所述指令由一個(gè)或多個(gè)處理器執(zhí)行時(shí),使所述一個(gè)或多個(gè)處理器執(zhí)行一種方法,所述方法包括:接收確定內(nèi)容是否為惡意的請(qǐng)求;從所述內(nèi)容中提取多個(gè)特征;將所述內(nèi)容的EventID特征擴(kuò)展為完整的API名稱,并使用字符級(jí)三元組將所述完整的API名稱編碼為字符串基于所述多個(gè)特征和所述擴(kuò)展,經(jīng)由深度學(xué)習(xí)模型生成所述內(nèi)容與多個(gè)已知惡意內(nèi)容中的每一個(gè)之間的相似性分?jǐn)?shù),所述多個(gè)已知惡意內(nèi)容中的每一個(gè)屬于截然不同的惡意族,其中所述深度學(xué)習(xí)模型明確地接受一對(duì)匹配的惡意軟件文件和一個(gè)不匹配的良性文件至少部分地響應(yīng)于所述相似性分?jǐn)?shù)高于所述內(nèi)容和所述多個(gè)已知惡意內(nèi)容的已知惡3意內(nèi)容的閾值,使表示所述已知惡意內(nèi)容的標(biāo)識(shí)符被提供給計(jì)算設(shè)備,其中,所述標(biāo)識(shí)符指示所述內(nèi)容可能是惡意的,或者所述內(nèi)容可能與所述已知的惡意內(nèi)容屬于同一惡意族。9.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中,所述多個(gè)已知惡意內(nèi)容在訓(xùn)練期間被標(biāo)記為相似或不相似,并且其中,所述深度學(xué)習(xí)模型進(jìn)一步用被標(biāo)記為良性的內(nèi)容進(jìn)行訓(xùn)10.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中所述深度學(xué)習(xí)模型包括連體神經(jīng)網(wǎng)絡(luò)11.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中所述深度學(xué)習(xí)模型包括兩個(gè)等同子網(wǎng)絡(luò),它們共享權(quán)重并且在訓(xùn)練期間處理一對(duì)相似的已知惡意軟件文件和一對(duì)不相似的文12.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中所述深度學(xué)習(xí)模型明確地接受一對(duì)匹配的惡意軟件文件和一個(gè)不匹配的良性文件作為輸入來(lái)訓(xùn)練。13.根據(jù)權(quán)利要求8所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),所述方法進(jìn)一步包括:在所述接收所述請(qǐng)求之前訓(xùn)練所述深度學(xué)習(xí)模型,所述深度學(xué)習(xí)模型的所述訓(xùn)練包括:接收被標(biāo)記為截然不同的惡意軟件族或良性文件的集合的文件集合;仿真所述文件集合,所述仿真包括從所述文件集合中提取信息;將所述文件集合對(duì)的標(biāo)簽標(biāo)識(shí)為相似或不相似的以準(zhǔn)備進(jìn)行訓(xùn)練;并且至少部分基于所述標(biāo)識(shí),訓(xùn)練所述深度學(xué)習(xí)模型,所述訓(xùn)練包括調(diào)整與所述深度學(xué)習(xí)模型相關(guān)聯(lián)的權(quán)重以指示所述文件集合的某些特征對(duì)于預(yù)測(cè)或分類的重要性,其中,所述訓(xùn)練包括學(xué)習(xí)所述相似文件的第一文件在特征空間中的嵌入。14.根據(jù)權(quán)利要求13所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中,高于所述閾值的所述相似性分?jǐn)?shù)至少部分地基于所述第一文件的所述學(xué)習(xí)嵌入。一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)介質(zhì),存儲(chǔ)計(jì)算機(jī)可用指令,當(dāng)由所述一個(gè)或多個(gè)處理器使用時(shí),所述指令使所述一個(gè)或多個(gè)處理器執(zhí)行一種方法,所述方法包括:接收請(qǐng)求以確定計(jì)算機(jī)對(duì)象是否包含惡意內(nèi)容;從所述計(jì)算機(jī)對(duì)象提取多個(gè)特征;基于所述多個(gè)特征,確定所述計(jì)算機(jī)對(duì)象的指示是否在特征空間中距已知惡意計(jì)算機(jī)對(duì)象集合在閾值距離內(nèi),其中經(jīng)由基于針對(duì)所述已知惡意計(jì)算機(jī)對(duì)象集合的不同特征的經(jīng)學(xué)習(xí)權(quán)重的訓(xùn)練,所述已知惡意計(jì)算機(jī)對(duì)象集合在所述特征空間中的嵌入被學(xué)習(xí),其中所述指示包括向量,所述向量基于學(xué)習(xí)在兩個(gè)輸入之間的距離函數(shù)的深度學(xué)習(xí)模型的兩個(gè)分支而被嵌入在所述特征空間中,以及所述深度學(xué)習(xí)模型明確地接受一對(duì)匹配的惡意軟件文件和一個(gè)不匹配的良性文件作為輸入來(lái)訓(xùn)練;以及至少部分地響應(yīng)于確定所述計(jì)算機(jī)對(duì)象的所述指示是在所述閾值距離內(nèi),向計(jì)算設(shè)備的用戶接口提供指示所述計(jì)算機(jī)對(duì)象是否包含惡意內(nèi)容的標(biāo)識(shí)符。16.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述已知惡意計(jì)算機(jī)對(duì)象集合的指示符集合被評(píng)分并且被提供給所述用戶接口,所述提供指示了所述計(jì)算機(jī)對(duì)象是特定惡意軟件族的可能性。17.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述特征空間進(jìn)一步包括良性文件的指示,并且4其中對(duì)所述計(jì)算機(jī)對(duì)象的所述指示是否在閾值距離內(nèi)的所述確定至少部分地基于分析所述良性文件的所述指示。18.根據(jù)權(quán)利要求15所述的系統(tǒng),其中其中第一輸入是所述向量,并且第二輸入是表示所述已知惡意計(jì)算機(jī)對(duì)象集合的第一惡意軟件文件的另一個(gè)向量。19.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述特征空間與深度學(xué)習(xí)模型相關(guān)聯(lián),所述深度學(xué)習(xí)模型包括兩個(gè)相同的子網(wǎng)絡(luò),所述兩個(gè)相同的子網(wǎng)絡(luò)共享權(quán)重并且通過(guò)距離學(xué)習(xí)函數(shù)連接。20.根據(jù)權(quán)利要求15所述的系統(tǒng),其中所述特征空間與深度學(xué)習(xí)模型相關(guān)聯(lián),所述深度學(xué)習(xí)模型明確地接受一對(duì)匹配的惡意軟件文件和不匹配的良性文件作為輸入來(lái)訓(xùn)練。5檢測(cè)計(jì)算機(jī)系統(tǒng)中未知的惡意內(nèi)容背景技術(shù)[0001]計(jì)算機(jī)系統(tǒng)可能會(huì)感染惡意內(nèi)容(例如,惡意軟件),這可能會(huì)造成損害或允許網(wǎng)絡(luò)攻擊者未經(jīng)授權(quán)訪問(wèn)這些計(jì)算機(jī)系統(tǒng)。存在各種已知的惡意內(nèi)容族和子族,諸如病毒、木馬、蠕蟲(chóng)、勒索軟件等。檢測(cè)惡意內(nèi)容對(duì)于現(xiàn)有技術(shù)來(lái)說(shuō)仍然是一項(xiàng)重大挑戰(zhàn),特別是當(dāng)存在未知或新變種時(shí)。網(wǎng)絡(luò)攻擊者會(huì)隨著時(shí)間的推移不斷更改和演變惡意內(nèi)容,以逃避檢測(cè)。這種變化量因族而異,因此很難檢測(cè)到惡意行為的存在。發(fā)明內(nèi)容[0002]提供本發(fā)明內(nèi)容以簡(jiǎn)化形式介紹一些概念,這些概念將在下面的詳細(xì)描述中進(jìn)一步描述。本發(fā)明內(nèi)容并不旨在用于標(biāo)識(shí)所要求保護(hù)的主題的主要特征或基本特征,也不旨在孤立用于幫助確定所要求保護(hù)的主題的范圍。[0003]本文討論的各種實(shí)施例使得能夠檢測(cè)惡意內(nèi)容。一些實(shí)施例基于特征加權(quán)通過(guò)確定已知惡意內(nèi)容或表示惡意內(nèi)容的指示(例如,向量、文件哈希、文件簽名、代碼等)與其他內(nèi)容(例如,未知文件)或表示其他內(nèi)容的指示之間的相似性分?jǐn)?shù)來(lái)做到這一點(diǎn)。在各個(gè)訓(xùn)練階段內(nèi),可以學(xué)習(xí)針對(duì)每個(gè)標(biāo)記內(nèi)容或指示的某些特征特性。例如,對(duì)于第一惡意軟件族,最突出的特征可以是一個(gè)特定的URL,而對(duì)于第一族的不同迭代,其他特征會(huì)發(fā)生很大變化(例如,由于網(wǎng)絡(luò)攻擊者的修改)。因此,特定的URL可以被加權(quán)以確定特定的輸出分類。以這種方式,實(shí)施例學(xué)習(xí)對(duì)應(yīng)于不同特征的權(quán)重,使得在相似惡意內(nèi)容中發(fā)現(xiàn)的、并且來(lái)自同一族的重要特征對(duì)相似性分?jǐn)?shù)有正貢獻(xiàn),而將惡意內(nèi)容與良性(非惡意)內(nèi)容區(qū)分開(kāi)來(lái)的特征對(duì)相似性分?jǐn)?shù)有負(fù)貢獻(xiàn)。因此,即使網(wǎng)絡(luò)攻擊者引入了未知或新的惡意內(nèi)容變型,也可以檢測(cè)到惡意內(nèi)容。此外,這允許一些實(shí)施例確定惡意內(nèi)容屬于哪個(gè)族。[0004]在一些實(shí)施例中,可以使用獨(dú)特的深度學(xué)習(xí)模型,諸如連體神經(jīng)網(wǎng)絡(luò)(SNN)的變型或深度結(jié)構(gòu)化語(yǔ)義模型(DSSM)的變型來(lái)檢測(cè)未知的惡意內(nèi)容。某些實(shí)施例訓(xùn)練一個(gè)模型,該模型學(xué)習(xí)以基于特征的重要性給予該特征不同的權(quán)重。以這種方式,深度學(xué)習(xí)模型實(shí)施例對(duì)于獲取未知內(nèi)容或指示并將它們映射到特征空間中以基于未知文件的特定特征和與已知文件或指示的特征相關(guān)聯(lián)的訓(xùn)練權(quán)重確定與已知惡意文件或指示的距離或相似性是有用的。[0005]現(xiàn)有技術(shù)存在各種缺點(diǎn),導(dǎo)致預(yù)測(cè)精度較低、錯(cuò)誤率較高等。例如,現(xiàn)有工具使用Jaccard指數(shù)(JaccardIndex)來(lái)實(shí)現(xiàn)文件之間的相似性分?jǐn)?shù)。但是術(shù)要求文件中的所有特征具有相同的權(quán)重。本公開(kāi)的各種實(shí)施例通過(guò)提高預(yù)測(cè)準(zhǔn)確度和錯(cuò)誤率來(lái)改善這些現(xiàn)有技術(shù),如本文例如關(guān)于實(shí)驗(yàn)結(jié)果所述。實(shí)施例還改善了這些技術(shù),因?yàn)樗鼈儗W(xué)習(xí)了對(duì)于檢測(cè)內(nèi)容是否是惡意的或?qū)儆谔囟◥阂獯a或文件族最重要的某些關(guān)鍵特征,并相應(yīng)地對(duì)它們進(jìn)行加權(quán)。一些實(shí)施例還通過(guò)減少諸如內(nèi)存、CPU等的計(jì)算資源消耗來(lái)改善計(jì)算機(jī)本身的功能。6附圖說(shuō)明[0007]圖1是根據(jù)一些實(shí)施例的示例系統(tǒng)的框圖;[0008]圖2是根據(jù)一些實(shí)施例的示例計(jì)算系統(tǒng)架構(gòu)的框圖;[0009]圖3是根據(jù)一些實(shí)施例的用于在各種惡意軟件內(nèi)容上訓(xùn)練機(jī)器學(xué)習(xí)模型并預(yù)測(cè)一個(gè)或多個(gè)特定未知內(nèi)容集合是否包含惡意軟件的系統(tǒng)的框圖;[0010]圖4是根據(jù)一些實(shí)施例的用于使用經(jīng)過(guò)訓(xùn)練的模型來(lái)確定新內(nèi)容是否是惡意的示例系統(tǒng)的框圖;[0011]圖5是特定實(shí)施例使用的示例深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DNN)的示意圖;[0012]圖6是特定實(shí)施例使用的示例深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DNN)的示意圖;[0013]圖7A是根據(jù)一些實(shí)施例的用于訓(xùn)練機(jī)器學(xué)習(xí)模型的示例過(guò)程的流程圖;[0014]圖7B是根據(jù)一些實(shí)施例的用于評(píng)估新的或未知的內(nèi)容的示例過(guò)程的流程圖;[0015]圖8是根據(jù)一些實(shí)施例的計(jì)算設(shè)備的框圖;[0016]圖9是根據(jù)一些實(shí)施例的圖示每個(gè)族的配對(duì)計(jì)數(shù)細(xì)分的示例表;[0017]圖10是根據(jù)一些實(shí)施例的用于相似和不相似文件的Jaccard指數(shù)相似性分?jǐn)?shù)分布的圖表;[0018]圖11是根據(jù)一些實(shí)施例的用于相似和不相似文件的SNN相似性分?jǐn)?shù)分布的圖表;[0019]圖12是圖示針對(duì)不同高度流行的惡意軟件族的KNN的性能測(cè)量的示例表;以及[0020]圖13是圖示根據(jù)一些實(shí)施例的使用t-sne方法的惡意軟件類的潛在向量的可分離性的示例可視化圖表。具體實(shí)施方式[0021]本公開(kāi)的各方面的主題在本文中被具體描述以滿足法定要求。然而,描述本身并不旨在限制本專利的范圍。相反,本發(fā)明人已經(jīng)考慮到,要求保護(hù)的主題也可以以其他方式體現(xiàn),以包括與本文中描述的那些相似的不同步驟或步驟組合,并結(jié)合其他現(xiàn)有或未來(lái)技但這些術(shù)語(yǔ)不應(yīng)被解釋為暗示本文所公開(kāi)的各個(gè)步驟之中或之間的任何特定順序,除非并且除了各個(gè)步驟的順序是明確描述的。本文描述的每個(gè)方法可以包括可以使用硬件、固件和/或軟件的任何組合來(lái)執(zhí)行的計(jì)算過(guò)程。例如,可以通過(guò)處理器執(zhí)行存儲(chǔ)在存儲(chǔ)器中的指令來(lái)執(zhí)行各種功能。該方法還可以體現(xiàn)為存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)可用指令。這些方法可以由獨(dú)立應(yīng)用、服務(wù)或托管服務(wù)(獨(dú)立或與另一個(gè)托管服務(wù)組合)或另一個(gè)產(chǎn)品的[0022]如本文所用,術(shù)語(yǔ)“集合”可用于指代對(duì)象(或元素)的有序(即,順序)或無(wú)序(即,非順序)集合,諸如但不限于數(shù)據(jù)元素(例如,事件、事件集群等)。一個(gè)集合可以包括N個(gè)元元素,其中N是沒(méi)有上限的正整數(shù)。一個(gè)集合可以只括在另一個(gè)集合中的集合。子集可以是但不必須是包含該子集的另一集合的適當(dāng)或嚴(yán)格子集。也就是說(shuō),如果集合B是集合A的子集,那么在一些實(shí)施例中,集合B是集合A的適當(dāng)或嚴(yán)7[0023]本文描述的各種實(shí)施例能夠檢測(cè)惡意內(nèi)容或惡意計(jì)算機(jī)對(duì)象。如本文所述,“內(nèi)個(gè)或多個(gè)數(shù)據(jù)庫(kù)記錄和/或一個(gè)或多個(gè)數(shù)據(jù)結(jié)構(gòu),或內(nèi)容或計(jì)算機(jī)對(duì)象執(zhí)行或與之關(guān)聯(lián)的某些行為或功能?!皭阂狻眱?nèi)容或惡意計(jì)算機(jī)對(duì)象可以指代惡意代碼/行為(例如,特定時(shí)間戳惡意代碼已知會(huì)注入代碼或已知在其啟動(dòng)活動(dòng)之前處于非活動(dòng)狀致對(duì)計(jì)算系統(tǒng)的未經(jīng)授權(quán)的訪問(wèn)的功能。盡管本文根據(jù)文件描述了各種示例,但是應(yīng)當(dāng)理容”和“計(jì)算機(jī)對(duì)象”在本文中描述時(shí)可以互換使用。一些實(shí)施例通過(guò)基于特征加權(quán)確定已知惡意內(nèi)容(或惡意指示)和未知內(nèi)容(或未知指示)之間的相似性分?jǐn)?shù)(即,相似性度量)來(lái)[0024]如本文所述的“特征”表示內(nèi)容的特定屬性或?qū)傩灾?。例如,第一特征可以是文件的長(zhǎng)度和格式,第二特征可以是文件的特定URL,第四特征可以是操作特性,諸如寫(xiě)成短塊,以及第五特征可以是注冊(cè)表項(xiàng)模式。在各種情況下,“權(quán)重”表示特征或特征值對(duì)于分類或預(yù)測(cè)的重要性或顯著性。例如,每個(gè)特征可以與一個(gè)整數(shù)或其他實(shí)數(shù)相關(guān)聯(lián),其中實(shí)數(shù)越高,該特征對(duì)于預(yù)測(cè)或分類越重要。在一些實(shí)施例中,神經(jīng)網(wǎng)絡(luò)或其他機(jī)器學(xué)習(xí)應(yīng)用中的權(quán)重可以表示節(jié)點(diǎn)或神經(jīng)元之間從一層(輸入)到下一層(輸出)的連接強(qiáng)度。權(quán)重為0可能意味著輸入不會(huì)改變輸出,而高于0的權(quán)重會(huì)改變輸出。輸入的值越高或值越接近1,輸出的變化或增加就越大。同樣,可以有負(fù)權(quán)重。負(fù)權(quán)重按比例降低輸出值。例如,輸入值增加得越多,輸出值下降得越多。負(fù)權(quán)重可能會(huì)導(dǎo)致負(fù)分?jǐn)?shù),這將在下面更詳細(xì)地描述。在許多情況下,只有選定的特征集合主要負(fù)責(zé)內(nèi)容是否屬于特定的惡意族并因此是惡意的確定。[0025]各種實(shí)施例學(xué)習(xí)內(nèi)容的關(guān)鍵特征并在訓(xùn)練期間響應(yīng)地對(duì)它們進(jìn)行加權(quán)。例如,一些實(shí)施例基于深度學(xué)習(xí)學(xué)習(xí)嵌入向量,以使用諸如余弦距離之類的距離度量來(lái)檢測(cè)特征空間中的相似計(jì)算機(jī)對(duì)象或指示。在這些實(shí)施例中,每個(gè)計(jì)算機(jī)對(duì)象從字符串或其他形式轉(zhuǎn)換成向量(例如,實(shí)數(shù)集合),其中每個(gè)值或值集合表示計(jì)算機(jī)對(duì)象的單獨(dú)特征或特征空間中的指示。特征空間(或向量空間)是向量的集合(例如,每個(gè)表示惡意或良性文件),每個(gè)向量基于向量特征的相似性定向或嵌入空間中。在不同的訓(xùn)練階段,可以學(xué)習(xí)每個(gè)標(biāo)記的計(jì)算機(jī)對(duì)象或指示的某些特征特性。例如,對(duì)于第一惡意軟件族(例如,某個(gè)類別或類型的惡意軟件),最突出的特征可以是特定的URL,而其他特征對(duì)于第一惡意軟件族的不同迭代有很大的變化。因此,特定的URL可以被加權(quán)以確定特定的輸出分類。以這種方式,實(shí)施例學(xué)習(xí)對(duì)應(yīng)于不同特征的權(quán)重,使得在相似惡意內(nèi)容中發(fā)現(xiàn)的并且來(lái)自同一族的重要特征對(duì)相似性分?jǐn)?shù)有正貢獻(xiàn),而將惡意內(nèi)容與良性內(nèi)容(非惡意)區(qū)分開(kāi)來(lái)的特征對(duì)相似性分?jǐn)?shù)有負(fù)貢[0026]在一些實(shí)施例中,可以使用獨(dú)特的深度學(xué)習(xí)模型,諸如連體神經(jīng)網(wǎng)絡(luò)(SNN)的變型或深度結(jié)構(gòu)化語(yǔ)義模型(DSSM)的變型來(lái)檢測(cè)未知的惡意內(nèi)容。實(shí)施例訓(xùn)練了一個(gè)模型,該模型學(xué)習(xí)以基于特征的重要性為該特征賦予不同的權(quán)重。一些深度學(xué)習(xí)模型實(shí)施例包括兩個(gè)或更多個(gè)等同的子網(wǎng)絡(luò)或分支,這意味著子網(wǎng)絡(luò)具有相同的配置,該配置具有相同或綁8極其相似的惡意內(nèi)容或指示集合不可能被它們各自等同的網(wǎng)絡(luò)映射到特征空間中非常不于獲取未知內(nèi)容或指示并將它們映射到特征空間中以基于未知文件的特定特征和與已知文件或指示的特征相關(guān)聯(lián)的訓(xùn)練權(quán)重確定與已知惡意內(nèi)容或指示的集合的距離或相似性的惡意軟件聚類也可能依賴于計(jì)算內(nèi)容集之間的相似性分?jǐn)?shù)。大部分現(xiàn)有技術(shù)使用Jaccard指數(shù)作為其共聚類算法的相似性度量。其他技術(shù)比較多個(gè)Anubis沙盒中單個(gè)文件技術(shù)的一個(gè)問(wèn)題(除其他外)是Jaccard指數(shù)要求文件中的所有特征具有相同的權(quán)重。如上[0028]本公開(kāi)的各種實(shí)施例經(jīng)由這些現(xiàn)有技術(shù)或計(jì)算機(jī)安全系統(tǒng)現(xiàn)在不采用的新功能諸如習(xí)某些對(duì)于檢測(cè)內(nèi)容是否包含惡意軟件或?qū)儆谔囟◥阂廛浖宀⑾鄳?yīng)地加權(quán)它們最族(和/或良性文件)的特征空間嵌入,使得任何新的或未知的內(nèi)容指示都可以映射到相同離或相似性,從而可以檢測(cè)到惡意內(nèi)容和/或可以將新的或未知的內(nèi)容分組或映射到特定9耗不必要的內(nèi)存,尤其是在存儲(chǔ)數(shù)千或數(shù)百萬(wàn)個(gè)文件時(shí)。[0030]特定實(shí)施例改善了計(jì)算機(jī)本身的功能并改善了其他技術(shù),因?yàn)樗鼈儾幌牟槐匾挠?jì)算資源。例如,一些實(shí)施例使用共享或綁定權(quán)重或用于兩個(gè)或更多個(gè)輸入的其他參數(shù)的深度學(xué)習(xí)模型。這意味著要訓(xùn)練的參數(shù)更少,這意味著需要的數(shù)據(jù)更少,過(guò)擬合的趨勢(shì)也更小。因此,消耗的內(nèi)存更少,CPU的利此,實(shí)施例可以改善諸如吞吐量和網(wǎng)絡(luò)延遲等指標(biāo)。此外,一些實(shí)施例通過(guò)將字符串和其他內(nèi)容轉(zhuǎn)換為向量并對(duì)內(nèi)存中的向量進(jìn)行計(jì)算(例如,基于余弦距離的相似性分?jǐn)?shù)),而不是對(duì)與向量相比消耗相對(duì)較大的內(nèi)存量的字符串或惡意軟件簽名進(jìn)行計(jì)算,來(lái)執(zhí)行數(shù)據(jù)的類壓縮功能。因此,實(shí)施例節(jié)省了諸如CPU和內(nèi)存之類的計(jì)算資源利用率。[0031]現(xiàn)在轉(zhuǎn)向圖1,提供了示出示例操作環(huán)境100的框圖,在該示例操作環(huán)境100中可以采用本公開(kāi)的一些實(shí)施例。應(yīng)當(dāng)理解,本文描述的這種和其他布置僅作為示例闡述??梢允共⑶覟榱饲宄鹨?jiàn)可以完全省略一些元素。此外,本文描述的許多元素是功能實(shí)體,它們可以實(shí)現(xiàn)為離散或分布式組件或與其他組件結(jié)合,并以任何合適的組合和位置實(shí)現(xiàn)。本文描述為由實(shí)體執(zhí)行的各種功能可以由硬件、固件和/或軟件來(lái)執(zhí)行。例如,一些功能可以由執(zhí)行存儲(chǔ)在存儲(chǔ)器中的指令的處理器來(lái)執(zhí)行。[0032]在未示出的其他組件中,示例操作環(huán)境100包括多個(gè)用戶設(shè)備,諸如用戶設(shè)備102a和102b至102n;多個(gè)數(shù)據(jù)源(例如,數(shù)據(jù)庫(kù)或其他數(shù)據(jù)存儲(chǔ)),諸如數(shù)據(jù)源104a和104b至104n;服務(wù)器106;傳感器103a和107;以及網(wǎng)絡(luò)110。應(yīng)當(dāng)理解,圖1中所示的環(huán)境100是一種合適的操作環(huán)境的示例。圖1中所示的每個(gè)組件可以經(jīng)由任何類型的計(jì)算設(shè)備,諸如例如結(jié)合圖8描述的計(jì)算設(shè)備800來(lái)實(shí)現(xiàn)。這些組件可以經(jīng)由網(wǎng)絡(luò)110相互通信,網(wǎng)絡(luò)110可以包括但不限于局域網(wǎng)(LAN)和/或廣域網(wǎng)(WAN)。在示例性實(shí)現(xiàn)方式中,網(wǎng)絡(luò)110包括互聯(lián)網(wǎng)和/或蜂窩網(wǎng)絡(luò),在各種可能的公共和/或?qū)S镁W(wǎng)絡(luò)中的任何一個(gè)中的網(wǎng)絡(luò)。[0033]應(yīng)當(dāng)理解,在本公開(kāi)的范圍內(nèi),可以在操作環(huán)境100內(nèi)采用任意數(shù)量的用戶設(shè)備、服務(wù)器和數(shù)據(jù)源。每個(gè)都可以包括在分布式環(huán)境中協(xié)作的單個(gè)設(shè)備或多個(gè)設(shè)備。例如,服務(wù)器106可以經(jīng)由布置在分布式環(huán)境中的多個(gè)設(shè)備來(lái)提供,這些設(shè)備共同提供本文描述的功能。另外,未示出的其他組件也可以包括在分[0034]用戶設(shè)備102a和102b至102n可以是操作環(huán)境100的客戶端側(cè)的客戶端設(shè)備,而服務(wù)器106可以是操作環(huán)境100的服務(wù)器側(cè)的服務(wù)器。服務(wù)器106可以包括設(shè)計(jì)成與用戶設(shè)備102a和102b至102n上的客戶端軟件一起工作的服務(wù)器端軟件,以便實(shí)現(xiàn)本公開(kāi)中討論的特征和功能的任何組合。提供操作環(huán)境100的這種劃分是為了說(shuō)明合適環(huán)境的一個(gè)示例,并且對(duì)于每個(gè)實(shí)施方式不要求服務(wù)器106和用戶設(shè)備102a和102b至102n的任何組合保持為單獨(dú)的實(shí)體。在一些實(shí)施例中,一個(gè)或多個(gè)服務(wù)器106表示云計(jì)算環(huán)境中的一個(gè)或多個(gè)節(jié)點(diǎn)。與各種實(shí)施例一致,云計(jì)算環(huán)境包括提供一個(gè)或多個(gè)云計(jì)算服務(wù)的基于網(wǎng)絡(luò)的分布式數(shù)據(jù)處理系統(tǒng)。此外,云計(jì)算環(huán)境可以包括許多計(jì)算機(jī),成百上千或更多的計(jì)算機(jī),其布置在一個(gè)或多個(gè)數(shù)據(jù)中心內(nèi)并被配置為通過(guò)網(wǎng)絡(luò)110共享資源。[0035]在一些實(shí)施例中,用戶設(shè)備102a或服務(wù)器106可替代地或附加地包括一個(gè)或多個(gè)網(wǎng)絡(luò)服務(wù)器和/或應(yīng)用服務(wù)器,以促進(jìn)將網(wǎng)頁(yè)或在線內(nèi)容傳送到安裝在用戶設(shè)備102b上的瀏覽器。通常內(nèi)容可能包括靜態(tài)內(nèi)容和動(dòng)態(tài)內(nèi)容。當(dāng)客戶端應(yīng)用(諸如網(wǎng)頁(yè)瀏覽器)經(jīng)由URL或搜索詞請(qǐng)求網(wǎng)站或網(wǎng)頁(yè)應(yīng)用時(shí),瀏覽器通常會(huì)聯(lián)系網(wǎng)頁(yè)服務(wù)器以請(qǐng)求靜態(tài)內(nèi)容或網(wǎng)站或用的任何動(dòng)態(tài)部分或網(wǎng)頁(yè)應(yīng)用的業(yè)務(wù)邏輯部分。業(yè)務(wù)邏輯可以描述為管理用戶設(shè)備和數(shù)據(jù)存儲(chǔ)(例如數(shù)據(jù)庫(kù))之間通信的功能。這樣的功能可以包括業(yè)務(wù)規(guī)則或工作流(例如,指示條件if/then語(yǔ)句、while語(yǔ)句等以表示過(guò)程的順序的代碼)。[0036]用戶設(shè)備102a和102b至102n可以包括能夠由用戶使用的任何類型的計(jì)算設(shè)備。例如,在一個(gè)實(shí)施例中,用戶設(shè)備102a至102n可以是本文關(guān)于圖8描述的計(jì)算設(shè)備的類型。作為示例而非限制,用戶設(shè)備可以體現(xiàn)為個(gè)人計(jì)算機(jī)(PC)、膝上型計(jì)算機(jī)、移動(dòng)或移動(dòng)設(shè)備、家用電器、消費(fèi)電子設(shè)備、工作站或這些劃定設(shè)備的任何組合,或任何其他合適的計(jì)算機(jī)設(shè)[0037]在一些實(shí)施例中,用戶設(shè)備102a和/或服務(wù)器106可以包括本文描述的任何組件或圖2中所述。在一些實(shí)施例中,服務(wù)器106可以幫助檢測(cè)惡意行為,使得結(jié)合使用用戶設(shè)備102a和服務(wù)器106來(lái)檢測(cè)惡意代碼。例如,可以在用戶設(shè)備102a上打開(kāi)網(wǎng)頁(yè)應(yīng)用。作為后臺(tái)任務(wù),或基于來(lái)自用戶設(shè)備102a的明確請(qǐng)求,用戶設(shè)備102a可以參與通信會(huì)話或以其他方式聯(lián)系服務(wù)器106,此時(shí)服務(wù)器106使用一個(gè)或多個(gè)模型來(lái)檢測(cè)惡意行為等,諸如關(guān)于圖2所描述的。[0038]數(shù)據(jù)源104a和104b至104n可以包括數(shù)據(jù)源和/或數(shù)據(jù)系統(tǒng),其被配置為使數(shù)據(jù)對(duì)結(jié)合圖2描述的操作環(huán)境100或系統(tǒng)200的各種組成部分中的任何一個(gè)可用。一個(gè)或多個(gè)數(shù)據(jù)源104a至104n的示例可以是數(shù)據(jù)庫(kù)、文件、數(shù)據(jù)結(jié)構(gòu)或其他數(shù)據(jù)存儲(chǔ)中的一個(gè)或多個(gè)。數(shù)據(jù)源104a和104b至104n可以與用戶設(shè)備102a和102b至102n和服務(wù)器106分立,或者可以結(jié)合和/或集成到這些組件中的至少一個(gè)中。在一個(gè)實(shí)施例中,數(shù)據(jù)源104a至104n包括傳感器(諸如傳感器103a和107),它們可以集成到一個(gè)或多個(gè)用戶設(shè)備102a、102b或102n或服務(wù)器106中或與一個(gè)或多個(gè)用戶設(shè)備102a、102b或102n或服務(wù)器106相關(guān)聯(lián)。[0039]操作環(huán)境100可用于實(shí)現(xiàn)系統(tǒng)200的一個(gè)或多個(gè)組件,如圖2中所述。操作環(huán)境100還可用于實(shí)現(xiàn)結(jié)合圖7A和7B描述的過(guò)程流700和730的各方面,以及如圖2-13中描述的任何其他功能。[0040]現(xiàn)在參考圖2,結(jié)合圖1,提供了框圖,該框圖示出了適用于實(shí)現(xiàn)本公開(kāi)的實(shí)施例并且通常被指定為系統(tǒng)200的示例計(jì)算系統(tǒng)架構(gòu)的各方面。通常,系統(tǒng)200的實(shí)施例啟用或支持檢測(cè)惡意內(nèi)容(例如,代碼、功能、特征等)和/或?qū)阂鈨?nèi)容映射到一個(gè)或多個(gè)族(例如,類型、類別或標(biāo)題)。系統(tǒng)200并非旨在進(jìn)行限制并且僅表示合適的計(jì)算系統(tǒng)架構(gòu)的一個(gè)示例。除了所示出的那些或代替所示出的那些,可以使用其他布置和元件,并且為了清楚起見(jiàn)可以完全省略一些元件。此外,與圖1的操作環(huán)境100一樣,本文描述的許多元素是功能實(shí)體,它們可以實(shí)現(xiàn)為離散或分布式組件或與其他組件結(jié)合,并以任何合適的組合和位置實(shí)現(xiàn)。例如,系統(tǒng)200的功能可以經(jīng)由軟件即服務(wù)(SAAS)模型,例如,云和/或基于網(wǎng)頁(yè)的服務(wù)來(lái)提供。在其他實(shí)施例中,系統(tǒng)200的功能可以經(jīng)由客戶端/服務(wù)器架構(gòu)來(lái)實(shí)現(xiàn)。[0041]仿真器203通常負(fù)責(zé)運(yùn)行或模擬標(biāo)記數(shù)據(jù)213和/或未知數(shù)據(jù)215中的內(nèi)容(例如,應(yīng)用、代碼、文件或其他對(duì)象)并從標(biāo)記數(shù)據(jù)213和/或未知數(shù)據(jù)215中提取原始信息。標(biāo)記數(shù)據(jù)213包括用標(biāo)簽或分類標(biāo)記或指示的文件或其他對(duì)象樣本,以用于在機(jī)器學(xué)習(xí)系統(tǒng)中進(jìn)行訓(xùn)練。例如,標(biāo)記數(shù)據(jù)213可以包括多個(gè)文件,其中文件已經(jīng)根據(jù)特定惡意代碼或文件族(和/或子族)和/或良性文件的標(biāo)記為良性(或族/子族)的標(biāo)記進(jìn)行標(biāo)記。例如,標(biāo)記數(shù)據(jù)213可以包括已被Rootkit惡意軟件感染的文件的若干次迭代或子族(子族是標(biāo)簽),以及其他惡意代碼族。以此方式,機(jī)器學(xué)習(xí)模型可以被訓(xùn)練以標(biāo)識(shí)標(biāo)記數(shù)據(jù)213中指示的模式或關(guān)聯(lián)以用于預(yù)測(cè)目的,如本文更詳細(xì)描述的。未知數(shù)據(jù)215包括沒(méi)有預(yù)定標(biāo)簽或分類的文件或其他內(nèi)容。例如,未知數(shù)據(jù)215可以是在已經(jīng)部署機(jī)器學(xué)習(xí)模型之后被分析,或者使用標(biāo)記數(shù)據(jù)213訓(xùn)練或測(cè)試的任何傳入文件(例如,測(cè)試文件)。[0042]標(biāo)記數(shù)據(jù)213和未知數(shù)據(jù)215通??梢员硎緸榇鎯?chǔ)。存儲(chǔ)通常存儲(chǔ)信息,包括在本文描述的技術(shù)的實(shí)施例中使用的數(shù)據(jù)、計(jì)算機(jī)指令(例如,軟件程序指令、例程或服務(wù))、內(nèi)容、數(shù)據(jù)結(jié)構(gòu)、訓(xùn)練數(shù)據(jù)和/或模型(例如,機(jī)器學(xué)習(xí)模型)。作為示例而非限制,包括數(shù)據(jù)213和未知數(shù)據(jù)215中的數(shù)據(jù)通??梢宰允贾两K被稱為數(shù)據(jù)。一些實(shí)施例存儲(chǔ)包括規(guī)則、條件、關(guān)聯(lián)、分類模型和其他標(biāo)準(zhǔn)的計(jì)算機(jī)邏輯(未示出)以執(zhí)行系統(tǒng)200的組件、模塊、分析器、生成器和/或引擎中的任一個(gè)的功能。[0043]在一些實(shí)施例中,仿真器203(或本文描述的任何組件)在虛擬化(例如,虛擬機(jī)或容器)或沙盒化環(huán)境中運(yùn)行。以此方式,任何正在運(yùn)行的惡意內(nèi)容都不會(huì)感染主機(jī)或其他應(yīng)用。在一些實(shí)施例中,從標(biāo)記數(shù)據(jù)213和/或未知數(shù)據(jù)215中提取特定的原始信息。例如,信息可以是解包的文件字符串(或進(jìn)行函數(shù)調(diào)用以解壓縮文件字符串的字符串)和API調(diào)用及其相關(guān)參數(shù)。這是因?yàn)閻阂鈨?nèi)容經(jīng)常被打包、壓縮或加密,因此可能需要調(diào)用來(lái)解密或以其他方式解包數(shù)據(jù)。關(guān)于API調(diào)用,某些惡意內(nèi)容可能具有特定的API調(diào)用模式,因此也可能需要提取此信息。[0044]特征選擇器205通常負(fù)責(zé)選擇標(biāo)記數(shù)據(jù)213和/或未知數(shù)據(jù)215的特定特征(例如,由仿真器203提取的信息的選定特征)以用于訓(xùn)練、測(cè)試和/或進(jìn)行預(yù)測(cè)。在各種情況下,由仿真器203生成的原始數(shù)據(jù)中可能有成百上千個(gè)特征。使用所有這些特征訓(xùn)練模型可能需要大量計(jì)算資源,因此可以使用選定的特征集合進(jìn)行訓(xùn)練、測(cè)試或預(yù)測(cè)。可以根據(jù)任何合適的技術(shù)來(lái)選擇特征。例如,可以基于使用互信息標(biāo)準(zhǔn)產(chǎn)生最具辨別力的特征的特征來(lái)選擇特征。也就是說(shuō),A(t,c)被計(jì)算為預(yù)期的“項(xiàng)t和類別c的互信息(MI)。MI衡量項(xiàng)的存在/不存在有多少信息有助于在c上做出正確的分類決策。正式地:隨機(jī)變量,其取值ec=1(文檔為類別c)和ec=1(文檔不是類別c)。如果從上下文中不清楚項(xiàng)t和類別c指的是哪個(gè),則書(shū)寫(xiě)U和U。對(duì)于概率的MLE,等式1等價(jià)于:不在c(ec=0)中的文檔數(shù)。N?=N1?+N??是包含t(e=1)文檔的數(shù)量以及獨(dú)立于類成員的文[0048]訓(xùn)練和/或測(cè)試集合構(gòu)造組件207通常負(fù)責(zé)選擇已知相似的惡意內(nèi)容(例如,來(lái)自相同族/子族的內(nèi)容)和/或選擇在準(zhǔn)備訓(xùn)練和//或測(cè)試時(shí)可能不相似的良性內(nèi)容。在一些中,訓(xùn)練和/或測(cè)試集合構(gòu)造組件207為標(biāo)記數(shù)據(jù)213中的每組內(nèi)容生成唯一標(biāo)識(shí)符(例如,簽名ID),然后實(shí)施例可以響應(yīng)地分組或選擇屬于同一個(gè)惡意族的相似惡意內(nèi)容對(duì)。例如,[0049]模型訓(xùn)練組件209通常負(fù)責(zé)通過(guò)使用經(jīng)由訓(xùn)練集合構(gòu)造組件207和/或其他組件選擇的數(shù)據(jù)來(lái)訓(xùn)練機(jī)器學(xué)習(xí)模型。在一些實(shí)施例中,模型訓(xùn)練組件209另外將由特征選擇器在訓(xùn)練期間基于已知惡意內(nèi)容的嵌入與其他已知惡意內(nèi)容和/或良性內(nèi)容之間的余弦或其在閾值距離的范圍內(nèi)。反向傳播和其他技術(shù)可用于計(jì)算權(quán)重的損失[0050]未知構(gòu)造組件220通常負(fù)責(zé)選擇已知相似的惡意內(nèi)容(例如,來(lái)自相同族/子族的內(nèi)容)和/或選擇良性內(nèi)容并將它們配對(duì)在一起或?qū)⑺鼈兣c已知惡意內(nèi)容配對(duì)以用于在模[0051]未知評(píng)估器211通常負(fù)責(zé)確定哪些惡意內(nèi)容集(在標(biāo)記數(shù)據(jù)213內(nèi))與未知內(nèi)容集相似(即,未知集是否包含惡意內(nèi)容)(在未知數(shù)據(jù)215內(nèi))并相應(yīng)地對(duì)相似性進(jìn)行評(píng)分。例過(guò)特定閾值(向量在閾值距離內(nèi)),則傳入的文件或代碼可以自動(dòng)映射到惡意內(nèi)容的特定族味著未知包含惡意內(nèi)容的傳入文件或代碼與標(biāo)記的惡意文件或代碼或其族成員相比具有[0052]呈現(xiàn)組件217通常負(fù)責(zé)呈現(xiàn)是否基于由未知評(píng)估器211確定的相似性分?jǐn)?shù)檢測(cè)到個(gè)族(如在標(biāo)記數(shù)據(jù)213中分配的)(或在距離閾值內(nèi)的某些族)和特定內(nèi)容集屬于該族的置[0053]圖3是用于在各種惡意軟件內(nèi)容上訓(xùn)練機(jī)器學(xué)習(xí)模型并預(yù)測(cè)一個(gè)或多個(gè)特定未知型的功能,而評(píng)估組件350說(shuō)明在評(píng)估一個(gè)未知文件集合以自動(dòng)預(yù)測(cè)它們是否屬于高度流用生產(chǎn)反惡意軟件引擎的修改版本來(lái)執(zhí)行文件仿真303。這個(gè)反惡意軟件引擎在仿真過(guò)程件315中提取原始數(shù)據(jù)以預(yù)測(cè)族(或基于其[0055]文件仿真303的一些實(shí)施例采用從文件中提取的兩種類型的數(shù)據(jù),包括解包文件特征經(jīng)由文件仿真303從API調(diào)用序列及其參數(shù)值構(gòu)造。API流由來(lái)自不同來(lái)源的函數(shù)調(diào)用于讀取注冊(cè)表項(xiàng)值,包括用戶模式函數(shù)RegQueryValue()和Reg射到單個(gè)API事件。在這些實(shí)施例中,對(duì)RegQueryValue()、RegQueryValueEx()和Rt1QueryRegistryValues()的調(diào)用都映射到同一API事件ID(EventID)。可替代地或附加數(shù)以千計(jì)的原始解包文件字符串或API調(diào)用事件及其參數(shù)。因?yàn)槌朔嵌鄳B(tài)(non-polymorphic)惡意軟件之外,特定實(shí)施例還檢測(cè)多態(tài)(polymorphic)惡意測(cè)而不斷改變其可標(biāo)識(shí)特征的惡意軟件),一些實(shí)施例不將潛在特征直接編碼為稀疏二進(jìn)的第二臨時(shí)文件或使用部分隨機(jī)URL聯(lián)系命令和控制(C&C)服務(wù)器,則在一些實(shí)施例中,不明確地表示文件名或URL。相反,一些實(shí)施例將原始解包文件字符串和API調(diào)用及其參數(shù)編碼為N-Grams字符的集合。在一些實(shí)施例中,使用所有值的字符的三元組(即,N=3的N-[0058]基于Jaccard指數(shù)的相似性系統(tǒng)(如上所述)的一個(gè)限制在于它無(wú)法區(qū)分或確定同一集合中多種類型的特征(例如,EventID、參數(shù)值1、參數(shù)值2)之間的重要性。此外,諸如EventID(例如98)之類的短值對(duì)Jaccard指數(shù)的影響要小于包括參數(shù)值(例如注冊(cè)表項(xiàng)名稱)在內(nèi)的更長(zhǎng)特征。為了提高Jaccard指數(shù)基線系統(tǒng)的性能,一些實(shí)施例通過(guò)將EventID擴(kuò)展到完整API并使用字符級(jí)三元組(或其他N-Gram配置)將整個(gè)API名稱編碼為字符串來(lái)克服這些限制。因此,使用它們的三元組(或其他N-Gram配置)表示API名稱允許API名稱對(duì)文件對(duì)的Jaccard指數(shù)做出更大的貢獻(xiàn)。在一些實(shí)施例中,API名稱的三元組表示用于所有模型以公平地將SNN模型的結(jié)果與基于Jaccard指數(shù)的模型進(jìn)行比較,其結(jié)果將在下面更詳細(xì)地描述。[0059]本文所述的特定實(shí)施例不受基于Jaccard指數(shù)的模型所受的這些限制的影響。文件仿真303的一些實(shí)施例將事件ID或API名稱編碼為單個(gè)分類特征,因?yàn)槟承┥疃葘W(xué)習(xí)網(wǎng)絡(luò),諸如兩層深度神經(jīng)網(wǎng)絡(luò),可以學(xué)習(xí)為對(duì)最重要API調(diào)用分配更大的權(quán)重以用于相似文件習(xí)模型(包括SNN模型或DSSM)的性能,因?yàn)樗鼮镋ventID和參數(shù)值的N-Grams的每個(gè)組合學(xué)習(xí)了特定的表示。[0060]在一些實(shí)施例中,特征選擇305包括由特征選擇器205執(zhí)行的功能。在各種情況下,在動(dòng)態(tài)分析過(guò)程中生成的原始數(shù)據(jù)中可能存在數(shù)十萬(wàn)個(gè)潛在的N-Gram特征,并且使用所有這些特征來(lái)訓(xùn)練模型可能在計(jì)算上是令人望而卻步的。因此,可以按類執(zhí)行特征選擇,這可以使用例如互信息標(biāo)準(zhǔn)產(chǎn)生最具辨別力的特征,如上面所述。為了處理生產(chǎn)級(jí)輸入數(shù)據(jù)流,[0061]在一些實(shí)施例中,訓(xùn)練集合構(gòu)造307是由圖2的訓(xùn)練集合構(gòu)造組件207執(zhí)行的功能。在一些實(shí)施例中,在訓(xùn)練之前,訓(xùn)練集合構(gòu)造307的實(shí)施例首先構(gòu)造一個(gè)訓(xùn)練集合,該訓(xùn)練集合包括從已知相似的惡意軟件文件對(duì)選擇的以及從不相似的良性文件選擇的N-Gram特征(出于標(biāo)記目的,即使它們實(shí)際上可能相似)。實(shí)施例基于若干標(biāo)準(zhǔn)確定用于訓(xùn)練集的相似惡意軟件文件或其他內(nèi)容對(duì)。例如,為了正確訓(xùn)練模型,首先要仔細(xì)選擇相似的文件對(duì)。隨機(jī)選擇兩個(gè)族匹配的文件,在實(shí)踐中可能效果不佳。問(wèn)題是其中一些族可能有許多不同的變型。為了解決這個(gè)問(wèn)題,可以利用惡意軟件文件的檢測(cè)簽名。反惡意軟件引擎可以利用特定簽名來(lái)確定未知文件或內(nèi)容是惡意的還是良性的。每個(gè)簽名通常都非常具體,并且具有唯一標(biāo)識(shí)符(簽名ID)。因此,在一些實(shí)施例中,確定用于訓(xùn)練的相似對(duì)的第一步是將檢測(cè)到的具有等同簽名ID的惡意軟件文件或內(nèi)容對(duì)分組。雖然檢測(cè)到具有相同簽名ID的大多數(shù)惡意文件或其他內(nèi)容屬于同一惡意軟件族,但情況并非總是如此,這就是為什么可能需要進(jìn)行進(jìn)一步分析以將唯一標(biāo)識(shí)符映射或標(biāo)記到正確族的原因。這可能是現(xiàn)有技術(shù)的問(wèn)題,這些技術(shù)主要或僅基于惡意軟件的簽名ID來(lái)檢測(cè)文件是否為惡意文件。因此,一些實(shí)施例通過(guò)將候選文件或其他內(nèi)容對(duì)標(biāo)記為屬于同一族來(lái)改善這些技術(shù)。[0062]訓(xùn)練集合構(gòu)造307的各種實(shí)施例基于簽名ID和/或惡意軟件族來(lái)構(gòu)造惡意軟件文件對(duì)。在某些實(shí)施例中,良性文件都屬于一個(gè)類或標(biāo)簽,并且沒(méi)有分配簽名ID,因?yàn)樗鼈儾粚?shí)施例還構(gòu)造通過(guò)隨機(jī)選擇唯一惡意軟件文件和良性文件以形成對(duì)而構(gòu)造的“不相似”對(duì)。根據(jù)一些實(shí)施例,該訓(xùn)練集的格式如下表1所示:字段訓(xùn)練集ID標(biāo)簽(相似不相似)表1:訓(xùn)練和測(cè)試集實(shí)例格式。訓(xùn)練集ID由惡意軟件1(M,)和惡意軟件2(M?)或良性文件(B)的SHA1文件哈希值的中的下一個(gè)字段提供標(biāo)簽,其中1指示兩個(gè)文件是相似的(M1,M2),-1指示它們是不相似的(M1,B)。第三字段提供從主要惡意軟件文件M?中選擇的N-Gram特征。來(lái)自匹配惡意軟件文件M?或隨機(jī)選擇的良性文件(B)中的N-Gram在最后一個(gè)字段中提供。[0066]對(duì)于用于評(píng)估所有模型的保留測(cè)試集,如下文更詳細(xì)描述的,訓(xùn)練集合構(gòu)造307的實(shí)施例確保訓(xùn)練和測(cè)試集中的文件對(duì)是唯一的或不同的。為此,可以為訓(xùn)練和測(cè)試集隨機(jī)選擇第一惡意軟件文件集合,然后是包括惡意軟件文件和良性文件的一對(duì)文件(例如,第一文件集合)。作為響應(yīng),選擇第二相似的惡意軟件文件對(duì)。如果第二對(duì)中的任何一個(gè)文件與第一集合中的一個(gè)文件匹配,則將第二對(duì)惡意軟件添加到訓(xùn)練集中。如果它不在訓(xùn)練集中,實(shí)施例將其添加到測(cè)試集中。類似地,在一些實(shí)施例中,可以對(duì)第二不相似的惡意軟件和良性對(duì)執(zhí)行相同的過(guò)程,使得將第二不相似的惡意軟件和良性對(duì)與第一集合進(jìn)行比較。特定實(shí)施例繼續(xù)執(zhí)行隨機(jī)選擇惡意軟件對(duì)并將它們添加到訓(xùn)練或測(cè)試集直到每個(gè)完成的過(guò)程。[0067]在一些實(shí)施例中,模型訓(xùn)練309包括由圖2的模型訓(xùn)練組件209執(zhí)行的功能。在一些實(shí)施例中,在已經(jīng)經(jīng)由訓(xùn)練集合構(gòu)造307構(gòu)造了訓(xùn)練集之后,對(duì)模型(例如,SNN)進(jìn)行訓(xùn)練,例如關(guān)于圖5或圖6所描繪的。在一些實(shí)施例中,權(quán)重在訓(xùn)練期間基于左側(cè)的已知惡意軟件文件M?的向量嵌入(由訓(xùn)練組件340分析)與右側(cè)的惡意軟件或良性文件的向量嵌入(由評(píng)估組件350分析)之間的余弦距離進(jìn)行調(diào)整。相似和不相似文件的組合集合可以表示為F∈{M?,B}。一些實(shí)施例使用具有隨機(jī)梯度下降(SGD和Adam優(yōu)化器)的反向傳播來(lái)訓(xùn)練模型參[0068]當(dāng)測(cè)試文件或其他內(nèi)容時(shí),一些實(shí)施例將已知的惡意軟件文件或內(nèi)容輸入到左側(cè)(訓(xùn)練組件340),然后使用右側(cè)(評(píng)估組件350)評(píng)估新的或未知的文件或內(nèi)容(例如,測(cè)試文件)。測(cè)試文件或內(nèi)容可表示模型尚未訓(xùn)練的新的或不同的文件或內(nèi)容。因此,根據(jù)一些實(shí)施例,在測(cè)試期間,模型的輸出可以表示左側(cè)的已知惡意軟件內(nèi)容的嵌入或向量與右側(cè)的惡意或良性文件的嵌入或向量之間的余弦距離。例如,未知文件315中的第一文件集合可以首先經(jīng)受文件仿真333(其可以是由文件仿真303執(zhí)行并且由仿真器203執(zhí)行的相同功能),使得第一文件集合被仿真并提取特定信息,諸如API調(diào)用和打包字符串,然后將其解包。然后可以從每個(gè)335的第一文件集合中選擇特征(例如,經(jīng)由與關(guān)于特征選擇305描述的相同或相似的功能或經(jīng)由特征選擇器205)。作為響應(yīng),可以執(zhí)行未知對(duì)構(gòu)造320(例如,經(jīng)由與訓(xùn)練集合構(gòu)造307相同或相似的功能或經(jīng)由未知構(gòu)造組件220),使得相似的惡意測(cè)試文件被組合在一起并且任何其他良性測(cè)試文件被組合在一起。該功能可以是與訓(xùn)練集合構(gòu)造307相同的功能,除了文件不是訓(xùn)練數(shù)據(jù),而是用于測(cè)試模型的準(zhǔn)確性或性能的測(cè)試數(shù)據(jù)之外。作為響應(yīng),在一些實(shí)施例中,對(duì)第一文件集合中的每個(gè)文件進(jìn)行未知對(duì)評(píng)估311。該評(píng)估可以使用訓(xùn)練組件340的模型訓(xùn)練309來(lái)完成。例如,可以將第一文件集合中的第一測(cè)試文件轉(zhuǎn)換為第一向量并映射到特征空間中,并且可以通過(guò)確定特征空間中向量之間的距離來(lái)確定第一向量與標(biāo)記文件313中表示的一個(gè)或多個(gè)其他向量之間的相似性分?jǐn)?shù)(即,表示為向量的其他惡意軟件文件)。在各種實(shí)施例中,然后經(jīng)由未知文件預(yù)測(cè)317輸出相似性分?jǐn)?shù)結(jié)果的指示。例如,可以生成任何合適的結(jié)構(gòu)化格式、用戶接口所描述的。[0069]在一些實(shí)施例中,評(píng)估組件350說(shuō)明在數(shù)據(jù)已經(jīng)被訓(xùn)練和測(cè)試之后,或者模型以其他方式被部署在特定應(yīng)用中之后如何評(píng)估或預(yù)測(cè)文件。例如,在對(duì)模型進(jìn)行訓(xùn)練和測(cè)試后,可以將模型部署在網(wǎng)頁(yè)應(yīng)用或其他應(yīng)用中。因此,例如,用戶可以在會(huì)話期間將特定文件(例如,未知文件315)上傳到特定網(wǎng)頁(yè)應(yīng)用,以便請(qǐng)求關(guān)于特定文件是否可能與惡意軟件相關(guān)聯(lián)或?qū)儆谔囟◥阂廛浖宓念A(yù)測(cè)結(jié)果。因此,關(guān)于評(píng)估組件350描述的所有過(guò)程可以響應(yīng)于請(qǐng)求在運(yùn)行時(shí)執(zhí)行,使得未知文件預(yù)測(cè)317可以指示用戶上傳的文件是否與惡意軟件相關(guān)聯(lián)。如系統(tǒng)300中所示,這種預(yù)測(cè)可以基于其他文件的模型訓(xùn)練309(和/或測(cè)試)。[0070]可以提供評(píng)估集合的格式,如下表II所示:標(biāo)簽(相似不相似)已知的惡意軟件N-Gram特征未知文件N-Gram特征[0073]表II:評(píng)估集合實(shí)例格式。[0074]與訓(xùn)練集ID相似,評(píng)估集合ID包括已知惡意軟件文件和未知文件(即AHA1M?-SHAI)的SHA1文件哈希,從而可以確定哪個(gè)惡意軟件文件與未知文件相似。其他兩個(gè)字段包括來(lái)自已知惡意軟件文件和未知文件的N-Gram。在一些實(shí)施例中,為了評(píng)估未知文件,首先從訓(xùn)練集(例如,標(biāo)記的文件313)中高度流行的族的所有已知變型中包含所選擇的N-Gram特征。在一些實(shí)施例中,這些特征對(duì)應(yīng)于圖4的深度學(xué)習(xí)模型的左側(cè)。然后可以從在特定時(shí)間段(例如,特定的一天、一周、一個(gè)月等)內(nèi)到達(dá)以進(jìn)行處理的所有未知文件中包含所[0075]根據(jù)流行族的已知變型的數(shù)量和未知文件的傳入率,可能需要進(jìn)一步預(yù)過(guò)濾要考慮的文件對(duì)的數(shù)量。在一些實(shí)施例中,該預(yù)過(guò)濾包括采用MinHash算法來(lái)減少在訓(xùn)練期間使用的文件對(duì)的數(shù)量或在評(píng)估期間包括的文件對(duì)的數(shù)量??商娲鼗蚋郊拥厥褂镁植棵舾泄K惴?。MinHash算法約為0(n),并且僅標(biāo)識(shí)需要與每個(gè)正在評(píng)估的未知文件進(jìn)行比較的少量樣本。[0076]在實(shí)施例中,在構(gòu)造已知文件對(duì)之后,可以經(jīng)由未知對(duì)評(píng)估311對(duì)它們進(jìn)行評(píng)估。也就是說(shuō),可以使用模型訓(xùn)練309評(píng)估已知文件對(duì)并將其與訓(xùn)練對(duì)進(jìn)行比較。如果相似性分?jǐn)?shù)超過(guò)規(guī)定閾值,則實(shí)施例自動(dòng)確定該文件與評(píng)估對(duì)中的已知惡意軟件文件屬于同一族[0077]一些實(shí)施例可替代地確定相似性分?jǐn)?shù)或以其他方式通過(guò)用可選的K-最近鄰(KNN)分類器替換cosine()距離來(lái)檢測(cè)未知文件是否是惡意的,并將未知文件分配給投票的多數(shù)惡意軟件族或具有一個(gè)或多個(gè)最高相似性分?jǐn)?shù)的K個(gè)良性類已知文件。分配最近的單個(gè)文件的標(biāo)簽(K=1)可能會(huì)執(zhí)行得很好。因此,一些實(shí)施例僅需要找到與未知文件(在未知文件315中)最相似的單個(gè)文件(例如,存儲(chǔ)到標(biāo)記文件313)。[0078]在一些實(shí)施例中,為了處理生產(chǎn)級(jí)輸入數(shù)據(jù)流,需要預(yù)處理數(shù)據(jù)以進(jìn)行訓(xùn)練和測(cè)試的其他功能塊(例如,在MICROSOFT的COSMOSMapReduce系統(tǒng)中)。這些功能塊可以包括用于訓(xùn)練的特征選擇和訓(xùn)練集合構(gòu)造,以及選擇特征以創(chuàng)建未知對(duì)數(shù)據(jù)集的評(píng)估函數(shù)。在一些實(shí)施例中,一旦構(gòu)造了數(shù)據(jù)集,就可以訓(xùn)練模型并且可以在單個(gè)計(jì)算機(jī)上評(píng)估評(píng)估或測(cè)試集的結(jié)果。在實(shí)踐中,也可以在諸如MapReduce平臺(tái)之類的平臺(tái)中從經(jīng)過(guò)訓(xùn)練的模型評(píng)估未知文件集和K-最近鄰分類器的預(yù)測(cè)分?jǐn)?shù)。[0079]圖4是根據(jù)一些實(shí)施例的用于使用經(jīng)過(guò)訓(xùn)練的模型來(lái)確定新文件是否是惡意的示例系統(tǒng)400的框圖。系統(tǒng)400包括文件儲(chǔ)存庫(kù)402、引爆(detonation)和提取模塊404、標(biāo)簽數(shù)似性模型416、新的未標(biāo)記文件418、引爆和提取模塊420、新文件分類模塊422以及具有KNN分類輸出424的相似文件。應(yīng)當(dāng)理解,系統(tǒng)400的任何組件可以替換圖2和/或圖3的系統(tǒng)中描述的任何組件或與其組合。[0080]在一些實(shí)施例中,引爆和提取模塊404首先引爆并從文件存儲(chǔ)庫(kù)402中提取字符串和行為特征。在一些實(shí)施例中,引爆和提取模塊404包括關(guān)于圖2的仿真器203和/或圖3的文件仿真303描述的功能。在說(shuō)明性示例中,引爆和提取模塊可以從文件儲(chǔ)存庫(kù)402中提取打包文件字符串(然后解包它們)和API調(diào)用以及它們的相關(guān)參數(shù)。在各種實(shí)施例中,文件儲(chǔ)存庫(kù)表示尚未標(biāo)記的文件的數(shù)據(jù)存儲(chǔ),使得不知道文件是否在沒(méi)有惡意內(nèi)容的情況下關(guān)聯(lián)。[0081]在一些實(shí)施例中,響應(yīng)于引爆和提取模塊404執(zhí)行其功能,組合和構(gòu)建模塊408將特征與來(lái)自標(biāo)簽數(shù)據(jù)庫(kù)406的標(biāo)簽組合并組合成相似性訓(xùn)練數(shù)據(jù)集,其中相似文件被配對(duì)施例中,組合和構(gòu)建模塊408包括關(guān)于圖2的特征選擇器205和/或訓(xùn)練集合構(gòu)造組件207和/或圖3的特征選擇305和/或訓(xùn)練集合構(gòu)造307描述的功能。在說(shuō)明性示例中,計(jì)算設(shè)備可以接收對(duì)同一族的不同成員的用戶選擇,這些成員配對(duì)在一起以用于訓(xùn)練并標(biāo)記為“相似”,并且其他成員與良性文件或不同族的成員組合并標(biāo)記為“不相似”。[0082]在一些實(shí)施例中,響應(yīng)于由組合和構(gòu)建模塊408執(zhí)行的功能,訓(xùn)練相似性模塊410些實(shí)施例中,訓(xùn)練相似性模塊410包括如關(guān)于圖2的模型訓(xùn)練組件209和/或圖3的模型訓(xùn)練309所描述的功能。在說(shuō)明性示例中,訓(xùn)練相似性模塊410可以獲取由組合和構(gòu)建模塊408生成的對(duì),將這些對(duì)轉(zhuǎn)換為向量,并將每一對(duì)嵌入特征空間中,并且在不同的訓(xùn)練階段,特定重要特征的權(quán)重可以如本文所述進(jìn)行調(diào)整,使得最終訓(xùn)練輸出是表示為特征空間中的向量的每個(gè)文件,該向量基于在訓(xùn)練迭代中改變權(quán)重而以盡可能最小的損失嵌入。[0083]在一些實(shí)施例中,響應(yīng)于被訓(xùn)練的相似性模型,KNN(K-最近鄰)索引構(gòu)建模塊414接收由引爆和提取模塊404生成的提取字符串和行為特征,并且進(jìn)一步從標(biāo)簽數(shù)據(jù)庫(kù)406接引412用于將傳入或新文件(例如,在部署模型之后)映射或快速索引到訓(xùn)練數(shù)據(jù),以便可以進(jìn)行適當(dāng)?shù)姆诸?。[0084]在一些實(shí)施例中,在構(gòu)建KNN索引412之后,新的未標(biāo)記文件418(其不是標(biāo)簽數(shù)據(jù)庫(kù)406的一部分)被測(cè)試和/或以其他方式用于進(jìn)行預(yù)測(cè),諸如在模型部署之后。如圖4所示,引爆和提取模塊420通過(guò)引爆和提取字符串和行為特征來(lái)處理新的未標(biāo)記文件418。在一些實(shí)施例中,新的未標(biāo)記文件418是之前位于文件儲(chǔ)存庫(kù)402中的尚未針對(duì)惡意進(jìn)行分析的新文件??商娲兀谝恍?shí)施例中,新的未標(biāo)記文件418是不位于文件儲(chǔ)存庫(kù)402中的全新文件。在一些實(shí)施例中,引爆和提取模塊420表示與引爆和提取模塊404相同的模塊。可替代地,這些可以是單獨(dú)的模塊。在一些實(shí)施例中,引爆和提取模塊420包括如關(guān)于圖3的仿真器203和/或文件仿真333所描述的功能。[0085]在一些實(shí)施例中,響應(yīng)于引爆和提取模塊420執(zhí)行其功能,新文件分類模塊422將新的未標(biāo)記文件418中的新文件進(jìn)行分類。在一些實(shí)施例中,這可以通過(guò)使用相似性模型416和KNN索引412查找相似的標(biāo)記文件以產(chǎn)生具有KNN分類424的相似文件集合來(lái)發(fā)生。在一些實(shí)施例中,標(biāo)簽(或由新文件分類模塊422進(jìn)行的分類)通過(guò)多數(shù)投票確定新的未標(biāo)記文件418的標(biāo)簽或分類。[0086]圖5是本公開(kāi)的特定實(shí)施例使用的示例深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DNN)500的示意圖。在一些實(shí)施例中,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)500表示圖4的相似性模型416,或圖3的模型訓(xùn)練309。深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)500包括分支501和503,它們是截然不同但等同的子網(wǎng)絡(luò)(如相同的參數(shù)值和一個(gè)輸出層。分支501和503在頂部由函數(shù)503連接,以確定兩個(gè)輸入(例如,兩個(gè)內(nèi)容,諸如兩個(gè)文件)之間的相似性。應(yīng)當(dāng)理解,雖然只有兩個(gè)分支501和503以及一個(gè)特定的DNN配置,但是可以存在適當(dāng)數(shù)量的分支或配置。與其他層相比,每一層都可以執(zhí)行線性變換和/或擠壓非線性函數(shù)。DNN可以有效地?fù)碛幸粋€(gè)輸入層,其將加權(quán)輸入分配到第一隱藏層,該隱藏層變換其輸入并將其發(fā)送到第二隱藏層。第二隱藏層變換從第一隱藏層接收到的輸出并將其傳遞給輸出層,輸出層執(zhí)行進(jìn)一步的變換并產(chǎn)生輸出分類或相似性分?jǐn)?shù)。[0087]在特定實(shí)施例中,DNN500表示經(jīng)過(guò)訓(xùn)練的雙深度神經(jīng)網(wǎng)絡(luò),其中余弦相似性分?jǐn)?shù)用于學(xué)習(xí)分支501和503的參數(shù)。在一些實(shí)施例中,在訓(xùn)練期間,左分支501和右分支503用已知的相似和不相似的內(nèi)容對(duì)(例如,表示訓(xùn)練組件340)來(lái)訓(xùn)一文件轉(zhuǎn)換為第一向量并在第一分支501的輸入層處輸入,并且將第二相似文件轉(zhuǎn)換為第二向量并在第二分支503的輸入層處輸入并通過(guò)各層(隱藏層1、隱藏層2、輸出層)進(jìn)行饋送,使得輸出層學(xué)習(xí)兩個(gè)向量之間的距離函數(shù)。然后經(jīng)由函數(shù)505,諸如能量函數(shù),計(jì)算兩個(gè)相似性內(nèi)容集之間的余弦相似性。在一些實(shí)施例中,相似性分?jǐn)?shù)是通過(guò)將表示第一內(nèi)容和第二內(nèi)容的兩個(gè)向量組合成單個(gè)向量的結(jié)果而出現(xiàn)的,該單個(gè)向量通過(guò)取兩個(gè)向量之間的逐元素絕對(duì)差(|h(X?)h(X?)1)來(lái)實(shí)現(xiàn)。在特定實(shí)施例中,然后將單個(gè)向量通過(guò)sigmoid函數(shù)以輸出0至1之間的相似性分?jǐn)?shù)。這個(gè)過(guò)程可以在第一訓(xùn)練階段(或其他訓(xùn)練階段)針對(duì)不相似的內(nèi)容集對(duì)(例如,惡意文件和良性文件)重復(fù),使得將內(nèi)容集轉(zhuǎn)換為相應(yīng)的向量并組合成計(jì)算了相似性分?jǐn)?shù)的單個(gè)向量。以此方式,DNN模型500被配置為接收2個(gè)輸入或輸入對(duì)和輸入的相似性分?jǐn)?shù)的1個(gè)輸出,并且可以隨時(shí)間調(diào)整權(quán)重。[0088]在一些實(shí)施例中,在評(píng)估期間(例如,由圖3的評(píng)估組件350執(zhí)行的功能),未知內(nèi)容集被輸入到右分支503并與左分支501中的已知惡意內(nèi)容(例如,如標(biāo)簽數(shù)據(jù)庫(kù)406或標(biāo)記數(shù)據(jù)213中所示)進(jìn)行比較。在一些實(shí)施例中,輸出是未知內(nèi)容集和已知惡意內(nèi)容之間的余弦相似性分?jǐn)?shù)。因?yàn)閮?nèi)容分析是成對(duì)進(jìn)行的,所以可以針對(duì)不同的惡意內(nèi)容重復(fù)輸出過(guò)程,直到分?jǐn)?shù)在已知惡意內(nèi)容和新內(nèi)容之間的距離閾值內(nèi)(例如,文件足夠接近以保證被分類的未知文件是惡意的和/或?qū)儆谔囟ǖ膼阂鈨?nèi)容族)。例如,在第一迭代中,第一族的第一已知惡意軟件文件在第一分支501處被輸入并且第一未知文件在第二分支503處被輸入。在經(jīng)由函數(shù)505確定第一已知惡意軟件文件和第一未知文件之間的距離在閾值之外(它們不相似)之后,可以在第一分支501處輸入第二族的第二已知惡意軟件文件,并且在第二分支處輸入第一未知文件,以再次計(jì)算相似性分?jǐn)?shù)。該過(guò)程可以重復(fù),直到文件對(duì)之間的相似性分?jǐn)?shù)在單個(gè)視圖中的特征空間中表示或在單個(gè)時(shí)間進(jìn)行分析,使得實(shí)施例可以確定表示惡意內(nèi)容的哪個(gè)向量與新的未知內(nèi)容相比最接近或具有最高的相似性分?jǐn)?shù)。[0089]在評(píng)估如何工作的示例說(shuō)明中,一個(gè)新的未知文件(不知道它是否包含惡意內(nèi)容)被轉(zhuǎn)換為第一向量并在第一分支501的輸入層處輸入,并且第二已知惡意文件被轉(zhuǎn)換為第二向量并且在第一分支501的輸入層處輸入并且通過(guò)各層(隱藏層1、隱藏層2、輸出層)進(jìn)行饋送,使得輸出層學(xué)習(xí)兩個(gè)向量之間的距離函數(shù)。然后經(jīng)由函數(shù)505計(jì)算兩個(gè)相似性文件之間的余弦相似性。在一些實(shí)施例中,相似性分?jǐn)?shù)是通過(guò)將表示第一文件和第二文件的兩個(gè)向量組合成單個(gè)向量的結(jié)果而出現(xiàn)的,該單個(gè)向量通過(guò)取兩個(gè)向量之間的逐元素絕對(duì)差來(lái)實(shí)現(xiàn)。在特定實(shí)施例中,然后將單個(gè)向量通過(guò)sigmoid函數(shù)以輸出0至1之間的相似性分?jǐn)?shù)。[0090]圖6是本公開(kāi)的特定實(shí)施例使用的示例深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)(DNN)600的示意圖。在一些實(shí)施例中,深度學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)600表示圖4的相似性模型416,或圖3的模型訓(xùn)練309.DNN600包括分支603(M1)、605(M2)和607(B)。分支603指示處理第一惡意軟件內(nèi)容。分支605指示處理第二惡意軟件內(nèi)容。并且分支607指示處理良性內(nèi)容(或新的/未知的內(nèi)容)。如圖6所示,每個(gè)分支包括一個(gè)輸入層、三個(gè)隱藏層和一個(gè)輸出層。分支603、60609和函數(shù)611連接以確定兩個(gè)輸入內(nèi)容之間的相似性??梢岳斫?,雖然只有三個(gè)分支603、605和607以及一個(gè)特定的DNN配置,但是可以存在任何合適數(shù)量的分支或配置。與其他層相比,每一層都可以執(zhí)行線性變換和/或擠壓非線性函數(shù)。[0091]在一些實(shí)施例中,DNN600表示深度結(jié)構(gòu)化語(yǔ)義模型(DSSM)的變型,盡管DNN600是改善現(xiàn)有模型的新模型。DSSM可以解決訓(xùn)練模型的高級(jí)目標(biāo),該模型學(xué)習(xí)以基于重要性為不同的特征賦予不同的權(quán)重。然而,當(dāng)采用特定實(shí)施例時(shí),典型的DSSM可能不起作用。典型DSSM系統(tǒng)的輸入由一個(gè)非常大的查詢-文檔對(duì)的集合組成,已知這些對(duì)會(huì)導(dǎo)致高點(diǎn)擊率。截然不同的查詢-文檔對(duì)通常是不相關(guān)的,特別是在數(shù)據(jù)集很大并且事先隨機(jī)打亂的情況下。典型的DSSM通過(guò)從原始訓(xùn)練集中的其他實(shí)例對(duì)中隨機(jī)選擇文檔,為每個(gè)查詢匹配文檔下文中起作用,但它不適用于標(biāo)識(shí)相似惡意軟件內(nèi)容集的任務(wù)。一個(gè)問(wèn)地接受一對(duì)匹配的惡意軟件文件(M1和M2)和一個(gè)不匹配的良性文件(B)的輸入以進(jìn)行訓(xùn)練。行特征選擇可以產(chǎn)生對(duì)應(yīng)于圖6中所示的輸入層大小14067的稀疏二進(jìn)制特征。在實(shí)施例[0093]h=f(W.h;-1+b),i=2,…,N等式3f(WhN-1+b)。在一些實(shí)施例中,tanh()函數(shù)用作所有隱藏層的激活函數(shù)以及每個(gè)單獨(dú)的[0095]雖然圖6中所示的概念模型描繪了三個(gè)深度神經(jīng)網(wǎng)絡(luò)或分支(603、607和607),但相關(guān)性分?jǐn)?shù)(分別由特征向量F?和F?表示)與它們對(duì)應(yīng)的語(yǔ)義概念向量Y?和Y?的余弦相似間包含的文件對(duì)的數(shù)量。一旦構(gòu)造了未知內(nèi)容對(duì)的集合,就可以使用經(jīng)過(guò)訓(xùn)練的DNN模型的計(jì)算機(jī)實(shí)現(xiàn)的方法、系統(tǒng)(包括具有至少一個(gè)處理器和至少一個(gè)計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)的至少一個(gè)計(jì)算設(shè)備)和/或計(jì)算機(jī)存儲(chǔ)介質(zhì)可以執(zhí)行或被促使執(zhí)行這些過(guò)程700、730和/或[0108]根據(jù)框704,可以選擇計(jì)算機(jī)對(duì)象集合的一個(gè)或多個(gè)特征(例如,通過(guò)特征選擇器是惡意的),而諸如文件的長(zhǎng)度和格式之類的其他特征可以不被選擇(例如,因?yàn)樗鼈儾荒荜P(guān)于圖2的特征選擇器205、圖4的組合和構(gòu)建模塊408和/或圖3的特征選擇305所描述的功[0109]根據(jù)框706,標(biāo)識(shí)計(jì)算機(jī)對(duì)象的訓(xùn)練集合構(gòu)造對(duì)(例如,通過(guò)訓(xùn)練集合構(gòu)造組件相似的文件(例如,可以配對(duì)良性文件和任何惡意文件或兩個(gè)屬于不同的惡意軟件族成員207、組合和構(gòu)建模塊408和/或訓(xùn)練集合構(gòu)造307所描述的功能。[0110]根據(jù)框708,機(jī)器學(xué)習(xí)模型(例如,深度學(xué)習(xí)模型)至少部分地基于與特征集的重要特征值相關(guān)聯(lián)的學(xué)習(xí)權(quán)重進(jìn)行訓(xùn)練。例如,使用上圖,特定的惡意軟件文件可以與特定的或CURRENT_CONFIG項(xiàng)值)相關(guān)聯(lián)??梢詾樘囟ㄗ宄蓡T的每個(gè)標(biāo)記的惡意軟件文件學(xué)習(xí)這些權(quán)重,使得可以學(xué)習(xí)特征,這些特征對(duì)于被分類為惡意軟件或在某個(gè)族成員中的文件是最重要的。[0111]在一些實(shí)施例中,通過(guò)將計(jì)算機(jī)對(duì)象的集合與特征空間進(jìn)行比較并將其映射到特征空間中,通過(guò)深度學(xué)習(xí)模型來(lái)處理或運(yùn)行計(jì)算機(jī)對(duì)象集合的相似計(jì)算機(jī)對(duì)象和不相似計(jì)算機(jī)對(duì)象(或關(guān)于框706描述的計(jì)算機(jī)對(duì)象)的對(duì)。并且至少部分地基于該處理,可以調(diào)整與深度學(xué)習(xí)模型相關(guān)聯(lián)的權(quán)重以指示該計(jì)算機(jī)對(duì)象集合的某些特征對(duì)于預(yù)測(cè)或分類的重要性。在一些實(shí)施例中,調(diào)整包括改變相似計(jì)算機(jī)對(duì)象的第一計(jì)算機(jī)對(duì)象在特征空間中的嵌入。例如,在第一輪或多輪集的訓(xùn)練之后,可能不知道該計(jì)算機(jī)對(duì)象集合的哪些特征對(duì)于進(jìn)行某個(gè)分類或預(yù)測(cè)是重要的。因此,每個(gè)特征可以具有相等的權(quán)重(或在閾值內(nèi)接近相等的權(quán)重,諸如改變2%的權(quán)重),使得該計(jì)算機(jī)對(duì)象集合的所有指示基本上接近特征空間中的距離閾值或在該距離閾值內(nèi)。然而,經(jīng)過(guò)數(shù)輪訓(xùn)練或任何閾值量的訓(xùn)練后,指示可以基于特征相似性調(diào)整或改變彼此之間的距離。兩個(gè)計(jì)算機(jī)對(duì)象匹配或在閾值內(nèi)的特征越多,這兩個(gè)計(jì)算機(jī)對(duì)象彼此越接近,而當(dāng)特征不匹配或不在閾值內(nèi)時(shí),兩個(gè)計(jì)算機(jī)對(duì)象彼此的距離越遠(yuǎn)。[0112]在各種實(shí)施例中,至少部分地基于在準(zhǔn)備訓(xùn)練時(shí)將計(jì)算機(jī)對(duì)象集合的對(duì)的標(biāo)簽標(biāo)識(shí)為相似或不相似,來(lái)訓(xùn)練深度學(xué)習(xí)模型。訓(xùn)練可以包括調(diào)整與深度學(xué)習(xí)模型相關(guān)聯(lián)的權(quán)重以指示計(jì)算機(jī)對(duì)象集合的某些特征對(duì)于預(yù)測(cè)或分類的重要性。在一些實(shí)施例中,訓(xùn)練包括學(xué)習(xí)相似計(jì)算機(jī)對(duì)象的第一計(jì)算機(jī)對(duì)象(或計(jì)算機(jī)對(duì)象集合)在特征空間中的嵌入。學(xué)習(xí)嵌入可以包括基于兩個(gè)或更多個(gè)指示之間的值的特征相似性和調(diào)整深度學(xué)習(xí)模型的權(quán)重來(lái)學(xué)習(xí)表示兩個(gè)或更多個(gè)計(jì)算機(jī)對(duì)象(例如,文件)的兩個(gè)或更多個(gè)指示之間的距離。例如,如上所述,兩個(gè)文件的特征匹配或在閾值特征向量值內(nèi)的特征越多,這兩個(gè)文件在特征空間中彼此越接近,而當(dāng)特征不匹配或不在一個(gè)特征向量值閾值內(nèi)時(shí),兩個(gè)文件彼此在特征空間中的距離越遠(yuǎn)。因此,響應(yīng)于不同的訓(xùn)練階段,不同層的節(jié)點(diǎn)或神經(jīng)元之間的連接強(qiáng)度可以基于對(duì)特定惡意內(nèi)容族最突出或最重要的對(duì)應(yīng)學(xué)習(xí)特征值加權(quán)或加強(qiáng)。以這種方式,例如,整個(gè)特征空間可以包括向量或其他指示的嵌入,這些向量或其他指示都是基于對(duì)應(yīng)于不同特征的學(xué)習(xí)權(quán)重而學(xué)習(xí)或嵌入在特征空間中的,使得計(jì)算機(jī)對(duì)象的具有在相似計(jì)算機(jī)中發(fā)現(xiàn)的重要特征的指示在特征空間中在彼此之間的閾值距離內(nèi),而與不相似計(jì)算機(jī)對(duì)象或具有不重要特征的計(jì)算機(jī)對(duì)象對(duì)應(yīng)的指示在同一特征空間中不在彼此之間的閾值距離內(nèi)。[0113]在一些實(shí)施例中,框708表示或包括如關(guān)于圖2的模型訓(xùn)練組件209、圖4的訓(xùn)練相似性模塊410、圖3的模型訓(xùn)練309和/或圖5的DNN500所描述的功能。[0114]圖7B是根據(jù)一些實(shí)施例的用于評(píng)估新文件或未知文件的示例過(guò)程730的流程圖。在一些實(shí)施例中,過(guò)程730發(fā)生在圖7A的過(guò)程700之后,使得在框709處做出的相似性分?jǐn)?shù)或預(yù)測(cè)基于使用關(guān)于圖7A描述的學(xué)習(xí)模型。以這種方式,例如,可以在框703處接收請(qǐng)求之前訓(xùn)練深度學(xué)習(xí)模型。在一些實(shí)施例中,過(guò)程730表示或包括關(guān)于圖3的評(píng)估組件350描述的功能。在一些實(shí)施例中,過(guò)程730中使用的“計(jì)算機(jī)對(duì)象”是表示測(cè)試計(jì)算機(jī)對(duì)象t的新的或未知的計(jì)算機(jī)對(duì)象(例如,文件),使得過(guò)程730表示測(cè)試機(jī)器學(xué)習(xí)模型??商娲兀谝恍?shí)施例中,在機(jī)器學(xué)習(xí)模型已經(jīng)被訓(xùn)練、測(cè)試和部署之后,在運(yùn)行時(shí)基于用戶與網(wǎng)頁(yè)應(yīng)用或其他應(yīng)用的交互來(lái)分析計(jì)算機(jī)對(duì)象。在一些實(shí)施例中,過(guò)程730中使用的計(jì)算機(jī)對(duì)象可替代地是[0115]根據(jù)框703,接收確定計(jì)算機(jī)對(duì)象是否包含惡意內(nèi)容的請(qǐng)求(例如,經(jīng)由未知構(gòu)造組件220)。在一些實(shí)施例中,惡意內(nèi)容包括已知的惡意軟件簽名或惡意軟件,諸如Rootkit、特洛伊木馬等的其他指示。在一些實(shí)施例中,惡意內(nèi)容包括已知惡意軟件要展示的已知功能,諸如在發(fā)作之前等待特定時(shí)間量,或在不同時(shí)間注入特定代碼序列,或其他合適的行為。在一些實(shí)施例中,基于用戶在運(yùn)行時(shí)(例如,在訓(xùn)練和模型部署之后)將文件或指示上傳到網(wǎng)頁(yè)應(yīng)用或app以確定計(jì)算機(jī)對(duì)象是否包含任何惡意內(nèi)容,在框703處接收請(qǐng)求。在其他實(shí)施例中,基于用戶上傳機(jī)器學(xué)習(xí)模型尚未訓(xùn)練的新的或未知的計(jì)算機(jī)對(duì)象以測(cè)試機(jī)器學(xué)習(xí)模型(例如,在學(xué)習(xí)模型部署之前),在框703處接收請(qǐng)求。[0116]根據(jù)框705,提取計(jì)算機(jī)對(duì)象的一個(gè)或多個(gè)特征(例如,通過(guò)仿真器203)。在一些實(shí)施例中,提取包括提取解包的文件字符串和提取API調(diào)用,如例如關(guān)于圖3的文件仿真303或333所描述的。在一些實(shí)施例中,框705包括將解包的文件字符串和API調(diào)用以及相關(guān)參數(shù)編碼為N-Gram字符的集合,如例如關(guān)于文件仿真303和/或333所描述的。如本文所述,基于Jaccard指數(shù)的相似性系統(tǒng)的一個(gè)限制是它不能區(qū)分同一集合或計(jì)算機(jī)對(duì)象的多種類型的并使用字符級(jí)三元組將整個(gè)API名稱編碼為字符串來(lái)克服這些限制。在一些實(shí)施例中,框705表示或包括關(guān)于文件仿真303、333、圖4的引爆和提取模塊404和/或圖2的仿真器203描述的功能。[0117]根據(jù)框709,基于各特征(在框705處提取),經(jīng)由深度學(xué)習(xí)模型在計(jì)算機(jī)對(duì)象和多個(gè)計(jì)算機(jī)對(duì)象的已知包含惡意內(nèi)容的每個(gè)計(jì)算機(jī)對(duì)象之間(例如,由未知評(píng)估器211)生成相似性分?jǐn)?shù)。在一些實(shí)施例中,深度學(xué)習(xí)模型與表示已知惡意計(jì)算機(jī)對(duì)象的多個(gè)指示相關(guān)聯(lián)??梢詫⒍鄠€(gè)指示與表示計(jì)算機(jī)對(duì)象的指示進(jìn)行比較。在一些實(shí)施例中,至少部分地基于通過(guò)深度學(xué)習(xí)模型處理或運(yùn)行計(jì)算機(jī)對(duì)象的指示,在計(jì)算機(jī)對(duì)象和多個(gè)已知惡意計(jì)算機(jī)對(duì)象中的每個(gè)已知惡意計(jì)算機(jī)對(duì)象之間生成相似性分?jǐn)?shù)。在一些實(shí)施例中,相似性分?jǐn)?shù)表示或指示計(jì)算機(jī)對(duì)象與多個(gè)已知惡意計(jì)算機(jī)對(duì)象中的每個(gè)已知惡意計(jì)算機(jī)對(duì)象之間的距離度量(例如,余弦距離)。以此方式,例如,可以基于多個(gè)特征確定計(jì)算機(jī)對(duì)象的指示在特征空間中是否在已知惡意計(jì)算機(jī)對(duì)象集合的閾值距離內(nèi)??梢越?jīng)由基于已知惡意計(jì)算機(jī)對(duì)象的不同特征的學(xué)習(xí)權(quán)重的訓(xùn)練來(lái)學(xué)習(xí)特征空間中已知惡意計(jì)算機(jī)對(duì)象集合的嵌入或定向?qū)ο笈c其他已知惡意計(jì)算機(jī)對(duì)象(它們可能各自屬于截然不同的族)的特定距離。該距離可以具體地基于計(jì)算機(jī)對(duì)象與已知惡意計(jì)算機(jī)對(duì)象比較的確切特征值。例如,如果計(jì)算機(jī)對(duì)象與一些已知惡意軟件計(jì)算機(jī)對(duì)象一樣在訓(xùn)練期間具有已被加權(quán)到突出或重要性的確切特征值(例如,如關(guān)于圖7A的框708所描述的),則這兩個(gè)計(jì)算機(jī)對(duì)象之間的距離將在特征空間的閾值內(nèi)接近,使得相似性分?jǐn)?shù)很高。實(shí)際上,在已知惡意軟件計(jì)算機(jī)對(duì)象的訓(xùn)練中,計(jì)算機(jī)對(duì)象具有的已對(duì)重要性進(jìn)行加權(quán)的特征值越多,該計(jì)算機(jī)對(duì)象在特征空間中與已知惡意軟件計(jì)算機(jī)對(duì)象的距離就越近。反之亦然。在已知惡意軟件計(jì)算機(jī)對(duì)象的訓(xùn)練中,計(jì)算機(jī)對(duì)象具有的未對(duì)重要性進(jìn)行加權(quán)的特征值越多,計(jì)算機(jī)對(duì)象與已知計(jì)算機(jī)對(duì)象在特征空間中的距離就越遠(yuǎn)。[0118]在一些實(shí)施例中,在框709處使用的學(xué)習(xí)模型是深度學(xué)習(xí)模型,該深度學(xué)習(xí)模型包括共享權(quán)重并通過(guò)距離學(xué)習(xí)函數(shù)連接的兩個(gè)等同子網(wǎng)絡(luò)。例如,在一些實(shí)施例中,深度學(xué)習(xí)模型表示或包括圖5的DNN500和本文描述的相關(guān)功能。在一些實(shí)施例中,深度學(xué)習(xí)模型包括兩個(gè)等同的子網(wǎng)絡(luò),它們?cè)谟?xùn)練期間共享權(quán)重并處理一對(duì)相似的已知惡意軟件計(jì)算機(jī)對(duì)象和一對(duì)不相似的計(jì)算機(jī)對(duì)象(例如良性文件)(例如,如關(guān)于圖7的框708所描述的)。例如,這些深度學(xué)習(xí)模型實(shí)施例可以包括圖5的DNN500。在一些實(shí)施例中,深度學(xué)習(xí)模型明確地接受一對(duì)匹配的惡意軟件計(jì)算機(jī)對(duì)象和一個(gè)不匹配的良性計(jì)算機(jī)對(duì)象作為輸入來(lái)進(jìn)行訓(xùn)練,例如關(guān)于圖6的DNN600所描述的。在各種實(shí)施例中,深度學(xué)習(xí)模型與嵌入在特征空間中的多個(gè)已知惡意計(jì)算機(jī)對(duì)象相關(guān)聯(lián)(例如,關(guān)于圖7A的框708描述的學(xué)習(xí)模型)。在一些實(shí)施例中,框709表示或包括關(guān)于圖3的未知評(píng)估器211、新文件分類模塊422和/或未知對(duì)評(píng)估311所描述的功能。[0119]在一些實(shí)施例中,在框709處生成的相似性分?jǐn)?shù)附加地或可替代地包括或表示分類或預(yù)測(cè)分?jǐn)?shù)(例如,和相關(guān)聯(lián)的置信度),其指示分類或預(yù)測(cè)計(jì)算機(jī)對(duì)象屬于多個(gè)已知惡意計(jì)算機(jī)對(duì)象中的每一個(gè)的可能性。例如,每個(gè)已知的惡意計(jì)算機(jī)對(duì)象可以包括三個(gè)截然不同的惡意軟件族,諸如第一Rootkit種類、第二Rootkit種類和第三Rootkit種類。相似性分?jǐn)?shù)可以指示計(jì)算機(jī)對(duì)象屬于第一Rootkit種類的0.96置信度或可能性、文件屬于第二Rootkit種類的0.32置信度或可能性,以及文件屬于第三Rootkit種類的0.12置信度或可能[0120]在一些實(shí)施例中,至少部分地基于多個(gè)特征中的一個(gè)或多個(gè)與第一計(jì)算機(jī)對(duì)象的改變的嵌入匹配或接近(在閾值距離內(nèi))來(lái)設(shè)置第一計(jì)算機(jī)對(duì)象的相似性分?jǐn)?shù)。在一些實(shí)施例中,“改變的”嵌入表示具有基于特征重要性的適當(dāng)權(quán)重的學(xué)習(xí)或訓(xùn)練嵌入,例如關(guān)于圖7A的框708中的最終訓(xùn)練嵌入或模型所描述的。[0121]在一些實(shí)施例中,特征空間包括良性計(jì)算機(jī)對(duì)象的指示,使得計(jì)算機(jī)對(duì)象的指示是否在閾值距離內(nèi)的確定至少部分地基于分析良性計(jì)算機(jī)對(duì)象的指示。例如,在框703處接收到的計(jì)算機(jī)對(duì)象實(shí)際上可能是不包含惡意軟件的良性文件。因此,當(dāng)文件通過(guò)學(xué)習(xí)模型運(yùn)行時(shí),該文件可以在特征空間上更接近于基于特征值匹配的其他良性文件,或者更接近于在訓(xùn)練期間分析的良性文件的其他特征。因此,可以確定計(jì)算機(jī)對(duì)象在已知惡意軟件計(jì)算機(jī)對(duì)象的閾值距離之外(并且在良性計(jì)算機(jī)對(duì)象的閾值距離內(nèi))。在各種實(shí)施例中,該指示包括基于學(xué)習(xí)兩個(gè)輸入(計(jì)算機(jī)對(duì)象)之間的距離函數(shù)的深度學(xué)習(xí)模型的兩個(gè)分支的嵌入在特征空間中的向量,其中第一輸入是所述向量,而第二輸入是表示已知惡意軟件計(jì)算機(jī)對(duì)象集合的第一惡意軟件計(jì)算機(jī)對(duì)象的另一個(gè)向量。例如,這是針對(duì)關(guān)于圖5的深度學(xué)習(xí)模型500描述的功能和分支來(lái)描述的。在一些實(shí)施例中,框709表示或包括關(guān)于圖2的未知評(píng)估器211、未知對(duì)評(píng)估311和/或圖4的新文件分類模塊422描述的功能。[0122]根據(jù)框713,表示多個(gè)已知惡意計(jì)算機(jī)對(duì)象中的至少一個(gè)的一個(gè)或多個(gè)標(biāo)識(shí)符(例如,特定惡意軟件族或文件的名稱)被提供(例如,由呈現(xiàn)組件21個(gè)或多個(gè)標(biāo)識(shí)符可以指示計(jì)算機(jī)對(duì)象可能是惡意的和/或計(jì)算機(jī)對(duì)象可能屬于特定的惡意族。在一些實(shí)施例中,至少部分地響應(yīng)于相似性分?jǐn)?shù)高于多個(gè)已知惡意計(jì)算機(jī)對(duì)象的集合和該計(jì)算機(jī)對(duì)象的

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論