版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、-,1,P2P流量識別問題初探,周駿2007.5.26,-,2,內(nèi)容提要,研究背景研究現(xiàn)狀分析與探討小結(jié),-,3,研究背景,與傳統(tǒng)的分布式系統(tǒng)相比,P2P技術(shù)的分布化程度、可擴(kuò)展性、健壯性、性價比、負(fù)載均衡能力等都表現(xiàn)得更加優(yōu)秀,客觀來說比較適合現(xiàn)有網(wǎng)絡(luò)結(jié)構(gòu),因此,P2P應(yīng)用在近年來得到了迅猛的發(fā)展。P2P流量在Internet流量中占據(jù)的比例越來越重,僅僅靠提高網(wǎng)絡(luò)容量很難應(yīng)對這種局面,有效的解決辦法是研究和發(fā)展P2P流量的識別和過濾技術(shù)。,-,4,Cont.,P2P技術(shù)正是在不斷地挑戰(zhàn)中生存并發(fā)展的,它不斷采用新的技術(shù)隱藏傳輸行為,躲避運(yùn)營商的識別。動態(tài)端口應(yīng)用層隧道加密傳輸采用分布式散列
2、表(DistributedHashTable,DHT)技術(shù)提高分布化程度,-,5,研究現(xiàn)狀,P2P流量分類和識別主要分為4種類型。基于端口識別基于應(yīng)用協(xié)議特征字識別基于行為特征的啟發(fā)式識別基于機(jī)器學(xué)習(xí)方法的分類和識別,-,6,基于特征端口的識別,通常,基于特征端口來識別網(wǎng)絡(luò)流量和應(yīng)用是最為簡單并行之有效的方法。隨著端口跳變、信息隱藏等技術(shù)的廣泛采用,這種識別方法已經(jīng)不再適用于P2P流量的識別與檢測。,-,7,基于應(yīng)用協(xié)議特征字的識別,優(yōu)點(diǎn)在于識別的準(zhǔn)確率高、可在線處理缺點(diǎn)在于需要獲取分組的應(yīng)用層負(fù)載,對處理效率的影響較為嚴(yán)重涉及到隱私保護(hù)等法律問題對于采用了信息加密傳輸?shù)膽?yīng)用無法識別應(yīng)用協(xié)議的
3、特征字提取比較困難應(yīng)用協(xié)議升級后,必須重新提取特征字無法識別新應(yīng)用。,-,8,Cont.,Haffner,Sen等人提出了自動構(gòu)造應(yīng)用特征字的一種方法(AutomatedConstructionofApplicationSignatures,ACAS)采用機(jī)器學(xué)習(xí)技術(shù),使用預(yù)先分類好的樣本數(shù)據(jù)對分類器進(jìn)行訓(xùn)練后,可以用于應(yīng)用特征字的自動提取是一種新的思路,但該方法還不夠成熟,-,9,基于行為特征的啟發(fā)式識別,綜合利用流的屬性、統(tǒng)計(jì)特性以及流的行為特征,按照啟發(fā)式規(guī)則對流進(jìn)行分析,達(dá)到對P2P流量分類和識別的目的。優(yōu)點(diǎn)是:不依賴于流的應(yīng)用層報(bào)文內(nèi)容,用于分析的測度及其導(dǎo)出指標(biāo)容易獲取,因此便于工
4、程實(shí)現(xiàn)和應(yīng)用。缺點(diǎn)是:分類和識別的結(jié)果不是確定性的,而是基于概率的結(jié)果,因此方法的精度取決于P2P應(yīng)用特征的顯著程度和啟發(fā)式規(guī)則對這種特征的覆蓋能力。此外,這類方法用于分類效果較好,用于單個P2P應(yīng)用識別還有待進(jìn)一步研究。,-,10,代表性方法,T.Karagiannis,A.Broido,M.Faloutsos,andK.claffy,“TransportLayerIdentificationofP2PTraffic,”inIMC04,Taormina,Italy,October25-27,2004.根據(jù)少量的運(yùn)輸層首部信息,使用兩種啟發(fā)規(guī)則來進(jìn)行P2P流識別,該方法只能用于事后分析??勺R別
5、出90%以上的P2P流量,表明了基于流的運(yùn)輸層行為特征也可以進(jìn)行流量識別,擺脫了基于應(yīng)用協(xié)議特征字進(jìn)行識別時所面臨的困境。,-,11,Cont.,BLINC方法(參見程磊論文)結(jié)合流的屬性和參與特定應(yīng)用時主機(jī)的行為特征,進(jìn)行P2P流量識別提出了主機(jī)行為特征的社交層、功能層和應(yīng)用層描述6條啟發(fā)式規(guī)則可以對8090%的流量進(jìn)行分類,準(zhǔn)確性高于95%,-,12,Cont.,Cross-Layerpeer-to-peertrafficidentificationandoptimizationbasedonactivenetworking.主動網(wǎng)絡(luò)技術(shù)基于小波分析的模式檢測方法P2P測量、識別和優(yōu)化的架
6、構(gòu),跨層協(xié)作的P2P識別和優(yōu)化方法eDonkeyvsFTP分組到達(dá)間隔時間,分組大小模擬結(jié)果表明,在進(jìn)行了6層小波包分解后,在1、3、6層兩種協(xié)議的差別非常顯著。,-,13,Cont.,F.Constantinou等,IdentifyingKnownandUnknownP2PTraffic.P2P應(yīng)用中存在的兩個特征進(jìn)行識別:覆蓋網(wǎng)絡(luò)直徑大;參與主機(jī)既是客戶機(jī)又是服務(wù)器。該方法具有較好的性能(使用普通PC機(jī),處理速度高于200,000pkt/s),但是精度還有待進(jìn)一步提高(4個驗(yàn)證數(shù)據(jù)集平均情況下,漏報(bào)率在10%左右)覆蓋網(wǎng)絡(luò)直徑的近似計(jì)算方法,-,14,Cont.,DanielStutzba
7、ch,RezaRejaie.UnderstandingChurninPeer-to-PeerNetworks.IMC06,October25-27,2006,RiodeJaneiro,Brazil.波動特性指的是成千上萬個peer點(diǎn)相互獨(dú)立的到達(dá)和離開行為造成的整體效應(yīng)。利用“爬蟲”技術(shù)對Gnutella(非結(jié)構(gòu)化的),Kad(采用DHT)進(jìn)行測量,采集了樣本數(shù)據(jù)集;利用BitTorrent(內(nèi)容分布式)的日志工具采集了BT的樣本數(shù)據(jù)集。,-,15,Cont.,關(guān)于churn的結(jié)論不同P2P系統(tǒng)的全局動態(tài)性非常相似會話長度并不遵從指數(shù)分布大部分Peer點(diǎn)是高度穩(wěn)定的,少數(shù)Peer點(diǎn)則快速地變化
8、Peer點(diǎn)在連續(xù)出現(xiàn)時,其會話長度是相關(guān)的。,-,16,基于機(jī)器學(xué)習(xí)的分類方法,兩個過程,模型的訓(xùn)練過程和使用模型進(jìn)行分類的過程無指導(dǎo)的機(jī)器學(xué)習(xí)方法首先對分類識別對象進(jìn)行聚類,然后按照聚類的結(jié)果產(chǎn)生分類器有指導(dǎo)的機(jī)器學(xué)習(xí)方法,通常使用一個迭代計(jì)算過程,借助于預(yù)先分類好的樣本數(shù)據(jù)集進(jìn)行學(xué)習(xí),直到滿足結(jié)束條件時結(jié)束學(xué)習(xí)過程,產(chǎn)生分類器,-,17,無指導(dǎo)的機(jī)器學(xué)習(xí)方法,基本思路:產(chǎn)生的分類取得較好的類內(nèi)相似度和較好的類間相異度時訓(xùn)練結(jié)束,并產(chǎn)生分類器對監(jiān)測到的流進(jìn)行分類識別使用聚類算法,基于運(yùn)輸層的統(tǒng)計(jì)信息(分組大小的統(tǒng)計(jì)值、到達(dá)間隔時間的統(tǒng)計(jì)值、字節(jié)數(shù)、連接持續(xù)時間等)進(jìn)行聚類并產(chǎn)生分類器EM,A
9、utoClass,K-Means,DBSCAN(基于密度的空間聚類算法),-,18,Cont.,準(zhǔn)確度采用AutoClass算法,模型建立時間長,全局精度高采用DBSCAN算法,產(chǎn)生的聚類簇少,但精度高,適合于針對單個應(yīng)用類的流量識別采用K-Means算法,全局精確度稍差于AutoClass,但速度遠(yuǎn)快于AutoClass。,-,19,有指導(dǎo)的機(jī)器學(xué)習(xí)方法,分類算法:最近鄰、樸素Bayes等,后者具有較好的精度人工神經(jīng)網(wǎng)絡(luò):SOM(SelfOrganizingMap,自組織映射)M.Crotti,M.Dusi,F.Gringoli,L.Salgarelli.TrafficClassificat
10、ionthroughSimpleStatisticalFingerprinting.,-,20,Cont.,基于協(xié)議指紋的分類方法思想:相同應(yīng)用協(xié)議產(chǎn)生的流,達(dá)到一定數(shù)量時,它們的統(tǒng)計(jì)信息足以用來表征該應(yīng)用協(xié)議提出了協(xié)議指紋(protocolfingerprinting)的概念分類引擎中包含一個協(xié)議指紋庫分類引擎計(jì)算到達(dá)流與協(xié)議指紋庫中各指紋的偏離程度,據(jù)此進(jìn)行判定,-,21,分析與探討,局限性技術(shù)難點(diǎn)研究動向基本思路,-,22,局限性,基于應(yīng)用特征字的識別方法計(jì)算量大,自適應(yīng)能力弱;應(yīng)用協(xié)議特征字分析提取的難度大,自動化程度低,協(xié)議演化后需要重新析取,不能識別采用了加密技術(shù)的應(yīng)用。基于應(yīng)用行
11、為特征的方法各有千秋,無論是基于啟發(fā)式規(guī)則進(jìn)行推斷,抑或是采用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行自動分類,其結(jié)果是,在識別一類應(yīng)用時精度尚有保證,但是無法用于準(zhǔn)確識別具體應(yīng)用。,-,23,Cont.,共性問題只注重P2P應(yīng)用的單個方面的特性,系統(tǒng)研究P2P應(yīng)用后,是否能夠發(fā)現(xiàn)這些方面具有的某種聯(lián)系?如果這樣,就能夠綜合利用P2P應(yīng)用各個層次的信息,進(jìn)行跨層設(shè)計(jì),以進(jìn)一步提高識別和分類方法的準(zhǔn)確性。多數(shù)方法是基于數(shù)據(jù)包進(jìn)行檢測的,方法的可用性在高速網(wǎng)絡(luò)環(huán)境下面臨嚴(yán)重的挑戰(zhàn)?;诹鞯母咝?shí)時識別和分類方法更有研究價值和現(xiàn)實(shí)意義。,-,24,技術(shù)難點(diǎn),研究基礎(chǔ)部署監(jiān)測設(shè)施進(jìn)行流量采集,利用采集到的數(shù)據(jù)集展開研究和分析
12、是當(dāng)前的一種主要做法,然而部署監(jiān)測節(jié)點(diǎn)受多方面因素制約,并且不同觀測點(diǎn)采集到的流量數(shù)據(jù)差異性較大,這種做法可能會影響到分析結(jié)果的普適性。一種可行的變通方法是利用學(xué)術(shù)界現(xiàn)有監(jiān)測設(shè)施提供的trace文件,但是大多trace文件共享前對地址、負(fù)載等進(jìn)行了處理,因而,直接利用這些trace文件也并不樂觀。,-,25,Cont.,對方法進(jìn)行準(zhǔn)確性評價的問題。通常的做法是,對用于評估該方法的樣本數(shù)據(jù)集進(jìn)行預(yù)先分析,然后以此作為參照,對該方法的結(jié)果進(jìn)行評價。由于這種預(yù)先分析過程的精度直接影響評價結(jié)果,因此預(yù)先分析的結(jié)果必須是確定性的。對海量的樣本數(shù)據(jù)集進(jìn)行確定性的預(yù)先分類是強(qiáng)度非常高的工作。如何高效精準(zhǔn)地獲
13、得評價樣本數(shù)據(jù)集?,-,26,Cont.,提高方法的實(shí)時性方法的實(shí)時性是決定方法是否有工程應(yīng)用價值的關(guān)鍵指標(biāo)之一。當(dāng)前研究工作重點(diǎn)在于解決方法的準(zhǔn)確性問題,實(shí)時性方面考慮不夠。方法的實(shí)時性一方面取決于采用的特征屬性集是否能快速提高可區(qū)分性,另一方面也需要提高算法的效率和降低計(jì)算的復(fù)雜度。有效降低存儲耗費(fèi)也是提高方法實(shí)時性的必要途徑。,-,27,Cont.,提高方法的健壯性主要是指方法可應(yīng)用的范圍和方法持續(xù)有效的時間。該方法不受部署位置的影響,例如即可有效應(yīng)用于邊界網(wǎng)絡(luò)也可有效應(yīng)用于骨干網(wǎng)絡(luò)該方法對于現(xiàn)有P2P應(yīng)用的演化、新的P2P應(yīng)用的推出具有良好的適應(yīng)性和擴(kuò)展性,-,28,研究動向,主動測量
14、方法和被動測量方法有效結(jié)合,針對特定P2P應(yīng)用提出系統(tǒng)的測量方案。綜合利用P2P應(yīng)用各個層次的信息,進(jìn)行跨層設(shè)計(jì),以提高識別和分類方法的準(zhǔn)確性。.基于NetFlow流研究P2P應(yīng)用識別和分類方法如果可行,將大大提高方法的可用性,降低實(shí)現(xiàn)成本,市場前景更為廣闊。,-,29,Cont.,引入數(shù)據(jù)流技術(shù)和發(fā)展數(shù)據(jù)流上的在線數(shù)據(jù)挖掘技術(shù),對于提高P2P應(yīng)用識別和分類方法的實(shí)時性也值得展開相關(guān)研究。研究基于策略或者基于插件技術(shù)的P2P應(yīng)用識別和分類框架,對于提高方法的健壯性和擴(kuò)展性也有一定的幫助。,-,30,基本思路,Peer點(diǎn)進(jìn)行應(yīng)用初始化、加入覆蓋網(wǎng)絡(luò)的階段,應(yīng)當(dāng)具有很強(qiáng)的可區(qū)分性集中式、純分布式、
15、或者是混合式的覆蓋網(wǎng)絡(luò),其不同之處是基于內(nèi)容分布的應(yīng)用層路由方式不同。采用集中式和混合式覆蓋網(wǎng)絡(luò)的P2P應(yīng)用,普通Peer點(diǎn)進(jìn)行內(nèi)容路由的過程實(shí)際上是一個重定向的過程采用純分布式覆蓋網(wǎng)絡(luò)的P2P應(yīng)用,這一過程實(shí)際上是一個基于本地計(jì)算后按照策略轉(zhuǎn)發(fā)的遞歸過程。無論采用上述哪種結(jié)構(gòu)的覆蓋網(wǎng)絡(luò),無論通信過程是否采用了加密技術(shù),節(jié)點(diǎn)在加入覆蓋網(wǎng)絡(luò)這一階段的通信過程,必然具有針對性,換句話說,必然會與某些特定目標(biāo)節(jié)點(diǎn)建立連接,接收并更新覆蓋網(wǎng)絡(luò)的拓?fù)湫畔ⅰ?-,31,Cont.,綜合利用主、被動測量技術(shù)采集數(shù)據(jù),充分利用數(shù)據(jù)挖掘等技術(shù)提高離線狀態(tài)下協(xié)議分析的準(zhǔn)確性和自動化程度,有效提取P2P應(yīng)用的流量特
16、征和行為特性。研究基于數(shù)據(jù)流管理系統(tǒng)的網(wǎng)絡(luò)流在線分析的方法和手段,以提高實(shí)時在線識別和分類的效能,其中涉及到概要數(shù)據(jù)結(jié)構(gòu)設(shè)計(jì)和提高連續(xù)查詢算法精度的問題,以及發(fā)展數(shù)據(jù)流管理系統(tǒng)的在線數(shù)據(jù)挖掘技術(shù)。,-,32,Cont.,基于策略的P2P應(yīng)用識別架構(gòu)出發(fā)點(diǎn)之一是為識別系統(tǒng)提供自適應(yīng)特性。這種基于策略的架構(gòu)將對識別方法的控制和識別方法本身分離開來,本質(zhì)上提供了一種獨(dú)立于識別方法和P2P應(yīng)用的調(diào)度和控制機(jī)制。出發(fā)點(diǎn)之二是能夠?qū)⒊跏蓟A段的識別算法以及結(jié)果和基于流量特征與行為特性的識別算法以及結(jié)果綜合加以利用,互為補(bǔ)充,以期獲得更高的準(zhǔn)確性和實(shí)時性。,-,33,小結(jié),概述了P2P流量識別問題的研究進(jìn)展
17、對該研究問題的局限性、技術(shù)難點(diǎn)和未來研究方向進(jìn)行了探討提出了自己的研究思路,-,34,參考文獻(xiàn),1SenS,WangJ.Analyzingpeer-to-peertrafficacrosslargenetworks.In:Proc.ofthe2ndACMSIGCOMMWorkshoponInternetMeasurementWorkshop.2002.2KaragiannisT,BroidoA,BrownleeN,ClaffyKC,FaloutsosM.IsP2Pdyingorjusthiding.In:Proc.oftheIEEEGlobecom2004.2004.15321538.3S.S
18、en,O.Spatscheck,andD.Wang,“Accurate,ScalableIn-NetworkIdentificationofP2PTrafficUsingApplicationSignatures,”inWWW2005,NewYork,USA,May17-22,2004.4A.MooreandK.Papagiannaki,“TowardtheAccurateIdentificationofNetworkApplications,”inPAM2005,Boston,USA,March31-April1,2005.,-,35,Cont.,5P.Haffner,S.Sen,O.Spa
19、tscheck,andD.Wang,“ACAS:AutomatedConstructionofApplicationSignatures,”inSIGCOMM05Workshops,Philadelphia,USA,August22-26,2005.6T.Karagiannis,A.Broido,M.Faloutsos,andK.claffy,“TransportLayerIdentificationofP2PTraffic,”inIMC04,Taormina,Italy,October25-27,2004.7T.Karagiannis,K.Papagiannaki,andM.Faloutso
20、s,“BLINC:MultilevelTrafficClassificationintheDark,”inSIGCOMM05,Philadelphia,USA,August21-26,2005.,-,36,Cont.,8DedinskiI,MeerHD,HanL,MathyL.Cross-Layerpeer-to-peertrafficidentificationandoptimizationbasedonactivenetworking.In:Proc.ofthe7thIntlWorkingConf.onActiveandProgrammableNetworks.2005.9FivosCon
21、stantinou,PanayiotisMavrommats.IdentifyingKnownandUnknownP2PTraffic.10DanielStutzbach,RezaRejaie.UnderstandingChurninPeer-to-PeerNetworks.IMC06,October25-27,2006,RiodeJaneiro,Brazil.11A.McGregor,M.Hall,P.Lorier,andJ.Brunskill,“FlowClusteringUsingMachineLearningTechniques,”inPAM2004,AntibesJuan-les-P
22、ins,France,April19-20,2004.,-,37,Cont.,12S.Zander,T.Nguyen,andG.Armitage,“Self-LearningIPTrafficClassificationBasedonStatisticalFlowCharacteristics,”inPAM2005,Boston,USA,March31-April1,2005.13ZanderS,NguyenT,ArmitageG.Automatedtrafficclassificationandapplicationidentificationusingmachinelearning.In:Proc.oftheIEEE30thConf.
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年山東大學(xué)齊魯?shù)诙t(yī)院護(hù)理人員(非事業(yè)編制)招聘(60人)筆試備考題庫及答案解析
- 2026上半年貴州事業(yè)單位聯(lián)考貴州省民政廳招聘10人考試備考題庫及答案解析
- 2026年度霍邱縣事業(yè)單位公開招聘工作人員44名筆試模擬試題及答案解析
- 2026年安徽汽車職業(yè)技術(shù)學(xué)院招聘派遣制任務(wù)型教師30名(第一批)筆試參考題庫及答案解析
- 2026湖北恩施州順鑫達(dá)勞務(wù)有限責(zé)任公司短期招聘2人筆試參考題庫及答案解析
- 2026年薪酬體系設(shè)計(jì)優(yōu)化培訓(xùn)
- 2026江西裕民銀行誠聘英才筆試備考試題及答案解析
- 北京十一晉元中學(xué)招聘筆試備考題庫及答案解析
- 2026年投資房地產(chǎn)的地理經(jīng)濟(jì)分析
- 2026年房地產(chǎn)開發(fā)成本與政策調(diào)控的關(guān)聯(lián)性
- DB34-T 4877-2024 智慧檢驗(yàn)檢測實(shí)驗(yàn)室建設(shè)指南
- 體溫單模板完整版本
- 武漢市2024屆高中畢業(yè)生二月調(diào)研考試(二調(diào))英語試卷(含答案)
- 天然美肌無添加的護(hù)膚品
- 《正常人體形態(tài)學(xué)》考試復(fù)習(xí)題庫大全(含答案)
- 湖南省長沙市外國語學(xué)校 2021-2022學(xué)年高一數(shù)學(xué)文模擬試卷含解析
- 3D車載蓋板玻璃項(xiàng)目商業(yè)計(jì)劃書
- 阿米巴經(jīng)營管理培訓(xùn)課件
- 我國的宗教政策-(共38張)專題培訓(xùn)課件
- 鋁材廠煲模作業(yè)指導(dǎo)書
- 【行測題庫】圖形推理題庫
評論
0/150
提交評論