版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
虛假線損定位方法概述目錄TOC\o"1-3"\h\u17418虛假線損定位方法概述 172531.1數(shù)據(jù)異常檢測 152731.2虛假線損的辨識 3171071.2.1K-means聚類算法 3255421.2.2K-means方法中K值的選取方法 4276381.2.2.1ELBOW方法 421751.2.2.2Gapstatistic方法 5289381.2.2.3余弦相似度方法 693831.3相似性原理 728231.1.1分段線性表示 7147031.1.2模式距離 866691.1.3形狀距離 11172541.4虛假線損定位方案 12311501.5虛假線損定位方法實現(xiàn) 14虛假線損的定位涉及到兩個方面的問題:第一是對數(shù)據(jù)進(jìn)行異常檢測以確定異常區(qū)間。一般來說,異常數(shù)據(jù)表現(xiàn)各不相同,具有很強(qiáng)的隨機(jī)性。在電力系統(tǒng)運行過程中,由于采集裝置與傳輸數(shù)據(jù)時不可避免的會受到各種干擾,導(dǎo)致出現(xiàn)小范圍的電力負(fù)荷數(shù)據(jù)與實際情況不符的現(xiàn)象;或者由于通信環(huán)節(jié)中的某一個模塊出現(xiàn)問題,造成電力負(fù)荷在一小段時間內(nèi)甚至長時間缺失數(shù)據(jù)。由于虛假線損與管理線損在異常形式上類似,都會出現(xiàn)數(shù)據(jù)的畸變行為或數(shù)據(jù)缺失與異常線性,因此區(qū)分管理線損與虛假線損,即當(dāng)確定了數(shù)據(jù)異常區(qū)間后如何判斷此區(qū)間為虛假線損區(qū)間是虛假線損精確定位的第二步。1.1數(shù)據(jù)異常檢測數(shù)據(jù)異常檢測是一個研究的熱點問題。隨著研究的深入已經(jīng)有了許多異常檢測的方法,被廣泛應(yīng)用于故障查找、金融風(fēng)控、結(jié)構(gòu)缺陷、濫用與網(wǎng)絡(luò)入侵、文本匹配等領(lǐng)域。異常也被稱作離群值、噪聲、偏差等。數(shù)據(jù)的異常檢測需要考慮的方面相當(dāng)復(fù)雜,面臨許多問題,比如如何判斷異常值與正常值的邊界;異常在不同時間或區(qū)域內(nèi)的定義隨應(yīng)用的不同而不同;當(dāng)某些惡意行為造成的結(jié)果與正常值相近時如何處理等。通常對于離群點的理解是它與其臨近數(shù)據(jù)點相比是否存在顯著差別,因此對于數(shù)據(jù)異常檢測的研究主要是針對異常點相鄰數(shù)據(jù)的范圍、異常點與相鄰數(shù)據(jù)的差別、異常點與相鄰數(shù)據(jù)差別的顯著程度這三點[42-43]。目前用于異常檢測的常用方法有以下幾種類型:第一種是基于假設(shè)檢驗的診斷方法,以對小概率事件的判別實現(xiàn)對數(shù)據(jù)樣本異常性的鑒別。常見檢測方法有t檢驗、Grubbs檢驗等[44]。第二種是以聚類作為基本思路的診斷方法[45-46]。這種方法的原理是以相似性為基礎(chǔ),將數(shù)據(jù)點分類后,最終不屬于任何類的數(shù)據(jù)點即為異常點,是處理噪聲的經(jīng)典手段。聚類的方法有很多,應(yīng)用在異常識別領(lǐng)域常運用模糊C均值聚類的方法同時發(fā)現(xiàn)類與異常點。第三種是基于密度的診斷方法,從數(shù)據(jù)樣本各個點的鄰域入手,計算每個點與其他點的距離,進(jìn)而計算其離群指標(biāo),以此判斷數(shù)據(jù)樣本中的各個點是否為異常點。第四種是基于相似度的診斷方法[48]。相似性根據(jù)使用場景的不同,可以有不同的定義標(biāo)準(zhǔn)。一種是嚴(yán)格匹配、另一種是形狀匹配即可,允許序列有小范圍的起伏伸縮波動,只要大致形狀相同即可。本文擬采用異常因子檢測法用于虛假線損定位的第一步。異常因子檢測法又稱LOF算法,是一種經(jīng)典的基于密度的異常檢測方法,常用于區(qū)分離群點與正常點[49]。此算法的原理是對于一個點的集合,距離其他點距離更遠(yuǎn)的點更有可能是異常點。以該集合中每個點的密度作為評判點距離其他點距離的評價指標(biāo),通常有個閾值進(jìn)行異常點離群的判斷。在LOF算法的實際運行中,只需要按照實際使用情況設(shè)置人為設(shè)置數(shù)據(jù)點的局部鄰域,此鄰域代表選取點周圍距離它最近的個點計算密度。LOF具體流程如下,參照圖3-1所示:圖3-1LOF算法參照圖(1)定義維平面內(nèi)點與點之間的距離為,這里以歐式距離表示,如式3-1所示:(3-1)(2)定義點的第距離為,對于點需要滿足:在所有點中至少有除了點在內(nèi)的個點,使。在所有點中至多有除了點在內(nèi)的個點,使。(3)定義點的第距離鄰域為與點最為相鄰的個點的集合。第鄰域內(nèi)點的個數(shù)。(4)定義點到點的可達(dá)距離如式3-2所示:(3-2)即如果點不屬于,則以記為點到點的第可達(dá)距離,否則。由此可以得出對于在點Q的第距離鄰域內(nèi)的所有點,點到的第可達(dá)距離都是相同的(5)定義點的局部可達(dá)密度為式3-3所示:(3-3)即點的第距離鄰域內(nèi)的所有點到點的平均第可達(dá)距離的倒數(shù)。(6)定義點的局部離群因子為式3-4所示:(3-4)點的局部離群因子為判斷點是否為離群點的最終觀測指標(biāo),越小,說明與周圍點距離越小,越不可能是異常點;越大,說明與周圍點距離越大,越有可能是異常點。同時,由以上步驟可以看出,點的密度最終只與人為設(shè)置的有關(guān),當(dāng)值設(shè)置不同時,會使點的局部離群因子不同,可能會對判斷是否為異常點造成影響,因此在實際應(yīng)用時選擇合理的值至關(guān)重要。1.2虛假線損的辨識在確定了異常發(fā)生區(qū)間后,需要判斷此區(qū)間是否為虛假線損區(qū)間,即故障區(qū)間累計的用電量是否符合用戶以往的用電行為。擬采用的方案是首先對用戶的用電行為特征曲線進(jìn)行聚類分析,然后根據(jù)相似性判斷故障曲線是否與通過聚類分析所得的用電行為特征曲線相符,即可完成虛假線損辨識。下面將分別對聚類算法與相似性原理進(jìn)行介紹。1.2.1K-means聚類算法K-means聚類算法以距離為基礎(chǔ),認(rèn)為兩個目標(biāo)越近,同屬一類的可能性更高。因為其容易理解且易于操作的特點被廣泛使用[50]。K-means聚類算法的算法步驟如下所示:(1)隨機(jī)選取個樣本作為最初的聚類中心;(2)計算樣本群中每個點到初始聚類中心的距離,以此距離分類。(3)對每個類別,分別計算各個類的質(zhì)心作為新的聚類中心,如式3-5所示:(3-5)(4)重復(fù)(2)(3)步,直到滿足迭代結(jié)束條件迭代結(jié)束。1.2.2K-means方法中K值的選取方法K-means聚類算法雖然算法復(fù)雜度較低且在處理大數(shù)據(jù)集時可以保證較好的伸縮性,但聚類結(jié)果受到k值影響,由于值需要人為設(shè)定,不同值得到的結(jié)果不一樣,這是K-means方法最大的缺點。因此合理選取值變得至關(guān)重要。1.2.2.1ELBOW方法ELBOW方法又稱作手肘法,是確定聚類數(shù)目的一種經(jīng)典方法,其基本原理是當(dāng)人為設(shè)置的值小于實際值時,隨著人為設(shè)置值的增大,對應(yīng)的觀測指標(biāo)會以極大速率下降;而當(dāng)人為設(shè)置的值超過實際值后,即使人為設(shè)置的值再增大,對應(yīng)的觀測指標(biāo)也不會有太大的變化。在這個過程中一定存在一個拐點,這個拐點即為最終應(yīng)該選取的實際值[51]。在ELBOW法中,如果數(shù)據(jù)樣本中的所有點以表示,人為設(shè)置聚類數(shù)目記為,中心點記為,以歐式距離記為數(shù)據(jù)樣本中的點與最近的聚類中心的距離,觀測值即各簇中數(shù)據(jù)樣本與聚類中心的距離和,為如式3-6所示:(3-6)如圖3-2展示了聚類數(shù)目與的關(guān)系,當(dāng)時,ELBOW方法的觀測值隨聚類數(shù)目的增大而減小且變化速度相對較快,當(dāng)后,ELBOW方法的觀測值隨聚類數(shù)目的增大雖然同樣減小,但已漸漸趨于穩(wěn)定,變化不大。因此可以設(shè)置為聚類中心。圖3-2ELBOW方法1.2.2.2Gapstatistic方法ELBOW方法雖然可以很好的判斷聚類中心的數(shù)目,但是在得到觀測曲線后,實際是大多數(shù)情況下需要人為觀測合適的拐點。因此采取Gapstatistic方法[52],具體方法如下:對于聚類中心為個的情況下,將數(shù)據(jù)分為類。定義表示數(shù)據(jù)樣本點從屬于類的點的個數(shù)。計算參考值如式3-7所示:(3-7)其中為第類中任意兩點的歐式距離和,其中表示參考數(shù)據(jù)的期望值,參考數(shù)據(jù)可以通過蒙特卡洛采樣的方式獲得。通常反復(fù)采樣20次后可以得到20個,最終用來計算,當(dāng)達(dá)到最大值時,對應(yīng)的值即應(yīng)設(shè)置的聚類中心。如圖3-3所示:圖3-3gapstatistic方法上圖中當(dāng)時,最大,因此,應(yīng)當(dāng)選擇3作為應(yīng)設(shè)置的聚類中心數(shù)目。1.2.2.3余弦相似度方法Kmeans算法是在確定了聚類數(shù)目后,對樣本點進(jìn)行聚類的算法,在聚類算法結(jié)束后樣本集中的每個點一定會被分為某個類型。對于聚類的結(jié)果,最理想的情況是每個類內(nèi)部的樣本點足夠接近,而類與類之間的樣本點足夠遠(yuǎn)。余弦相似度方法以此作為設(shè)計評價指標(biāo)的核心思想[53]。假設(shè)樣本集分成類,評價每個類內(nèi)部的余弦相似度指標(biāo)為如式3-8所示:(3-8)代表第類的第個點的類內(nèi)余弦相似度指標(biāo),第類中共有個點,為第類的第個點的第維特征參數(shù),共有個特征參數(shù)。為樣本集中第維特征參數(shù)的平均值。類似的評價類與類之間的余弦相似度指標(biāo)如式3-9所示:(3-9)為從屬于第類的點的類間余弦相似度指標(biāo),代表與類不同的其他類,為第類中的樣本個數(shù)。代表從屬于第類的第個點的第項特征參數(shù),代表從屬于第類的點與其他類間的點計算類間余弦相似度指標(biāo)后的最小值。由式3-8與3-9最終得到的余弦相似度指標(biāo)如式3-10所示:(3-10)越大,代表類與類間的距離越大,類內(nèi)部樣本點的距離越小,聚類效果越好。在實際應(yīng)用時,一般是采用列舉法對聚類數(shù)目依序增加計算余弦相似度指標(biāo),最終最大值對應(yīng)的聚類數(shù)目即為最優(yōu)聚類數(shù)目。1.3相似性原理一般而言,尋常意義上的相似是指距離最近且形狀相似。相似性原理有廣義與狹義的區(qū)分。狹義上的相似性對時序數(shù)據(jù)而言屬于精確匹配,必須是兩個序列起伏的波動程度近乎一致時,即不止時序數(shù)據(jù)的高低起伏類似,還需變化的斜率大致相仿時才認(rèn)為是相似的。廣義上滿足相似性地條件則相對寬松,可以人為設(shè)置可允許的范圍。在這個范圍內(nèi),只要時序序列形狀大致相似即可,允許時間序列的起伏發(fā)生偏移、伸縮等。研究時間序列的相似性可以在研究整體與局部的方法上作出區(qū)別,如聚類算法就是研究相似性的經(jīng)典方法。除此之外,研究相似性地方法還包括直接距離、傅里葉變換、神經(jīng)網(wǎng)絡(luò)、ARMA模型、小波變換法等研究方法。在局部時序曲線的研究上往往要對時序曲線進(jìn)行分段處理。1.1.1分段線性表示分段線性表示方法又稱PLR算法,是采用線性模型對時間序列分割后,以分割得到的所有新的子時間序列分段表示原有時間序列特征的研究方法[54]。顯然分割的段數(shù)越多,越能夠體現(xiàn)原有時間序列的各項特征與細(xì)節(jié),越可以研究原有時序曲線的局部特征,而代價則是需要花費更久的時間與更多的存儲空間;分割的段數(shù)越少,雖然在局部特征的細(xì)節(jié)上不可避免的會造成一定的損失,但是也減少了計算時間與數(shù)據(jù)存儲空間。因此在分段時可以根據(jù)實際的使用情況對分段數(shù)目的多少作出取舍。分段線性表示的分段數(shù)目可以有不同的選取規(guī)則,一般常用的主要有人為限定分段數(shù)目后對時間序列分割、限定誤差限對時間序列分割或不限制分段數(shù)目以特殊點進(jìn)行分割這三種方法。假如確定了分段數(shù)目,一般都是采用對時序數(shù)據(jù)平分的方法,即假設(shè)有一個時間序列,以時間間隔對時間序列進(jìn)行分段,其中如式3-11所示:(3-11)分段后的時間序列為。這種方法顯然在操作上簡單易實現(xiàn),但其代價也往往很大。當(dāng)分均分段后,后導(dǎo)致時間序列的特征出現(xiàn)紊亂,無法表示時間序列的增大與減小,極大值與極小值往往出現(xiàn)在各段中間,導(dǎo)致研究難度增加,往往需要其他方法對分段后的時間序列進(jìn)行再次分段、合并等操作,反而增加了工作量,因此使用較少。確定誤差限的方法分段則相對困難,但也更常被使用。誤差限一般分為整體誤差限和局部誤差限兩種。整體誤差限是指分段后的曲線與原有時間序列的誤差總和要在誤差限內(nèi)。局部誤差限是指擬合分段的曲線每一段都要與原曲線的誤差保持在誤差限內(nèi)。隨著的國內(nèi)外學(xué)者的研究,一般常用的算法有PLR-SW算法、PLR-TD算法、PLR-BU算法、以及PLR-SW-BU算法等[55]。雖然以上算法的計算量普遍較大,但由于使用場景或精度要求更高,往往更常被使用。確定特殊點分割的方法則相對較為簡單,相較與誤差限分割法計算量大大減少,無需人為設(shè)置分割段數(shù)與誤差限,在相對簡單的使用環(huán)境中往往比較常用。特殊點一般指時間序列的極值點或者對時間序列本身具有特殊意義的點,如研究用戶年用電曲線時的節(jié)假日等。以極值點作為特殊點可以有效消除時間序列中細(xì)微的波動對時間序列相似度比較的影響。1.1.2模式距離一個時間序列,隨著時間的增大,可能的變化趨勢無非三種:增大、減小、不變,對應(yīng)的斜率也就有三種:斜率為正代表上升、斜率為負(fù)代表下降、斜率為零代表不變。假設(shè)一個時間序列,為了區(qū)分曲線的上升與下降,可以通過自底向上的搜索方法按照時間序列曲線的極大值點與極小值點分成段,這樣分段的好處是省去了平分線段可能造成的曲線上升與下降相鄰導(dǎo)致必須考慮區(qū)間合并的問題。則對于被分段的時間序列來說,這段時間序列的特征可以以斜率表示,如式3-12:(3-12)以及對應(yīng)的時間間隔來表示,因此可以將時間序列轉(zhuǎn)化為。如果對于曲線的波動幅度要求不高,只考慮波動頻率、曲線的大體走勢,允許時間序列的起伏、伸縮等,則可以以分別代表曲線的下降、不變、上升三種趨勢。忽略時間間隔,最終對于給定的兩個時間序列、,如圖3-4所示:圖3-4模式距離下的時間序列、分別在、時刻達(dá)到極大值,、時刻達(dá)到極小值,因此兩條曲線的走勢均為先上升再下降再上升,可以用,的方法代表兩條曲線的走勢。定義相似度參數(shù)如式3-12:(3-12)顯然相似度參數(shù),由此得到時間序列、的相似度函數(shù)為式3-13所示:(3-13)該相似度函數(shù)代表時序序列曲線分段后,各曲線走勢的相似程度,越靠近0代表越相似,越靠近1代表越不相似??梢越o定一個合適的閾值,當(dāng)時代表在允許范圍內(nèi)兩條時序曲線相似??梢宰⒁獾酵ㄟ^上述公式計算相似度參數(shù)時只有兩段曲線分段相同時才可以使用,如果分段數(shù)不同則無法計算,因此需要對兩條曲線進(jìn)行等模式數(shù)化。如圖3-5所示:圖3-5模式距離下的時間序列如果以上述方法對時間序列、分段轉(zhuǎn)化,則,,無法計算相似度參數(shù)。因此必須考慮時間因素對兩條曲線再次分段,原有的兩條曲線在計量時間的情況下可以分別表示為,,可以按照共用兩條曲線的極大值與極小值點的方法再次切割曲線分段得到,,如此便可以重新使用上述公式簡略計算。如果考慮時間因素,即使兩條曲線的走勢相近,上升與下降的趨勢也可能伴隨著時間的長短的不同導(dǎo)致曲線間有較大變化,因此可以對時間進(jìn)行加權(quán)以改進(jìn)相似度函數(shù)。改進(jìn)后的相似度函數(shù)如式3-14所示:(3-14)其中為曲線第段的時間跨度,為時間序列的總時長,越小代表兩條曲線走勢越相似[56]。1.1.3形狀距離模式距離雖然解決了兩條時序特征曲線大體走向的相似性問題,但即使曲線走勢同樣是上升,也存在上升斜率大小的差異。如果兩條曲線的上升斜率差距過大,仍然判斷曲線相似顯然不夠合理。因此在模式距離的基礎(chǔ)上,形狀距離以振幅的改變量作為新加入變量并重新規(guī)定了模式序列使相似性判斷精確度更高。如圖3-6所示:圖3-6形狀距離下的時序曲線如果按照模式距離的分段可將時序特征曲線表示為:,,可以看出雖然在時段,、都為上升趨勢,但是斜率差距較大,因此以定義振幅的改變量定義時序曲線變化速率的快慢,則有如下公式,即每一個分割點對應(yīng)序列值的差值,由此可得振幅序列,,。同時相應(yīng)的以區(qū)分曲線上升、不變、下降已經(jīng)不能完全表示,可以根據(jù)實際應(yīng)用情況下選取合適的斜率參考值,如等用來表示加速下降、水平下降、減速下降、不變、減速上升、水平上升、加速上升。此時需要人為設(shè)置一個閾值來判斷曲線斜率應(yīng)該轉(zhuǎn)化為何種取值。此外還需要應(yīng)用曲線斜率與斜率差值。對應(yīng)選取與如式3-15所示:(3-15)由此形狀距離的相似度函數(shù)為式3-16,越小代表兩條曲線走勢越相似。(3-16)考慮形狀距離的相似度函數(shù),由于同時考慮了曲線走勢、斜率大小、時間、振幅的關(guān)系,相較于模式距離只考量曲線走勢與時間,會在時序曲線的相似性判斷上更為準(zhǔn)確。1.4虛假線損定位方案虛假線損定位的具體步驟如流程圖3-7所示。圖3-7虛假線損的定位流程圖第一步:對電表計量裝置采集數(shù)據(jù)進(jìn)行預(yù)處理,對存在數(shù)據(jù)缺失、異常的數(shù)據(jù)進(jìn)行補(bǔ)零處理且直接標(biāo)記。第二步:通過LOF算法確定電表計量裝置采集過程中存在問題的電表與時間數(shù)列異常點的范圍。這里必須對用戶的電表計量序列進(jìn)行異常值判斷而不能對用戶的用電量進(jìn)行計算,如果使用用戶的用電量會表現(xiàn)出相似的結(jié)果,無法區(qū)分出故障區(qū)間具體屬于管理線損還是虛假線損。第三步:對已經(jīng)定位的異常電表歷史的電表計量數(shù)據(jù)序列歸一化后進(jìn)行聚類,提取該用戶的典型用電特征曲線。第四步:對異常用電曲線中的異常時間段忽略異常點,將異常區(qū)域端點相連替代異常
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 農(nóng)機(jī)大院培訓(xùn)制度
- 汽車集團(tuán)培訓(xùn)制度
- 政府崗前培訓(xùn)制度
- 管理知識試題及答案解析
- 構(gòu)建精準(zhǔn)高效培訓(xùn)制度
- 醫(yī)院全院院業(yè)務(wù)培訓(xùn)制度
- 學(xué)區(qū)教師交流培訓(xùn)制度
- 舞蹈培訓(xùn)材料內(nèi)審制度
- 機(jī)關(guān)外出培訓(xùn)制度
- 機(jī)動車人員技術(shù)培訓(xùn)制度
- 體檢中心收費與財務(wù)一體化管理方案
- 四川省內(nèi)江市2024-2025學(xué)年高二上學(xué)期期末檢測化學(xué)試題
- 自平衡多級泵培訓(xùn)課件
- 廣東省深圳市龍崗區(qū)2024-2025學(xué)年二年級上學(xué)期學(xué)科素養(yǎng)期末綜合數(shù)學(xué)試卷(含答案)
- 晝夜明暗圖課件
- 臨床成人吞咽障礙患者口服給藥護(hù)理
- 兒童呼吸道合胞病毒感染診斷治療和預(yù)防專家共識 4
- 雨課堂在線學(xué)堂《大數(shù)據(jù)技術(shù)與應(yīng)用》作業(yè)單元考核答案
- 全國計算機(jī)等級考試一級WPS Office真題題庫及答案
- 養(yǎng)牛場消防知識培訓(xùn)
- 義警法律知識培訓(xùn)總結(jié)課件
評論
0/150
提交評論