電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的研究(可編輯)_第1頁(yè)
電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的研究(可編輯)_第2頁(yè)
電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的研究(可編輯)_第3頁(yè)
電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的研究(可編輯)_第4頁(yè)
電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的研究(可編輯)_第5頁(yè)
已閱讀5頁(yè),還剩71頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的研究電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘研究申請(qǐng)華北電力大學(xué)工學(xué)博士學(xué)位論文培養(yǎng)單位:電氣與電子工程學(xué)院一級(jí)學(xué)科:電氣工程專業(yè)名稱:電力系統(tǒng)及其自動(dòng)化生:栗然研究指導(dǎo)教師:李和明教授副指導(dǎo)教師:顧雪平教授二oo九年十二月\1786149onDistributedDataResearchDataforLoadWarehouseandMininglandForecastingAnalysisSubmittedtoDissertationNorthChinaElectricPowerUniversitythefulfillmentofinrequirementspartialofforthedegreeDoctorofPhilosophyinElectricalEngineeringbyLi]Ran●SupervisedbyProf.GuandProf.LiXuepingHemingandElectronicSchoolofElectricalEngineeringDecember2009●Jd聲尸明明本人鄭重聲明:此處所提交的博士學(xué)位論文《電力負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘研究》,是本人在華北電力大學(xué)攻讀博士學(xué)位期間,在導(dǎo)師指導(dǎo)下,獨(dú)立進(jìn)行研究工作所取得的成果。盡我所知,除文中已經(jīng)注明引用的內(nèi)容外,本學(xué)位論文的研究成果不包含任何他人享有著作權(quán)的內(nèi)容。對(duì)本論文所涉及的研究工作做出貢獻(xiàn)的其他個(gè)人和集體,均已在文中以明確方式標(biāo)明。關(guān)于學(xué)位論文使用授權(quán)的說明本人完全了解華北電力大學(xué)有關(guān)保留、使用學(xué)位論文的艦定,即:①學(xué)校有權(quán)保管、并向有關(guān)部門送交學(xué)位論文的原件與復(fù)印件;②學(xué)校可以采用影印、縮印或其它復(fù)制手段復(fù)制并保存學(xué)位論文;③學(xué)??稍试S學(xué)位論文被查閱或借閱;④學(xué)??梢詫W(xué)術(shù)交流為目的,復(fù)制贈(zèng)送和交換學(xué)位論文;⑤同意學(xué)??梢杂貌煌绞皆诓煌襟w上發(fā)表、傳播學(xué)位論文的全部或部分內(nèi)容。涉密的學(xué)位論文在解密后遵守此規(guī)定導(dǎo)師簽名:作者簽名:蘭醴日日期:期:遜乒且L一華北電力大學(xué)博+學(xué)位論文中文摘要準(zhǔn)確的負(fù)荷預(yù)測(cè)對(duì)電力系統(tǒng)的規(guī)劃與運(yùn)行具有十分重要的意義,但是目前采用的各種負(fù)荷預(yù)測(cè)方法的準(zhǔn)確度還不能完全滿足系統(tǒng)的要求。目前電力負(fù)荷預(yù)測(cè)的研究多數(shù)只是對(duì)某個(gè)已有預(yù)測(cè)方法的改進(jìn)和對(duì)新數(shù)學(xué)方法應(yīng)用的探討,對(duì)負(fù)荷的實(shí)際特性和氣象因素的影響考慮不夠,因此對(duì)預(yù)測(cè)精度的改進(jìn)有限。目前研究中對(duì)氣象因素的考慮很粗略,一般是在預(yù)測(cè)區(qū)域的廣泛范圍內(nèi)采用同一氣象條件,這對(duì)供電區(qū)域遼闊的大電網(wǎng)是明顯不夠的。本文根據(jù)電力系統(tǒng)運(yùn)行管理的特點(diǎn),將電網(wǎng)按地域進(jìn)行網(wǎng)格劃分,建立關(guān)于負(fù)荷及其影響因素的分層分布式數(shù)據(jù)倉(cāng)庫(kù),并深入分析氣象因素對(duì)電力負(fù)荷的影響,在此基礎(chǔ)上研究基于數(shù)據(jù)挖掘技術(shù)的網(wǎng)格化負(fù)荷分析與預(yù)測(cè)方法,通過對(duì)負(fù)荷預(yù)測(cè)算法和預(yù)測(cè)策略的改進(jìn)提高負(fù)荷預(yù)測(cè)的準(zhǔn)確度。論文主要工作如下:提出了基于分布式數(shù)據(jù)倉(cāng)庫(kù)的網(wǎng)格化負(fù)荷與氣象敏感度分析思想,并開發(fā)了相應(yīng)的分析軟件。通過將大電網(wǎng)按自然區(qū)域進(jìn)行網(wǎng)格劃分,構(gòu)建面向負(fù)荷分析與預(yù)測(cè)主題的分布式數(shù)據(jù)倉(cāng)庫(kù)模型;引入四個(gè)綜合氣象指數(shù)詳細(xì)分析各子網(wǎng)格對(duì)應(yīng)的氣象與負(fù)荷的相關(guān)度和敏感度;根據(jù)各地區(qū)的負(fù)荷氣象靈敏度大小加權(quán)得出大電網(wǎng)的綜合氣象指數(shù)值,以此為基礎(chǔ)預(yù)測(cè)下一年度負(fù)荷與氣象指數(shù)敏感度變化曲線。提出了基于考慮屬性一值對(duì)兩次信息增益優(yōu)化的改進(jìn)決策樹挖掘算法的同特征負(fù)荷預(yù)測(cè)方法。該方法用聚類分析和信息熵進(jìn)行氣象屬性離散化,可以更客觀地考慮氣象條件與負(fù)荷的關(guān)系,將離散化的斷點(diǎn)數(shù)控制在一個(gè)合理的數(shù)值;考慮屬性一值對(duì)兩次信息增益優(yōu)化可以彌補(bǔ)ID3算法的不足,減小樹的深度,提高查詢速度和查詢效率,最終達(dá)到提高日特征負(fù)荷預(yù)測(cè)準(zhǔn)確率的目的。用負(fù)荷預(yù)測(cè)實(shí)例對(duì)所提方法進(jìn)行了測(cè)試比較,證明了方法的有效性。提出了一種基于面向粗糙集默認(rèn)規(guī)則挖掘算法的網(wǎng)格化短期負(fù)荷預(yù)測(cè)方法。該方法一方面可以減少因噪聲的影響而產(chǎn)生的多余規(guī)則,縮小產(chǎn)生的分類規(guī)則集,提高規(guī)則產(chǎn)生和實(shí)際分類的效率;另一方面可以根據(jù)地域特點(diǎn)更具體地考慮子網(wǎng)格的氣象因素和負(fù)荷特性,建立不同的網(wǎng)格負(fù)荷預(yù)測(cè)模型,提高大電網(wǎng)短期負(fù)荷預(yù)測(cè)精度。利用實(shí)例對(duì)區(qū)域網(wǎng)格化和非網(wǎng)格化兩種負(fù)荷預(yù)測(cè)方法的預(yù)測(cè)結(jié)果進(jìn)行了對(duì)比,驗(yàn)證了本文所提方法對(duì)提高負(fù)荷預(yù)測(cè)精度的有效性。關(guān)鍵詞:分布式數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)挖掘,電力系統(tǒng),網(wǎng)格化負(fù)荷預(yù)測(cè),氣象因素華J匕電力人學(xué)尊+學(xué)位論文AbstractandloadforecastaroleinAccurateplayssignificantplanningoperationpowertheloadforecastmethodscan’tmeetofappliednowadaysfullypowersystem,butofofloadthepowerforecastingrequirementspowersystem.Atpresent,mostinsomeforecastmethodsorreaserchisfocusonexistingexploringimprovementofnewmathematicalmuchofrealmethods,withoutconsideringapplicationisinforecastitcharacteristicsofitlimitedload,SOimprovingaccuracy.Nowpowersameweatherconditionisisinoffactors,thatis,theroughthinkingmeteorologicalestimationisnotforinthewideofarea,whichenoughgenerallyappliedrangewidearea.Inthistowiththesis,accordinglarge-scalepowergridspowersupplyismadetofeaturesofandpowerpowergridoperationmanagement,meshpartiondatawarehouseloadandonbasisofgridregion,distributedincludingpowerfactorsonloadisinfluencefactorsisofbuilt,andimpactmeteorologicalpowerloadandforecastmethodsdeeplyanalysized.Also,thegriddingpoweranalysistheloadforecastisbasedondataisreaserehed,andaccuracyimprovedminingmainworkoftheloadforcastandthroughimprovingpoweragorithmstrategy.Thethesisisasthefollowings.a(chǎn)ndbasedonAnideaofloadmeteorologicalsensitivityanalysisgriddingsoftwareisdistributeddatawarehouseisanalysisprensented,andcorrespondingtoismadetonaturalregion,griddingpartitiondeveloped.First,accordingdatawarehousemodalwiththethemeofanddistributedlarge―scalepowergridindiciesandforecastismeteorologicalanalysisbuilt.Secondly,fourcomprehensivetorelevanceandofweatherandloadareintroducedsensitivitydetailedlyanalysizeindexisworkedoutrelevanttoeachsub-mesh.Thenmeteorologicalcomprehensiveofisthebaseofloadeveryarea,whichbyweightedmeteorologysensitivityindexvariationcurve.nextloadandmeteorologicalsensitivityforecastingyear’SmethodisisbasedonAdiurnalcharacteristic―loadforecastproposed,whichoftreewithdecisionminingalgorithmeosideringoptimizationimprovedtoinformationthismethod,meteorologicalpropertiesProperty-Valuegain.Inthisismadewithclusterandinformationmethod,discretizinganalysisentropy.Withloadcanbeconsideredmoretherelationbetweenweatherandobjectively,whichcancontroltheamountofdiscretizationbreakwithinareasonablevalue;thepointthewithcanmakeinformationconsideringProperty―Valueupgainoptimization華北電力人學(xué)博十學(xué)位論文摘要reducethedecisiontree’SandofID3canis,itdeficiencyalgorithm,thatdepththeandachievetheofspeedeffecieney,thenfinallypurposeimprovequerydiurnalcharacteristic―loadforecasttestcomparisonimprovingprecision.Also,theismadeintheloadforecastandtheeffectivenessoftheexampleprovesproposedloadforecastmethodbasedonmethod.Ashort-termMDRBRmininggriddingdefaultrulesbasedonthistheonehand,roughsetismethod,onproposed.WithCanbemakesclassificationtheredundantrulesintroducednoisesreduced,whichbyrulesetmuchsmallerandtheofandimprovesefficiencyrules’productiontotheotherclassification;onfeatures,thehand,accordingregionalmeteorologicalformfactorsandloadfeaturesofsub-meshcanbeconsideredmoretodetailedlyandshort????termloaddifferentloadmodalimprovelarge??-scalepowergridgriddingforecasttheandloadresultsareaccuracy.Thengriddingnon―griddingforcastingtoshowtheeffectivenessofthemethodinforecastaccuracycomparedincreasingwhichiSinthethsis.proposedword:distributeddataKeywarehouse,datamining,electricpowersystems,Powerloadfactorsgriddingforcasting,meteorological中英第第2.1數(shù)據(jù)倉(cāng)庫(kù)的概念和特點(diǎn)……………….202.2數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的體系結(jié)構(gòu)……………..202.2.1多維結(jié)構(gòu)和企業(yè)信息工廠結(jié)構(gòu)結(jié)合的體系結(jié)構(gòu)…………….202.2.2數(shù)據(jù)獲取層……….2l2.2.3數(shù)據(jù)存儲(chǔ)層……….222.2.4數(shù)據(jù)訪問層……….232.2.5元數(shù)據(jù)…………..232.3數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)的開發(fā)實(shí)施……………..242.3.1三種常用的數(shù)據(jù)倉(cāng)庫(kù)開發(fā)策略…………242.3.2混合數(shù)據(jù)倉(cāng)庫(kù)開發(fā)方法………………252.4MSSQLServer2005數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)……..252.4.1微軟數(shù)據(jù)倉(cāng)庫(kù)平臺(tái)特點(diǎn)………………252.4.2OLAP數(shù)據(jù)倉(cāng)庫(kù)組件………………….262.5支持負(fù)荷分析與預(yù)測(cè)的數(shù)據(jù)倉(cāng)庫(kù)模型的研究……………….272.5.1數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)模型………………..272.5.2星型負(fù)荷氣象數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)…………..282.5.3負(fù)荷氣象數(shù)據(jù)倉(cāng)庫(kù)星型模型…………..302.6用于負(fù)荷分析與預(yù)測(cè)的分布式數(shù)據(jù)倉(cāng)庫(kù)設(shè)計(jì)……………….3l2.6.1分布式數(shù)據(jù)倉(cāng)庫(kù)技術(shù)………………‘………………..312.6.2分布式負(fù)荷氣象數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用背景……32華北電力大學(xué)博十學(xué)位論文目錄2.6.3分布式負(fù)荷氣象數(shù)據(jù)倉(cāng)庫(kù)的粒度設(shè)計(jì)…….332.6.4分布式負(fù)荷氣象數(shù)據(jù)倉(cāng)庫(kù)的結(jié)構(gòu)設(shè)計(jì)…….342.6.5分布式負(fù)荷數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)的提取與刷新…..372.7分布式負(fù)荷氣象數(shù)據(jù)倉(cāng)庫(kù)的OLAP系統(tǒng)設(shè)計(jì)………………..382.7.1數(shù)據(jù)倉(cāng)庫(kù)和OLAP系統(tǒng)的關(guān)系…………..382.7.2多維模型………….382.7.3OLAP的主要功能……402.7.4OLAP系統(tǒng)的應(yīng)用……422.8本章小結(jié)………….45第三章基于分布式數(shù)據(jù)倉(cāng)庫(kù)的負(fù)荷與氣象敏感度分析……….463.1概述……………..463.2負(fù)荷氣溫敏感區(qū)域劃分……………….463.3小波去噪原理………473.3.1.極值剔除方法……..493.3.2.隨機(jī)噪聲去除方法………………….493.4氣象因素的量化…….493.5分析數(shù)據(jù)選取………513.6關(guān)聯(lián)度計(jì)算………..503.7敏感度分析………..543.7.1負(fù)荷對(duì)氣象指數(shù)的靈敏度計(jì)算………….543.7.2灰色GM1,1模型…………………..55。3.7.3線性擬合和指數(shù)擬合…………………563.8負(fù)荷與氣象敏感性分析結(jié)果……………563.8.1小波去噪結(jié)果………563.8.2關(guān)聯(lián)度分析結(jié)果…….573.8.3敏感度分析結(jié)果…….583.9誤差分析………….613.10系統(tǒng)應(yīng)用…………6l3.11本章小結(jié)…………62第四章基于聚類分析和信息增益率函數(shù)的氣象屬性離散化……634.1離散化問題的描述………63??4.2直方圖離散化………….644.3基于信息熵的離散化…………………644.3.1信息熵的概念………64ll華北電力人學(xué)博十學(xué)位論文4.3.2信息增益率函數(shù)……654.4聚類分析………….654.4.1聚類的基本描述…….654.4.2傳統(tǒng)K均值聚類方法…………………664.4.3層次聚集聚類算法…………………..664.5基于信息增益率函數(shù)和聚類分析的氣象屬性離散化算法………664.6算法應(yīng)用………….704.6.1數(shù)據(jù)源…………..704.6.2離散化的結(jié)果……..704.7算法的測(cè)試和比較…………………..714.7.1ID3算法………….724.7.2測(cè)試結(jié)果比較……..724.8本章小結(jié)………….73第五章基于改進(jìn)決策樹算法的日特征負(fù)荷預(yù)測(cè)……………..745.1決策樹……………745.1.1決策樹的概念和原理……………..755.1.2決策樹的簡(jiǎn)化…………………..755.1.3決策樹的優(yōu)劣…………………..765.2ID3算法………….765.2.1ID3算法的基本思想…………………765.2.2ID3的基本原理…….775.2.3主算法和建樹算法………………….775.2.4對(duì)ID3算法的討論………………….785.3基于ID3的優(yōu)化算法………………o.795.3.1兩次信息增益的優(yōu)化………………..795.3.2屬性一值對(duì)優(yōu)化…….805.3.3屬性一值對(duì)的兩次信息增益優(yōu)化算法…….8l5.4基于改進(jìn)決策樹模型的日特征負(fù)荷預(yù)測(cè)…..825.4.1數(shù)據(jù)處理…………825.4.2預(yù)測(cè)模型訓(xùn)練……..835.4.3預(yù)測(cè)結(jié)果分析……..855.5本章小結(jié)………….86第六章基于MDRBR的網(wǎng)格化短期負(fù)荷預(yù)測(cè)….876.1粗糙集理論概述…….87III華北電力人學(xué)博十學(xué)位論文目錄6.1.1粗糙集理論的特點(diǎn)……………….876.1.2傳統(tǒng)的粗糙集挖掘算法……………886.2默認(rèn)規(guī)則挖掘算法MDRBR…………..896.2.1默認(rèn)規(guī)則………….896.2.2MDRBR的搜索策略…………………..906.2.3MDRBR的挖掘算法…………………..916.2.4帶粗糙集算子的決策規(guī)則集……………926.3基于MDRBR算法的電力系統(tǒng)短期負(fù)荷預(yù)測(cè)模型……………..936.4網(wǎng)格化電力系統(tǒng)短期負(fù)荷預(yù)測(cè)的MDRBR模型………………..966.4.1網(wǎng)格化的MDRBR模型結(jié)構(gòu)……………..966.4.2條件屬性的選擇…….966.4.3部分屬性的離散化…………………..976.4.4影響負(fù)荷的最優(yōu)屬性的選取……………986.5算例分析………….996.6本章小結(jié)…………106第七章結(jié)論……………107參考文獻(xiàn)……………109致謝……………………..116個(gè)人簡(jiǎn)歷、在學(xué)期間參加的科研工作及學(xué)術(shù)論文發(fā)表………..117IV華北電力人學(xué)博士學(xué)位論文緒論第一章1.1課題背景和意義電力負(fù)荷分析和預(yù)測(cè)是電力系統(tǒng)各級(jí)調(diào)度運(yùn)營(yíng)部門和用電服務(wù)部門的一項(xiàng)重要日常工作,是制定發(fā)電計(jì)劃和輸電方案的主要依據(jù)。提高負(fù)荷分析與預(yù)測(cè)技術(shù)水平,有利于計(jì)劃用電管理、合理安排電網(wǎng)運(yùn)行方式和機(jī)組檢修計(jì)劃,有利于節(jié)煤、節(jié)油和降低發(fā)電成本、制定合理的電源建設(shè)規(guī)劃,提高電力系統(tǒng)的經(jīng)濟(jì)效益和社會(huì)效益。特別在電力市場(chǎng)條件下,只有在進(jìn)行實(shí)時(shí)負(fù)荷預(yù)測(cè)后才能安排負(fù)荷平衡、備用發(fā)電容量的調(diào)度和發(fā)電機(jī)組的上網(wǎng)順序,準(zhǔn)確的需電量和電力負(fù)荷預(yù)測(cè)是實(shí)行電力市場(chǎng)的基本條件和首要任務(wù),它所提供的未來的負(fù)荷數(shù)據(jù),對(duì)電力系統(tǒng)的控制及運(yùn)行都非常重要,如何提高預(yù)測(cè)精度是目前研究負(fù)荷預(yù)測(cè)理論與方法的中心和重點(diǎn),準(zhǔn)確的負(fù)荷預(yù)測(cè)已成為實(shí)現(xiàn)電力系統(tǒng)管理現(xiàn)代化的重要內(nèi)容之一。眾多研究者在這一領(lǐng)域做了大量的工作,提出了許多分析和預(yù)測(cè)方法,如時(shí)間序列法、卡爾曼濾波分析法、回歸分析法、指數(shù)平滑預(yù)報(bào)法、專家系統(tǒng)法、模糊預(yù)測(cè)法、灰色模型法、優(yōu)選組合預(yù)測(cè)法、人工神經(jīng)網(wǎng)絡(luò)法、粗糙集算法、模糊聚類、粒子群算法、遺傳算法、免疫算法等。大多數(shù)有關(guān)負(fù)荷預(yù)測(cè)的研究只是對(duì)某個(gè)已有預(yù)測(cè)方法的改進(jìn)和對(duì)新的數(shù)學(xué)方法的應(yīng)用的探討,沒有太多的考慮負(fù)荷的實(shí)際特性和實(shí)際應(yīng)用情況;對(duì)氣象因素的考慮。般只是在預(yù)測(cè)區(qū)域一個(gè)廣泛的范圍內(nèi)。這種考慮負(fù)荷特性和氣象因素的方法是很粗略的,尤其是對(duì)供電范圍較廣泛的大電網(wǎng)。電力負(fù)荷是由工業(yè)用電、城鄉(xiāng)居民用電、農(nóng)村居民用電、商業(yè)交通建筑通訊及其他負(fù)荷用電構(gòu)成。一般而言,負(fù)荷變化受多種因素的制約,而且這些因素對(duì)負(fù)荷變化規(guī)律的影響程度互不相同,從而構(gòu)成了負(fù)荷變化的波動(dòng)性。其中氣象因素是影響短期負(fù)荷最典型的因素。氣象因素具有很大的地域性和時(shí)段性,而負(fù)荷的變化也因地區(qū)和氣象而異,一個(gè)城市不同的區(qū)域的各種環(huán)境因素不同且其受各種因素的影響程度也不盡相同。由于電力系統(tǒng)日益龐大,使得電力系統(tǒng)的供電區(qū)域增大,氣象因素對(duì)電力系統(tǒng)的影響,不是在面上,而是反映在點(diǎn)上。即考察市一級(jí)供電區(qū)域的氣象因素其準(zhǔn)確程度要比省一級(jí)供電區(qū)域及以上的高。也就是說,市一級(jí)地區(qū)的氣象預(yù)報(bào)是比較準(zhǔn)確的,其影響也是具體的,而省級(jí)以上的氣象預(yù)報(bào)雖說也是比較準(zhǔn)確的,但影響卻是不具體的。一般來說,預(yù)測(cè)地區(qū)的地理范圍都比較大,預(yù)測(cè)區(qū)域內(nèi)各子區(qū)域影響負(fù)荷的主要因素如各地的溫度、濕度、降雨情況等都有很大的區(qū)別,且每個(gè)區(qū)域的負(fù)荷受各種因素影響的比重也大不相同。因此根據(jù)地域的特點(diǎn)建立不同的負(fù)荷預(yù)測(cè)模型將是一個(gè)非常有意義的研究思路。隨著信息技術(shù)在電力系統(tǒng)中的應(yīng)用,電力系統(tǒng)積累了海量的數(shù)據(jù)。比如一個(gè)區(qū)1第一蘋緒論一一一――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――――一域電網(wǎng)的SCADA/EMS系統(tǒng),如果按每5分鐘對(duì)模擬量采樣計(jì)算,一年的歷史數(shù)據(jù)存儲(chǔ)量至少tg達(dá)JLGB【¨,負(fù)荷數(shù)據(jù)亦是如此。目前傳統(tǒng)數(shù)據(jù)庫(kù)系統(tǒng)所能做的只是對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行諸如錄入、查詢、統(tǒng)計(jì)等操作型處理,通過這種處理所獲得的信息僅僅是整個(gè)數(shù)據(jù)庫(kù)所包含的信息的一部分,缺乏對(duì)數(shù)據(jù)整體特征的描述及其發(fā)展趨勢(shì)預(yù)測(cè)方面的信息,無法發(fā)現(xiàn)數(shù)據(jù)中存在的關(guān)系、規(guī)則,難以根據(jù)現(xiàn)有的數(shù)據(jù)預(yù)測(cè)未來的發(fā)展趨勢(shì),從而導(dǎo)致了“數(shù)據(jù)爆炸但知識(shí)貧乏,,的現(xiàn)象。近幾年有部分文獻(xiàn)對(duì)電力調(diào)度數(shù)據(jù)倉(cāng)庫(kù)的建立和利用進(jìn)行了研究[卜81,但基本思路都是以集中的大型數(shù)據(jù)倉(cāng)庫(kù)為主。而電力系統(tǒng)絕大部分的大型數(shù)據(jù)庫(kù)都是以縣級(jí)、地區(qū)級(jí)、省級(jí)、網(wǎng)級(jí)分層分布式的形式存在的;負(fù)荷預(yù)測(cè)的管理方式也是逐級(jí)上報(bào),由上一級(jí)進(jìn)行綜合預(yù)測(cè)。同時(shí)如何對(duì)數(shù)據(jù)進(jìn)行分析、加工,從中挖掘出有用的知識(shí),并將其綜合集成形成決策信息,將是個(gè)非常有價(jià)值的課題。國(guó)內(nèi)外很多學(xué)者和技術(shù)人員已在進(jìn)行數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)在電力系統(tǒng)中的應(yīng)用研究【9啪】,他們?cè)谥T多方面例如電力系統(tǒng)安全穩(wěn)定性評(píng)估、電力系統(tǒng)的調(diào)度運(yùn)行、電力系統(tǒng)故障分析、電力系統(tǒng)運(yùn)行狀態(tài)的分類與描述、電力系統(tǒng)規(guī)劃設(shè)計(jì)、電力市場(chǎng)用戶特征分析等方面都取得了很多成果?;谝陨戏治觯疚奶岢隽烁鶕?jù)電力系統(tǒng)的運(yùn)行管理特點(diǎn),將電網(wǎng)按地域進(jìn)行網(wǎng)格化分,建立分層分布式的負(fù)荷及其影響因素的數(shù)據(jù)倉(cāng)庫(kù),深入分析氣象因素對(duì)電力負(fù)荷的影響,并研究利用數(shù)據(jù)挖掘方法如聚類分析、改進(jìn)決策樹、默認(rèn)規(guī)則挖掘方法等進(jìn)行網(wǎng)格化負(fù)荷分析與預(yù)測(cè),在負(fù)荷預(yù)測(cè)算法和預(yù)測(cè)策略兩方面提高負(fù)荷預(yù)測(cè)的準(zhǔn)確度。1.2分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘的國(guó)內(nèi)外研究動(dòng)向1.2.1數(shù)據(jù)倉(cāng)庫(kù)1991年,數(shù)據(jù)倉(cāng)庫(kù)之父w.H.Inmon首次提出了數(shù)據(jù)倉(cāng)庫(kù)n刀的概念:“數(shù)據(jù)倉(cāng)庫(kù)是面向主題的、集成的、時(shí)變的、穩(wěn)定的數(shù)據(jù)集合,用以支持決策制定過程。這個(gè)簡(jiǎn)要又全面的定義指出了數(shù)據(jù)倉(cāng)庫(kù)的主要特征。1主題是在一個(gè)較高層次將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每一個(gè)主題對(duì)應(yīng)一個(gè)宏觀分析的領(lǐng)域?;谥黝}的數(shù)據(jù)處理被劃分為各自獨(dú)立的領(lǐng)域,每個(gè)領(lǐng)域有自己互不交叉的邏輯內(nèi)涵。2集成是指源數(shù)據(jù)庫(kù)的數(shù)據(jù)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)前,必須經(jīng)過清理、抽取、轉(zhuǎn)換等加工,將源數(shù)據(jù)的結(jié)構(gòu)從面向應(yīng)用轉(zhuǎn)換到面向主題。通常,構(gòu)造數(shù)據(jù)倉(cāng)庫(kù)是將多個(gè)異種數(shù)據(jù)源,如關(guān)系數(shù)據(jù)庫(kù)、一般文件和聯(lián)機(jī)事務(wù)處理記錄,集成在一起。使用數(shù)據(jù)清理和數(shù)據(jù)集成技術(shù),確保命名約定、編碼結(jié)構(gòu)、屬性度量等的一致性。3時(shí)變是指數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的數(shù)據(jù)是歷史數(shù)據(jù),數(shù)據(jù)時(shí)限長(zhǎng),數(shù)據(jù)包含時(shí)間項(xiàng)屬性。4非易失的,又叫穩(wěn)定,是指數(shù)據(jù)經(jīng)集成進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)后極少或根本就不改變。通常,它只需要兩種數(shù)據(jù)訪問:’華北電力人學(xué)尊+學(xué)位論文數(shù)據(jù)的初始化裝入和數(shù)據(jù)訪問。概而言之,數(shù)據(jù)倉(cāng)庫(kù)是一種語(yǔ)義上一致的數(shù)據(jù)存儲(chǔ),它充當(dāng)決策支持?jǐn)?shù)據(jù)模型的物理實(shí)現(xiàn),并存放企業(yè)戰(zhàn)略決策所需信息。數(shù)據(jù)倉(cāng)庫(kù)是一種新的數(shù)據(jù)庫(kù)管理技術(shù),它不是為了存儲(chǔ)數(shù)據(jù),而是為了決策支持,建立數(shù)據(jù)倉(cāng)庫(kù)不是目的,它只是進(jìn)行決策支持的中間環(huán)節(jié)。它能訪問各種數(shù)據(jù)庫(kù),把各種源數(shù)據(jù)庫(kù)集成在一個(gè)統(tǒng)一的目標(biāo)數(shù)據(jù),并能把各種數(shù)據(jù)轉(zhuǎn)換成面向主題的格式,能從異構(gòu)的數(shù)據(jù)源中定期抽取、轉(zhuǎn)換和集成所需要的數(shù)據(jù),便于最終用戶訪問并能從歷史角度進(jìn)行分析,最后做出戰(zhàn)略決策。數(shù)據(jù)倉(cāng)庫(kù)作為數(shù)據(jù)存儲(chǔ)的一種組織形式,從最初的數(shù)據(jù)源獲得原始數(shù)據(jù),按照決策的要求重新組織,形成具有不同粒度的綜合數(shù)據(jù)層,是數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的一個(gè)方面。另外,數(shù)據(jù)倉(cāng)庫(kù)還需要對(duì)其中存儲(chǔ)的數(shù)據(jù)進(jìn)行操縱、管理等以支持決策,這是數(shù)據(jù)倉(cāng)庫(kù)結(jié)構(gòu)的另一方面。數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)就是對(duì)進(jìn)入數(shù)據(jù)倉(cāng)庫(kù)的原始數(shù)據(jù)完成抽取、轉(zhuǎn)換、過濾、清洗等處理,最終進(jìn)入數(shù)據(jù)倉(cāng)庫(kù),以及對(duì)數(shù)據(jù)倉(cāng)庫(kù)中存儲(chǔ)的數(shù)據(jù)進(jìn)行更新、管理、使用、表現(xiàn)等的相關(guān)軟件/工具進(jìn)行集合,用以支持?jǐn)?shù)據(jù)倉(cāng)庫(kù)應(yīng)用或管理決策。由于數(shù)據(jù)庫(kù)和數(shù)據(jù)倉(cāng)庫(kù)應(yīng)用的出發(fā)點(diǎn)不同,數(shù)據(jù)倉(cāng)庫(kù)將獨(dú)立于業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng),但是數(shù)據(jù)倉(cāng)庫(kù)又同業(yè)務(wù)數(shù)據(jù)庫(kù)系統(tǒng)息息相關(guān)。也就是說,數(shù)據(jù)倉(cāng)庫(kù)不是簡(jiǎn)單地。對(duì)數(shù)據(jù)進(jìn)行存儲(chǔ),而是對(duì)數(shù)據(jù)進(jìn)行“再組織"。目前大部分企業(yè)建立的都是全局?jǐn)?shù)據(jù)倉(cāng)庫(kù),當(dāng)企業(yè)規(guī)模較大,各子公司分布在各地,而都有自己的操作性事物需要處理時(shí)有必要建立分布式數(shù)據(jù)倉(cāng)庫(kù)。目前分布式數(shù)據(jù)倉(cāng)庫(kù)的應(yīng)用主要在大型企業(yè)【17~191如:通信網(wǎng)絡(luò)管理、公安信息管理、電子商務(wù)管理等。圖1.1是一個(gè)通信網(wǎng)絡(luò)管理的分布式數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu),該圖也反映了分布式數(shù)據(jù)倉(cāng)庫(kù)的一般體系結(jié)構(gòu)。1.2.2數(shù)據(jù)挖掘隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的并且最終可理解的信息和知識(shí)的過程。數(shù)據(jù)挖掘應(yīng)該正確的命名為“從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)”。indatabase,因而在人工智能領(lǐng)域又習(xí)慣稱數(shù)據(jù)挖掘?yàn)橹R(shí)發(fā)現(xiàn)knowledgediscoveryKDD【2們,也即在數(shù)據(jù)庫(kù)中發(fā)現(xiàn)知識(shí)。這個(gè)定義包括幾層含義:數(shù)據(jù)源必須是真實(shí)的、大量的、含噪聲的;發(fā)現(xiàn)的是用戶感興趣的知識(shí);發(fā)現(xiàn)的知識(shí)要可接受、可理解、可運(yùn)用;發(fā)現(xiàn)的知識(shí)支持特定的被發(fā)現(xiàn)的問題。KDD一詞首次出現(xiàn)在1989年舉行的第十一屆國(guó)際聯(lián)合人工智能學(xué)術(shù)會(huì)議上。到目前為止,由美國(guó)人工智能協(xié)會(huì)主辦的KDD國(guó)際研討會(huì)已經(jīng)召開了10余次,規(guī)模由第一章緒論r.‘。。一。一。。。。。。。。。。。。。。。?!駃[玉口-o;外韶?cái)?shù)據(jù)省藪倉(cāng)、:省級(jí)只管中心……………--i[玉口_f之●L―――――――――..―――――J’一l―’’-一地級(jí)數(shù)據(jù)倉(cāng)庫(kù)地級(jí)網(wǎng)臂中心:圖1-1通信網(wǎng)絡(luò)管理的分布式數(shù)據(jù)倉(cāng)庫(kù)體系結(jié)構(gòu)原來的專題討論會(huì)發(fā)展到國(guó)際學(xué)術(shù)大會(huì),研究重點(diǎn)也逐漸從發(fā)現(xiàn)方法轉(zhuǎn)向系統(tǒng)應(yīng)用,注重多種發(fā)現(xiàn)策略和技術(shù)的集成,以及多種學(xué)科之間的相互滲透。隨著參與人員的不斷增多,KDD國(guó)際會(huì)議發(fā)展成為年會(huì)。1998年在美國(guó)紐約舉行的第四屆知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際學(xué)術(shù)會(huì)議不僅進(jìn)行了學(xué)術(shù)討論,并且有30多家軟件公司展示了他們的數(shù)據(jù)挖掘軟件產(chǎn)品,不少軟件已在北美、歐洲等國(guó)得到應(yīng)用。IEEE的andDataKnowledge算、計(jì)算機(jī)網(wǎng)絡(luò)和信息工程等其他領(lǐng)域的國(guó)際學(xué)會(huì)、學(xué)刊也把數(shù)據(jù)挖掘和知識(shí)發(fā)現(xiàn)列為專題和??懻?。與國(guó)外相比,國(guó)內(nèi)對(duì)數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)KDD的研究稍晚,沒有形成整體力量。1993年國(guó)家自然科學(xué)基金首次支持對(duì)該領(lǐng)域的研究項(xiàng)目。目前,國(guó)內(nèi)的許多科研單位和高等院校競(jìng)相開展知識(shí)發(fā)現(xiàn)的基礎(chǔ)理論及其應(yīng)用研究。從目前狀況看,大部分學(xué)者認(rèn)為數(shù)據(jù)挖掘的研究仍然處于廣泛研究和探索階段。一方面,數(shù)據(jù)挖掘的概念已被廣泛接受。在理論上,一批具有挑戰(zhàn)性和前瞻性的問題被提出,吸引越來越多的研究者。另一方面,數(shù)據(jù)挖掘的大面積廣泛應(yīng)用有待時(shí)日,需要深入的研究積累和豐富的工程實(shí)踐。數(shù)據(jù)挖掘具體的功能有以下幾個(gè)方面:1概念描述概念描述就是對(duì)某類對(duì)象的內(nèi)含進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。具體的描述分為特征性描述和區(qū)別性描述。2關(guān)聯(lián)分析4華北電力人學(xué)博十學(xué)位論文數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)中存在的一類重要的可以被發(fā)現(xiàn)的知識(shí),關(guān)聯(lián)分析的目的就是找出數(shù)據(jù)中隱藏的關(guān)系網(wǎng)。關(guān)聯(lián)分析發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,這些規(guī)則展示屬性值頻繁地在給定數(shù)據(jù)中一起出現(xiàn)的條件。3分類與預(yù)測(cè)①分類就是通過分析樣本客戶數(shù)據(jù)庫(kù)中的數(shù)據(jù),為每個(gè)類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個(gè)分類規(guī)則對(duì)其它客戶的記錄進(jìn)行分類。在使用上,既可以用此模型分析已有的數(shù)據(jù),也可以用它來預(yù)測(cè)未來的數(shù)據(jù)。②預(yù)測(cè)就是利用歷史數(shù)據(jù)建立模型,再運(yùn)用最新的數(shù)據(jù)作為輸入值,獲得未來變化的趨勢(shì)或評(píng)價(jià)給定樣本可能具有的屬性值或值的范圍。4聚類分析聚類是把一組個(gè)體按照相似性歸類,即“物以類聚"。它的目的是使屬于同一類別的個(gè)體之間的距離盡可能地小,而不同類別的個(gè)體間的距離盡可能地大。它是分類的逆向方法。聚類把沒有分類的記錄,在不知道應(yīng)分成幾類的情況下,按照數(shù)據(jù)內(nèi)在的差異性大小,合理地劃分成幾類,并確定每個(gè)記錄所屬類別。5趨勢(shì)分析‖趨勢(shì)分析又稱為時(shí)間序列分析,它是從相當(dāng)長(zhǎng)時(shí)間的發(fā)展中發(fā)現(xiàn)規(guī)律和趨勢(shì)。趨勢(shì)分析和關(guān)聯(lián)分析相似,其目的也是為了挖掘出數(shù)據(jù)之間的聯(lián)系,但趨勢(shì)分析的側(cè)重點(diǎn)在于分析數(shù)據(jù)間的前后因果關(guān)系。6孤立點(diǎn)分析孤立點(diǎn)是指數(shù)據(jù)庫(kù)中包含的一些與數(shù)據(jù)的一般行為或模型不一致的數(shù)據(jù)。大部分的數(shù)據(jù)挖掘的方法將孤立點(diǎn)視為噪聲或異常而丟棄,而對(duì)某些應(yīng)用,如欺騙檢驗(yàn),孤立點(diǎn)數(shù)據(jù)可能更有價(jià)值。7偏差分析偏差分析又稱為比較分析,它是對(duì)偏差和極端特例的描述,由于揭示事物偏離常規(guī)的異?,F(xiàn)象,如標(biāo)準(zhǔn)類外的特例,數(shù)據(jù)聚類外的離群值等。0’2引:數(shù)據(jù)挖掘的常用算法n1關(guān)聯(lián)規(guī)則挖掘:基于傳統(tǒng)數(shù)理統(tǒng)計(jì)等數(shù)學(xué)工具的方法:關(guān)聯(lián)規(guī)則是尋找在同一個(gè)事件中出現(xiàn)的不同項(xiàng)的相關(guān)性,比如在一次購(gòu)買活動(dòng)中所購(gòu)買不同商品的相關(guān)性。關(guān)聯(lián)分析即利用關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘。最著名的關(guān)聯(lián)規(guī)則挖掘算法是R.Agrawal提出的Apriori算法。5第一章緒論確數(shù)據(jù)中導(dǎo)出概念和確定趨向比較困難時(shí),利用NN技術(shù)特別有效。經(jīng)過訓(xùn)練后的NN可以被想象成具有某種專門知識(shí)的“專家”,因此可以像人一樣從經(jīng)驗(yàn)中學(xué)習(xí)。其缺點(diǎn)是NN的知識(shí)獲取過程是一個(gè)“黑箱"系統(tǒng),訓(xùn)練后NN所代表的預(yù)測(cè)模型不具有透明性。3決策樹:在知識(shí)工程領(lǐng)域,決策樹是一種簡(jiǎn)單的知識(shí)表示方法,它將事例逐步劃分成不同的類別。由于分類規(guī)則比較直觀,因而較易于理解,在機(jī)器獲取領(lǐng)域內(nèi)已研制出許多實(shí)施決策樹的有效算法,如ID3及其改進(jìn)算法等。4進(jìn)化計(jì)算:是模仿生物進(jìn)化的一類計(jì)算方法的統(tǒng)稱。包括遺傳算法GA、遺傳編程GP、進(jìn)化策略ES,進(jìn)化規(guī)劃EP。它們大多具有以下特點(diǎn):進(jìn)化計(jì)算是在適應(yīng)度函數(shù)約束下的智能化搜索,在目標(biāo)函數(shù)適應(yīng)度函數(shù)驅(qū)動(dòng)下“優(yōu)勝劣汰",通過多次迭代,逐步逼近目標(biāo)。由于進(jìn)化計(jì)算一般都采用了雜交、變異等操作,擴(kuò)大了搜索范圍,因此其能逼近全局最優(yōu)解。且其具有框架式的算法結(jié)構(gòu),一般只要完成編碼和適應(yīng)度函數(shù)選擇,其余的遺傳、雜交、變異等操作都可以自動(dòng)完成。5基于事例的推理方法:該方法的思路非常簡(jiǎn)單,當(dāng)預(yù)測(cè)未來情況或進(jìn)行正確決策時(shí),系統(tǒng)尋找與現(xiàn)有情況相類似的事例,并選擇最佳的相同的解決方案。這種方法能用于很多問題求解,并獲得好的結(jié)果,其缺點(diǎn)是系統(tǒng)不能生成匯總過去經(jīng)驗(yàn)的模塊或規(guī)則,即無繼承性。6粗糙集理論:該理論是一種研究不精確、不確定性知識(shí)的數(shù)學(xué)工具,粗糙集理論是一種離散數(shù)據(jù)推理的新方法。粗糙集理論作為一種處理不完備信息的有力工具,可以不需要任何輔助的信息,如統(tǒng)計(jì)學(xué)中的概率分布、模糊集理論中的隸屬度等僅依據(jù)數(shù)據(jù)本身提供的信息就能夠在保留關(guān)鍵信息的前提下,對(duì)數(shù)據(jù)進(jìn)行化簡(jiǎn)求得知識(shí)的最小表達(dá),從而建立決策規(guī)則,發(fā)現(xiàn)給定的數(shù)據(jù)集中隱含的知識(shí)。目前,粗糙集方法已成為數(shù)據(jù)挖掘應(yīng)用的主要技術(shù)之一。粗糙集方法可以從數(shù)據(jù)中發(fā)現(xiàn)異常,||除噪聲干擾;在DM中前述的其他算法,如神經(jīng)網(wǎng)絡(luò)方法,不能自動(dòng)選擇合適的屬性集,而粗糙集方法能進(jìn)行預(yù)處理,濾去多余屬性,以提高發(fā)現(xiàn)效率;粗糙集方法要比模糊集或神經(jīng)網(wǎng)絡(luò)方法在獲得決策規(guī)則和推理過程方面更易于證實(shí)和檢測(cè).7文本挖掘和Web挖掘:文本挖掘是~種典型的非結(jié)構(gòu)化數(shù)據(jù)挖掘,而Web挖掘是典型的半結(jié)構(gòu)化數(shù)據(jù)挖掘。文本挖掘涉及數(shù)據(jù)挖掘i計(jì)算機(jī)語(yǔ)言學(xué)、信息檢索、自然語(yǔ)言理解、知識(shí)管理等多個(gè)領(lǐng)域,是一項(xiàng)綜合技術(shù),它是將數(shù)據(jù)挖掘技術(shù)應(yīng)用在大量的文本集合上,發(fā)現(xiàn)其中隱含的知識(shí)的過程。web挖掘主要從中發(fā)現(xiàn)和分析有用的信息。主要用于Internet網(wǎng)絡(luò)挖掘中【201。6華北電力人學(xué)博十學(xué)何論文1.2.3分布式數(shù)據(jù)挖掘Data分布式數(shù)據(jù)挖掘DistributedMining,DDM就是指運(yùn)用數(shù)據(jù)挖掘技術(shù),對(duì)由計(jì)算機(jī)網(wǎng)絡(luò)相連接的多個(gè)分布式數(shù)據(jù)源進(jìn)行知識(shí)發(fā)現(xiàn)的過程嵋卜剮。雖然DDM是一個(gè)發(fā)展時(shí)間很短的領(lǐng)域,但由于其具有廣闊的應(yīng)用前景,很多的學(xué)者都對(duì)其進(jìn)行了式數(shù)據(jù)挖掘系統(tǒng)CDM。目前,對(duì)DDM的研究主要在于算法的研究,如如何在分布式環(huán)境中實(shí)現(xiàn)傳統(tǒng)數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則發(fā)現(xiàn);體系結(jié)構(gòu)的研究,如基于移動(dòng)目前的數(shù)據(jù)挖掘算法和模型主要采用集中式,大多要求所有被挖掘的數(shù)據(jù)必須存放在一個(gè)單一的、集中的數(shù)據(jù)倉(cāng)庫(kù)中。因此,即便在數(shù)據(jù)分布存儲(chǔ)的情況下,也要求把這些數(shù)據(jù)重新收集到一個(gè)集中的地方。這導(dǎo)致網(wǎng)絡(luò)需要通過有限的帶寬來移動(dòng)大容量的數(shù)據(jù),從而使響應(yīng)時(shí)間變長(zhǎng),數(shù)據(jù)的私有性和安全性被破壞;此外,現(xiàn)有的集中式數(shù)據(jù)挖掘算法也不太適合于大容量、分布式的數(shù)據(jù)分析應(yīng)用。隨著計(jì)算機(jī)和網(wǎng)絡(luò)技術(shù)的發(fā)展,人們可以方便地獲取Internet上的各種信息‘’資源。傳統(tǒng)的基于單一數(shù)據(jù)庫(kù)表的數(shù)據(jù)挖掘己經(jīng)不能滿足需要?,F(xiàn)代決策需要來自”各個(gè)方面的信息。面對(duì)基于Internet的“信息海洋”,我們需要提取有用的、可以指導(dǎo)決策的知識(shí)。在這種分布式環(huán)境下的數(shù)據(jù)挖掘,與傳統(tǒng)的基于單一數(shù)據(jù)表相比,具有很重要的現(xiàn)實(shí)意義。一個(gè)企業(yè)的數(shù)據(jù)資源往往存在于地理分布的各個(gè)數(shù)據(jù)庫(kù)中,可以充分利用己有的資源,也可以實(shí)現(xiàn)并行數(shù)據(jù)挖掘,解決數(shù)據(jù)挖掘的空間和時(shí)間“瓶頸"?;谶@種地理分布式、形式異構(gòu)的信息資源上的數(shù)據(jù)挖掘,需要一套復(fù)雜的方法來訪問、清理原數(shù)據(jù),以及對(duì)挖掘過程的協(xié)調(diào)。目前,對(duì)分布式數(shù)據(jù)的挖掘表現(xiàn)為以下三種形式:1建立一個(gè)統(tǒng)一的數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),將分布的數(shù)據(jù)抽取出來,物理地存儲(chǔ)在一個(gè)地方。這樣將分布式數(shù)據(jù)挖掘轉(zhuǎn)換為本地?cái)?shù)據(jù)挖掘。這種模式?jīng)]有充分利用網(wǎng)絡(luò)計(jì)算資源。有的挖掘型Agent。每個(gè)挖掘型Agent采用標(biāo)準(zhǔn)的算法,還可以充分利用各種算法進(jìn)行合作。3Agent獨(dú)立的工作,在進(jìn)行本地學(xué)習(xí)的同時(shí)就相互間進(jìn)行交互,不再需要另外一個(gè)Agent來對(duì)它們進(jìn)行集成。一般說來,一個(gè)Agent就是針對(duì)一個(gè)數(shù)據(jù)源。文獻(xiàn)[22]介紹了分布式數(shù)據(jù)挖掘的定義、重要性、研究現(xiàn)狀以及數(shù)據(jù)源,然后7第一章緒論詳細(xì)介紹了兩個(gè)典型的分布式數(shù)據(jù)挖掘系統(tǒng),最后探討了分布式數(shù)據(jù)挖掘系統(tǒng)應(yīng)該具有的特點(diǎn)。文獻(xiàn)[23]提出了一種基于軟構(gòu)件的分布式計(jì)算環(huán)境CORBA的新型分布式數(shù)據(jù)挖掘體系,并且提出了新的知識(shí)評(píng)價(jià)結(jié)構(gòu)。文獻(xiàn)[24]結(jié)合Web服務(wù)技術(shù)的跨平臺(tái),統(tǒng)一數(shù)據(jù)表示格式以及可實(shí)現(xiàn)軟組件重組和數(shù)據(jù)重用的優(yōu)點(diǎn),提出了Web服務(wù)的分布式數(shù)據(jù)挖掘體系,可實(shí)現(xiàn)分布式異構(gòu)環(huán)境下的大容量數(shù)據(jù)的數(shù)據(jù)挖掘。文據(jù)庫(kù)的數(shù)據(jù)挖掘進(jìn)行了一些有意義的探討。文獻(xiàn)[26]提出了一個(gè)基于多Agent的分布式數(shù)據(jù)挖掘形式模型,并結(jié)合數(shù)據(jù)挖掘方法和知識(shí)集成技術(shù)對(duì)該模型進(jìn)行了深入的分析和討論。文獻(xiàn)C27]給出了在新一代分布式對(duì)象平臺(tái).NET實(shí)現(xiàn)移動(dòng)代理系統(tǒng)的必要性和可行性,介紹了在兩類平臺(tái)上實(shí)現(xiàn)代理遷移的相關(guān)技術(shù)和方法。文獻(xiàn)[28]給出了基于代理的分布式數(shù)據(jù)挖掘系統(tǒng)設(shè)計(jì),用來實(shí)現(xiàn)大容量的數(shù)據(jù)在分布式存放情況下的數(shù)據(jù)挖掘。文獻(xiàn)[29]針對(duì)電力客戶系統(tǒng)分布式數(shù)據(jù)庫(kù)的結(jié)構(gòu)特點(diǎn),引入PADMA體系結(jié)構(gòu)和CML數(shù)據(jù)挖掘?qū)崿F(xiàn)算法,提出了一種基于電力客戶服務(wù)系統(tǒng)的分布式數(shù)據(jù)挖掘體系結(jié)構(gòu)及實(shí)現(xiàn)的新方法。文獻(xiàn)[30]通過對(duì)PAIMA系統(tǒng)的構(gòu)建思想和功能機(jī)理的分析,針對(duì)數(shù)字圖書館的異質(zhì)異構(gòu)數(shù)據(jù)分布式數(shù)據(jù)庫(kù),研究了數(shù)字圖書館的分布式數(shù)據(jù)挖掘體系和模型構(gòu)建。1.2.4分布式數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘在電力系統(tǒng)中的應(yīng)用傳統(tǒng)的數(shù)據(jù)庫(kù)技術(shù)作為數(shù)據(jù)管理的手段,主要用于事務(wù)處理,如電力設(shè)備缺陷處理、電能量存貯查詢等,很難滿足分析處理和決策服務(wù)的要求,因此高級(jí)的電力決策支持系統(tǒng)多采用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)。目前的數(shù)據(jù)倉(cāng)庫(kù)技術(shù)及決策支持在電力系統(tǒng)中的應(yīng)用還十分有限,主要在管理信息化、調(diào)度信息化、調(diào)度自動(dòng)化、穩(wěn)定統(tǒng)計(jì)等決策和某些特定的技術(shù)分析問題上n1’14’3卜411。1電力企業(yè)管理:電力企業(yè)在運(yùn)行過程中,同其他行業(yè)一樣,需要解決日常的物資購(gòu)買、管理、使用和財(cái)務(wù)處理等問題。而普通的物流管理和財(cái)務(wù)系統(tǒng)面向處理日常事務(wù),并不具備優(yōu)化物資流和分析財(cái)務(wù)狀況的功能。在這方面,數(shù)據(jù)倉(cāng)庫(kù)數(shù)據(jù)集市以及在此之上的數(shù)據(jù)挖掘技術(shù)己經(jīng)在眾多行業(yè)中運(yùn)用,并積累了相當(dāng)多的經(jīng)驗(yàn),完全可以轉(zhuǎn)移到電力企業(yè)中來。2電力用戶數(shù)據(jù)分析:電力用戶是一個(gè)廣泛、復(fù)雜的用戶群,在不同的時(shí)間、地域、行業(yè)中用戶需求相差很大。電力企業(yè)在長(zhǎng)期的運(yùn)行過程中,己經(jīng)積累了大量的用戶資料和歷史數(shù)據(jù)。根據(jù)這些用戶資料和歷史數(shù)據(jù)建立用電數(shù)據(jù)倉(cāng)庫(kù),利用OLAP快速響應(yīng)查詢,采用數(shù)據(jù)挖掘的方法進(jìn)行有針對(duì)性的分析,可以得到需求模型。根據(jù)此模型來制定電網(wǎng)規(guī)劃和供電計(jì)劃,可以有效降低發(fā)電成本,提高效益。3電網(wǎng)調(diào)度信息化:實(shí)時(shí)數(shù)據(jù)和歷史數(shù)據(jù)作為電網(wǎng)運(yùn)行的重要資料,需要在華北電力人學(xué)博十學(xué)位論文運(yùn)行部門中共享。而以往在若干子系統(tǒng)問自行定義協(xié)議,進(jìn)行數(shù)據(jù)傳輸?shù)姆椒ㄊ惯\(yùn)行部門間的數(shù)據(jù)流更加復(fù)雜,很難保證數(shù)據(jù)的一致性和唯一性,增大了系統(tǒng)維護(hù)與升級(jí)的難度和成本。如果把各部門需要的公共數(shù)據(jù)整理、統(tǒng)計(jì)起來,建立電網(wǎng)歷史數(shù)據(jù)倉(cāng)庫(kù),則可以實(shí)現(xiàn)數(shù)據(jù)一致性,減輕網(wǎng)絡(luò)負(fù)載。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論