電力大數(shù)據(jù)處理、存儲(chǔ)與分析的調(diào)研報(bào)告_第1頁(yè)
電力大數(shù)據(jù)處理、存儲(chǔ)與分析的調(diào)研報(bào)告_第2頁(yè)
電力大數(shù)據(jù)處理、存儲(chǔ)與分析的調(diào)研報(bào)告_第3頁(yè)
電力大數(shù)據(jù)處理、存儲(chǔ)與分析的調(diào)研報(bào)告_第4頁(yè)
電力大數(shù)據(jù)處理、存儲(chǔ)與分析的調(diào)研報(bào)告_第5頁(yè)
已閱讀5頁(yè),還剩53頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、.:.;編號(hào):SY-.密級(jí):受控電力大數(shù)據(jù)處置、存儲(chǔ)與分析的調(diào)研報(bào)告2021年12月PAGE PAGE 58目 錄 TOC o 1-3 h z u HYPERLINK l _Toc436920259 1、什么是大數(shù)據(jù) PAGEREF _Toc436920259 h 4 HYPERLINK l _Toc436920260 1.1、Volume體積 PAGEREF _Toc436920260 h 4 HYPERLINK l _Toc436920261 1.2、Variety多樣 PAGEREF _Toc436920261 h 4 HYPERLINK l _Toc436920262 1.3、Velo

2、city效率 PAGEREF _Toc436920262 h 5 HYPERLINK l _Toc436920263 1.4、Veracity價(jià)值 PAGEREF _Toc436920263 h 5 HYPERLINK l _Toc436920264 2、大數(shù)據(jù)關(guān)鍵技術(shù) PAGEREF _Toc436920264 h 5 HYPERLINK l _Toc436920265 2.1、大數(shù)據(jù)采集技術(shù) PAGEREF _Toc436920265 h 6 HYPERLINK l _Toc436920266 2.2、大數(shù)據(jù)預(yù)處置技術(shù) PAGEREF _Toc436920266 h 6 HYPERLINK

3、 l _Toc436920267 2.3、大數(shù)據(jù)存儲(chǔ)及管理技術(shù) PAGEREF _Toc436920267 h 7 HYPERLINK l _Toc436920268 2.4、大數(shù)據(jù)分析及發(fā)掘技術(shù) PAGEREF _Toc436920268 h 7 HYPERLINK l _Toc436920269 2.5、大數(shù)據(jù)展現(xiàn)與運(yùn)用技術(shù) PAGEREF _Toc436920269 h 8 HYPERLINK l _Toc436920270 3、數(shù)據(jù)處置與分析 PAGEREF _Toc436920270 h 8 HYPERLINK l _Toc436920271 3.1、傳統(tǒng)方式 PAGEREF _To

4、c436920271 h 9 HYPERLINK l _Toc436920272 3.2、Hadoop大數(shù)據(jù)新方法 PAGEREF _Toc436920272 h 10 HYPERLINK l _Toc436920273 3.3、大規(guī)模并行分析數(shù)據(jù)庫(kù) PAGEREF _Toc436920273 h 11 HYPERLINK l _Toc436920274 3.4、大數(shù)據(jù)方法的互補(bǔ) PAGEREF _Toc436920274 h 12 HYPERLINK l _Toc436920275 3.5、大數(shù)據(jù)運(yùn)用案例 PAGEREF _Toc436920275 h 13 HYPERLINK l _Toc

5、436920276 4、展望電力大數(shù)據(jù)時(shí)代 PAGEREF _Toc436920276 h 14 HYPERLINK l _Toc436920277 4.1、電力大數(shù)據(jù)價(jià)值分析 PAGEREF _Toc436920277 h 14 HYPERLINK l _Toc436920278 4.2、電力大數(shù)據(jù)運(yùn)用前景 PAGEREF _Toc436920278 h 14 HYPERLINK l _Toc436920279 4.3、電力大數(shù)據(jù)開展與挑戰(zhàn) PAGEREF _Toc436920279 h 15 HYPERLINK l _Toc436920280 5、邁向電力大數(shù)據(jù)時(shí)代 PAGEREF _To

6、c436920280 h 15 HYPERLINK l _Toc436920281 5.1、電力大數(shù)據(jù)關(guān)健技術(shù) PAGEREF _Toc436920281 h 16 HYPERLINK l _Toc436920282 5.2、電力大數(shù)據(jù)開展戰(zhàn)略 PAGEREF _Toc436920282 h 16 HYPERLINK l _Toc436920283 6、電力大數(shù)據(jù)實(shí)際 PAGEREF _Toc436920283 h 16 HYPERLINK l _Toc436920284 6.1、實(shí)時(shí)海量數(shù)據(jù)是堅(jiān)強(qiáng)智能電網(wǎng)的重要資產(chǎn) PAGEREF _Toc436920284 h 17 HYPERLINK l

7、 _Toc436920285 6.2、對(duì)實(shí)時(shí)數(shù)據(jù)的接入、存儲(chǔ)與處置、監(jiān)測(cè)與智能分析 PAGEREF _Toc436920285 h 17 HYPERLINK l _Toc436920286 6.3、電網(wǎng)實(shí)時(shí)數(shù)據(jù)調(diào)研現(xiàn)狀 PAGEREF _Toc436920286 h 17 HYPERLINK l _Toc436920287 6.4、大數(shù)據(jù)效力IT創(chuàng)新、提高消費(fèi)效率 PAGEREF _Toc436920287 h 19 HYPERLINK l _Toc436920288 7、大數(shù)據(jù)技術(shù)實(shí)現(xiàn) PAGEREF _Toc436920288 h 19 HYPERLINK l _Toc436920289

8、7.1、物理架構(gòu)圖 PAGEREF _Toc436920289 h 19 HYPERLINK l _Toc436920290 7.2、數(shù)據(jù)處置向大數(shù)據(jù)處置的過渡 PAGEREF _Toc436920290 h 20 HYPERLINK l _Toc436920291 7.3、大數(shù)據(jù)中心技術(shù)Hadoop PAGEREF _Toc436920291 h 20 HYPERLINK l _Toc436920292 8、Hadoop引見與案例分析 PAGEREF _Toc436920292 h 20 HYPERLINK l _Toc436920293 8.1、Hadoop引見 PAGEREF _Toc4

9、36920293 h 21 HYPERLINK l _Toc436920294 8.2、Hadoop中心技術(shù) PAGEREF _Toc436920294 h 21 HYPERLINK l _Toc436920295 8.2.1、HDFS PAGEREF _Toc436920295 h 21 HYPERLINK l _Toc436920296 8.2.2、MapReduce PAGEREF _Toc436920296 h 23 HYPERLINK l _Toc436920297 8.3、Hadoop優(yōu)點(diǎn)和缺陷 PAGEREF _Toc436920297 h 30 HYPERLINK l _Toc

10、436920298 8.4、NoSQL數(shù)據(jù)庫(kù)引見 PAGEREF _Toc436920298 h 31 HYPERLINK l _Toc436920299 8.4.1、MongoDB PAGEREF _Toc436920299 h 32 HYPERLINK l _Toc436920300 8.4.2、CouchDB PAGEREF _Toc436920300 h 33 HYPERLINK l _Toc436920301 8.4.3、HBase PAGEREF _Toc436920301 h 34 HYPERLINK l _Toc436920302 8.4.4、Redis PAGEREF _To

11、c436920302 h 35 HYPERLINK l _Toc436920303 8.4.5、BaseX PAGEREF _Toc436920303 h 35 HYPERLINK l _Toc436920304 9、Hadoop數(shù)據(jù)存儲(chǔ)HBase PAGEREF _Toc436920304 h 36 HYPERLINK l _Toc436920305 9.1、HBase簡(jiǎn)介 PAGEREF _Toc436920305 h 36 HYPERLINK l _Toc436920306 9.2、邏輯視圖 PAGEREF _Toc436920306 h 37 HYPERLINK l _Toc43692

12、0307 9.3、物理存儲(chǔ) PAGEREF _Toc436920307 h 37 HYPERLINK l _Toc436920308 9.4、系統(tǒng)架構(gòu) PAGEREF _Toc436920308 h 41 HYPERLINK l _Toc436920309 9.5、關(guān)鍵算法流程 PAGEREF _Toc436920309 h 44 HYPERLINK l _Toc436920310 9.6、訪問接口 PAGEREF _Toc436920310 h 48 HYPERLINK l _Toc436920311 10、Hadoop查詢與分析工具 PAGEREF _Toc436920311 h 48 H

13、YPERLINK l _Toc436920312 10.1、Hive PAGEREF _Toc436920312 h 48 HYPERLINK l _Toc436920313 10.2、Mahout PAGEREF _Toc436920313 h 561、什么是大數(shù)據(jù)大數(shù)據(jù)幾乎已成為一切商業(yè)領(lǐng)域共有的最新趨勢(shì),然而大數(shù)據(jù)終究是什么?現(xiàn)實(shí)上,大數(shù)據(jù)是個(gè)非常簡(jiǎn)單的術(shù)語就像它所說的一樣,是非常大的數(shù)據(jù)集。那么終究有大多?真實(shí)的答案就是“如他所想的那么大!那么為什么會(huì)產(chǎn)生如此之大的數(shù)據(jù)集?由于當(dāng)今的數(shù)據(jù)曾經(jīng)無所不在并且存在著宏大的報(bào)答:搜集通訊數(shù)據(jù)的RFID傳感器,搜集天氣信息的傳感器,挪動(dòng)設(shè)備給社交

14、網(wǎng)站發(fā)送的GPRS數(shù)據(jù)包,圖片視頻,在線購(gòu)物產(chǎn)生的買賣記錄,應(yīng)有盡有!大數(shù)據(jù)是一個(gè)宏大的數(shù)據(jù)集,包含了任何數(shù)據(jù)源產(chǎn)生的信息,當(dāng)然前提是這些信息是我們感興趣的。然而大數(shù)據(jù)的含義絕不只與體積相關(guān),由于大數(shù)據(jù)還可以用于尋覓新的真知、構(gòu)成新的數(shù)據(jù)和內(nèi)容;我們可以運(yùn)用從大數(shù)據(jù)中提取的真知、數(shù)據(jù)和內(nèi)容去使商業(yè)更加靈敏,以及回答那些之前被以為遠(yuǎn)超當(dāng)前范疇的問題。這也是大數(shù)據(jù)被從以下4個(gè)方面定義的緣由:Volume體積、Variety多樣、Velocity效率以及VeracityValue,價(jià)值,也就是大數(shù)據(jù)的4V。下面將簡(jiǎn)述每個(gè)特性以及所面臨的挑戰(zhàn):1.1、Volume體積Volume說的是一個(gè)業(yè)務(wù)必需捕獲

15、、存儲(chǔ)及訪問的數(shù)據(jù)量,僅僅在過去兩年內(nèi)就消費(fèi)了世界上一切數(shù)據(jù)的90%?,F(xiàn)今的機(jī)構(gòu)已完全被數(shù)據(jù)的體積所淹沒,隨便的就會(huì)產(chǎn)生TB甚至是PB級(jí)不同類型的數(shù)據(jù),并且其中有些數(shù)據(jù)需求被組織、防護(hù)竊取以及分析。1.2、Variety多樣世界上產(chǎn)生的數(shù)據(jù)有80%都是半構(gòu)造化的,傳感器、智能設(shè)備和社交媒體都是經(jīng)過Web頁(yè)面、網(wǎng)絡(luò)日志文件、社交媒體論壇、音頻、視頻、點(diǎn)擊流、電子郵件、文檔、傳感系統(tǒng)等生成這些數(shù)據(jù)。傳統(tǒng)的分析方案往往只適宜構(gòu)造化數(shù)據(jù),舉個(gè)例子:存儲(chǔ)在關(guān)系型數(shù)據(jù)庫(kù)中的數(shù)據(jù)就有完好的構(gòu)造模型。數(shù)據(jù)類型的多樣化同樣意味著為支持當(dāng)下的決策制定及真知處置,我們需求在數(shù)據(jù)儲(chǔ)存和分析上面進(jìn)展根本的改動(dòng)。Vari

16、ety代表了在傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中無法隨便捕獲和管理的數(shù)據(jù)類型,運(yùn)用大數(shù)據(jù)技術(shù)卻可以輕松的儲(chǔ)存和分析。1.3、Velocity效率Velocity那么需求對(duì)數(shù)據(jù)進(jìn)展近實(shí)時(shí)的分析,亦稱“sometimes 2 minutes is too late!。獲取競(jìng)爭(zhēng)優(yōu)勢(shì)意味著他需求在幾分鐘,甚至是幾秒內(nèi)識(shí)別一個(gè)新的趨勢(shì)或機(jī)遇,同樣還需求盡能夠的快于他競(jìng)爭(zhēng)對(duì)手。另外一個(gè)例子是時(shí)間敏感性數(shù)據(jù)的處置,比如說捕捉罪犯,在這里數(shù)據(jù)必需被搜集后就完成被分析,這樣才干獲取最大價(jià)值。對(duì)時(shí)間敏感的數(shù)據(jù)保質(zhì)期往往都很短,這就需求組織或機(jī)構(gòu)運(yùn)用近實(shí)時(shí)的方式對(duì)其分析。1.4、Veracity價(jià)值經(jīng)過分析數(shù)據(jù)我們得出如何的抓住機(jī)遇

17、及收獲價(jià)值,數(shù)據(jù)的重要性就在于對(duì)決策的支持;當(dāng)他著眼于一個(gè)能夠會(huì)對(duì)他企業(yè)產(chǎn)生重要影響的決策,他希望獲得盡能夠多的信息與用例相關(guān)。單單數(shù)據(jù)的體積并不能決議其能否對(duì)決策產(chǎn)生協(xié)助 ,數(shù)據(jù)的真實(shí)性和質(zhì)量才是獲得真知和思緒最重要的要素,因此這才是制定勝利決策最堅(jiān)實(shí)的根底。2、大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)技術(shù),就是從各種類型的數(shù)據(jù)中快速獲得有價(jià)值信息的技術(shù)。大數(shù)據(jù)領(lǐng)域曾經(jīng)涌現(xiàn)出了大量新的技術(shù),它們成為大數(shù)據(jù)采集、存儲(chǔ)、處置和呈現(xiàn)的有力武器。大數(shù)據(jù)處置關(guān)鍵技術(shù)普通包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處置、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及發(fā)掘、大數(shù)據(jù)展現(xiàn)和運(yùn)用大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)運(yùn)用、大數(shù)據(jù)平安等。2.1、大數(shù)據(jù)采集

18、技術(shù)數(shù)據(jù)是指經(jīng)過RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及挪動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類型的構(gòu)造化、半構(gòu)造化或稱之為弱構(gòu)造化及非構(gòu)造化的海量數(shù)據(jù),是大數(shù)據(jù)知識(shí)效力模型的根本。重點(diǎn)要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)搜集技術(shù);突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù);設(shè)計(jì)質(zhì)量評(píng)價(jià)模型,開發(fā)數(shù)據(jù)質(zhì)量技術(shù)。大數(shù)據(jù)采集普通分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通訊體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)構(gòu)造化、半構(gòu)造化、非構(gòu)造化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處置和管理等。必需著重攻克針對(duì)大數(shù)據(jù)源的智

19、能識(shí)別、感知、適配、傳輸、接入等技術(shù)。根底支撐層:提供大數(shù)據(jù)效力平臺(tái)所需的虛擬效力器,構(gòu)造化、半構(gòu)造化及非構(gòu)造化數(shù)據(jù)的數(shù)據(jù)庫(kù)及物聯(lián)網(wǎng)絡(luò)資源等根底支撐環(huán)境。重點(diǎn)攻克分布式虛擬存儲(chǔ)技術(shù),大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與緊縮技術(shù),大數(shù)據(jù)隱私維護(hù)技術(shù)等。2.2、大數(shù)據(jù)預(yù)處置技術(shù)主要完成對(duì)已接納數(shù)據(jù)的辨析、抽取、清洗等操作。1抽?。阂颢@取的數(shù)據(jù)能夠具有多種構(gòu)造和類型,數(shù)據(jù)抽取過程可以協(xié)助 我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處置的構(gòu)型,以到達(dá)快速分析處置的目的。2清洗:對(duì)于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)懷的內(nèi)容,而另一些數(shù)據(jù)那么是完全錯(cuò)誤的

20、干擾項(xiàng),因此要對(duì)數(shù)據(jù)經(jīng)過過濾“去噪從而提取出有效數(shù)據(jù)。2.3、大數(shù)據(jù)存儲(chǔ)及管理技術(shù)大數(shù)據(jù)存儲(chǔ)與管理要用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來,建立相應(yīng)的數(shù)據(jù)庫(kù),并進(jìn)展管理和調(diào)用。重點(diǎn)處理復(fù)雜構(gòu)造化、半構(gòu)造化和非構(gòu)造化大數(shù)據(jù)管理與處置技術(shù)。主要處理大數(shù)據(jù)的可存儲(chǔ)、可表示、可處置、可靠性及有效傳輸?shù)葞讉€(gè)關(guān)鍵問題。開發(fā)可靠的分布式文件系統(tǒng)DFS、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、大數(shù)據(jù)的去冗余及高效低本錢的大數(shù)據(jù)存儲(chǔ)技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處置技術(shù),異構(gòu)數(shù)據(jù)的數(shù)據(jù)交融技術(shù),數(shù)據(jù)組織技術(shù),研討大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)挪動(dòng)、備份、復(fù)制等技術(shù);開發(fā)大數(shù)據(jù)可視化技術(shù)。開發(fā)新型數(shù)據(jù)庫(kù)技術(shù),

21、數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)緩存系統(tǒng)。其中,非關(guān)系型數(shù)據(jù)庫(kù)主要指的是NoSQL數(shù)據(jù)庫(kù),分為:鍵值數(shù)據(jù)庫(kù)、列存數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)以及文檔數(shù)據(jù)庫(kù)等類型。關(guān)系型數(shù)據(jù)庫(kù)包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)以及NewSQL數(shù)據(jù)庫(kù)。開發(fā)大數(shù)據(jù)平安技術(shù)。改良數(shù)據(jù)銷毀、透明加解密、分布式訪問控制、數(shù)據(jù)審計(jì)等技術(shù);突破隱私維護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R(shí)別和取證、數(shù)據(jù)持有完好性驗(yàn)證等技術(shù)。2.4、大數(shù)據(jù)分析及發(fā)掘技術(shù)大數(shù)據(jù)分析技術(shù)。改良已有數(shù)據(jù)發(fā)掘和機(jī)器學(xué)習(xí)技術(shù);開發(fā)數(shù)據(jù)網(wǎng)絡(luò)發(fā)掘、特異群組發(fā)掘、圖發(fā)掘等新型數(shù)據(jù)發(fā)掘技術(shù);突破基于對(duì)象的數(shù)據(jù)銜接、類似性銜接等大數(shù)據(jù)交融技術(shù);突破用戶興趣分析、網(wǎng)絡(luò)行為分析、情感語

22、義分析等面向領(lǐng)域的大數(shù)據(jù)發(fā)掘技術(shù)。數(shù)據(jù)發(fā)掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)踐運(yùn)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過程。數(shù)據(jù)發(fā)掘涉及的技術(shù)方法很多,有多種分類法。根據(jù)發(fā)掘義務(wù)可分為分類或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類、關(guān)聯(lián)規(guī)那么發(fā)現(xiàn)、序列方式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)發(fā)掘?qū)ο罂煞譃殛P(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)發(fā)掘方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹

23、、規(guī)那么歸納等)、基于范例學(xué)習(xí)、遺傳算法等。統(tǒng)計(jì)方法中,可細(xì)分為:回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探求性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。從發(fā)掘義務(wù)和發(fā)掘方法的角度,著重突破:1.可視化分析。數(shù)據(jù)可視化無論對(duì)于普通用戶或是數(shù)據(jù)分析專家,都是最根本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)本人說話,讓用戶直觀的感遭到結(jié)果。2.數(shù)據(jù)發(fā)掘算法。圖像化是將機(jī)器

24、言語翻譯給人看,而數(shù)據(jù)發(fā)掘就是機(jī)器的母語。分割、集群、孤立點(diǎn)分析還有各種各樣五花八門的算法讓我們精煉數(shù)據(jù),發(fā)掘價(jià)值。這些算法一定要可以應(yīng)付大數(shù)據(jù)的量,同時(shí)還具有很高的處置速度。3.預(yù)測(cè)性分析。預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)發(fā)掘的結(jié)果做出一些前瞻性判別。4.語義引擎。語義引擎需求設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中自動(dòng)地提取信息。言語處置技術(shù)包括機(jī)器翻譯、情感分析、輿情分析、智能輸入、問答系統(tǒng)等。5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量與管理是管理的最正確實(shí)際,透過規(guī)范化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)展處置可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果。2.5、大數(shù)據(jù)展現(xiàn)與運(yùn)用技術(shù)大數(shù)據(jù)技術(shù)可以將隱藏于海量數(shù)據(jù)中的

25、信息和知識(shí)發(fā)掘出來,為人類的社會(huì)經(jīng)濟(jì)活動(dòng)提供根據(jù),從而提高各個(gè)領(lǐng)域的運(yùn)轉(zhuǎn)效率,大大提高整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。在我國(guó),大數(shù)據(jù)將重點(diǎn)運(yùn)用于以下三大領(lǐng)域:商業(yè)智能、政府決策、公共效力。例如:商業(yè)智能技術(shù),政府決策技術(shù),電信數(shù)據(jù)信息處置與發(fā)掘技術(shù),電網(wǎng)數(shù)據(jù)信息處置與發(fā)掘技術(shù),氣候信息分析技術(shù),環(huán)境監(jiān)測(cè)技術(shù),警務(wù)云運(yùn)用系統(tǒng)道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng),大規(guī)?;蛐蛄蟹治霰葘?duì)技術(shù),Web信息發(fā)掘技術(shù),多媒體數(shù)據(jù)并行化處置技術(shù),影視制造渲染技術(shù),其他各種行業(yè)的云計(jì)算和海量數(shù)據(jù)處置運(yùn)用技術(shù)等。3、數(shù)據(jù)處置與分析3.1、傳統(tǒng)方式傳統(tǒng)上,為了特定分析目的進(jìn)展的數(shù)據(jù)

26、處置都是基于相當(dāng)靜態(tài)的藍(lán)圖。經(jīng)過常規(guī)的業(yè)務(wù)流程,企業(yè)經(jīng)過CRM、ERP和財(cái)務(wù)系統(tǒng)等運(yùn)用程序,創(chuàng)建基于穩(wěn)定數(shù)據(jù)模型的構(gòu)造化數(shù)據(jù)。數(shù)據(jù)集成工具用于從企業(yè)運(yùn)用程序和事務(wù)型數(shù)據(jù)庫(kù)中提取、轉(zhuǎn)換和加載數(shù)據(jù)到一個(gè)暫時(shí)區(qū)域,在這個(gè)暫時(shí)區(qū)域進(jìn)展數(shù)據(jù)質(zhì)量檢查和數(shù)據(jù)規(guī)范化,數(shù)據(jù)最終被方式化到整齊的行和表。這種模型化和清洗過的數(shù)據(jù)被加載到企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)。這個(gè)過程會(huì)周期性發(fā)生,如每天或每周,有時(shí)會(huì)更頻繁。ETL,是英文 Extract-Transform-Load 的縮寫,用來描畫將數(shù)據(jù)從來源端經(jīng)過抽取extract、轉(zhuǎn)換transform、加載load至目的端的過程。ETL是構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的重要一環(huán),用戶從數(shù)據(jù)源抽取出

27、所需的數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終按照預(yù)先定義好的數(shù)據(jù)倉(cāng)庫(kù)模型,將數(shù)據(jù)加載到數(shù)據(jù)倉(cāng)庫(kù)中去。在傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)中,數(shù)據(jù)倉(cāng)庫(kù)管理員創(chuàng)建方案,定期計(jì)算倉(cāng)庫(kù)中的規(guī)范化數(shù)據(jù),并將產(chǎn)生的報(bào)告分配到各業(yè)務(wù)部門。他們還為管理人員創(chuàng)建儀表板和其他功能有限的可視化工具。同時(shí),業(yè)務(wù)分析師利用數(shù)據(jù)分析工具在數(shù)據(jù)倉(cāng)庫(kù)進(jìn)展高級(jí)分析,或者通常情況下,由于數(shù)據(jù)量的限制,將樣本數(shù)據(jù)導(dǎo)入到本地?cái)?shù)據(jù)庫(kù)中。非專業(yè)用戶經(jīng)過前端的商業(yè)智能工具對(duì)數(shù)據(jù)倉(cāng)庫(kù)進(jìn)展根底的數(shù)據(jù)可視化和有限的分析。傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)量很少超越幾TB,由于大容量的數(shù)據(jù)會(huì)占用數(shù)據(jù)倉(cāng)庫(kù)資源并且降低性能。從時(shí)間或本錢效益上看,傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)等數(shù)據(jù)管理工具都無法實(shí)現(xiàn)大數(shù)據(jù)的處置和分析

28、任務(wù)。也就是說,必需將數(shù)據(jù)組織成關(guān)系表整齊的行和列數(shù)據(jù),傳統(tǒng)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)才可以處置。由于需求的時(shí)間和人力本錢,對(duì)海量的非構(gòu)造化數(shù)據(jù)運(yùn)用這種構(gòu)造是不真實(shí)踐的。此外,擴(kuò)展傳統(tǒng)的企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)使其順應(yīng)潛在的PB級(jí)數(shù)據(jù)需求在新的公用硬件上投資巨額資金。而由于數(shù)據(jù)加載這一個(gè)瓶頸,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)性能也會(huì)遭到影響。1ZB=1024EB ,1EB = 1024PB,1PB = 1024TB ,1TB = 1024GB3.2、Hadoop大數(shù)據(jù)新方法在Hadoop 出現(xiàn)之前,高性能計(jì)算和網(wǎng)格計(jì)算不斷是處置大數(shù)據(jù)問題主要的運(yùn)用方法和工具,它們主要采用音訊傳送接口Message Passing Interface

29、,MPI提供的API 來處置大數(shù)據(jù)。高性能計(jì)算的思想是將計(jì)算作業(yè)分散到集群機(jī)器上,集群計(jì)算節(jié)點(diǎn)訪問存儲(chǔ)區(qū)域網(wǎng)絡(luò)SAN 構(gòu)成的共享文件系統(tǒng)獲取數(shù)據(jù),這種設(shè)計(jì)比較適宜計(jì)算密集型作業(yè)。當(dāng)需求訪問像PB 級(jí)別的數(shù)據(jù)的時(shí)候,由于存儲(chǔ)設(shè)備網(wǎng)絡(luò)帶寬的限制,很多集群計(jì)算節(jié)點(diǎn)只能空閑等待數(shù)據(jù)。而Hadoop卻不存在這種問題,由于Hadoop 運(yùn)用專門為分布式計(jì)算設(shè)計(jì)的文件系統(tǒng)HDFS,計(jì)算的時(shí)候只需求將計(jì)算代碼推送到存儲(chǔ)節(jié)點(diǎn)上,即可在存儲(chǔ)節(jié)點(diǎn)上完成數(shù)據(jù)本地化計(jì)算,Hadoop 中的集群存儲(chǔ)節(jié)點(diǎn)也是計(jì)算節(jié)點(diǎn)。在分布式編程方面,MPI 是屬于比較底層的開發(fā)庫(kù),它賦予了程序員極大的控制才干,但是卻要程序員本人控制程序

30、的執(zhí)行流程,容錯(cuò)功能,甚至底層的套接字通訊、數(shù)據(jù)分析算法等底層細(xì)節(jié)都需求本人編程實(shí)現(xiàn)。這種要求無疑對(duì)開發(fā)分布式程序的程序員提出了較高的要求。相反,Hadoop 的MapReduce 卻是一個(gè)高度籠統(tǒng)的并行編程模型,它將分布式并行編程籠統(tǒng)為兩個(gè)原語操作,即map 操作和reduce 操作,開發(fā)人員只需求簡(jiǎn)單地實(shí)現(xiàn)相應(yīng)的接口即可,完全不用思索底層數(shù)據(jù)流、容錯(cuò)、程序的并行執(zhí)行等細(xì)節(jié)。這種設(shè)計(jì)無疑大大降低了開發(fā)分布式并行程序的難度。Hadoop得以在大數(shù)據(jù)處置運(yùn)用中廣泛運(yùn)用得益于其本身在數(shù)據(jù)提取、變形和加載(ETL)方面上的天然優(yōu)勢(shì)。Hadoop的分布式架構(gòu),將大數(shù)據(jù)處置引擎盡能夠的接近存儲(chǔ),對(duì)例如像

31、ETLExtract-Transform-Load這樣的批處置操作相對(duì)適宜,由于類似這樣操作的批處置結(jié)果可以直接走向存儲(chǔ)。Hadoop的MapReduce功能實(shí)現(xiàn)了將單個(gè)義務(wù)打碎,并將碎片義務(wù)(Map)發(fā)送到多個(gè)節(jié)點(diǎn)上,之后再以單個(gè)數(shù)據(jù)集的方式加載(Reduce)到數(shù)據(jù)倉(cāng)庫(kù)里。3.3、大規(guī)模并行分析數(shù)據(jù)庫(kù)不同于傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù),大規(guī)模并行分析數(shù)據(jù)庫(kù)可以以必需的最小的數(shù)據(jù)建模,快速獲取大量的構(gòu)造化數(shù)據(jù),可以向外擴(kuò)展以包容TB甚至PB級(jí)數(shù)據(jù)。對(duì)最終用戶而言最重要的是,大規(guī)模并行分析數(shù)據(jù)庫(kù)支持近乎實(shí)時(shí)的復(fù)雜SQL查詢結(jié)果,也叫交互式查詢功能 ,而這正是Hadoop顯著缺失的才干。大規(guī)模并行分析數(shù)據(jù)庫(kù)在

32、某些情況下支持近實(shí)時(shí)的大數(shù)據(jù)運(yùn)用。大規(guī)模并行分析數(shù)據(jù)庫(kù)的根本特性包括:大規(guī)模并行處置的才干: 就像其名字闡明的一樣,大規(guī)模并行分析數(shù)據(jù)庫(kù)采用大規(guī)模并行處置同時(shí)支持多臺(tái)機(jī)器上的數(shù)據(jù)采集、處置和查詢。相對(duì)傳統(tǒng)的數(shù)據(jù)倉(cāng)庫(kù)具有更快的性能,傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)運(yùn)轉(zhuǎn)在單一機(jī)器上,會(huì)遭到數(shù)據(jù)采集這個(gè)單一瓶頸點(diǎn)的限制。無共享架構(gòu):無共享架構(gòu)可確保分析數(shù)據(jù)庫(kù)環(huán)境中沒有單點(diǎn)缺點(diǎn)。在這種架構(gòu)下,每個(gè)節(jié)點(diǎn)獨(dú)立于其他節(jié)點(diǎn),所以假設(shè)一臺(tái)機(jī)器出現(xiàn)缺點(diǎn),其他機(jī)器可以繼續(xù)運(yùn)轉(zhuǎn)。對(duì)大規(guī)模并行處置環(huán)境而言,這點(diǎn)尤其重要,數(shù)百臺(tái)計(jì)算機(jī)并行處置數(shù)據(jù),偶爾出現(xiàn)一臺(tái)或多臺(tái)機(jī)器失敗是不可防止的。列存儲(chǔ)構(gòu)造:大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫(kù)采用列存儲(chǔ)構(gòu)造,

33、而大多數(shù)關(guān)系型數(shù)據(jù)庫(kù)以行構(gòu)造存儲(chǔ)和處置數(shù)據(jù)。在列存儲(chǔ)環(huán)境中,由包含必要數(shù)據(jù)的列決議查詢語句的“答案,而不是由整行的數(shù)據(jù)決議,從而導(dǎo)致查詢結(jié)果瞬間可以得出。這也意味著數(shù)據(jù)不需求像傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)那樣構(gòu)呵斥整齊的表格。強(qiáng)大的數(shù)據(jù)緊縮功能:它們?cè)试S分析數(shù)據(jù)庫(kù)搜集和存儲(chǔ)更大量的數(shù)據(jù),而且與傳統(tǒng)數(shù)據(jù)庫(kù)相比占用更少的硬件資源。例如,具有10比1的緊縮功能的數(shù)據(jù)庫(kù),可以將10 TB字節(jié)的數(shù)據(jù)緊縮到1 TB。數(shù)據(jù)編碼包括數(shù)據(jù)緊縮以及相關(guān)的技術(shù)是有效的擴(kuò)展到海量數(shù)據(jù)的關(guān)鍵。商用硬件: 像Hadoop集群一樣,大多數(shù)一定不是全部大規(guī)模并行分析數(shù)據(jù)庫(kù)運(yùn)轉(zhuǎn)在戴爾、IBM等廠商現(xiàn)成的商用硬件上,這使他們可以以具有本錢效

34、益的方式向外擴(kuò)展。在內(nèi)存中進(jìn)展數(shù)據(jù)處置:有些一定不是全部大規(guī)模并行分析數(shù)據(jù)庫(kù)運(yùn)用動(dòng)態(tài)RAM或閃存進(jìn)展實(shí)時(shí)數(shù)據(jù)處置。有些(如SAP HANA)完全在內(nèi)存中運(yùn)轉(zhuǎn)數(shù)據(jù),而其他那么采用混合的方式,即用較廉價(jià)但低性能的磁盤內(nèi)存處置“冷數(shù)據(jù),用動(dòng)態(tài)RAM或閃存處置“熱數(shù)據(jù)。然而,大規(guī)模并行分析數(shù)據(jù)庫(kù)確實(shí)有一些盲點(diǎn)。最值得留意的是,他們并非被設(shè)計(jì)用來存儲(chǔ)、處置和分析大量的半構(gòu)造化和非構(gòu)造化數(shù)據(jù)。3.4、大數(shù)據(jù)方法的互補(bǔ)Hadoop,NoSQL 和大規(guī)模并行分析數(shù)據(jù)庫(kù)不是相互排斥的。相反的這三種方法是互補(bǔ)的,彼此可以而且應(yīng)該共存于許多企業(yè)。Hadoop擅優(yōu)點(diǎn)理和分析大量分布式的非構(gòu)造化數(shù)據(jù),以分批的方式進(jìn)展歷

35、史分析。NoSQL 數(shù)據(jù)庫(kù)擅長(zhǎng)為基于Web的大數(shù)據(jù)運(yùn)用程序提供近實(shí)時(shí)地多構(gòu)造化數(shù)據(jù)存儲(chǔ)和處置。而大規(guī)模并行分析數(shù)據(jù)庫(kù)最擅長(zhǎng)對(duì)大容量的主流構(gòu)造化數(shù)據(jù)提供接近實(shí)時(shí)的分析。例如,Hadoop完成的歷史分析可以移植到分析數(shù)據(jù)庫(kù)供進(jìn)一步分析,或者與傳統(tǒng)的企業(yè)數(shù)據(jù)倉(cāng)庫(kù)的構(gòu)造化數(shù)據(jù)進(jìn)展集成。從大數(shù)據(jù)分析得到的見解可以而且應(yīng)該經(jīng)過大數(shù)據(jù)運(yùn)用實(shí)現(xiàn)產(chǎn)品化。企業(yè)的目的應(yīng)該是實(shí)現(xiàn)一個(gè)靈敏的大數(shù)據(jù)架構(gòu),在該架構(gòu)中,三種技術(shù)可以盡能夠無縫地共享數(shù)據(jù)和見解。很多預(yù)建的銜接器可以協(xié)助 Hadoop開發(fā)者和管理員實(shí)現(xiàn)這種數(shù)據(jù)集成,同時(shí)也有很多廠商提供大數(shù)據(jù)運(yùn)用。這些大數(shù)據(jù)運(yùn)用將Hadoop、分析數(shù)據(jù)庫(kù)和預(yù)配置的硬件進(jìn)展捆綁,可

36、以到達(dá)以最小的調(diào)整實(shí)現(xiàn)快速部署的目的。另外一種情況,Hadapt提供了一個(gè)單一平臺(tái),這個(gè)平臺(tái)在一樣的集群上同時(shí)提供SQL和Hadoop/MapReduce的處置功能。Cloudera也在Impala和Hortonworks工程上經(jīng)過開源倡議推行這一戰(zhàn)略。但是,為了充分利用大數(shù)據(jù),企業(yè)必需采取進(jìn)一步措施。也就是說,他們必需運(yùn)用高級(jí)分析技術(shù)處置數(shù)據(jù),并以此得出有意義的見解。數(shù)據(jù)科學(xué)家經(jīng)過屈指可數(shù)的言語或方法執(zhí)行這項(xiàng)復(fù)雜的任務(wù)。分析的結(jié)果可以經(jīng)過工具可視化,也可以經(jīng)過大數(shù)據(jù)運(yùn)用程序進(jìn)展操作,這些大數(shù)據(jù)運(yùn)用程序包括本人開發(fā)的運(yùn)用程序和現(xiàn)成的運(yùn)用程序。3.5、大數(shù)據(jù)運(yùn)用案例讓Hadoop和其他大數(shù)據(jù)技術(shù)

37、如此引人注目的部分緣由是,他們讓企業(yè)找到問題的答案,而在此之前他們甚至不知道問題是什么。這能夠會(huì)產(chǎn)生引出新產(chǎn)品的想法,或者協(xié)助 確定改善運(yùn)營(yíng)效率的方法。不過,也有一些曾經(jīng)明確的大數(shù)據(jù)用例,無論是互聯(lián)網(wǎng)巨頭如谷歌,F(xiàn)acebook和阿里巴巴還是更多的傳統(tǒng)企業(yè)。它們包括:引薦引擎:網(wǎng)絡(luò)資源和在線零售商運(yùn)用Hadoop根據(jù)用戶的個(gè)人資料和行為數(shù)據(jù)匹配和引薦用戶、產(chǎn)品和效力。LinkedIn運(yùn)用此方法加強(qiáng)其“他能夠認(rèn)識(shí)的人這一功能,而亞馬遜利用該方法為網(wǎng)上消費(fèi)者引薦相關(guān)產(chǎn)品。情感分析:Hadoop與先進(jìn)的文本分析工具結(jié)合,分析社會(huì)化媒體和社交網(wǎng)絡(luò)發(fā)布的非構(gòu)造化的文本,包括Tweets和Facebook

38、,以確定用戶對(duì)特定公司,品牌或產(chǎn)品的心情。分析既可以專注于宏觀層面的心情,也可以細(xì)分到個(gè)人用戶的心情。風(fēng)險(xiǎn)建模:財(cái)務(wù)公司、銀行等公司運(yùn)用Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)分析大量買賣數(shù)據(jù),以確定金融資產(chǎn)的風(fēng)險(xiǎn),模擬市場(chǎng)行為為潛在的“假設(shè)方案做預(yù)備,并根據(jù)風(fēng)險(xiǎn)為潛在客戶打分。欺詐檢測(cè):金融公司、零售商等運(yùn)用大數(shù)據(jù)技術(shù)將客戶行為與歷史買賣數(shù)據(jù)結(jié)合來檢測(cè)欺詐行為。例如,信譽(yù)卡公司運(yùn)用大數(shù)據(jù)技術(shù)識(shí)別能夠的被盜卡的買賣行為。營(yíng)銷活動(dòng)分析:各行業(yè)的營(yíng)銷部門長(zhǎng)期運(yùn)用技術(shù)手段監(jiān)測(cè)和確定營(yíng)銷活動(dòng)的有效性。大數(shù)據(jù)讓營(yíng)銷團(tuán)隊(duì)擁有更大量的越來越精細(xì)的數(shù)據(jù),如點(diǎn)擊流數(shù)據(jù)和呼叫概略記錄數(shù)據(jù),以提高分析的準(zhǔn)確性。客戶流失分析:企

39、業(yè)運(yùn)用Hadoop和大數(shù)據(jù)技術(shù)分析客戶行為數(shù)據(jù)并確定分析模型,該模型指出哪些客戶最有能夠流向存在競(jìng)爭(zhēng)關(guān)系的供應(yīng)商或效力商。企業(yè)就能采取最有效的措施挽留欲流失客戶。社交圖譜分析:Hadoop和下一代數(shù)據(jù)倉(cāng)庫(kù)相結(jié)合,經(jīng)過發(fā)掘社交網(wǎng)絡(luò)數(shù)據(jù),可以確定社交網(wǎng)絡(luò)中哪些客戶對(duì)其他客戶產(chǎn)生最大的影響力。這有助于企業(yè)確定其“最重要的客戶,不總是那些購(gòu)買最多產(chǎn)品或花最多錢的,而是那些最可以影響他人購(gòu)買行為的客戶。用戶體驗(yàn)分析: 面向消費(fèi)者的企業(yè)運(yùn)用Hadoop和其他大數(shù)據(jù)技術(shù)將之前單一 客戶互動(dòng)渠道如呼叫中心,網(wǎng)上聊天,微博等數(shù)據(jù)整合在一同, ,以獲得對(duì)客戶體驗(yàn)的完好視圖。這使企業(yè)可以了解客戶交互渠道之間的相互影

40、響,從而優(yōu)化整個(gè)客戶生命周期的用戶體驗(yàn)。網(wǎng)絡(luò)監(jiān)控:Hadoop 和其他大數(shù)據(jù)技術(shù)被用來獲取,分析和顯示效力器,存儲(chǔ)設(shè)備和其他IT硬件的數(shù)據(jù),使管理員可以監(jiān)視網(wǎng)絡(luò)活動(dòng),診斷瓶頸等問題。這種類型的分析,也可運(yùn)用到交通網(wǎng)絡(luò),以提高燃料效率,當(dāng)然也可以運(yùn)用到其他網(wǎng)絡(luò)。研討與開展: 有些企業(yè)如制藥商運(yùn)用Hadoop技術(shù)進(jìn)展大量文本及歷史數(shù)據(jù)的研討,以協(xié)助新產(chǎn)品的開發(fā)。當(dāng)然,上述這些都只是大數(shù)據(jù)用例的舉例。現(xiàn)實(shí)上,在一切企業(yè)中大數(shù)據(jù)最引人注目的用例能夠尚未被發(fā)現(xiàn)。這就是大數(shù)據(jù)的希望。4、展望電力大數(shù)據(jù)時(shí)代4.1、電力大數(shù)據(jù)價(jià)值分析電力系統(tǒng)作為經(jīng)濟(jì)開展和人類生活依賴的能量供應(yīng)系統(tǒng),也具有大數(shù)據(jù)的典型特征。電

41、力系統(tǒng)是最復(fù)雜的人造系統(tǒng)之一,其具有地理位置分布廣泛、發(fā)電用電實(shí)時(shí)平衡、傳輸能量數(shù)量龐大、電能傳輸光速可達(dá)、通訊調(diào)度高度可靠、實(shí)時(shí)運(yùn)轉(zhuǎn)從不停頓、艱苦缺點(diǎn)瞬間擴(kuò)展等特點(diǎn),這些特點(diǎn)決議了電力系統(tǒng)運(yùn)轉(zhuǎn)時(shí)產(chǎn)生的數(shù)據(jù)數(shù)量龐大、增長(zhǎng)快速、類型豐富,完全符合大數(shù)據(jù)的一切特征,是典型的大數(shù)據(jù)。在智能電網(wǎng)深化推進(jìn)的情勢(shì)下,電力系統(tǒng)的數(shù)字化、信息化、智能化不斷開展,帶來了更多的數(shù)據(jù)源,例如智能電表從數(shù)以億計(jì)的家庭和企業(yè)終端帶來的數(shù)據(jù),電力設(shè)備形狀監(jiān)測(cè)系統(tǒng)從數(shù)以萬計(jì)的發(fā)電機(jī)、變壓器、開關(guān)設(shè)備、架空線路、高壓電纜等設(shè)備中獲取的高速增長(zhǎng)的監(jiān)測(cè)數(shù)據(jù),光伏和風(fēng)電功率預(yù)測(cè)所需的大量的歷史運(yùn)轉(zhuǎn)數(shù)據(jù)、氣候觀測(cè)數(shù)據(jù)等。因此在電力系

42、統(tǒng)數(shù)據(jù)爆炸式增長(zhǎng)的新情勢(shì)下,傳統(tǒng)的數(shù)據(jù)處置技術(shù)遇到瓶頸,不能滿足電力行業(yè)從海量數(shù)據(jù)中快速獲取知識(shí)與信息的分析需求,電力大數(shù)據(jù)技術(shù)的運(yùn)用是電力行業(yè)信息化、智能化開展的必然要求。中國(guó)電機(jī)工程學(xué)會(huì)信息化專委會(huì)在2021 年3 月發(fā)布了,將2021 年定為“中國(guó)大數(shù)據(jù)元年,掀起了電力大數(shù)據(jù)的研討熱潮。根據(jù)白皮書描畫,電力大數(shù)據(jù)的特征可概括為3V 和3E。3V 為體量大(Volume)、速度快(Velocity) 和類型多(Variety) ; 3E 為數(shù)據(jù)即能量(Energy) 、數(shù)據(jù)即交互(Exchange) 和數(shù)據(jù)即共情(Empathy)。其3V 的描畫和其他行業(yè)的描畫比較接近,3E 的描畫具有典

43、型的電力行業(yè)特征,表達(dá)了大數(shù)據(jù)在電力系統(tǒng)運(yùn)用中的宏大價(jià)值。數(shù)據(jù)即能量簡(jiǎn)而言之,就是指經(jīng)過大數(shù)據(jù)分析到達(dá)節(jié)能的目的,電力大數(shù)據(jù)運(yùn)用的過程,就是電力數(shù)據(jù)能量釋放的過程;數(shù)據(jù)即交互是指電力大數(shù)據(jù)與國(guó)民經(jīng)濟(jì)其他領(lǐng)域數(shù)據(jù)進(jìn)展交互交融,才干發(fā)揚(yáng)其更大價(jià)值;數(shù)據(jù)即共情是指電力大數(shù)據(jù)嚴(yán)密聯(lián)絡(luò)千家萬戶、廠礦企業(yè),只需情系用電戶,滿足客戶需求,電力企業(yè)方能以數(shù)據(jù)取勝。電力大數(shù)據(jù)貫穿發(fā)、輸、變、配、用等電力消費(fèi)及管理的各個(gè)環(huán)節(jié),是能源變革中電力工業(yè)技術(shù)革新的必然過程,不僅是技術(shù)上的提高,更是涉及電力系統(tǒng)管理體制、開展理念和技術(shù)道路等方面的艱苦變革,是下一代電力系統(tǒng)在大數(shù)據(jù)時(shí)代下價(jià)值形狀的躍升。對(duì)建立堅(jiān)強(qiáng)智能電網(wǎng)而言

44、,亟需開展大數(shù)據(jù)相關(guān)技術(shù)研討,為電力大數(shù)據(jù)時(shí)代的到來奠定實(shí)際根底和技術(shù)積累。4.2、電力大數(shù)據(jù)運(yùn)用前景4.3、電力大數(shù)據(jù)開展與挑戰(zhàn)5、邁向電力大數(shù)據(jù)時(shí)代5.1、電力大數(shù)據(jù)關(guān)健技術(shù)5.2、電力大數(shù)據(jù)開展戰(zhàn)略6、電力大數(shù)據(jù)實(shí)際6.1、實(shí)時(shí)海量數(shù)據(jù)是堅(jiān)強(qiáng)智能電網(wǎng)的重要資產(chǎn)6.2、對(duì)實(shí)時(shí)數(shù)據(jù)的接入、存儲(chǔ)與處置、監(jiān)測(cè)與智能分析6.3、電網(wǎng)實(shí)時(shí)數(shù)據(jù)調(diào)研現(xiàn)狀1某省實(shí)時(shí)數(shù)據(jù)分布12某省實(shí)時(shí)數(shù)據(jù)分布23某市實(shí)時(shí)數(shù)據(jù)分布6.4、大數(shù)據(jù)效力IT創(chuàng)新、提高消費(fèi)效率7、大數(shù)據(jù)技術(shù)實(shí)現(xiàn)7.1、物理架構(gòu)圖7.2、數(shù)據(jù)處置向大數(shù)據(jù)處置的過渡7.3、大數(shù)據(jù)中心技術(shù)Hadoop8、Hadoop引見與案例分析8.1、Hadoop引

45、見Hadoop是一個(gè)處置、存儲(chǔ)和分析海量的分布式、非構(gòu)造化數(shù)據(jù)的開源框架。最初由雅虎的Doug Cutting創(chuàng)建,Hadoop的靈感于 MapReduce ,MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁(yè)索引的用戶定義函數(shù)。它被設(shè)計(jì)用來處置分布在多個(gè)并行節(jié)點(diǎn)的PB級(jí)和EB級(jí)數(shù)據(jù)。Hadoop集群運(yùn)轉(zhuǎn)在廉價(jià)的商用硬件上,這樣硬件擴(kuò)展就不存在資金壓力。Hadoop如今是Apache軟件聯(lián)盟(The Apache Software Foundation)的一個(gè)工程,數(shù)百名奉獻(xiàn)者不斷改良其中心技術(shù)。根本概念:與將海量數(shù)據(jù)限定在一臺(tái)機(jī)器運(yùn)轉(zhuǎn)的方式不同,Hadoop將大數(shù)據(jù)分成多個(gè)部分,這樣每

46、個(gè)部分都可以被同時(shí)處置和分析。8.2、Hadoop中心技術(shù)Hadoop的中心就是HDFS和MapReduce,而兩者只是實(shí)際根底,不是詳細(xì)可運(yùn)用的高級(jí)運(yùn)用,Hadoop旗下有很多經(jīng)典子工程,比如HBase、Hive等,這些都是基于HDFS和MapReduce開展出來的。要想了解Hadoop,就必需知道HDFS和MapReduce是什么。8.2.1、HDFSHDFSHadoop Distributed File System,Hadoop分布式文件系統(tǒng),它是一個(gè)高度容錯(cuò)性的系統(tǒng),適宜部署在廉價(jià)的機(jī)器上。HDFS能提供高吞吐量的數(shù)據(jù)訪問,適宜那些有著超大數(shù)據(jù)集large data set的運(yùn)用程序

47、。HDFS的設(shè)計(jì)特點(diǎn):1、大數(shù)據(jù)文件,非常適宜上T級(jí)別的大文件或者一堆大數(shù)據(jù)文件的存儲(chǔ),假設(shè)文件只需幾個(gè)G甚至更小就沒啥意思了。2、文件分塊存儲(chǔ),HDFS會(huì)將一個(gè)完好的大文件平均分塊存儲(chǔ)到不同計(jì)算器上,它的意義在于讀取文件時(shí)可以同時(shí)從多個(gè)主機(jī)取不同區(qū)塊的文件,多主機(jī)讀取比單主機(jī)讀取效率要高得多得都。3、流式數(shù)據(jù)訪問,一次寫入多次讀寫,這種方式跟傳統(tǒng)文件不同,它不支持動(dòng)態(tài)改動(dòng)文件內(nèi)容,而是要求讓文件一次寫入就不做變化,要變化也只能在文件末添加內(nèi)容。4、廉價(jià)硬件,HDFS可以運(yùn)用在普通PC機(jī)上,這種機(jī)制可以讓給一些公司用幾十臺(tái)廉價(jià)的計(jì)算機(jī)就可以撐起一個(gè)大數(shù)據(jù)集群。5、硬件缺點(diǎn),HDFS以為一切計(jì)算

48、機(jī)都能夠會(huì)出問題,為了防止某個(gè)主機(jī)失效讀取不到該主機(jī)的塊文件,它將同一個(gè)文件塊副本分配到其它某幾個(gè)主機(jī)上,假設(shè)其中一臺(tái)主機(jī)失效,可以迅速找另一塊副本取文件。HDFS關(guān)鍵元素:Hadoop運(yùn)用主/從Master/Slave架構(gòu),主要角色有NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker組成。NameNode節(jié)點(diǎn)作為Master效力器,有三部分功能。第一:處置客戶端的文件訪問。第二:管理文件系統(tǒng)的命名空間操作,如翻開、封鎖、重命名等。第三:擔(dān)任數(shù)據(jù)塊到數(shù)據(jù)節(jié)點(diǎn)之間的映射。從這個(gè)意義上說,它扮演中心效力器的角色。DataNode節(jié)

49、點(diǎn)作為Slave效力器,同樣有三部分功能。第一:管理掛載在節(jié)點(diǎn)上的存儲(chǔ)設(shè)備。第二:呼應(yīng)客戶端的讀寫懇求。第三:從內(nèi)部看,每個(gè)文件被分成一個(gè)或多個(gè)數(shù)據(jù)塊,被存放到一組DataNode,在Namenode的一致調(diào)度下進(jìn)展數(shù)據(jù)塊的創(chuàng)建、刪除和復(fù)制。1NameNodeNameNode是HDFS的守護(hù)程序,是 Hadoop 中的主效力器,它管理文件系統(tǒng)稱號(hào)空間和對(duì)集群中存儲(chǔ)的文件的訪問2DataNode集群中每個(gè)從效力器都運(yùn)轉(zhuǎn)一個(gè)DataNode后臺(tái)程序,后臺(tái)程序擔(dān)任把HDFS數(shù)據(jù)塊讀寫到本地文件系統(tǒng)。需求讀寫數(shù)據(jù)時(shí),由NameNode通知客戶端去哪個(gè)DataNode進(jìn)展詳細(xì)的讀寫操作。3Block將一

50、個(gè)文件進(jìn)展分塊,通常是64M4Secondary NameNodeSecondary NameNode是一個(gè)用來監(jiān)控HDFS形狀的輔助后臺(tái)程序,假設(shè)NameNode發(fā)生問題,可以運(yùn)用Secondary NameNode作為備用的NameNode。5JobTrackerJobTracker后臺(tái)程序用來銜接運(yùn)用程序與Hadoop,用戶運(yùn)用提交到集群后,由JobTracker決議哪個(gè)文件處置哪個(gè)task執(zhí)行,一旦某個(gè)task失敗,JobTracker會(huì)自動(dòng)開啟這個(gè)task。6TaskTrackerTaskTracker擔(dān)任存儲(chǔ)數(shù)據(jù)的DataNode相結(jié)合,位于從節(jié)點(diǎn),擔(dān)任各自的task。在Hadoo

51、p的系統(tǒng)中,會(huì)有一臺(tái)Master,主要擔(dān)任NameNode的任務(wù)以及JobTracker的任務(wù)。JobTracker的主要職責(zé)就是啟動(dòng)、跟蹤和調(diào)度各個(gè)Slave的義務(wù)執(zhí)行。還會(huì)有多臺(tái)Slave,每一臺(tái)Slave通常具有DataNode的功能并擔(dān)任TaskTracker的任務(wù)。TaskTracker根據(jù)運(yùn)用要求來結(jié)合本地?cái)?shù)據(jù)執(zhí)行Map義務(wù)以及Reduce義務(wù)。8.2.2、MapReduceMapReduce引見:MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運(yùn)算。MapReduce的設(shè)計(jì)目的是方便編程人員在不熟習(xí)分布式并行編程的情況下,將本人的程序運(yùn)轉(zhuǎn)在分布式系統(tǒng)上。MapReduce

52、的命名規(guī)那么由兩個(gè)術(shù)語組成,分別是Map(映射)與Reduce(化簡(jiǎn)),是它們的主要思想,都是從函數(shù)式編程言語里借來的。當(dāng)前的軟件實(shí)現(xiàn)是指定一個(gè)Map映射函數(shù),用來把一組鍵值對(duì)映射成一組新的鍵值對(duì),指定并發(fā)的Reduce化簡(jiǎn)函數(shù),用來保證一切映射的鍵值對(duì)中的每一個(gè)共享一樣的鍵組。MapReduce處置過程:1 Input輸入從文件中讀取原始數(shù)據(jù)原始數(shù)據(jù) 2Map映射將原始數(shù)據(jù)映射成用于Reduce的數(shù)據(jù) List3Reduce合并將一樣Key值的中間數(shù)據(jù)合并成最終數(shù)據(jù)MapKey, List 4Output輸出將最終處置結(jié)果輸出到文件 結(jié)果文件上述就是MapReduce大致處置過程,在Map前

53、還能夠會(huì)對(duì)輸入的數(shù)據(jù)有Split(分割)的過程,保證義務(wù)并行效率,在Map之后還會(huì)有Shuffle(混合)的過程,對(duì)于提高Reduce的效率以及減小數(shù)據(jù)傳輸?shù)膲毫τ泻艽蟮膮f(xié)助 。后面會(huì)詳細(xì)提及這些部分的細(xì)節(jié)。MapReduce簡(jiǎn)單案例1:通俗說MapReduce是一套從海量源數(shù)據(jù)提取分析元素最后前往結(jié)果集的編程模型,將文件分布式存儲(chǔ)到硬盤是第一步,而從海量數(shù)據(jù)中提取分析我們需求的內(nèi)容就是MapReduce做的事了。下面以一個(gè)計(jì)算海量數(shù)據(jù)最大值為例:一個(gè)銀行有上億儲(chǔ)戶,銀行希望找到存儲(chǔ)金額最高的金額是多少,按照傳統(tǒng)的計(jì)算方式,我們會(huì)這樣:Java代碼:Longmoneys.Longmax=0L;

54、for(inti=0;imax)max=moneysi;假設(shè)計(jì)算的數(shù)組長(zhǎng)度少的話,這樣實(shí)現(xiàn)是不會(huì)有問題的,還是面對(duì)海量數(shù)據(jù)的時(shí)候就會(huì)有問題。MapReduce會(huì)這樣做:首先數(shù)字是分布存儲(chǔ)在不同塊中的,以某幾個(gè)塊為一個(gè)Map,計(jì)算出Map中最大的值,然后將每個(gè)Map中的最大值做Reduce操作,Reduce再取最大值給用戶。MapReduce的根本原理就是:將大的數(shù)據(jù)分析分成小塊逐個(gè)分析,最后再將提取出來的數(shù)據(jù)匯總分析,最終獲得我們想要的內(nèi)容。當(dāng)然怎樣分塊分析,怎樣做Reduce操作非常復(fù)雜,Hadoop曾經(jīng)提供了數(shù)據(jù)分析的實(shí)現(xiàn),我們只需求編寫簡(jiǎn)單的需求命令即可達(dá)成我們想要的數(shù)據(jù)。MapRedu

55、ce簡(jiǎn)單案例2:1從實(shí)際部分來進(jìn)展講解MapReduce下面是一個(gè)關(guān)于一個(gè)程序員是如何給妻子講解什么是MapReduce.我問妻子:“他真的想要弄懂什么是MapReduce? 她很堅(jiān)決的回答說“是的。 因此我問道:我: 他是如何預(yù)備洋蔥辣椒醬的?以下并非準(zhǔn)確食譜,請(qǐng)勿在家嘗試妻子: 我會(huì)取一個(gè)洋蔥,把它切碎,然后拌入鹽和水,最后放進(jìn)混合研磨機(jī)里研磨。這樣就能得到洋蔥辣椒醬了。妻子: 但這和MapReduce有什么關(guān)系?我: 他等一下。讓我來編一個(gè)完好的情節(jié),這樣他一定可以在15分鐘內(nèi)弄懂MapReduce.妻子: 好吧。我:如今,假設(shè)他想用薄荷、洋蔥、番茄、辣椒、大蒜弄一瓶混合辣椒醬。他會(huì)怎樣

56、做呢?妻子: 我會(huì)取薄荷葉一撮,洋蔥一個(gè),番茄一個(gè),辣椒一根,大蒜一根,切碎后參與適量的鹽和水,再放入混合研磨機(jī)里研磨,這樣他就可以得到一瓶混合辣椒醬了。我: 沒錯(cuò),讓我們把MapReduce的概念運(yùn)用到食譜上。Map和Reduce其實(shí)是兩種操作,我來給他詳細(xì)講解下。Map映射: 把洋蔥、番茄、辣椒和大蒜切碎,是各自作用在這些物體上的一個(gè)Map操作。所以他給Map一個(gè)洋蔥,Map就會(huì)把洋蔥切碎。 同樣的,他把辣椒,大蒜和番茄一一地拿給Map,他也會(huì)得到各種碎塊。 所以,當(dāng)他在切像洋蔥這樣的蔬菜時(shí),他執(zhí)行就是一個(gè)Map操作。 Map操作適用于每一種蔬菜,它會(huì)相應(yīng)地消費(fèi)出一種或多種碎塊,在我們的例

57、子中消費(fèi)的是蔬菜塊。在Map操作中能夠會(huì)出現(xiàn)有個(gè)洋蔥壞掉了的情況,他只需把壞洋蔥丟了就行了。所以,假設(shè)出現(xiàn)壞洋蔥了,Map操作就會(huì)過濾掉壞洋蔥而不會(huì)消費(fèi)出任何的壞洋蔥塊。Reduce化簡(jiǎn):在這一階段,他將各種蔬菜碎都放入研磨機(jī)里進(jìn)展研磨,他就可以得到一瓶辣椒醬了。這意味要制成一瓶辣椒醬,他得研磨一切的原料。因此,研磨機(jī)通常將map操作的蔬菜碎聚集在了一同。妻子: 所以,這就是MapReduce?我: 他可以說是,也可以說不是。 其實(shí)這只是MapReduce的一部分,MapReduce的強(qiáng)大在于分布式計(jì)算。妻子: 分布式計(jì)算? 那是什么?請(qǐng)給我解釋下吧。我: 沒問題。我: 假設(shè)他參與了一個(gè)辣椒醬

58、競(jìng)賽并且他的食譜博得了最正確辣椒醬獎(jiǎng)。得獎(jiǎng)之后,辣椒醬食譜大受歡迎,于是他想要開場(chǎng)出賣自制品牌的辣椒醬。假設(shè)他每天需求消費(fèi)10000瓶辣椒醬,他會(huì)怎樣辦呢?妻子: 我會(huì)找一個(gè)能為我大量提供原料的供應(yīng)商。我:是的.就是那樣的。那他能否單獨(dú)完成制造呢?也就是說,單獨(dú)將原料都切碎? 僅僅一部研磨機(jī)又能否能滿足需求?而且如今,我們還需求供應(yīng)不同種類的辣椒醬,像洋蔥辣椒醬、青椒辣椒醬、番茄辣椒醬等等。妻子: 當(dāng)然不能了,我會(huì)雇傭更多的工人來切蔬菜。我還需求更多的研磨機(jī),這樣我就可以更快地消費(fèi)辣椒醬了。我:沒錯(cuò),所以如今他就不得不分配任務(wù)了,他將需求幾個(gè)人一同切蔬菜。每個(gè)人都要處置滿滿一袋的蔬菜,而每一個(gè)

59、人都相當(dāng)于在執(zhí)行一個(gè)簡(jiǎn)單的Map操作。每一個(gè)人都將不斷的從袋子里拿出蔬菜來,并且每次只對(duì)一種蔬菜進(jìn)展處置,也就是將它們切碎,直到袋子空了為止。這樣,當(dāng)一切的工人都切完以后,任務(wù)臺(tái)每個(gè)人任務(wù)的地方上就有了洋蔥塊、番茄塊、和蒜蓉等等。妻子:但是我怎樣會(huì)制造出不同種類的番茄醬呢?我:如今他會(huì)看到MapReduce脫漏的階段攪拌階段。MapReduce將一切輸出的蔬菜碎都攪拌在了一同,這些蔬菜碎都是在以key為根底的 map操作下產(chǎn)生的。攪拌將自動(dòng)完成,他可以假設(shè)key是一種原料的名字,就像洋蔥一樣。 所以全部的洋蔥keys都會(huì)攪拌在一同,并轉(zhuǎn)移到研磨洋蔥的研磨器里。這樣,他就能得到洋蔥辣椒醬了。同樣

60、地,一切的番茄也會(huì)被轉(zhuǎn)移到標(biāo)志著番茄的研磨器里,并制造出番茄辣椒醬。2從MapReduce產(chǎn)生過程和代碼的角度來講解假設(shè)想統(tǒng)計(jì)過去10年計(jì)算機(jī)論文出現(xiàn)最多的幾個(gè)單詞,看看大家都在研討些什么,那搜集好論文后,該怎樣辦呢?方法一:我可以寫一個(gè)小程序,把一切論文按順序遍歷一遍,統(tǒng)計(jì)每一個(gè)遇到的單詞的出現(xiàn)次數(shù),最后就可以知道哪幾個(gè)單詞最搶手了。這種方法在數(shù)據(jù)集比較小時(shí),是非常有效的,而且實(shí)現(xiàn)最簡(jiǎn)單,用來處理這個(gè)問題很適宜。方法二:寫一個(gè)多線程程序,并發(fā)遍歷論文。這個(gè)問題實(shí)際上是可以高度并發(fā)的,由于統(tǒng)計(jì)一個(gè)文件時(shí)不會(huì)影響統(tǒng)計(jì)另一個(gè)文件。當(dāng)我們的機(jī)器是多核或者多處置器,方法二一定比如法一高效。但是寫一個(gè)多

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論