《云計算與大數(shù)據(jù)》-第3章“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第1頁
《云計算與大數(shù)據(jù)》-第3章“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第2頁
《云計算與大數(shù)據(jù)》-第3章“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第3頁
《云計算與大數(shù)據(jù)》-第3章“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第4頁
《云計算與大數(shù)據(jù)》-第3章“大數(shù)據(jù)”關(guān)鍵技術(shù)與應(yīng)用_第5頁
已閱讀5頁,還剩41頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

3.1

大數(shù)據(jù)技術(shù)總體框架3.2數(shù)據(jù)采集與預(yù)處理技術(shù)3.3

大數(shù)據(jù)存儲技術(shù)3.4

大數(shù)據(jù)處理技術(shù)3.5大數(shù)據(jù)分析技術(shù)3.6

大數(shù)據(jù)可視化技術(shù)1《云計算與大數(shù)據(jù)》第二版課件重點

大數(shù)據(jù)存儲技術(shù)、處理技術(shù)難點

大數(shù)據(jù)分析技術(shù)、可視化47云計算是新的商業(yè)模式。大數(shù)據(jù)的本質(zhì)是應(yīng)需求驅(qū)動的,大數(shù)據(jù)的應(yīng)用最終使云計算模式落地。大數(shù)據(jù)來源于互聯(lián)網(wǎng)、企業(yè)系統(tǒng)和物聯(lián)網(wǎng)等信息系

統(tǒng),經(jīng)過大數(shù)據(jù)處理系統(tǒng)的分析挖掘,產(chǎn)生新的知

識用以支撐決策或業(yè)務(wù)的自動智能化運轉(zhuǎn)。3

47《云計算與大數(shù)據(jù)》第二版課件業(yè)務(wù)環(huán)節(jié)業(yè)務(wù)需求技術(shù)實現(xiàn)產(chǎn)生大數(shù)據(jù)操作●數(shù)據(jù)容量:每18個月翻一番●數(shù)據(jù)類型:多于80%的數(shù)據(jù)來自于非機構(gòu)化數(shù)據(jù)●數(shù)據(jù)速度:數(shù)據(jù)來源不斷變化,數(shù)據(jù)快速流通采用一個統(tǒng)一的大數(shù)據(jù)處理方法,使得企業(yè)用戶能夠快速處理和加載海量數(shù)據(jù),能夠在統(tǒng)一平臺上對不同類型

的數(shù)據(jù)進行處理和存儲聚集管理大數(shù)據(jù)的復(fù)雜性,需要分類、同步、聚合、集成、共享、轉(zhuǎn)換、剖析、遷移、壓縮、備份、保護、恢復(fù)、清洗、淘汰各種類型數(shù)據(jù)一個數(shù)據(jù)集成和管理平臺,集成各種工具和服務(wù)來管理異構(gòu)存儲環(huán)境下的各類數(shù)據(jù)分析當(dāng)前數(shù)據(jù)倉庫和數(shù)據(jù)挖掘擅長分析結(jié)構(gòu)化的事后數(shù)據(jù)

,在大數(shù)據(jù)環(huán)境下要求能夠分析非結(jié)構(gòu)化數(shù)據(jù),包括

流文件,并能進行實時分析和預(yù)測建立一個實時預(yù)測分析解決方案,整合結(jié)構(gòu)化的數(shù)據(jù)倉庫和非結(jié)構(gòu)化的分析工具利用滿足不同的用戶對大數(shù)據(jù)的實時的多種訪問方式任何時間、任何地點、任何設(shè)備上的

集中共享和協(xié)同需要理解大數(shù)據(jù)怎樣影響業(yè)務(wù),怎樣轉(zhuǎn)化為行動對大數(shù)據(jù)影響業(yè)務(wù)和戰(zhàn)略進行建模,

并利用技術(shù)來實現(xiàn)這些模型3.1大數(shù)據(jù)技術(shù)總體框架

《云計算與大數(shù)據(jù)》第二版課件3.1.1總體目標(biāo)2

具備不同格式數(shù)據(jù)處理能力3

具備高速數(shù)據(jù)處理和啊應(yīng)能力

4

低成本、計算節(jié)點易擴展5

具備較強的可靠性6

具備艮好的安全性《云計算與大數(shù)據(jù)》第二版課件1

具備PB級以上容量數(shù)據(jù)處理能力3.1.2架構(gòu)設(shè)計原則471.統(tǒng)一集成的大數(shù)據(jù)平臺>可基于開源軟件實現(xiàn)Hadoop

基礎(chǔ)工具的整合;>用戶友好的管理平臺,包括HDFS瀏覽器和類SQL查詢語言等;提供服務(wù)、存儲、調(diào)度和高級安全等企業(yè)級應(yīng)用的功能。《云計算與大數(shù)據(jù)》第二版課件3.1.3總體架構(gòu)的特點47《云計算與大數(shù)據(jù)》第二版課件2.低成本的可擴展性支持大規(guī)??蓴U展性,到PB級數(shù)據(jù)源;支持極大的混合工具負載,各種數(shù)據(jù)類型;簡單的配置、開發(fā)和管理;以線性成本擴展并提供一致的性能;標(biāo)準(zhǔn)的晉通硬件。473.實時地分析執(zhí)行在聲明或發(fā)現(xiàn)數(shù)據(jù)結(jié)構(gòu)之前裝載數(shù)據(jù);能以數(shù)據(jù)全載入的速度來準(zhǔn)確更新數(shù)據(jù);可調(diào)度和執(zhí)行復(fù)雜的幾百個節(jié)點的工作流;>在剛裝載的數(shù)據(jù)上,可實時執(zhí)行流分析查詢;>能以大于每秒1GB的速率來分析數(shù)據(jù)。8《云計算與大數(shù)據(jù)》第二版課件47《云計算與大數(shù)據(jù)》第二版課件4.

可靠性當(dāng)處理節(jié)點失效時,自動恢復(fù),不需要中斷操作。1.大數(shù)據(jù)來源目前大數(shù)據(jù)的主要數(shù)據(jù)來源有三個途徑:3.2.1大數(shù)據(jù)采集3.2

大數(shù)據(jù)采集與預(yù)處理技術(shù)《云計算與大數(shù)據(jù)》第二版課件102.Web

網(wǎng)絡(luò)數(shù)據(jù)的爬取爬蟲的開發(fā)是利用HTTP協(xié)議讀取網(wǎng)站上公開的數(shù)據(jù),因此編寫爬蟲首先需要粗略了解HTTP請求和網(wǎng)頁結(jié)構(gòu)。URL的詳細格式schema://host[:port#J/path/../I

?

query-string]

[#anchor]錨發(fā)送給http服務(wù)器的數(shù)據(jù)訪問資源的路徑服務(wù)器端口,HTTP

默認端口是80(可省略),其他端口要指明服務(wù)器的域名或者IP地址底層協(xié)議(例如:http,https

,ftp)圖3-2

URL格式11《云計算與大數(shù)據(jù)》第二版課件爬蟲通過URL請求獲取web服務(wù)器響應(yīng)的數(shù)據(jù)信息,從

技術(shù)角度理解就是模擬瀏覽器發(fā)送請求Request,接收服務(wù)器響應(yīng)內(nèi)容Response,解析響應(yīng)結(jié)果后通過定位提取所用的數(shù)據(jù)??蛻舳?前端圖3-3

URL

瀏覽過程12《云計算與大數(shù)據(jù)》第二版課件輸入http://www.ahpu.edu.cn向服

務(wù)器發(fā)送請求服務(wù)端/后端返回請求結(jié)果數(shù)據(jù)庫交互2.

爬蟲編程爬蟲編程程序首先需要向Web

服務(wù)器提出Request請求,接收服務(wù)器響應(yīng)后根據(jù)返回結(jié)果的類型進行不同的處理,通常返回結(jié)果為html

,html

文檔需要解析出組織結(jié)構(gòu)才可以定位檢索所需數(shù)據(jù)。13《云計算與大數(shù)據(jù)》第二版課件47第一

首先在瀏覽器中瀏覽網(wǎng)站,顯示要爬取的數(shù)據(jù)頁面;分析數(shù)據(jù)所在文體中的組織模式結(jié)構(gòu)找到數(shù)據(jù)的定位標(biāo)識信息。分析出爬取數(shù)據(jù)所在的網(wǎng)頁或其他格式文體的URL,有時需要分析請求需要的其他相關(guān)信息;爬蟲編程主要有兩階段工作:(1)分析準(zhǔn)備階段《云計算與大數(shù)據(jù)》第二版課件第三第二14引入所需庫(2)編程階段提出請求,解析結(jié)果定位獲取具體的數(shù)據(jù)顯示或存儲《云計算與大數(shù)據(jù)》第二版課件15按照數(shù)據(jù)的結(jié)構(gòu)不同,數(shù)據(jù)可以被分為結(jié)構(gòu)化的大數(shù)據(jù)、非結(jié)構(gòu)化的大數(shù)據(jù)和半結(jié)構(gòu)化的大數(shù)據(jù)。163.3.1大數(shù)據(jù)如何存儲3.3

大數(shù)據(jù)存儲技術(shù)《云計算與大數(shù)據(jù)》第二版課件471.結(jié)構(gòu)化數(shù)據(jù)存儲結(jié)構(gòu)化數(shù)據(jù)通常是人們所熟悉的數(shù)據(jù)庫中的數(shù)據(jù),數(shù)據(jù)庫中積累的結(jié)構(gòu)化數(shù)據(jù)越來越多,

一些問題顯現(xiàn)出來,這些問題可以分為四類:歷史數(shù)據(jù)應(yīng)如

何存儲;歷史數(shù)據(jù)的二

次增值如何解

決。歷史數(shù)據(jù)和當(dāng)

前數(shù)據(jù)都存在

一個數(shù)據(jù)庫中

導(dǎo)致系統(tǒng)處理

速度越來越慢歷史數(shù)據(jù)與當(dāng)

前數(shù)據(jù)的期限

如何界定;《云計算與大數(shù)據(jù)》第二版課件17分布式數(shù)據(jù)庫系統(tǒng)是數(shù)據(jù)庫技術(shù)和網(wǎng)絡(luò)技術(shù)相結(jié)合的產(chǎn)物。它通常使用體積較小的計算機系統(tǒng),每臺計算機可單獨放在一個地方,每臺計算機中都有DBMS

的一份完

整的副本,并具有自己局部的數(shù)據(jù)庫。位于不同地點的許多計算機通過網(wǎng)絡(luò)互相連接,共同組成一個完整的。全局的大型數(shù)據(jù)庫。18《云計算與大數(shù)據(jù)》第二版課件《云計算與大數(shù)據(jù)》第二版課件邏輯

整體性系統(tǒng)的可

靠性高,

可用性好可擴展性好,易于集成現(xiàn)有的系統(tǒng)具有靈活的體系結(jié)構(gòu)分布式數(shù)據(jù)庫系統(tǒng)具有以下主要特點物理分布性192.非結(jié)構(gòu)化數(shù)據(jù)存儲常見的非結(jié)構(gòu)化數(shù)據(jù)包括文件、圖片、視頻、語音、郵件和聊天記錄等,和結(jié)構(gòu)化數(shù)據(jù)相比,這些數(shù)據(jù)是未被抽象出有價值信息的數(shù)據(jù),需要經(jīng)過二次加工才能得到其有價值信息。20《云計算與大數(shù)據(jù)》第二版課件47由于非結(jié)構(gòu)化數(shù)據(jù)具有形式多樣、體量大、來源廣、維度多、有價內(nèi)容密度低、分析意義大等特點,所以要為了分析而存儲,而不是為了存儲而存儲。當(dāng)前針對非結(jié)構(gòu)化數(shù)據(jù)的特點均采用分布式文件系統(tǒng)方式來存儲這些數(shù)據(jù)。21《云計算與大數(shù)據(jù)》第二版課件47分布式文件系統(tǒng)將數(shù)據(jù)存儲在物理上分散的多個存儲節(jié)點上,對這些節(jié)點的資源進行統(tǒng)一管理和分配

,并向用戶提供文件系統(tǒng)訪問接口,主要解決本地

文件系統(tǒng)在文件大小、文件數(shù)量、打開文件數(shù)等的限制問題。22《云計算與大數(shù)據(jù)》第二版課件47分布式文件系統(tǒng)的數(shù)據(jù)存儲解決方案歸根結(jié)底是將大問題劃分為小問題。對于很大的文件,可以將大文件劃分成多個相對較小的片段,存儲在多個數(shù)據(jù)服務(wù)器上。23《云計算與大數(shù)據(jù)》第二版課件473.半結(jié)構(gòu)化數(shù)據(jù)存儲半結(jié)構(gòu)化數(shù)據(jù)是指數(shù)據(jù)中既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù)。24《云計算與大數(shù)據(jù)》第二版課件47大數(shù)據(jù)存儲對底層硬件架構(gòu)和文件系統(tǒng)在性價比上

的要求要大大高于傳統(tǒng)技術(shù),同時要求能夠彈性擴

展存儲容量。但以往網(wǎng)絡(luò)附看存儲系統(tǒng)(NAS)

存儲區(qū)域網(wǎng)絡(luò)(SAN)

等體系,存儲和計算的物理

設(shè)備分離,它們之間要通過網(wǎng)絡(luò)接口連接,這導(dǎo)致

在進行數(shù)據(jù)密集型計算時I/O

容易成為瓶頸。《云計算與大數(shù)據(jù)》第二版課件3.3.2大數(shù)據(jù)存儲問題4725對于大數(shù)據(jù)存儲,以下問題不能忽視容量問題

延遲問題安全問題

成本問題

數(shù)據(jù)積累《云計算與大數(shù)據(jù)》第二版課件263.3.1

storm平臺Storm

是由BackType

開發(fā)的實時處理系統(tǒng)。Storm

為分布式實時計算提供了一組通用原語,可被用于“流處理”之中,實時處理消息并更新數(shù)據(jù)庫。這是管理隊列及工作者集群的另一種方式。Storm

也可被用于“連續(xù)計算”。3.4

大數(shù)據(jù)處理技術(shù)《云計算與大數(shù)據(jù)》第二版課件27簡單的編程模型可以使用各種編程語言容錯性水平擴展可靠的消息處理快速本地模式《云計算與大數(shù)據(jù)》第二版課件Storm的主要特點28Storm的集群架構(gòu)Storm

集群由一個主節(jié)點和多個工作節(jié)點組成:

master

節(jié)點和worker

節(jié)點。master

節(jié)點運行一個

守護進程,叫Nimbus。Nimbus

負責(zé)在集群中分發(fā)代碼,分配任務(wù),以及故障檢測。每個worker節(jié)點運行一個守護進程,叫Supervisor。Supervisor監(jiān)聽分配到該服務(wù)器的任務(wù),開始和結(jié)束工作進程。29

47《云計算與大數(shù)據(jù)》第二版課件《云計算與大數(shù)據(jù)》第二版課件SupervisorSupervisorSupervisorSupervisorSupervisorZookeeperZookeeperZookeeperNimbus30《云計算與大數(shù)據(jù)》第二版課件框架本身不提供持久化存儲框架不提供消息接入模塊存在Nimbus

單點失效問題編程門檻對晉通用戶來說較高Storm

UI功能過于簡單31《云計算與大數(shù)據(jù)》第二版課件3.5.1大數(shù)據(jù)分析特點及技術(shù)路線正發(fā)生什么事?為什么它會發(fā)生?預(yù)測監(jiān)控分析統(tǒng)計已發(fā)生仲么

?18世紀(jì)大數(shù)據(jù)分析的趨勢圖統(tǒng)計數(shù)據(jù)挖掘優(yōu)化21世紀(jì)查詢視圖19世紀(jì)記錄板20世紀(jì)將要發(fā)生什么事?復(fù)雜度提升4732大數(shù)據(jù)分析的理論核心是數(shù)據(jù)挖掘算法大數(shù)據(jù)分析最重要的應(yīng)用領(lǐng)域之一就是預(yù)測性分析大數(shù)據(jù)分

析離不開

數(shù)據(jù)質(zhì)量

和數(shù)據(jù)管理大數(shù)據(jù)分

析廣泛應(yīng)用于網(wǎng)絡(luò)

數(shù)據(jù)挖掘大數(shù)據(jù)分析具有五個特點3.5

大數(shù)據(jù)分析技術(shù)大數(shù)據(jù)分析應(yīng)是可視化分析《云計算與大數(shù)據(jù)》第二版課件332.大數(shù)據(jù)分析技術(shù)路線目前的大數(shù)據(jù)分析主要有兩條技術(shù)路線,

一是憑借先驗知識人工建立數(shù)學(xué)模型來分析數(shù)據(jù),二是通過建立人工

智能系統(tǒng),使用大量樣本數(shù)據(jù)進行訓(xùn)練,讓機器代替人工獲得從數(shù)據(jù)中提取知識的能力。《云計算與大數(shù)據(jù)》第二版課件343.5.2大數(shù)據(jù)分析過程識別信息需求收集數(shù)據(jù)分析數(shù)據(jù)評價并改進數(shù)據(jù)分析的有效性數(shù)據(jù)分析過程的主要活動《云計算與大數(shù)據(jù)》第二版課件35數(shù)據(jù)分析是指用適當(dāng)?shù)慕y(tǒng)計分析方法對收集來的大量數(shù)據(jù)進行分析,將它們加以匯總和理解并消化,以求最大化地開發(fā)數(shù)據(jù)的功能,發(fā)揮數(shù)據(jù)的作用3.5.3大數(shù)據(jù)分析方法《云計算與大數(shù)據(jù)》第二版課件36大數(shù)據(jù)分析的研究對象是大數(shù)據(jù),它側(cè)重于在海量數(shù)據(jù)中的分析挖掘出有用的信息。其分析方法可分為兩類:一是統(tǒng)計分析方法,另一個是數(shù)據(jù)挖掘方法。37

47《云計算與大數(shù)據(jù)》第二版課件1)描述性統(tǒng)計分析2)回歸分析3)因子分析4)方差分析1)分類和預(yù)測2)關(guān)聯(lián)規(guī)則3)聚類統(tǒng)計分析方法《云計算與大數(shù)據(jù)》第二版課件38從應(yīng)用的角度來看數(shù)據(jù)可視化有多個目標(biāo):有效地呈現(xiàn)重要特征、揭示數(shù)據(jù)的客觀規(guī)律、輔助理解事物概念、對測量進行質(zhì)量監(jiān)控等。3.6大數(shù)據(jù)可視化技術(shù)數(shù)據(jù)可

視化的

功能《云計算與大數(shù)據(jù)》第二版課件39從宏觀的角度分析,數(shù)據(jù)

可視化有下面的三個功能:1

2

3信息傳播與協(xié)同信息分析與推理《云計算與大數(shù)據(jù)》第二版課件信息記錄40從大數(shù)據(jù)可視

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論