大數(shù)據(jù)體系架構(gòu)及其應(yīng)用介紹課件_第1頁
大數(shù)據(jù)體系架構(gòu)及其應(yīng)用介紹課件_第2頁
大數(shù)據(jù)體系架構(gòu)及其應(yīng)用介紹課件_第3頁
大數(shù)據(jù)體系架構(gòu)及其應(yīng)用介紹課件_第4頁
大數(shù)據(jù)體系架構(gòu)及其應(yīng)用介紹課件_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)體系架構(gòu)及其應(yīng)用介紹大數(shù)據(jù)體系架構(gòu)11大數(shù)據(jù)的基本概念和核心問題2大數(shù)據(jù)的核心體系架構(gòu)3大數(shù)據(jù)的應(yīng)用目錄1大數(shù)據(jù)的基本概念和核心問題2大數(shù)據(jù)的核心體系架構(gòu)3大數(shù)據(jù)的21CHAPTER大數(shù)據(jù)的基本概念和核心問題1CHAPTER大數(shù)據(jù)的基本概念和核心問題3大數(shù)據(jù)的基本概念和核心問題1什么是大數(shù)據(jù)?及其要解決的核心問題什么是數(shù)據(jù)倉庫?OLTP和OLAP大數(shù)據(jù)的理論基礎(chǔ)大數(shù)據(jù)的基本概念和核心問題1什么是大數(shù)據(jù)?及其要解決的核心問4什么是大數(shù)據(jù)?及其要解決的核心問題大數(shù)據(jù)(BigData),指無法在一定時間范圍內(nèi)用常規(guī)軟件工具進(jìn)行捕捉、管理和處理的數(shù)據(jù)集合,是需要新處理模式才能具有更強(qiáng)的決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力的海量、高增長率和多樣化的信息資產(chǎn)。核心問題:數(shù)據(jù)的存儲數(shù)據(jù)的計(jì)算1什么是大數(shù)據(jù)?及其要解決的核心問題大數(shù)據(jù)(BigData)5大數(shù)據(jù)的5個特征(IBM提出)Volume大量Variety多樣Velocity高速Value價值Veracity真實(shí)性1大數(shù)據(jù)的5個特征(IBM提出)Volume大量Variety6什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫英文名稱為DataWarehouse,可簡寫為DW或DWH。數(shù)據(jù)倉庫,是為企業(yè)所有級別的決策制定過程,提供所有類型數(shù)據(jù)支持的戰(zhàn)略集合。它是單個數(shù)據(jù)存儲,出于分析性報(bào)告和決策支持目的而創(chuàng)建。1數(shù)據(jù)倉庫Hadoop、Spark都可以看成是數(shù)據(jù)倉庫的一種實(shí)現(xiàn)方式。什么是數(shù)據(jù)倉庫?數(shù)據(jù)倉庫英文名稱為DataWarehous7如果沒有數(shù)據(jù)倉庫?1業(yè)務(wù)源數(shù)據(jù)客戶銷售點(diǎn)員工訂單庫存財(cái)務(wù)商業(yè)用途財(cái)務(wù)系統(tǒng)客戶管理銷售管理產(chǎn)品服務(wù)運(yùn)營不一致的報(bào)表數(shù)據(jù)不準(zhǔn)確維護(hù)成本高缺乏匯總報(bào)表重復(fù)工作報(bào)表創(chuàng)建慢如果沒有數(shù)據(jù)倉庫?1業(yè)務(wù)源數(shù)據(jù)客戶銷售點(diǎn)員工訂單庫存財(cái)務(wù)商業(yè)8具備了數(shù)據(jù)倉庫1業(yè)務(wù)源數(shù)據(jù)客戶銷售點(diǎn)員工訂單庫存財(cái)務(wù)商業(yè)用途財(cái)務(wù)系統(tǒng)客戶管理銷售管理產(chǎn)品服務(wù)運(yùn)營一致性報(bào)表重用業(yè)務(wù)源中抽取的數(shù)據(jù)成本效益高的報(bào)表支持所有源和報(bào)表類型可擴(kuò)展性具備了數(shù)據(jù)倉庫1業(yè)務(wù)源數(shù)據(jù)客戶銷售點(diǎn)員工訂單庫存財(cái)務(wù)商業(yè)用途9OLTP和OLAPOn-LineTransactionProcessing(聯(lián)機(jī)事務(wù)處理過程)也稱為面向交易的處理過程,其基本特征是前臺接收的用戶數(shù)據(jù)可以立即傳送到計(jì)算中心進(jìn)行處理,并在很短的時間內(nèi)給出處理結(jié)果,是對用戶操作快速響應(yīng)的方式之一。OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,例如銀行交易。On-LineAnalyticProcessing(聯(lián)機(jī)分析處理過程)OLAP是數(shù)據(jù)倉庫系統(tǒng)的主要應(yīng)用,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型案例:商品推薦。1OLTP和OLAPOn-LineTransactionP10大數(shù)據(jù)的理論基礎(chǔ)一分布式文件系統(tǒng)(DistributedFileSystem):當(dāng)數(shù)據(jù)集的大小超過一臺獨(dú)立物理計(jì)算機(jī)的存儲能力時,就有必要對它進(jìn)行分布式存儲到若干臺單獨(dú)的計(jì)算機(jī)上。管理網(wǎng)絡(luò)中夸多臺計(jì)算機(jī)存儲的文件系統(tǒng)。這種系統(tǒng)構(gòu)架于網(wǎng)絡(luò)之上,肯定會引入網(wǎng)絡(luò)編程的復(fù)雜性,因此它比普通的磁盤文件系統(tǒng)更為復(fù)雜。GoogleFileSystem:是由Google開發(fā)并設(shè)計(jì)的一個面向大規(guī)模數(shù)據(jù)處理的一個分布式文件系統(tǒng)。為了滿足Google日益增長的數(shù)據(jù)存儲和數(shù)據(jù)處理需求,Google設(shè)計(jì)并實(shí)現(xiàn)了GFS。它是有幾百甚至幾千臺普通的廉價PC機(jī)組成。1大數(shù)據(jù)的理論基礎(chǔ)一分布式文件系統(tǒng)(DistributedF11分布式文件系統(tǒng)的典型架構(gòu):HDFS1NameNodeDataNode存儲元數(shù)據(jù)存儲文件內(nèi)容元數(shù)據(jù)保存在內(nèi)存中文件內(nèi)容保存在磁盤保存文件,block,datanode之間的映射關(guān)系維護(hù)了blockid到datanode本地文件的映射關(guān)系分布式文件系統(tǒng)的典型架構(gòu):HDFS1NameNodeData12大數(shù)據(jù)的理論基礎(chǔ)二Google在其發(fā)展的過程中,遇到了PageRank的問題。即:網(wǎng)頁搜索排名。過去的排序算法是比如使用網(wǎng)頁名字,關(guān)鍵詞出現(xiàn)的次數(shù),人工等方法,但是這種方法一方面搜索結(jié)果不準(zhǔn)確,另一方面搜索結(jié)果容易被人為因素影響。所以,PageRank應(yīng)運(yùn)而生。PageRank算法計(jì)算每一個網(wǎng)頁的PageRank值,然后根據(jù)這個值的大小對網(wǎng)頁的重要性進(jìn)行排序。它的思想是模擬一個悠閑的上網(wǎng)者,上網(wǎng)者首先隨機(jī)選擇一個網(wǎng)頁打開,然后在這個網(wǎng)頁上呆了幾分鐘后,跳轉(zhuǎn)到該網(wǎng)頁。網(wǎng)頁當(dāng)中所指向的鏈接,這樣毫無目地在網(wǎng)頁上跳來跳去,PageRank算法提出就是估計(jì)這個悠閑上網(wǎng)者分布在各個網(wǎng)頁上的概率。1大數(shù)據(jù)的理論基礎(chǔ)二Google在其發(fā)展的過程中,遇到了Pag13PageRank模型如下:1AABCDA→B、C、DB→A、DC→AD→B、CPageRank模型如下:1AABCDA→B、C、D14大數(shù)據(jù)典型應(yīng)用場景一:零售商品大數(shù)據(jù)1

有一位父親怒氣沖沖地跑到塔吉特賣場,質(zhì)問為何將帶有嬰兒用品優(yōu)惠券的廣告郵件,寄送給他正在念高中的女兒?然而后來證實(shí),他的女兒果真懷孕了。這名女孩搜尋商品的關(guān)鍵詞,以及在社交網(wǎng)站所顯露的行為軌跡,使沃爾瑪捕捉到了她的懷孕信息。模型發(fā)現(xiàn),許多孕婦在第2個妊娠期的開始會買許多大包裝的無香味護(hù)手霜;在懷孕的最初20周大量購買補(bǔ)充鈣、鎂、鋅的善存片之類的保健品。最后塔吉特選出了25種典型商品的消費(fèi)數(shù)據(jù)構(gòu)建了“懷孕預(yù)測指數(shù)”,通過這個指數(shù),Target能夠在很小的誤差范圍內(nèi)預(yù)測到顧客的懷孕情況,因此Target就能早早地把孕婦優(yōu)惠廣告寄發(fā)給顧客。大數(shù)據(jù)典型應(yīng)用場景一:零售商品大數(shù)據(jù)1有一位父15大數(shù)據(jù)典型應(yīng)用場景二:交通大數(shù)據(jù)1

UPS最新的大數(shù)據(jù)來源是安裝在公司4.6萬多輛卡車上的遠(yuǎn)程通信傳感器,這些傳感器能夠傳回車速、方向、剎車和動力性能等方面的數(shù)據(jù)。收集到的數(shù)據(jù)流不僅能說明車輛的日常性能,還能幫助公司重新設(shè)計(jì)物流路線。大量的在線地圖數(shù)據(jù)和優(yōu)化算法,最終能幫助UPS實(shí)時地調(diào)配駕駛員的收貨和配送路線。該系統(tǒng)為UPS減少了8500萬英里的物流里程,由此節(jié)約了840萬加侖的汽油。大數(shù)據(jù)典型應(yīng)用場景二:交通大數(shù)據(jù)1UPS最新的162CHAPTER大數(shù)據(jù)的核心體系架構(gòu)2CHAPTER大數(shù)據(jù)的核心體系架構(gòu)17Hadoop的體系架構(gòu)及其生態(tài)組件2Hadoop的體系架構(gòu)及其生態(tài)組件218Yarn:Hadoop的資源和任務(wù)管理器YARN(另一種資源協(xié)調(diào)者,YetAnotherResourceNegotiator)是一種新的Hadoop資源管理器,可為上層應(yīng)用提供統(tǒng)一的資源管理和調(diào)度,它是一個通用資源管理系統(tǒng),它的引入為集群在利用率、資源統(tǒng)一管理和數(shù)據(jù)共享等方面帶來了巨大好處。YARN的基本思想是主要方法是創(chuàng)建一個全局的資源管理器和若干個針對應(yīng)用程序的應(yīng)用程序管理器,將JobTracker的兩個主要功能(資源管理和作業(yè)調(diào)度/監(jiān)控)分離。這里的應(yīng)用程序是指傳統(tǒng)的MapReduce作業(yè)或作業(yè)的DAG(有向無環(huán)圖)。該框架是hadoop2.x以后對hadoop1.x之前JobTracker和TaskTracker模型的優(yōu)化,將JobTracker的資源分配和作業(yè)調(diào)度及監(jiān)督分開。該框架主要有資源管理器,應(yīng)用程序管理器,節(jié)點(diǎn)管理器。2Yarn:Hadoop的資源和任務(wù)管理器YARN(另一種資19源自Google的Bigtable論文,發(fā)表于2006年11月,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫是對面向行的數(shù)據(jù)庫。HBase是GoogleBigtable克隆版,HBase是一個針對結(jié)構(gòu)化數(shù)據(jù)的可伸縮、高可靠、高性能、分布式和面向列的動態(tài)模式數(shù)據(jù)庫。和傳統(tǒng)關(guān)系數(shù)據(jù)庫不同,HBase采用了BigTable的數(shù)據(jù)模型:增強(qiáng)的稀疏排序映射表(Key/Value),其中,鍵由行關(guān)鍵字、列關(guān)鍵字和時間戳構(gòu)成。HBase提供了對大規(guī)模數(shù)據(jù)的隨機(jī)、實(shí)時讀寫訪問,同時,HBase中保存的數(shù)據(jù)可以使用MapReduce來處理,它將數(shù)據(jù)存儲和并行計(jì)算完美地結(jié)合在一起。HBase:基于HDFS的NoSQL數(shù)據(jù)庫2源自Google的Bigtable論文,發(fā)表于20Spark:大數(shù)據(jù)處理引擎Spark是專為大規(guī)模數(shù)據(jù)處理而設(shè)計(jì)的快速通用的計(jì)算引擎。Spark是UCBerkeleyAMPlab(加州大學(xué)伯克利分校的AMP實(shí)驗(yàn)室)所開源的類HadoopMapReduce的通用并行框架,Spark,擁有HadoopMapReduce所具有的優(yōu)點(diǎn);但不同于MapReduce的是——Job中間輸出結(jié)果可以保存在內(nèi)存中,從而不再需要讀寫HDFS,因此Spark能更好地適用于數(shù)據(jù)挖掘與機(jī)器學(xué)習(xí)等需要迭代的MapReduce的算法。Spark是一種與Hadoop相似的開源集群計(jì)算環(huán)境,但是兩者之間還存在一些不同之處,這些有用的不同之處使Spark在某些工作負(fù)載方面表現(xiàn)得更加優(yōu)越,換句話說,Spark啟用了內(nèi)存分布數(shù)據(jù)集,除了能夠提供交互式查詢外,它還可以優(yōu)化迭代工作負(fù)載。2Spark:大數(shù)據(jù)處理引擎Spark是專為大規(guī)21Flink:新一代大數(shù)據(jù)處理引擎2Flink:新一代大數(shù)據(jù)處理引擎2223CHAPTER項(xiàng)目實(shí)施計(jì)劃3CHAPTER項(xiàng)目實(shí)施計(jì)劃23大數(shù)據(jù)平臺BDP簡介數(shù)據(jù)應(yīng)用數(shù)據(jù)直通車(Plumber)數(shù)據(jù)處理MapReduceSparkYarn數(shù)據(jù)存儲HDFS數(shù)據(jù)防火墻UDFHiveShark數(shù)據(jù)訪問統(tǒng)一查詢引擎數(shù)據(jù)緩存三峽(多維分析查詢)Hbase索引元數(shù)據(jù)服務(wù)漢江(實(shí)時計(jì)算)分布式消息隊(duì)列實(shí)時計(jì)算集群長江(實(shí)時抽?。?shí)時數(shù)據(jù)拉鏈實(shí)時數(shù)據(jù)鏡像3結(jié)構(gòu)化非結(jié)構(gòu)化內(nèi)部/外部數(shù)據(jù)源大數(shù)據(jù)平臺BDP簡介數(shù)據(jù)應(yīng)用數(shù)據(jù)直通車(Plumber)數(shù)據(jù)24

為東海提供大數(shù)據(jù)基礎(chǔ)服務(wù)、數(shù)據(jù)分析及展現(xiàn)、數(shù)據(jù)應(yīng)用、人工智能等產(chǎn)品和服務(wù)。大數(shù)據(jù)生態(tài)體系為東海下游40個業(yè)務(wù)集市的12000多位數(shù)據(jù)分析人員、數(shù)據(jù)開發(fā)人員提供360度的數(shù)據(jù)產(chǎn)品。包括:數(shù)據(jù)接入產(chǎn)品、數(shù)據(jù)調(diào)度產(chǎn)品、算法產(chǎn)品、AI產(chǎn)品等。為東海12000個數(shù)據(jù)分析人員提供數(shù)據(jù)產(chǎn)品東海白條、東海智能、東海云、東海開普勒、東海數(shù)據(jù)羅盤、精準(zhǔn)通、精準(zhǔn)選品、數(shù)立方、MK

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論