大數(shù)據(jù)平臺(tái)介紹.ppt_第1頁
大數(shù)據(jù)平臺(tái)介紹.ppt_第2頁
大數(shù)據(jù)平臺(tái)介紹.ppt_第3頁
大數(shù)據(jù)平臺(tái)介紹.ppt_第4頁
大數(shù)據(jù)平臺(tái)介紹.ppt_第5頁
已閱讀5頁,還剩38頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、大數(shù)據(jù)平臺(tái)簡(jiǎn)介,大數(shù)據(jù)2005年7月,2,目錄,Hadoop大數(shù)據(jù)生態(tài)圈簡(jiǎn)介,大數(shù)據(jù)應(yīng)用程序簡(jiǎn)介,3,Cloudera Manager簡(jiǎn)介,Hadoop大數(shù)據(jù)生態(tài)圈用戶無需了解分布式基本細(xì)節(jié)即可開發(fā)分布式程序。充分利用群集的強(qiáng)大功能和存儲(chǔ)。簡(jiǎn)而言之,Hadoop是一個(gè)軟件平臺(tái),使您可以更輕松地開發(fā)和運(yùn)行大量數(shù)據(jù)。Hadoop框架的核心設(shè)計(jì)是HDFS和MapReduce。如果HDFS為大量數(shù)據(jù)提供存儲(chǔ),MapReduce則為大量數(shù)據(jù)提供計(jì)算。Hadoop可以解決的問題,大量數(shù)據(jù)需要及時(shí)分析和處理。批量數(shù)據(jù)需要深入分析和挖掘。需要長期保留數(shù)據(jù)的問題:磁盤IO成為瓶頸,而不是CPU資源。網(wǎng)絡(luò)帶寬不足

2、的資源硬件錯(cuò)誤是影響穩(wěn)定性的主要因素,HDFS適應(yīng)條件;HDFS:旨在以流數(shù)據(jù)訪問模式存儲(chǔ)大型文件的文件系統(tǒng)。流式數(shù)據(jù)訪問設(shè)置了由數(shù)百M(fèi)B、數(shù)百GB、數(shù)百TB甚至數(shù)百PB的流式數(shù)據(jù)訪問HDFS一次寫入和多次讀取的模式最有效的想法。業(yè)務(wù)硬件Hadoop無需在昂貴可靠的硬件上運(yùn)行。HDFS不符合條件,低延遲數(shù)據(jù)訪問HDFS經(jīng)過優(yōu)化以達(dá)到高數(shù)據(jù)吞吐量。這是由于延遲造成的,對(duì)于低延遲訪問,可以使用Hbase(hadoop的子項(xiàng))。大量小文件多用戶寫入、隨機(jī)修改、HDFS基本單位、Block(塊):HDFS基本存儲(chǔ)單位和邏輯單位。一個(gè)文件可以包含多個(gè)塊,一個(gè)塊可以包含多個(gè)文件,具體取決于文件的大小和塊大

3、小的參數(shù)。Dfs.block.size參數(shù)。Hdfs的“塊大小”、默認(rèn)值64MB、“大”設(shè)置可能會(huì)降低貼圖的運(yùn)行速度、減小設(shè)置、增加貼圖的數(shù)量,因此必須全部進(jìn)行相應(yīng)的設(shè)置。(目前的主流建議為128M)設(shè)置Block 64MB。如果上載文件小于此值,則將繼續(xù)使用塊命名空間(NameNode metadata),但物理存儲(chǔ)不使用64MB。塊大小和副本數(shù)是在將文件從客戶端上載到HDFS時(shí)設(shè)置的。您可以在此處更改副本數(shù),Block將不再能夠上載的更改,HDFS處理機(jī)制,客戶端:文件拆分,HDFS;與訪問NameNode交互以獲取文件位置信息。與DataNode交互以讀取和寫入數(shù)據(jù)。Namenode:管

4、理主節(jié)點(diǎn)、HDFS的名稱空間和塊映射信息、配置復(fù)制策略、處理客戶機(jī)請(qǐng)求。DataNode:存儲(chǔ)Slave節(jié)點(diǎn)、實(shí)際數(shù)據(jù),報(bào)告存儲(chǔ)在NameNode中的信息。Secondary NameNode:共享工作量的輔助name node;定期合并Fsimage和fsedits以創(chuàng)建NameNode推入??梢栽诰o急情況下輔助NameNode恢復(fù),但Secondary NameNode不是NameNode的熱備盤。HDFS文件讀取、MapReduce簡(jiǎn)介、簡(jiǎn)介MapReduce是用于并行分析和處理批量數(shù)據(jù)的高性能批量分布式計(jì)算框架。MapReduce將分析操作分為兩類:多個(gè)并行Map操作和Reduce操作

5、。與傳統(tǒng)數(shù)據(jù)倉庫和分析技術(shù)相比,MapReduce非常適合處理多種類型的數(shù)據(jù),包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化數(shù)據(jù)(即存儲(chǔ)在數(shù)據(jù)庫中的行數(shù)據(jù),可以邏輯表示為二維表結(jié)構(gòu)的數(shù)據(jù))未表示為數(shù)據(jù)庫二維邏輯表的數(shù)據(jù)(所有格式的業(yè)務(wù)文檔、文本、圖片、XML、HTML),以及任何類型的報(bào)告、圖像和音頻/視頻信息它一般是自我描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容沒有明顯的區(qū)別。,MapReduce簡(jiǎn)介,適合處理的作業(yè)脫機(jī)批處理作業(yè)是“行”處理單元,無法反向跟蹤處理的“行”,因此每行必須是單獨(dú)的語義單元,行與行之間不能有有任何有意義的連接。與傳統(tǒng)關(guān)系數(shù)據(jù)庫管理系統(tǒng)相比,MapReduc

6、e計(jì)算模型更適合處理半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)。不適合處理的作業(yè)不適合常規(guī)web應(yīng)用程序不適合實(shí)時(shí)響應(yīng)的作業(yè)不適合處理較小數(shù)據(jù)集需要大量臨時(shí)空間的作業(yè)不適合CPU密集型和交叉調(diào)用密集型作業(yè),MapReduce的工作方式,MapReduce執(zhí)行過程MapReduce角色Client:作業(yè)提交發(fā)起人。JobTracker:初始化作業(yè),指定作業(yè),與TaskTracker通信,并協(xié)調(diào)整個(gè)作業(yè)。TaskTracker:維護(hù)JobTracker通信,在分配的數(shù)據(jù)片段上執(zhí)行MapReduce操作。作業(yè)分配通過心跳機(jī)制進(jìn)行TaskTracker和JobTracker之間的通信和作業(yè)分配。TaskTracker會(huì)主

7、動(dòng)詢問作業(yè)Tracker是否有要做的工作,如果可以,還會(huì)收到作業(yè)工作的請(qǐng)求,此工作可以是Map或Reduce工作。MapReduce的工作方式,當(dāng)作業(yè)請(qǐng)求運(yùn)行作業(yè)時(shí),TaskTracker將:將代碼信息復(fù)制到本地復(fù)制作業(yè)在JVM執(zhí)行作業(yè)狀態(tài)和作業(yè)的更新作業(yè)執(zhí)行期間,首先向TaskTracker報(bào)告自己的狀態(tài),然后由TaskTracker匯總的作業(yè)Tracker。作業(yè)完成JobTracker在最后一次作業(yè)運(yùn)行完成之前不會(huì)將作業(yè)標(biāo)記為成功。計(jì)劃進(jìn)行刪除中間結(jié)果等善后工作。MapReduce的工作方式,輸入基于Hadoop實(shí)例、URL頂級(jí)域名的分類統(tǒng)計(jì)信息,輸出格式:文件源文件格式為:統(tǒng)計(jì)對(duì)象:Ha

8、doop實(shí)例,1。編寫MapReduce函數(shù)、客戶機(jī)任務(wù)圖函數(shù)、Hadoop實(shí)例、Reduce函數(shù)作業(yè)設(shè)置、Hadoop實(shí)例、編譯為Jar文件、打包略微3。源文件提交到HDFS文件系統(tǒng)文件本地提交到HDFS文件系統(tǒng)put命令查看從HDFS文件系統(tǒng)提交的文件,Hadoop實(shí)例,使用Hadoop命令提交作業(yè)提交作業(yè)3358 localhost :000,查看Hadoop實(shí)例,查看運(yùn)行結(jié)果生成的文件查看從HDFS文件系統(tǒng)生成的結(jié)果基于Hadoop的數(shù)據(jù)倉庫工具提供了完整的SQL查詢功能,您可以將結(jié)構(gòu)化數(shù)據(jù)文件映射到一個(gè)數(shù)據(jù)庫表,并將SQL語句轉(zhuǎn)換為MapReduce操作以執(zhí)行該工具。學(xué)習(xí)成本低,并且

9、可以通過類SQL語句快速實(shí)施簡(jiǎn)單的MapReduce統(tǒng)計(jì)信息,而無需開發(fā)專用MapReduce應(yīng)用程序,這是數(shù)據(jù)倉庫統(tǒng)計(jì)分析的理想選擇。蜂巢是部署在Hadoop上的數(shù)據(jù)倉庫基礎(chǔ)架構(gòu)。提供一系列工具,用于數(shù)據(jù)提取轉(zhuǎn)換加載(ETL),這是存儲(chǔ)、查看和分析Hadoop中存儲(chǔ)的大型數(shù)據(jù)的機(jī)制。Hive定義了名為HQL的簡(jiǎn)單類SQL查詢語言,該語言允許熟悉SQL的用戶查詢數(shù)據(jù)。此語言還使您熟悉MapReduce開發(fā)人員的開發(fā)自定義mapper和reducer,從而處理內(nèi)置mapper和reducer無法完成的復(fù)雜分析任務(wù)。Hive實(shí)例,創(chuàng)建受管理的表1。從Hive命令行執(zhí)行生成表語句2。查看元數(shù)據(jù)庫中的

10、表信息,字段信息sds,columns_v2,Hive實(shí)例,3。將數(shù)據(jù)本地導(dǎo)入net_addr_1表4。查看導(dǎo)入的數(shù)據(jù),Hive實(shí)例,基于URL頂級(jí)域名的分類統(tǒng)計(jì)信息-Hive為1 .源數(shù)據(jù)輸入表略,創(chuàng)建的net_addr_1 2。使用源數(shù)據(jù)處理轉(zhuǎn)換的臨時(shí)表insert overwrite table net _ addr _ 3 select net _ id,regexp _ replace (net _ URL,(.。),)from net _ addr _ 1;3.介紹Hbase,這是一個(gè)基于臨時(shí)表數(shù)據(jù)的統(tǒng)計(jì)數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù)的可擴(kuò)展、可靠、高性能、分布式和面向列的動(dòng)態(tài)模式數(shù)據(jù)庫。與傳統(tǒng)

11、關(guān)系數(shù)據(jù)庫不同,HBase使用增強(qiáng)的稀疏排序映射表(Key/Value),這是BigTable的數(shù)據(jù)模型。其中鍵由行鍵、列鍵和時(shí)間戳組成。HBase提供對(duì)大型數(shù)據(jù)的隨機(jī)、實(shí)時(shí)讀寫訪問,同時(shí)存儲(chǔ)在HBase中的數(shù)據(jù)可以使用MapReduce進(jìn)行處理,它將數(shù)據(jù)存儲(chǔ)與并行計(jì)算完美地結(jié)合在一起。使用Hbase技術(shù)在低成本PC服務(wù)器上構(gòu)建大型結(jié)構(gòu)化存儲(chǔ)群集,Hbase體系結(jié)構(gòu),Hbase實(shí)例,1,HBase表構(gòu)建h base _ test h base create h base _ test,id01 2,hive外部hive 3、數(shù)據(jù)通過hit _ test導(dǎo)入hbase_test表insert o

12、verwrite table hive _ test select id01 from hive _ date;Hbase實(shí)例,大數(shù)據(jù)應(yīng)用程序簡(jiǎn)介,用戶internet行為分析系統(tǒng),用戶行為分析系統(tǒng)數(shù)據(jù)處理流程圖,遺物會(huì)日志處理框架簡(jiǎn)介,質(zhì)量會(huì)議日志處理框架簡(jiǎn)介,全國主要車輛網(wǎng)絡(luò)控制平臺(tái),Cloudera Manager簡(jiǎn)介,CDHCloudera Manager大大簡(jiǎn)化了群集內(nèi)主機(jī)、Hadoop、Hive、Hbase、Spark等服務(wù)的安裝配置管理,從而簡(jiǎn)化了與大型數(shù)據(jù)處理(如Hadoop)相關(guān)的服務(wù)安裝和監(jiān)視管理組件。Cloudera Manager包括四個(gè)主要功能:(1)管理(2)監(jiān)視(

13、3)診斷(4)集成Cloudera Flume是Cloudera提供的日志收集系統(tǒng),F(xiàn)lume可以定制各種類型的數(shù)據(jù)傳輸程序以從日志系統(tǒng)中收集數(shù)據(jù)Flume是Cloudera提供的高可用性、可靠性、分布式批量日志收集、聚合和傳輸系統(tǒng),它允許您定制各種類型的數(shù)據(jù)傳輸程序以從日志系統(tǒng)中收集數(shù)據(jù)。此外,F(xiàn)lume還提供了簡(jiǎn)化數(shù)據(jù)處理和向各種數(shù)據(jù)接受者(可自定義)寫入數(shù)據(jù)的功能。據(jù)Cloudera Manager分析,Cloudera Impala Cloudera Impala存儲(chǔ)在ApacHDFSe Hadoop中,HBase中的數(shù)據(jù)提供用于直接查詢交互的SQL。Impala使用與Hive相同的統(tǒng)

14、一存儲(chǔ)平臺(tái),使用相同的元數(shù)據(jù)、SQL語法(Hive SQL)、ODBC驅(qū)動(dòng)程序和用戶界面(Hue Beeswax)。Impala還提供了熟悉的批量或?qū)崟r(shí)查詢和集成平臺(tái)。Impala不再使用較慢的Hive MapReduce批處理,而是通過業(yè)務(wù)并行關(guān)系數(shù)據(jù)庫的類似分布式查詢引擎(由Query Planner、Query Coordinator和Query Exec Engine三部分組成)在HDFS或HBase中選擇、聯(lián)合和Cloudera Manager說明Cloudera hue Hue ui、hue server和hue db是CDH的專用web管理器套件,包括三個(gè)部分。Hue為所有CDH

15、組件提供shell接口的接口。您可以在Hive中執(zhí)行很多任務(wù),例如創(chuàng)建Mr、查看HDFS修改文件、管理hive的元數(shù)據(jù)、運(yùn)行Sqoop、創(chuàng)建Oozie工作流等。據(jù)Cloudera Manager分析,Spark Spark與Hadoop一樣,用于部署大規(guī)模、低延遲數(shù)據(jù)分析應(yīng)用程序?;鸹ㄒ許cala語言實(shí)現(xiàn),并將Scala用作應(yīng)用程序框架。Spark采用基于內(nèi)存的分布式數(shù)據(jù)集,優(yōu)化重復(fù)性工作負(fù)載和交互式查詢。與Hadoop不同,Spark和Scala緊密集成,Scala管理分布式數(shù)據(jù)集,如本地collective對(duì)象。Spark支持分布式數(shù)據(jù)集的迭代操作,并且具有Hadoop MapReduce的優(yōu)點(diǎn),因?yàn)镾park實(shí)際上可以在Hadoop文件系統(tǒng)上與Hadoop一起運(yùn)行基于map r

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論