基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述(22張)課件_第1頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述(22張)課件_第2頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述(22張)課件_第3頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述(22張)課件_第4頁
基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述(22張)課件_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

1、2015.6.15基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述大數(shù)據(jù)背景介紹ContentHadoop定義、特點大數(shù)據(jù)對系統(tǒng)的需求、大數(shù)據(jù)和云計算的關(guān)系大數(shù)據(jù)市場分析大數(shù)據(jù)處理的技術(shù)關(guān)鍵12Hadoop原理、優(yōu)點Hadoop體系架構(gòu)Hadoop核心設(shè)計:MapReduce、HDFS大數(shù)據(jù)背景介紹1定義 為了更為經(jīng)濟的從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價值,而設(shè)計的新一代架構(gòu)和技術(shù)特點大數(shù)據(jù)對系統(tǒng)的需求大數(shù)據(jù)和云計算的關(guān)系High performance 高并發(fā)讀寫的需求高并發(fā)、實時動態(tài)獲取和更新數(shù)據(jù)Huge Storage 海量數(shù)據(jù)的高效率存儲和訪問的需求類似SNS網(wǎng)站,海量用戶

2、信息的高效率實時存儲和查詢High Scalability & High Availability 高可擴展性和高可用性的需求需要擁有快速橫向擴展能力、提供7*24小時不間斷服務(wù)云計算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計算是大數(shù)據(jù)的IT基礎(chǔ),大數(shù)據(jù)須有云計算作為基礎(chǔ)架構(gòu),才能高效運行通過大數(shù)據(jù)的業(yè)務(wù)需求,為云計算的落地找到了實際應用大數(shù)據(jù)市場分析2011年是中國大數(shù)據(jù)市場元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場的飛速發(fā)展。2012年中國大數(shù)據(jù)市場規(guī)模達到4.7億元,2013年大數(shù)據(jù)市場將迎來增速為138.3%的飛躍,到2016年,

3、整個市場規(guī)模逼近百億。政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場規(guī)模較大,四個行業(yè)將占據(jù)一半市場份額。由于各個行業(yè)都存在大數(shù)據(jù)應用需求,潛在市場空間非常可觀。大數(shù)據(jù)處理的技術(shù)關(guān)鍵分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù);統(tǒng)計和分析:地域占比,文本情感分析,A/B test,top N排行榜;數(shù)據(jù)挖掘:建模,聚類,分類,排名;模型預測:預測模型,機器學習,建模仿真。存儲技術(shù):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)查詢、統(tǒng)計、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存儲,不利于檢索,存儲和查詢半結(jié)構(gòu)化數(shù)據(jù):轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)或者按照非結(jié)構(gòu)化存儲。大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具;數(shù)據(jù)存?。宏P(guān)系數(shù)

4、據(jù)庫,NoSQL,NewSQL,等基礎(chǔ)架構(gòu)支持:云存儲,分布式文件系統(tǒng)等;計算結(jié)果展現(xiàn):云計算,標簽云,關(guān)系圖等。解決方案:Hadoop(MapReduce技術(shù))、MongoDB、流計算(twitter的strom和yahoo!的S4)Hadoop大數(shù)據(jù)主要應用技術(shù)Hadoop2Hadoop最先是由Apache公司在2005年引入的,起源于google開發(fā)的MapReduce和Google File System(GFS)項目。Hadoop作為新一代的架構(gòu)和技術(shù),因為有利于并行分布處理 “大數(shù)據(jù)”而備受重視。 Apache Hadoop 是一個用java語言實現(xiàn)的軟件框架,在由大量計算機組成的

5、集群中運行海量數(shù)據(jù)的分布式計算,它可以讓應用程序支持上千個節(jié)點和PB級別的數(shù)據(jù)。 Hadoop是項目的總稱,主要是由分布式存儲(HDFS)、分布式計算(MapReduce)等組成 。Hadoop原理Hadoop原理假設(shè)系統(tǒng)每秒處理4000個文件處理4千萬個文件=10000秒約為2.7小時處理4千萬個文件處理400萬個文件處理400萬個文件處理400萬個文件切分成十臺機器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出 優(yōu)點可擴展:不論是存儲的可擴展還是計算的可擴展都是Hadoop的設(shè)計根本。經(jīng)濟:框架可以運行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復機制以及MapReduce

6、的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實現(xiàn)以及MapReduce結(jié)合Local Data處理的模式,為高效處理海量的信息作了基礎(chǔ)準備。 不適合存儲小文件 (不建議)大量的隨機讀(不建議)對文件的修改(不支持)應用模式為:write-once-read-many存取模式Hadoop體系架構(gòu)MapReduceHBasePigChuKwaHivePig是一個基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺,Pig為復雜的海量數(shù)據(jù)并行計算提供了一個簡易的操作和編程接口hive是基于Hadoop的一個工具,提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進行運行

7、Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻ZooKeeper:高效的,可擴展的協(xié)調(diào)系統(tǒng),存儲和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個開源的,基于列存儲模型的分布式數(shù)據(jù)庫MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運算HDFS是一個分布式文件系統(tǒng)。有著高容錯性的特點,并且設(shè)計用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)集的應用程序ZooKeeperMapReduceMap:任務(wù)的分解Reduce:結(jié)果的匯總兩大核心設(shè)計HDFSNameNode:文件管理DataNode:文件存儲Client:文件獲取Hadoop核心設(shè)計MapReduce映射、化簡編程模型(

8、分而治之)1. 根據(jù)輸入數(shù)據(jù)的大小和參數(shù)的設(shè)置把數(shù)據(jù)分成splits, 每個split對于一個map線程。2. Split中的數(shù)據(jù)作為Map的輸入, Map的輸出一定在Map端。3. Map的輸出到Reduce的輸入的過程(shuffle過程): 第一階段:在map端完成內(nèi)存-排序-寫入磁盤-復制 第二階段:在reduce端完成映射到reduce端分區(qū)-合并-排序4. Reduce的輸入到Reduce的輸出 最后排好序的key/value作為Reduce的輸入 MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集的并行運算。Map(映射)和Reduce(化簡),采用分而治之思想,先把任務(wù)分發(fā)到集

9、群多個節(jié)點上,并行計算,然后再把計算結(jié)果合并,從而得到最終計算結(jié)果。多節(jié)點計算,所涉及的任務(wù)調(diào)度、負載均衡、容錯處理等,都由MapReduce框架完成,不需要編程人員關(guān)心這些內(nèi)容。 HDFS分布式文件系統(tǒng)什么是分布式文件系統(tǒng)?分布式文件系統(tǒng)是指文件系統(tǒng)管理的物理存儲資源不一定直接在本地節(jié)點上,而是通過計算機網(wǎng)絡(luò)與節(jié)點相連。分布式文件系統(tǒng)設(shè)計基于客戶機/服務(wù)器模式,一個典型的網(wǎng)絡(luò)可能包括多個供用戶訪問的服務(wù)器。用戶可以在任意一臺客戶機上訪問其他機器的文件系統(tǒng)。為什么需要分布式文件系統(tǒng)?高擴展能力:HDFS采用元數(shù)據(jù)中心化管理,然后通過客戶端暫存數(shù)據(jù)分布減小元數(shù)據(jù)的訪問壓力;高可用性:一是整個文件

10、系統(tǒng)的可用性,二是數(shù)據(jù)的完整和一致性。數(shù)據(jù)完整性通過文件的鏡像和文件自動修復來解決;彈性存儲:可以根據(jù)業(yè)務(wù)需要靈活地增加或縮減數(shù)據(jù)存儲以及增刪存儲池中的資源,而不需要中斷系統(tǒng)運行;HDFS分布式文件系統(tǒng)NameNode可以看作是分布式文件系統(tǒng)中的管理者,存儲文件系統(tǒng)的meta-data,主要負責管理文件系統(tǒng)的命名空間,集群配置信息,存儲塊的復制。DataNode是文件存儲的基本單元。它存儲文件塊在本地文件系統(tǒng)中,保存了文件塊的meta-data,同時周期性的發(fā)送所有存在的文件塊的報告給NameNode。 Client就是需要獲取分布式文件系統(tǒng)文件的應用程序。 HDFS是一個高度容錯性的分布式文

11、件系統(tǒng),能提供高吞吐量的數(shù)據(jù)訪問,非常適合大規(guī)模數(shù)據(jù)集上的應用。HDFS的高可用性NameNode掛了怎么辦? 系統(tǒng)采用雙NameNode節(jié)點分布管理設(shè)計方案,支持分布式的元數(shù)據(jù)服務(wù)器,支持元數(shù)據(jù)自動日志功能,實現(xiàn)用戶數(shù)據(jù)和元數(shù)據(jù)的備份和自動恢復,當一臺服務(wù)器發(fā)生宕機時,其管理功能可以有另外的服務(wù)器接管,系統(tǒng)可以正常運行,對外提供服務(wù)。NameNode NameNode是用來管理文件系統(tǒng)命名空間的組件 一個HDFS集群只有一臺active的NameNode 一個HDFS集群只有一個命名空間,一個根目錄 NameNode上存放了HDFS的元數(shù)據(jù) 元數(shù)據(jù)保存在NameNode的內(nèi)存當中,以便快速查

12、詢 1G內(nèi)存大致可以存放1,000,000個塊對應的元數(shù)據(jù)信息 按缺省每塊64M計算,大致對應64T實際數(shù)據(jù)Datanode 一個數(shù)據(jù)塊在DataNode以文件存儲在磁盤上,包括兩個文件,一個是數(shù)據(jù)本身,一個是元數(shù)據(jù)包括數(shù)據(jù)塊的長度,塊數(shù)據(jù)的校驗和,以及時間戳。 DataNode啟動后向NameNode注冊,通過后,周期性(1小時)的向NameNode上報所有的塊信息。 心跳是每3秒一次,心跳返回結(jié)果帶有NameNode給該DataNode的命令如復制塊數(shù)據(jù)到另一臺機器,或刪除某個數(shù)據(jù)塊。如果超過10分鐘沒有收到某個DataNode 的心跳,則認為該節(jié)點不可用。增加DataNode節(jié)點后? 系

13、統(tǒng)平臺增加新節(jié)點之后,系統(tǒng)自動在所有節(jié)點之間均衡數(shù)據(jù)。系統(tǒng)后臺根據(jù)忙閑程度,自動發(fā)起,占用很少系統(tǒng)資源,無需人工干預,實現(xiàn)數(shù)據(jù)均衡分布。HDFS具體操作文件寫入:1. Client向NameNode發(fā)起文件寫入的請求2. NameNode根據(jù)文件大小和文件塊配置情況,返回給Client它所管理部分DataNode的信息。3. Client將文件劃分為多個文件塊,根據(jù)DataNode的地址信息,按順序?qū)懭氲矫恳粋€DataNode塊中。文件讀?。?.Client向NameNode發(fā)起文件讀取的請求2.NameNode返回文件存儲的DataNode的信息。3. Client讀取文件信息。Client

14、1Client2DataNode節(jié)點NameNode1NameNode2NFS服務(wù)器正常運行狀態(tài)單點失效狀態(tài)HBASE分布式數(shù)據(jù)存儲HBase Hadoop Database,是一個高可靠性、高性能、面向列、可伸縮的分布式存儲系統(tǒng);HBase位于結(jié)構(gòu)化存儲層,HDFS為HBase提供了高可靠性的底層存儲支持,MapReduce為HBase提供了高性能的計算能力,Zookeeper為HBase提供了穩(wěn)定服務(wù)和failover機制;Pig和Hive還為HBase提供了高層語言支持,使得在HBase上進行數(shù)據(jù)統(tǒng)計處理變的簡單。凡是過去,皆為序曲Thank You !1、不是井里沒有水,而是你挖的不夠

15、深。不是成功來得慢,而是你努力的不夠多。2、孤單一人的時間使自己變得優(yōu)秀,給來的人一個驚喜,也給自己一個好的交代。3、命運給你一個比別人低的起點是想告訴你,讓你用你的一生去奮斗出一個絕地反擊的故事,所以有什么理由不努力!4、心中沒有過分的貪求,自然苦就少??诶锊徽f多余的話,自然禍就少。腹內(nèi)的食物能減少,自然病就少。思緒中沒有過分欲,自然憂就少。大悲是無淚的,同樣大悟無言。緣來盡量要惜,緣盡就放。人生本來就空,對人家笑笑,對自己笑笑,笑著看天下,看日出日落,花謝花開,豈不自在,哪里來的塵埃!5、心情就像衣服,臟了就拿去洗洗,曬曬,陽光自然就會蔓延開來。陽光那么好,何必自尋煩惱,過好每一個當下,一

16、萬個美麗的未來抵不過一個溫暖的現(xiàn)在。6、無論你正遭遇著什么,你都要從落魄中站起來重振旗鼓,要繼續(xù)保持熱忱,要繼續(xù)保持微笑,就像從未受傷過一樣。7、生命的美麗,永遠展現(xiàn)在她的進取之中;就像大樹的美麗,是展現(xiàn)在它負勢向上高聳入云的蓬勃生機中;像雄鷹的美麗,是展現(xiàn)在它搏風擊雨如蒼天之魂的翱翔中;像江河的美麗,是展現(xiàn)在它波濤洶涌一瀉千里的奔流中。8、有些事,不可避免地發(fā)生,陰晴圓缺皆有規(guī)律,我們只能坦然地接受;有些事,只要你愿意努力,矢志不渝地付出,就能慢慢改變它的軌跡。9、與其埋怨世界,不如改變自己。管好自己的心,做好自己的事,比什么都強。人生無完美,曲折亦風景。別把失去看得過重,放棄是另一種擁有;

17、不要經(jīng)常艷羨他人,人做到了,心悟到了,相信屬于你的風景就在下一個拐彎處。10、有些事想開了,你就會明白,在世上,你就是你,你痛痛你自己,你累累你自己,就算有人同情你,那又怎樣,最后收拾殘局的還是要靠你自己。11、人生的某些障礙,你是逃不掉的。與其費盡周折繞過去,不如勇敢地攀登,或許這會鑄就你人生的高點。12、有些壓力總是得自己扛過去,說出來就成了充滿負能量的抱怨。尋求安慰也無濟于事,還徒增了別人的煩惱。13、認識到我們的所見所聞都是假象,認識到此生都是虛幻,我們才能真正認識到佛法的真相。錢多了會壓死你,你承受得了嗎?帶,帶不走,放,放不下。時時刻刻發(fā)悲心,饒益眾生為他人。14、夢想總是跑在我的前面。努力追尋它們,為了那一瞬間的同步,這就是動人的生命奇跡。15、懶惰不會讓你一下子跌倒,但會在不知不覺中減少你的收獲;勤奮也不會讓你一夜成功,但會在不知

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論