版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2015.6.15基于Hadoop的大數(shù)據(jù)處理關(guān)鍵技術(shù)綜述大數(shù)據(jù)背景介紹ContentHadoop定義、特點(diǎn)大數(shù)據(jù)對(duì)系統(tǒng)的需求、大數(shù)據(jù)和云計(jì)算的關(guān)系大數(shù)據(jù)市場(chǎng)分析大數(shù)據(jù)處理的技術(shù)關(guān)鍵12Hadoop原理、優(yōu)點(diǎn)Hadoop體系架構(gòu)Hadoop核心設(shè)計(jì):MapReduce、HDFS大數(shù)據(jù)背景介紹1定義
為了更為經(jīng)濟(jì)的從高頻率獲取的、大容量的、不同結(jié)構(gòu)和類型的數(shù)據(jù)中獲取價(jià)值,而設(shè)計(jì)的新一代架構(gòu)和技術(shù)特點(diǎn)大數(shù)據(jù)對(duì)系統(tǒng)的需求大數(shù)據(jù)和云計(jì)算的關(guān)系Highperformance–高并發(fā)讀寫的需求
高并發(fā)、實(shí)時(shí)動(dòng)態(tài)獲取和更新數(shù)據(jù)HugeStorage–海量數(shù)據(jù)的高效率存儲(chǔ)和訪問的需求
類似SNS網(wǎng)站,海量用戶信息的高效率實(shí)時(shí)存儲(chǔ)和查詢HighScalability&&HighAvailability–高可擴(kuò)展性和高可用性的需求
需要擁有快速橫向擴(kuò)展能力、提供7*24小時(shí)不間斷服務(wù)云計(jì)算改變了IT,而大數(shù)據(jù)則改變了業(yè)務(wù)云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),大數(shù)據(jù)須有云計(jì)算作為基礎(chǔ)架構(gòu),才能高效運(yùn)行通過大數(shù)據(jù)的業(yè)務(wù)需求,為云計(jì)算的落地找到了實(shí)際應(yīng)用大數(shù)據(jù)市場(chǎng)分析2011年是中國(guó)大數(shù)據(jù)市場(chǎng)元年,一些大數(shù)據(jù)產(chǎn)品已經(jīng)推出,部分行業(yè)也有大數(shù)據(jù)應(yīng)用案例的產(chǎn)生。2012年-2016年,將迎來大數(shù)據(jù)市場(chǎng)的飛速發(fā)展。2012年中國(guó)大數(shù)據(jù)市場(chǎng)規(guī)模達(dá)到4.7億元,2013年大數(shù)據(jù)市場(chǎng)將迎來增速為138.3%的飛躍,到2016年,整個(gè)市場(chǎng)規(guī)模逼近百億。政府、互聯(lián)網(wǎng)、電信、金融的大數(shù)據(jù)市場(chǎng)規(guī)模較大,四個(gè)行業(yè)將占據(jù)一半市場(chǎng)份額。由于各個(gè)行業(yè)都存在大數(shù)據(jù)應(yīng)用需求,潛在市場(chǎng)空間非??捎^。大數(shù)據(jù)處理的技術(shù)關(guān)鍵分析技術(shù):數(shù)據(jù)處理:自然語言處理技術(shù);統(tǒng)計(jì)和分析:地域占比,文本情感分析,A/Btest,topN排行榜;數(shù)據(jù)挖掘:建模,聚類,分類,排名;模型預(yù)測(cè):預(yù)測(cè)模型,機(jī)器學(xué)習(xí),建模仿真。存儲(chǔ)技術(shù):結(jié)構(gòu)化數(shù)據(jù):海量數(shù)據(jù)查詢、統(tǒng)計(jì)、更新等操作效率低非結(jié)構(gòu)化數(shù)據(jù):圖片、視頻、word、pdf、ppt等文件存儲(chǔ),不利于檢索,存儲(chǔ)和查詢半結(jié)構(gòu)化數(shù)據(jù):轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)或者按照非結(jié)構(gòu)化存儲(chǔ)。大數(shù)據(jù)技術(shù):數(shù)據(jù)采集:ETL工具;數(shù)據(jù)存?。宏P(guān)系數(shù)據(jù)庫(kù),NoSQL,NewSQL,等基礎(chǔ)架構(gòu)支持:云存儲(chǔ),分布式文件系統(tǒng)等;計(jì)算結(jié)果展現(xiàn):云計(jì)算,標(biāo)簽云,關(guān)系圖等。解決方案:Hadoop(MapReduce技術(shù))、MongoDB、流計(jì)算(twitter的strom和yahoo!的S4)Hadoop大數(shù)據(jù)主要應(yīng)用技術(shù)——Hadoop2Hadoop最先是由Apache公司在2005年引入的,起源于google開發(fā)的MapReduce和GoogleFileSystem(GFS)項(xiàng)目。Hadoop作為新一代的架構(gòu)和技術(shù),因?yàn)橛欣诓⑿蟹植继幚怼按髷?shù)據(jù)”而備受重視。ApacheHadoop是一個(gè)用java語言實(shí)現(xiàn)的軟件框架,在由大量計(jì)算機(jī)組成的集群中運(yùn)行海量數(shù)據(jù)的分布式計(jì)算,它可以讓應(yīng)用程序支持上千個(gè)節(jié)點(diǎn)和PB級(jí)別的數(shù)據(jù)。Hadoop是項(xiàng)目的總稱,主要是由分布式存儲(chǔ)(HDFS)、分布式計(jì)算(MapReduce)等組成。Hadoop原理Hadoop原理假設(shè)系統(tǒng)每秒處理4000個(gè)文件處理4千萬個(gè)文件=10000秒約為2.7小時(shí)處理4千萬個(gè)文件處理400萬個(gè)文件處理400萬個(gè)文件處理400萬個(gè)文件……切分成十臺(tái)機(jī)器處理約為17分鐘=約為17分鐘=約為17分鐘=結(jié)果合并輸出優(yōu)點(diǎn)可擴(kuò)展:不論是存儲(chǔ)的可擴(kuò)展還是計(jì)算的可擴(kuò)展都是Hadoop的設(shè)計(jì)根本。經(jīng)濟(jì):框架可以運(yùn)行在任何普通的PC上??煽浚悍植际轿募到y(tǒng)的備份恢復(fù)機(jī)制以及MapReduce的任務(wù)監(jiān)控保證了分布式處理的可靠性。高效:分布式文件系統(tǒng)的高效數(shù)據(jù)交互實(shí)現(xiàn)以及MapReduce結(jié)合LocalData處理的模式,為高效處理海量的信息作了基礎(chǔ)準(zhǔn)備。不適合存儲(chǔ)小文件(不建議)大量的隨機(jī)讀(不建議)對(duì)文件的修改(不支持)應(yīng)用模式為:write-once-read-many存取模式Hadoop體系架構(gòu)MapReduceHBasePigChuKwaHivePig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡(jiǎn)易的操作和編程接口hive是基于Hadoop的一個(gè)工具,提供完整的sql查詢功能,可以將sql語句轉(zhuǎn)換為MapReduce任務(wù)進(jìn)行運(yùn)行Chukwa是基于Hadoop的集群監(jiān)控系統(tǒng),由yahoo貢獻(xiàn)ZooKeeper:高效的,可擴(kuò)展的協(xié)調(diào)系統(tǒng),存儲(chǔ)和協(xié)調(diào)關(guān)鍵共享狀態(tài)HBase是一個(gè)開源的,基于列存儲(chǔ)模型的分布式數(shù)據(jù)庫(kù)MapReduce是一種編程模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算HDFS是一個(gè)分布式文件系統(tǒng)。有著高容錯(cuò)性的特點(diǎn),并且設(shè)計(jì)用來部署在低廉的硬件上,適合那些有著超大數(shù)據(jù)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026黑龍江黑河學(xué)院招聘博士考試參考題庫(kù)及答案解析
- 2026內(nèi)蒙古呼和浩特市劍橋中學(xué)高中部教師招聘2人考試備考題庫(kù)及答案解析
- 2026江西九江市湖口縣市場(chǎng)監(jiān)督管理局面向社會(huì)招聘3人考試備考題庫(kù)及答案解析
- 2026濟(jì)南高新區(qū)龍奧大廈附近小學(xué)招聘派遣制小學(xué)數(shù)學(xué)代課老師考試參考題庫(kù)及答案解析
- 2026四川華豐科技股份有限公司招聘生產(chǎn)計(jì)劃等崗位6人筆試備考試題及答案解析
- 2026嵐圖汽車制造領(lǐng)域招聘筆試模擬試題及答案解析
- 2026年地質(zhì)勘察在新能源開發(fā)中的應(yīng)用
- 2026山西中醫(yī)藥大學(xué)附屬醫(yī)院急需緊缺高層次人才招聘2人考試參考題庫(kù)及答案解析
- 2026云南紅河州建水滇南云水環(huán)境治理有限公司招聘1人考試備考題庫(kù)及答案解析
- 2026浙江省中國(guó)聯(lián)合網(wǎng)絡(luò)通信有限公司溫州市分公司校園招聘10人筆試備考題庫(kù)及答案解析
- poc合同范本范文
- 林場(chǎng)管護(hù)合同范例
- 創(chuàng)意寫作理論與實(shí)踐 課件全套 陳曉輝 第1-13章 創(chuàng)意寫作基本理論 -地域文化資源的文學(xué)利用與再開發(fā)
- 春節(jié)后收心培訓(xùn)
- 福建省福州市2023-2024學(xué)年高一上學(xué)期期末質(zhì)量檢測(cè)英語試題 含答案
- 淮安市2022-2023學(xué)年七年級(jí)上學(xué)期期末道德與法治試題【帶答案】
- 安全施工協(xié)議范本
- 農(nóng)業(yè)大數(shù)據(jù)分析與應(yīng)用
- 2022ABBUMC100.3智能電機(jī)控制器
- 行政倫理學(xué)(全套課件235P)
- GB/T 19367-2022人造板的尺寸測(cè)定
評(píng)論
0/150
提交評(píng)論