版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
目錄項目一大數(shù)據(jù)概述項目二大數(shù)據(jù)思維項目三數(shù)據(jù)庫基礎(chǔ)知識項目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用項目五數(shù)據(jù)可視化概論項目六大數(shù)據(jù)安全項目七大數(shù)據(jù)與新一代信息技術(shù)的融合應(yīng)用項目四大數(shù)據(jù)分析技術(shù)及相關(guān)應(yīng)用
1大數(shù)據(jù)分析技術(shù)之初體驗
2大數(shù)據(jù)分析生命周期
3大數(shù)據(jù)處理和分析工具
4大數(shù)據(jù)實際使用案例任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具
目前市場上存在多種方法處理和分析大數(shù)據(jù),但多數(shù)都有一些共同的特點。即他們利用硬件的優(yōu)勢,使用擴(kuò)展的、并行的處理技術(shù),采用非關(guān)系型數(shù)據(jù)存儲處理非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),并對大數(shù)據(jù)運用高級分析和數(shù)據(jù)可視化技術(shù),向終端用戶傳達(dá)見解。目前較流行的有三種將會改變業(yè)務(wù)分析和數(shù)據(jù)管理市場的大數(shù)據(jù)分析技術(shù)。任務(wù)3大數(shù)據(jù)處理和分析工具一、HadoopHadoop是一個處理、存儲和分析海量的分布式、非結(jié)構(gòu)化數(shù)據(jù)的開源框架。最初由雅虎的DougCutting創(chuàng)建,Hadoop的靈感來自于MapReduce,MapReduce是谷歌在2000年代初期開發(fā)的用于網(wǎng)頁索引的用戶定義函數(shù)。它被設(shè)計用來處理分布在多個并行節(jié)點的PB級和EB級數(shù)據(jù)。Hadoop集群運行在廉價的商用硬件上,這樣硬件擴(kuò)展就不存在資金壓力。Hadoop現(xiàn)在是Apache軟件聯(lián)盟(TheApacheSoftwareFoundation)的一個項目,數(shù)百名貢獻(xiàn)者不斷改進(jìn)其核心技術(shù)。任務(wù)3大數(shù)據(jù)處理和分析工具一、HadoopHadoop基本概念:與將海量數(shù)據(jù)限定在一臺機(jī)器運行的方式不同,Hadoop將大數(shù)據(jù)分成多個部分,這樣每個部分都可以被同時處理和分析。(一)Hadoop的發(fā)展史
雛形開始于2002年的Apache的Nutch,Nutch是一個開源Java實現(xiàn)的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(一)Hadoop的發(fā)展史2003年:Google發(fā)表了一篇技術(shù)學(xué)術(shù)論文谷歌文件系統(tǒng)(GFS)2004年:Nutch創(chuàng)始人DougCutting基于Google的GFS論文實現(xiàn)了分布式文件存儲系統(tǒng)名為NDFS2005年:DougCutting又基于MapReduce,在Nutch搜索引擎實現(xiàn)了該功能2006年:Yahoo雇用了DougCutting,DougCutting將NDFS和MapReduce升級命名為Hadoop,Yahoo建立了一個獨立的團(tuán)隊給GougCutting專門研究發(fā)展Hadoop。任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(一)Hadoop的發(fā)展史Hadoop框架中最核心的設(shè)計就是:MapReduce和HDFS。1.MapReduce的思想是由Google的一篇論文所提及而被廣為流傳的,簡單的一句話解釋MapReduce就是“任務(wù)的分解與結(jié)果的匯總”,即為海量的數(shù)據(jù)提供了處理和計算。2.HDFS是Hadoop分布式文件系統(tǒng)(HadoopDistributedFileSystem)的縮寫,為海量的數(shù)據(jù)提供了存儲,為分布式計算存儲提供了底層支持。任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具Hadoop的組成圖任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具HDFSArchitecture任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具M(jìn)apRedcu的處理流程圖任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具Hadoop框架任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具HBase數(shù)據(jù)表結(jié)構(gòu)圖任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(二)Hadoop如何工作
客戶從日志文件、社交媒體供稿和內(nèi)部數(shù)據(jù)存儲等來源獲得非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)。它將數(shù)據(jù)打碎成“部分”,這些“部分”被載入到商用硬件的多個節(jié)點組成的文件系統(tǒng)。Hadoop的默認(rèn)文件存儲系統(tǒng)是Hadoop分布式文件系統(tǒng)。一旦MapReduce階段完成,數(shù)據(jù)科學(xué)家和其他人就可以使用高級數(shù)據(jù)分析技巧對處理后的數(shù)據(jù)進(jìn)一步分析。也可以對這些數(shù)據(jù)建模,將數(shù)據(jù)從Hadoop集群轉(zhuǎn)移到現(xiàn)有的關(guān)系型數(shù)據(jù)庫、數(shù)據(jù)倉庫等傳統(tǒng)IT系統(tǒng)進(jìn)行進(jìn)一步的分析。任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具M(jìn)apReduce工作流程圖任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(三)Hadoop的優(yōu)點和缺點
Hadoop的主要優(yōu)點:它可以讓企業(yè)以節(jié)省成本并高效的方式處理和分析大量的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù),而這類數(shù)據(jù)迄今還沒有其他處理方式。因為Hadoop集群可以擴(kuò)展到PB級甚至EB級數(shù)據(jù),企業(yè)不再必須依賴于樣本數(shù)據(jù)集,而可以處理和分析所有相關(guān)數(shù)據(jù)。使用Hadoop的成本也很廉價。任務(wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(三)Hadoop的優(yōu)點和缺點
Hadoop的主要優(yōu)點:1.高可靠性。Hadoo按位存儲和處理數(shù)據(jù)的能力值得人們信賴。2.高擴(kuò)展性。Hadoop是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展到數(shù)以千計的節(jié)點中。3.高效性。Hadoop能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并保證各個節(jié)點的動態(tài)平衡,因此處理速度非??臁H蝿?wù)3大數(shù)據(jù)處理和分析工具一、Hadoop(三)Hadoop的優(yōu)點和缺點
Hadoop的主要優(yōu)點:4.高容錯性。Hadoop能夠自動保存數(shù)據(jù)的多個副本,并且能夠自動將失敗的任務(wù)重新分配。5.低成本。與一體機(jī)、商用數(shù)據(jù)倉庫以及QlikView、Yonghong、Z-Suite等數(shù)據(jù)集市相比,hadoop是開源的,項目的軟件成本因此會大大降低。任務(wù)3大數(shù)據(jù)處理和分析工具二、NoSQL
一種稱為NoSQL的新形式的數(shù)據(jù)庫(NotOnlySQL)已經(jīng)出現(xiàn),像Hadoop一樣,可以處理大量的多結(jié)構(gòu)化數(shù)據(jù)。但是,如果說Hadoop擅長支持大規(guī)模、批量式的歷史分析,在大多數(shù)情況下(雖然也有一些例外),NoSQL數(shù)據(jù)庫的目的是為最終用戶和自動化的大數(shù)據(jù)應(yīng)用程序提供大量存儲在多結(jié)構(gòu)化數(shù)據(jù)中的離散數(shù)據(jù)。這種能力是關(guān)系型數(shù)據(jù)庫欠缺的,它根本無法在大數(shù)據(jù)規(guī)模維持基本的性能水平。任務(wù)3大數(shù)據(jù)處理和分析工具
在某些情況下,NoSQL和Hadoop協(xié)同工作。例如,HBase是流行的NoSQL數(shù)據(jù)庫,它仿照谷歌的BigTable,通常部署在HDFS(Hadoop分布式文件系統(tǒng))之上,為Hadoop提供低延遲的快速查找功能。目前可用的NoSQL數(shù)據(jù)庫包括:1.HBase;2.Cassandra;3.MarkLogic;4.Aerospike;5.MongoDB;6.Accumulo7.Riak8.CouchDB9.DynamoDB。二、NoSQL任務(wù)3大數(shù)據(jù)處理和分析工具
目前大多數(shù)NoSQL數(shù)據(jù)庫的缺點是,為了性能和可擴(kuò)展性,他們遵從ACID(原子性,一致性,隔離性,持久性)原則。許多NoSQL數(shù)據(jù)庫還缺乏成熟的管理和監(jiān)控工具。這些缺點在開源的NoSQL社區(qū)和少數(shù)廠商的努力下都在克服過程中,這些廠商包括DataStax,Sqrrl,10gen,Aerospike和Couchbase,他們正在嘗試商業(yè)化各種NoSQL數(shù)據(jù)庫。二、NoSQL任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫
不同于傳統(tǒng)的數(shù)據(jù)倉庫,大規(guī)模并行分析數(shù)據(jù)庫能夠以必需的最小的數(shù)據(jù)建模,快速獲取大量的結(jié)構(gòu)化數(shù)據(jù),可以向外擴(kuò)展以容納TB甚至PB級數(shù)據(jù)。對最終用戶而言最重要的是,大規(guī)模并行分析數(shù)據(jù)庫支持近乎實時的復(fù)雜SQL查詢結(jié)果,也叫交互式查詢功能,而這正是Hadoop顯著缺失的能力。大規(guī)模并行分析數(shù)據(jù)庫在某些情況下支持近實時的大數(shù)據(jù)應(yīng)用。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括:1.大規(guī)模并行處理的能力就像其名字表明的一樣,大規(guī)模并行分析數(shù)據(jù)庫采用大規(guī)模并行處理同時支持多臺機(jī)器上的數(shù)據(jù)采集、處理和查詢。相對傳統(tǒng)的數(shù)據(jù)倉庫具有更快的性能,傳統(tǒng)數(shù)據(jù)倉庫運行在單一機(jī)器上,會受到數(shù)據(jù)采集這個單一瓶頸點的限制。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括:2.無共享架構(gòu)無共享架構(gòu)可確保分析數(shù)據(jù)庫環(huán)境中沒有單點故障。在這種架構(gòu)下,每個節(jié)點獨立于其他節(jié)點,所以如果一臺機(jī)器出現(xiàn)故障,其他機(jī)器可以繼續(xù)運行。對大規(guī)模并行處理環(huán)境而言,這點尤其重要,數(shù)百臺計算機(jī)并行處理數(shù)據(jù),偶爾出現(xiàn)一臺或多臺機(jī)器失敗是不可避免的。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括:3.列存儲結(jié)構(gòu)大多數(shù)大規(guī)模并行分析數(shù)據(jù)庫采用列存儲結(jié)構(gòu),而大多數(shù)關(guān)系型數(shù)據(jù)庫以行結(jié)構(gòu)存儲和處理數(shù)據(jù)。在列存儲環(huán)境中,由包含必要數(shù)據(jù)的列決定查詢語句的“答案”,而不是由整行的數(shù)據(jù)決定,從而導(dǎo)致查詢結(jié)果瞬間可以得出。這也意味著數(shù)據(jù)不需要像傳統(tǒng)的關(guān)系數(shù)據(jù)庫那樣構(gòu)造成整齊的表格。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括:4.強(qiáng)大的數(shù)據(jù)壓縮功能它們允許分析數(shù)據(jù)庫收集和存儲更大量的數(shù)據(jù),而且與傳統(tǒng)數(shù)據(jù)庫相比占用更少的硬件資源。例如,具有10比1的壓縮功能的數(shù)據(jù)庫,可以將10TB字節(jié)的數(shù)據(jù)壓縮到1TB。數(shù)據(jù)編碼(包括數(shù)據(jù)壓縮以及相關(guān)的技術(shù))是有效的擴(kuò)展到海量數(shù)據(jù)的關(guān)鍵。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括:5.商用硬件像Hadoop集群一樣,大多數(shù)(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫運行在戴爾、IBM等廠商現(xiàn)成的商用硬件上,這使他們能夠以具有成本效益的方式向外擴(kuò)展。任務(wù)3大數(shù)據(jù)處理和分析工具三、大規(guī)模并行分析數(shù)據(jù)庫大規(guī)模并行分析數(shù)據(jù)庫的基本特性包括:6.在內(nèi)存中進(jìn)行數(shù)據(jù)處理有些(肯定不是全部)大規(guī)模并行分析數(shù)據(jù)庫使用動態(tài)RAM或閃存進(jìn)行實時數(shù)據(jù)處理。有些(如SAPHANA和Aerospike)完全在內(nèi)存中運行數(shù)據(jù),而其他則采用混合的方式,即用較便宜但低性能的磁盤內(nèi)存處理“冷”數(shù)據(jù),用動態(tài)RAM或閃存處理“熱”數(shù)據(jù)。任務(wù)3大數(shù)據(jù)處理和分析工具現(xiàn)代數(shù)據(jù)架構(gòu)任務(wù)3大數(shù)據(jù)處理和分析工具大數(shù)據(jù)處理和分析工具小結(jié):三種大數(shù)據(jù)處理和分析工具Hadoop,NoSQL和大規(guī)模并行分析數(shù)據(jù)庫不是相互排斥的。相反的,這三種方法是互補(bǔ)的,彼此可以而且應(yīng)該共存于許多企業(yè)。Hadoop擅長處理和分析大量分布式的非結(jié)構(gòu)化數(shù)據(jù),以分批的方式進(jìn)行歷史分析。NoSQL數(shù)據(jù)庫擅長為基于Web的大數(shù)據(jù)應(yīng)用程序提供近實時地多結(jié)構(gòu)化數(shù)據(jù)存儲和處理。而大規(guī)模并行分析數(shù)據(jù)庫最擅長對大容量的主流結(jié)構(gòu)化數(shù)據(jù)提供接近實時的分析。任務(wù)3大數(shù)據(jù)處理和分析工具【引經(jīng)據(jù)典
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年臺州市商貿(mào)核心區(qū)開發(fā)建設(shè)投資集團(tuán)有限公司公開招聘工作人員的備考題庫完整參考答案詳解
- 2026年南京中遠(yuǎn)海運物流有限公司招聘備考題庫及答案詳解1套
- 2026年小學(xué)語文老師招聘備考題庫完整參考答案詳解
- 2026年臺州市椒江區(qū)進(jìn)出口企業(yè)協(xié)會公開招聘編外工作人員備考題庫及答案詳解1套
- 市商務(wù)局內(nèi)控制度匯編
- 隊伍內(nèi)控制度
- 內(nèi)控制度報告填報流程
- 包裝中心內(nèi)控制度
- 醫(yī)用物資采購內(nèi)控制度
- 國土所內(nèi)控制度
- 殯儀館鮮花采購?fù)稑?biāo)方案
- 中小學(xué)生意外傷害防范
- 動靜脈瘺課件
- 新疆宗教事務(wù)條例課件
- 2025年工會主席述職報告模版(六)
- 2025四川成都軌道交通集團(tuán)有限公司校招9人筆試歷年備考題庫附帶答案詳解試卷2套
- 藥品生產(chǎn)培訓(xùn)課件
- 貴州省縣中新學(xué)校計劃項目2024-2025學(xué)年高一上學(xué)期期中聯(lián)考地理試題(解析版)
- 【2025年】天翼云解決方案架構(gòu)師認(rèn)證考試筆試卷庫下(多選、判斷題)含答案
- 2024-2025學(xué)年度浙江特殊教育職業(yè)學(xué)院單招《語文》試卷附完整答案詳解(全優(yōu))
- 保護(hù)患者隱私培訓(xùn)課件
評論
0/150
提交評論