大數(shù)據(jù)技術(shù)課件第1章_第1頁
大數(shù)據(jù)技術(shù)課件第1章_第2頁
大數(shù)據(jù)技術(shù)課件第1章_第3頁
大數(shù)據(jù)技術(shù)課件第1章_第4頁
大數(shù)據(jù)技術(shù)課件第1章_第5頁
已閱讀5頁,還剩34頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

大數(shù)據(jù)技術(shù)與應(yīng)用第一章大數(shù)據(jù)概論提綱1.1大數(shù)據(jù)概述1.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.3大數(shù)據(jù)的價(jià)值和影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)的處理流程1.6大數(shù)據(jù)成為人工智能產(chǎn)業(yè)的燃料1.7大數(shù)據(jù)技術(shù)的發(fā)展前景習(xí)題小結(jié)21.1大數(shù)據(jù)概述1.1.1大數(shù)據(jù)的定義自2012年以來,“大數(shù)據(jù)”一詞越來越引起人們的關(guān)注。但是,目前為止,在學(xué)術(shù)研究領(lǐng)域和產(chǎn)業(yè)界中,大數(shù)據(jù)并沒有一個(gè)標(biāo)準(zhǔn)的定義。在維克托·邁爾-舍恩伯格編寫的《大數(shù)據(jù)時(shí)代》一書中大數(shù)據(jù)指不用隨機(jī)分析法(抽樣調(diào)查)這樣捷徑,而采用所有數(shù)據(jù)進(jìn)行分析處理。而麥肯錫全球研究所則定義大數(shù)據(jù)為一種規(guī)模大到在獲取、存儲(chǔ)、管理、分析方面大大超出了傳統(tǒng)數(shù)據(jù)庫軟件工具能力范圍的數(shù)據(jù)集合,具有海量的數(shù)據(jù)規(guī)模、快速的數(shù)據(jù)流轉(zhuǎn)、多樣的數(shù)據(jù)類型和價(jià)值密度低四大特征。通常來說,大數(shù)據(jù)是指數(shù)據(jù)量超過一定大小,無法用常規(guī)的軟件在規(guī)定的時(shí)間范圍內(nèi)進(jìn)行抓取、管理和處理的數(shù)據(jù)集合。31.1大數(shù)據(jù)概述1.1.2大數(shù)據(jù)的特征從以上對(duì)大數(shù)據(jù)定義的各種寬泛的描述來看,大數(shù)據(jù)的定義并不可以簡而概之。要想更為深入地了解大數(shù)據(jù)的深層含義,可從大數(shù)據(jù)的主要特征出發(fā)。大數(shù)據(jù)的主要特征可用“5V+1C”來進(jìn)行概括,分別是:數(shù)據(jù)量大(Volume)、數(shù)據(jù)類型多(Variety)、數(shù)據(jù)時(shí)效性強(qiáng)(Velocity)、價(jià)值密度低(Value)、準(zhǔn)確性高(Veracity)、復(fù)雜性高(Complexity),如圖1-1所示。4圖1-1大數(shù)據(jù)特征圖1.1大數(shù)據(jù)概述1.?dāng)?shù)據(jù)量大首先,我們先來看一組公式:1024MB=1GB;1024GB=1TB;1024TB=1PB;1024PB=1EB;1024EB=1ZB。大數(shù)據(jù)的起始計(jì)量單位最少是PB級(jí)以上的。根據(jù)國際數(shù)據(jù)公司(IDC)的《數(shù)據(jù)宇宙》報(bào)告顯示:2008年全球數(shù)據(jù)量為0.5ZB,2010年為1.2ZB,谷歌公司高級(jí)副總裁KentWalker指出:“近年來大數(shù)據(jù)正在以驚人的指數(shù)增長。隨著計(jì)算機(jī)存儲(chǔ)成本的下降,存儲(chǔ)數(shù)據(jù)的量激增。截止到2000年,人類僅存儲(chǔ)大約12EB的數(shù)據(jù),但如今,我們每天產(chǎn)生兩2EB的數(shù)據(jù)。過去兩年的時(shí)間里產(chǎn)生了世界上百分之九十以上的數(shù)據(jù)?!盜DC報(bào)告顯示,預(yù)計(jì)到2020年全球數(shù)據(jù)總量將超過40ZB(相當(dāng)于4萬億GB),這一數(shù)據(jù)量是2011年的22倍。參見圖1-2。5圖1-2數(shù)據(jù)大規(guī)模增長1.1大數(shù)據(jù)概述2.?dāng)?shù)據(jù)類型多從數(shù)據(jù)組織形式的角度來看,數(shù)據(jù)類型可以簡單地被分為:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)以及半結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)能夠用數(shù)據(jù)或統(tǒng)一的結(jié)構(gòu)加以表示,如數(shù)字、符號(hào)等,是傳統(tǒng)的關(guān)系數(shù)據(jù)模型、行數(shù)據(jù),存儲(chǔ)于數(shù)據(jù)庫,可用二維表結(jié)構(gòu)表示。結(jié)構(gòu)化數(shù)據(jù)包括銀行交易數(shù)據(jù)、商品購買信息數(shù)據(jù)等格式嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)庫數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)是指那些無法通過事先定義的數(shù)據(jù)模型表達(dá)或無法存入關(guān)系型數(shù)據(jù)庫表中的數(shù)據(jù),例如辦公文檔、圖片、音頻和視頻等。半結(jié)構(gòu)化數(shù)據(jù)介于完全結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)之間,XML、HTML文檔就屬于半結(jié)構(gòu)化數(shù)據(jù)。它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起,沒有明顯的區(qū)分。數(shù)據(jù)類型如表1-1所示。6大數(shù)據(jù)環(huán)境下的數(shù)據(jù)類型繁多。在早期,絕大部分的數(shù)據(jù)信息是以結(jié)構(gòu)化的表形式存放在數(shù)據(jù)庫中。這些數(shù)據(jù)處理起來比較方便,但是,隨著計(jì)算機(jī)技術(shù)的快速發(fā)展,大數(shù)據(jù)環(huán)境下,半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)在整個(gè)數(shù)據(jù)量中所占的比例大幅度上升。據(jù)統(tǒng)計(jì),在企業(yè)數(shù)據(jù)中,目前已有超過80%的數(shù)據(jù)是以非數(shù)據(jù)結(jié)構(gòu)化的形式存在的,結(jié)構(gòu)化數(shù)據(jù)僅僅占20%不到。多類型的數(shù)據(jù)對(duì)數(shù)據(jù)的處理能力提出了更高的要求。值得注意的是,由于非結(jié)構(gòu)數(shù)據(jù)占據(jù)了大數(shù)據(jù)的統(tǒng)治地位,而其所蘊(yùn)含了無盡的知識(shí)和能量,這就要求現(xiàn)代數(shù)據(jù)處理技術(shù)提出了更高的要求,從算法到架構(gòu),以應(yīng)對(duì)非結(jié)構(gòu)化數(shù)據(jù)增加帶來的挑戰(zhàn)。數(shù)據(jù)類型數(shù)據(jù)類型的描述結(jié)構(gòu)化數(shù)據(jù)結(jié)構(gòu)化的數(shù)據(jù)是指可以使用關(guān)系型數(shù)據(jù)庫表示和存儲(chǔ),如MySQL、Oracle、SQLServer等,表現(xiàn)為二維形式的數(shù)據(jù)。數(shù)據(jù)以行為單位,一行數(shù)據(jù)表示一個(gè)實(shí)體的信息,每一行數(shù)據(jù)的屬性是相同的半結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)屬于同一類實(shí)體可以有不同的屬性,這些屬性可能是數(shù)值型的,也可能是文本型的,還可能是字典或者列表。常見的半結(jié)構(gòu)數(shù)據(jù)有XML和JSON非結(jié)構(gòu)化數(shù)據(jù)就是沒有固定結(jié)構(gòu)的數(shù)據(jù)。各種文檔、圖片、視頻/音頻等都屬于非結(jié)構(gòu)化數(shù)據(jù)。對(duì)于這類數(shù)據(jù),一般直接整體進(jìn)行存儲(chǔ),且存儲(chǔ)為二進(jìn)制的數(shù)據(jù)格式71.1大數(shù)據(jù)概述表1-1數(shù)據(jù)類型3.?dāng)?shù)據(jù)時(shí)效性強(qiáng)數(shù)據(jù)時(shí)效性高意味著對(duì)數(shù)據(jù)的處理速度有更高的要求,以便能夠從數(shù)據(jù)中及時(shí)地提取知識(shí)和能量。在大數(shù)據(jù)環(huán)境下,隨著數(shù)據(jù)量的劇增和數(shù)據(jù)類型逐漸多樣化,數(shù)據(jù)中所隱藏的高時(shí)效性特征顯得越來越突出。在傳統(tǒng)的數(shù)據(jù)分析中,數(shù)據(jù)處理的工作重點(diǎn)更多地放在對(duì)歷史數(shù)據(jù)的挖掘和分析。例如,在預(yù)測(cè)一個(gè)季度商場(chǎng)食品的銷售量,要從過去幾年同一季度同種商品的銷售數(shù)據(jù)來進(jìn)行分析,并就得出的結(jié)果進(jìn)行預(yù)測(cè),最終制定銷售計(jì)劃方案。但是,這種以過長時(shí)間間隙的歷史數(shù)據(jù)為基礎(chǔ)的數(shù)據(jù)分析所作出的計(jì)劃方案往往會(huì)因技術(shù)的革新和市場(chǎng)變化的加劇導(dǎo)致作出的決策分析誤差較大。在這樣的背景下,企業(yè)必須要實(shí)時(shí)分析所擁有的最新數(shù)據(jù),并提取其中有價(jià)值的信息,以產(chǎn)生對(duì)未來的生產(chǎn)具有指導(dǎo)意義的分析結(jié)果。例如,在臺(tái)風(fēng)天氣中,氣象部門應(yīng)實(shí)時(shí)匯報(bào)臺(tái)風(fēng)過境前后的路徑走向。這就需要相關(guān)技術(shù)部門隨時(shí)收集某一刻最新的臺(tái)風(fēng)路徑數(shù)據(jù)進(jìn)行分析,并及時(shí)做好應(yīng)對(duì)措施。81.1大數(shù)據(jù)概述4.價(jià)值密度低隨著物聯(lián)網(wǎng)的廣泛應(yīng)用,信息感知無處不在,產(chǎn)生海量數(shù)據(jù),但這些數(shù)據(jù)價(jià)值密度較低,如何通過強(qiáng)大的機(jī)器學(xué)習(xí)算法迅速地完成數(shù)據(jù)的價(jià)值“提純”,是大數(shù)據(jù)時(shí)代亟待解決的難題。再者,由于大數(shù)據(jù)大容量和數(shù)據(jù)類型多問題,價(jià)值密度低這一特性顯得尤為突出。另一方面,在Value這個(gè)層面,大數(shù)據(jù)要求我們處理的數(shù)據(jù)集是有巨大商業(yè)價(jià)值或社會(huì)價(jià)值的。阿里巴巴愿意花巨大代價(jià)提高推薦系統(tǒng)的準(zhǔn)確性,就是在于其推薦系統(tǒng)的準(zhǔn)確率的提高,能大大提高平臺(tái)的交易量,從而具有非常巨大的商業(yè)價(jià)值。我們?cè)谌珖渴稹疤煅邸毕到y(tǒng),提高大數(shù)據(jù)技術(shù)在天眼系統(tǒng)的分量,就是因?yàn)樘煅巯到y(tǒng)分析能力的一小步提升,都能在降低犯罪率、打擊犯罪、保障人民群眾安全、信用取證等方面都有巨大的社會(huì)價(jià)值。91.1大數(shù)據(jù)概述5.準(zhǔn)確性高準(zhǔn)確性是指數(shù)據(jù)處理結(jié)果的準(zhǔn)確度。大數(shù)據(jù)中的內(nèi)容是與真實(shí)世界中的發(fā)生息息相關(guān)的,研究大數(shù)據(jù)就是從龐大的網(wǎng)絡(luò)數(shù)據(jù)中提取出能夠解釋和預(yù)測(cè)現(xiàn)實(shí)事件的過程,通過大數(shù)據(jù)的分析處理,最后能夠解釋結(jié)果和預(yù)測(cè)未來。在小數(shù)據(jù)時(shí)代,由于小數(shù)據(jù)集搜集數(shù)據(jù)比較困難,因而在分析數(shù)據(jù)時(shí)往往更著重于分析方法,這會(huì)不可避免地產(chǎn)生一些主觀偏差,準(zhǔn)確性不高。大數(shù)據(jù)時(shí)代,通過技術(shù)手段分析全部數(shù)據(jù),準(zhǔn)確性大大提高。101.1大數(shù)據(jù)概述6.復(fù)雜性高111.1大數(shù)據(jù)概述復(fù)雜性是指數(shù)據(jù)本身的復(fù)雜性、計(jì)算的復(fù)雜性和信息系統(tǒng)的復(fù)雜性。數(shù)據(jù)本身的復(fù)雜性表現(xiàn)在圖文檢索、主題發(fā)現(xiàn)、語義分析、情感分析等數(shù)據(jù)分析工作十分困難,其原因是大數(shù)據(jù)涉及復(fù)雜的類型、復(fù)雜的結(jié)構(gòu)和復(fù)雜的模式,數(shù)據(jù)本身具有很高的復(fù)雜性。計(jì)算機(jī)的復(fù)雜性表現(xiàn)在大數(shù)據(jù)計(jì)算不能像處理小樣本數(shù)據(jù)集那樣做全局?jǐn)?shù)據(jù)的統(tǒng)計(jì)分析和迭代計(jì)算,在分析大數(shù)據(jù)時(shí),需要重新審視和研究它的可計(jì)算性、計(jì)算復(fù)雜性和求解算法。大數(shù)據(jù)樣本量巨大,內(nèi)在關(guān)聯(lián)密切而復(fù)雜,價(jià)值密度分布極不均衡,這些特征對(duì)建立大數(shù)據(jù)計(jì)算范式提出了挑戰(zhàn)。對(duì)于PB級(jí)的數(shù)據(jù),即使只有線性復(fù)雜性的計(jì)算也難以實(shí)現(xiàn),而且,由于數(shù)據(jù)分布的稀疏性,可能做了許多無效計(jì)算。系統(tǒng)的復(fù)雜性表現(xiàn)在大數(shù)據(jù)對(duì)計(jì)算機(jī)系統(tǒng)的運(yùn)行效率和能耗提出了苛刻要求,大數(shù)據(jù)處理系統(tǒng)的效能評(píng)價(jià)與優(yōu)化問題具有挑戰(zhàn)性,不但要求理清大數(shù)據(jù)的計(jì)算復(fù)雜性與系統(tǒng)效率、能耗間的關(guān)系,還要綜合度量系統(tǒng)的吞吐率、并行處理能力、作業(yè)計(jì)算精度、作業(yè)單位能耗等多種效能因素。針對(duì)大數(shù)據(jù)的價(jià)值稀疏性和訪問弱局部性的特點(diǎn),需要研究大數(shù)據(jù)的分布式存儲(chǔ)和處理架構(gòu)。提綱1.1大數(shù)據(jù)概述1.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.3大數(shù)據(jù)的價(jià)值和影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)的處理流程1.6大數(shù)據(jù)成為人工智能產(chǎn)業(yè)的燃料1.7大數(shù)據(jù)技術(shù)的發(fā)展前景習(xí)題小結(jié)121.2.1大數(shù)據(jù)的采集

大數(shù)據(jù)采集技術(shù)就是對(duì)數(shù)據(jù)進(jìn)行ETL(Extract–Transform-Load)操作的過程,通過對(duì)數(shù)據(jù)進(jìn)行提取、轉(zhuǎn)換、加載,最終挖掘數(shù)據(jù)的潛在價(jià)值。數(shù)據(jù)采集是大數(shù)據(jù)分析過程中的最基礎(chǔ)的環(huán)節(jié)。由于數(shù)據(jù)產(chǎn)生的種類很多、方式不同,對(duì)于大數(shù)據(jù)采集系統(tǒng),主要分為以下三類系統(tǒng)。1、網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)。2、系統(tǒng)日志采集系統(tǒng)3、數(shù)據(jù)庫采集系統(tǒng)131.2大數(shù)據(jù)分析的過程、技術(shù)及工具1、網(wǎng)絡(luò)數(shù)據(jù)采集系統(tǒng)。通過網(wǎng)絡(luò)爬蟲和一些網(wǎng)站平臺(tái)提供的公共API(如Twitter和新浪微博API)等方式從網(wǎng)站上獲取數(shù)據(jù)。目前常用的網(wǎng)頁爬蟲系統(tǒng)有ApacheNutch、Crawler4j、Scrapy等框架。ApacheNutch是一個(gè)高度可擴(kuò)展和可伸縮性的分布式爬蟲框架,通過提交MapReduce任務(wù)來抓取網(wǎng)頁數(shù)據(jù),可以將網(wǎng)頁數(shù)據(jù)存儲(chǔ)在HDFS分布式文件系統(tǒng)中。Nutch可以進(jìn)行分布式多任務(wù)進(jìn)行爬取數(shù)據(jù),存儲(chǔ)和索引,由多個(gè)機(jī)器并行做爬取任務(wù),Nutch大大提高系統(tǒng)爬取數(shù)據(jù)能力。Crawler4j、Scrapy都是一個(gè)爬蟲框架,開發(fā)人員可以利用爬蟲API接口實(shí)現(xiàn)數(shù)據(jù)的爬取,Crawler4j、Scrapy框架大大降低了開發(fā)人員開發(fā)速率,可以很快的完成一個(gè)爬蟲系統(tǒng)的開發(fā)。141.2大數(shù)據(jù)分析的過程、技術(shù)及工具2、系統(tǒng)日志采集系統(tǒng)。系統(tǒng)日志采集系統(tǒng)就是收集日志數(shù)據(jù)提供離線和在線的實(shí)時(shí)分析數(shù)據(jù)。國內(nèi)一些大的公司如淘寶、百度、騰訊每天都會(huì)產(chǎn)生大量的日志數(shù)據(jù),通過對(duì)這些日志信息進(jìn)行日志采集、收集,然后進(jìn)行數(shù)據(jù)分析挖掘,為公司決策和分析提供可靠的數(shù)據(jù)保障。目前常用的開源日志收集系統(tǒng)有Cloudera-flume、Facebook-scribe、Hadoop-chukwa、kafka等。Cloudera的flume是一個(gè)分布式、可靠、可用的服務(wù),具有基于流式數(shù)據(jù)流的簡單靈活的架構(gòu)。scribe是Facebook開源的日志采集系統(tǒng)。scribe實(shí)際上是一個(gè)分布式共享隊(duì)列,它可以從各種數(shù)據(jù)源上收集日志數(shù)據(jù),然后放入它上面的共享隊(duì)列中。Apache的chukwa是一個(gè)非常新的開源項(xiàng)目,它提供了很多模塊以支持hadoop集群日志分析。kafka采用scala語言編寫,使用了多種效率優(yōu)化機(jī)制,整體架構(gòu)比較新穎(push/pull),更適合異構(gòu)集群。151.2大數(shù)據(jù)分析的過程、技術(shù)及工具3、數(shù)據(jù)庫采集系統(tǒng)目前還有一些企業(yè)會(huì)使用傳統(tǒng)的關(guān)系型數(shù)據(jù)庫MySQL和Oracle等來存儲(chǔ)數(shù)據(jù)。除此之外,Hbase、Redis和MongoDB這樣的NoSQL數(shù)據(jù)庫也常用于數(shù)據(jù)的采集。通過數(shù)據(jù)庫采集系統(tǒng)直接與企業(yè)業(yè)務(wù)后臺(tái)服務(wù)器結(jié)合,將企業(yè)業(yè)務(wù)后臺(tái)每時(shí)每刻都在產(chǎn)生大量的業(yè)務(wù)記錄寫入到數(shù)據(jù)庫中,最后由特定的處理分許系統(tǒng)進(jìn)行系統(tǒng)分析。161.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.2.2大數(shù)據(jù)的存儲(chǔ)方式1.分布式系統(tǒng)分布式系統(tǒng)包含多個(gè)自主的處理單元,通過計(jì)算機(jī)網(wǎng)絡(luò)互連來協(xié)作完成分配的任務(wù),其分而治之的策略能夠更好的處理大規(guī)模數(shù)據(jù)分析問題。主要包含以下兩類:分布式文件系統(tǒng):存儲(chǔ)管理需要多種技術(shù)的協(xié)同工作,其中文件系統(tǒng)為其提供最底層存儲(chǔ)能力的支持。分布式文件系統(tǒng)HDFS(HadoopDistributedFileSystem))是一個(gè)高度容錯(cuò)性系統(tǒng),被設(shè)計(jì)成適用于批量處理,能夠提供高吞吐量的的數(shù)據(jù)訪問,該系統(tǒng)源于Google在2003年10月份發(fā)表的GFS(GoogleFileSystem)論文,它其實(shí)就是GFS的一個(gè)克隆版本。GFS也就是GoogleFileSystem,Google公司為了存儲(chǔ)海量搜索數(shù)據(jù)而設(shè)計(jì)的專用文件系統(tǒng),盡管Google公布了該系統(tǒng)的一些技術(shù)細(xì)節(jié),但Google并沒有將該系統(tǒng)的軟件部分作為開源軟件發(fā)布。171.2大數(shù)據(jù)分析的過程、技術(shù)及工具2.NoSQL數(shù)據(jù)庫關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足Web2.0的需求,主要表現(xiàn)為:無法滿足海量數(shù)據(jù)的管理需求、無法滿足數(shù)據(jù)高并發(fā)的需求、高可擴(kuò)展性和高可用性的功能太低。NoSQL(NotonlySQL)數(shù)據(jù)庫的優(yōu)勢(shì):可以支持超大規(guī)模數(shù)據(jù)存儲(chǔ),靈活的數(shù)據(jù)模型可以很好地支持Web2.0應(yīng)用,具有強(qiáng)大的橫向擴(kuò)展能力等,與數(shù)據(jù)庫管理系統(tǒng)(RDBMS)相比,NoSql不使用SQL作為查詢語言,其存儲(chǔ)可以不需要固定的表模式,通常也會(huì)避免使用RDBMS的JOIN操作,一般都具備水平可擴(kuò)展的特性。NoSQL的實(shí)現(xiàn)具有兩個(gè)特征:使用硬盤和把隨機(jī)存儲(chǔ)器作為存儲(chǔ)載體。按照存儲(chǔ)格式來分,NoSQL可以分為4類:鍵值存儲(chǔ)數(shù)據(jù)庫、列存儲(chǔ)數(shù)據(jù)庫、文檔存儲(chǔ)數(shù)據(jù)庫和圖形數(shù)據(jù)庫。目前比較流程的NoSQL數(shù)據(jù)庫有Casssandra、Luncene、Neo4j、MongoDB和HBase。例如,HBase(HadoopDataBase)是一個(gè)高可靠性、高性能、面向列、可伸縮的分布式數(shù)據(jù)庫系統(tǒng),它使用類似于GFS的HDFS作為底層文件存儲(chǔ)文件,在其上運(yùn)行MapRduce批量處理數(shù)據(jù),使用ZooKeeper作為協(xié)同服務(wù)組件。181.2大數(shù)據(jù)分析的過程、技術(shù)及工具3.云數(shù)據(jù)庫云數(shù)據(jù)庫是基于云計(jì)算技術(shù)發(fā)展的一種共享基礎(chǔ)架構(gòu)的方法,是部署和虛擬化在云計(jì)算環(huán)境中的數(shù)據(jù)庫。云數(shù)據(jù)庫并非一種全新的數(shù)據(jù)庫技術(shù),而只是以服務(wù)的方式提供數(shù)據(jù)庫功能。云數(shù)據(jù)庫所采用的數(shù)據(jù)模型可以是關(guān)系數(shù)據(jù)庫所使用的關(guān)系模型(微軟的SQLAzure云數(shù)據(jù)庫都采用了關(guān)系模型),同一個(gè)公司也可能提供采用不同數(shù)據(jù)模型的多種云數(shù)據(jù)庫服務(wù)。191.2大數(shù)據(jù)分析的過程、技術(shù)及工具4.大數(shù)據(jù)存儲(chǔ)技術(shù)路線20第一種是采用大規(guī)模并行處理(MassivelyParallelProcessor,MPP)架構(gòu)的新型數(shù)據(jù)庫集群,重點(diǎn)面向行業(yè)大數(shù)據(jù),采用SharedNothing架構(gòu),通過列存儲(chǔ)、粗粒度索引等多項(xiàng)大數(shù)據(jù)處理技術(shù),再結(jié)合MPP架構(gòu)高效的分布式計(jì)算模式,完成對(duì)分析類應(yīng)用的支撐,運(yùn)行環(huán)境多為低成本PCServer,具有高性能和高擴(kuò)展性的特點(diǎn),對(duì)于企業(yè)新一代的數(shù)據(jù)倉庫和結(jié)構(gòu)化數(shù)據(jù)分析,目前最佳選擇是MPP數(shù)據(jù)庫。第二種是基于Hadoop的技術(shù)擴(kuò)展和封裝,目前最為典型的應(yīng)用場(chǎng)景就是通過擴(kuò)展和封裝Hadoop來實(shí)現(xiàn)對(duì)互聯(lián)網(wǎng)大數(shù)據(jù)存儲(chǔ)、分析的支撐。這里面有幾十種NoSQL技術(shù),也在進(jìn)一步的細(xì)分。對(duì)于非結(jié)構(gòu)、半結(jié)構(gòu)化數(shù)據(jù)處理、復(fù)雜的ETL流程、復(fù)雜的數(shù)據(jù)挖掘和計(jì)算模型,Hadoop平臺(tái)更擅長。第三種是大數(shù)據(jù)一體機(jī),這是一種專為大數(shù)據(jù)的分析處理而設(shè)計(jì)的軟、硬件結(jié)合的產(chǎn)品,由一組集成的服務(wù)器、存儲(chǔ)設(shè)備、操作系統(tǒng)、數(shù)據(jù)庫管理系統(tǒng)以及為數(shù)據(jù)查詢、處理、分析用途而特別預(yù)先安裝及優(yōu)化的軟件組成,高性能大數(shù)據(jù)一體機(jī)具有良好的穩(wěn)定性和縱向擴(kuò)展性。1.2大數(shù)據(jù)分析的過程、技術(shù)及工具211.2.3大數(shù)據(jù)分析技術(shù)數(shù)據(jù)存儲(chǔ)之后,對(duì)數(shù)據(jù)的分布式處理工具有hadoop、MapReduce、Storm/JStorm、Samza和Spark,以及在此之上的各種不同計(jì)算范式,如批處理、流處理和圖計(jì)算等,包括衍生出編程模型的計(jì)算模型,如BSP、GAS等。MapReduce,一般用于處理大規(guī)模數(shù)據(jù)集,例如業(yè)務(wù)方累計(jì)的歷史數(shù)據(jù),是一種典型的批處理系統(tǒng)。Storm/JStorm,一般用于處理連續(xù)不斷的數(shù)據(jù)流,注重?cái)?shù)據(jù)處理的時(shí)效性。ApacheSamza是一個(gè)分布式的流處理框架,它使用ApacheKafka來傳遞消息,使用ApacheHadoopYARN來提供容錯(cuò)、安全和資源管理等功能。1.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.2大數(shù)據(jù)分析的過程、技術(shù)及工具22為了能同時(shí)進(jìn)行批處理和流處理,出現(xiàn)了基于內(nèi)存的Spark計(jì)算框架,Spark是一個(gè)高速、通用的集群計(jì)算系統(tǒng),它為Java、Scala、Python以及R語言都提供了應(yīng)用程序接口,它也是最佳的支持通用執(zhí)行圖的引擎,不僅如此,Spark也提供了非常豐富的插件工具,其中包括為SQL設(shè)計(jì)的SparkSQL、結(jié)構(gòu)化的數(shù)據(jù)處理工具、機(jī)器學(xué)習(xí)庫MLlib、圖像處理工具GraphX和SparkStreaming。Hive是Facebook團(tuán)隊(duì)開發(fā)的一個(gè)可以支持PB級(jí)別的可伸縮性的數(shù)據(jù)倉庫。這是一個(gè)建立在Hadoop之上的開源數(shù)據(jù)倉庫解決方案。Pig是一個(gè)基于Hadoop的大規(guī)模數(shù)據(jù)分析平臺(tái),它提供的SQL-LIKE語言叫PigLatin,該語言的編譯器會(huì)把類SQL的數(shù)據(jù)分析請(qǐng)求轉(zhuǎn)換為一系列經(jīng)過優(yōu)化處理的MapReduce運(yùn)算。Pig為復(fù)雜的海量數(shù)據(jù)并行計(jì)算提供了一個(gè)簡單的操作和編程接口。231.2.4大數(shù)據(jù)的展示及應(yīng)用可視化技術(shù)是利用計(jì)算機(jī)圖形學(xué)及圖像處理技術(shù),將數(shù)據(jù)轉(zhuǎn)換為圖形或圖像形式顯示到屏幕上,并進(jìn)行交互處理的理論、方法和技術(shù)。數(shù)據(jù)可視化是指以圖形或圖表格式通過人工或以其他方式組織和顯示數(shù)據(jù)。常用的大數(shù)據(jù)可視化工具有:Echarts、D3.js、Tableau等。Echarts是百度公司的前端開源工具,一個(gè)使用Javascript實(shí)現(xiàn)的開源可視化庫,可以流暢的運(yùn)行在PC和移動(dòng)設(shè)備上。D3是一個(gè)采用Java編寫的開源庫,其目標(biāo)是允許使用標(biāo)準(zhǔn)網(wǎng)頁瀏覽技術(shù)(如HTML或CSS)輕松地處理基于數(shù)據(jù)的文檔。Tableau是一種商業(yè)智能軟件,旨在幫助人們查看和理解數(shù)據(jù)。1.2大數(shù)據(jù)分析的過程、技術(shù)及工具提綱1.1大數(shù)據(jù)概述1.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.3大數(shù)據(jù)的價(jià)值和影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)的處理流程1.6大數(shù)據(jù)成為人工智能產(chǎn)業(yè)的燃料1.7大數(shù)據(jù)技術(shù)的發(fā)展前景習(xí)題小結(jié)241.3大數(shù)據(jù)的價(jià)值和影響251.3.1商業(yè)價(jià)值1.對(duì)顧客群體細(xì)分,然后對(duì)每個(gè)群體量體裁衣地采取獨(dú)特的行動(dòng)2.運(yùn)用大數(shù)據(jù)模擬實(shí)境,發(fā)掘新的需求和提高利潤3.提高大數(shù)據(jù)成果在各相關(guān)部門的分享程度,提高企業(yè)決策能力4.進(jìn)行商業(yè)模式、產(chǎn)品和服務(wù)的創(chuàng)新1.3.2社會(huì)生活價(jià)值首先,大數(shù)據(jù)可以為個(gè)人提供個(gè)性化的醫(yī)療服務(wù)。其次,在大數(shù)據(jù)的支持下,教育將呈現(xiàn)另外的特征:彈性學(xué)制、個(gè)性化輔導(dǎo)、社區(qū)和家庭學(xué)習(xí)。再者,大數(shù)據(jù)的誕生讓社會(huì)安全管理更為井然有序。最后,大數(shù)據(jù)的發(fā)展帶動(dòng)了社會(huì)上各行各業(yè)的發(fā)展。1.3大數(shù)據(jù)的價(jià)值和影響261.3.3大數(shù)據(jù)的挑戰(zhàn)與風(fēng)險(xiǎn)一方面,與傳統(tǒng)數(shù)據(jù)相比,數(shù)據(jù)量源源不斷地增加,容易導(dǎo)致很多不正確的數(shù)據(jù)寫入數(shù)據(jù)庫中。況且,大數(shù)據(jù)包括不同的信息來源,多種多樣的數(shù)據(jù)增大出現(xiàn)混亂的概率。面對(duì)各種錯(cuò)綜復(fù)雜的海量數(shù)據(jù),無疑研究者從中分析數(shù)據(jù)找到確定性結(jié)論的難度增大。另外,由于大數(shù)據(jù)容量大問題(至少PB級(jí)以上),存儲(chǔ)系統(tǒng)需要有一定的擴(kuò)展能力。另一方面,一些安全性問題也因大數(shù)據(jù)的應(yīng)用而逐漸呈現(xiàn)出來。提綱1.1大數(shù)據(jù)概述1.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.3大數(shù)據(jù)的價(jià)值和影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)的處理流程1.6大數(shù)據(jù)成為人工智能產(chǎn)業(yè)的燃料1.7大數(shù)據(jù)技術(shù)的發(fā)展前景習(xí)題小結(jié)271.4大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用行業(yè)包含包含電子商務(wù)、醫(yī)療、教育、金融科技、農(nóng)業(yè)、旅游、氣象、物流、企業(yè)服務(wù)、汽車、等諸多產(chǎn)業(yè),如圖1-3所示。28圖1-3大數(shù)據(jù)的應(yīng)用行業(yè)提綱1.1大數(shù)據(jù)概述1.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.3大數(shù)據(jù)的價(jià)值和影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)的處理流程1.6大數(shù)據(jù)成為人工智能產(chǎn)業(yè)的燃料1.7大數(shù)據(jù)技術(shù)的發(fā)展前景習(xí)題小結(jié)291.5大數(shù)據(jù)的處理流程大數(shù)據(jù)的處理流程基本可劃分為數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個(gè)階段。即經(jīng)數(shù)據(jù)源獲取的數(shù)據(jù),因?yàn)槠鋽?shù)據(jù)結(jié)構(gòu)不同(包括結(jié)構(gòu)、半結(jié)構(gòu)和非結(jié)構(gòu)數(shù)據(jù)),用特殊方法進(jìn)行數(shù)據(jù)處理和集成,將其轉(zhuǎn)變?yōu)榻y(tǒng)一標(biāo)準(zhǔn)的數(shù)據(jù)格式方便以后對(duì)其進(jìn)行處理;然后用合適的數(shù)據(jù)分析方法將這些數(shù)據(jù)進(jìn)行處理分析,并將分析的結(jié)果利用可視化等技術(shù)展現(xiàn)給用戶,這就是整個(gè)大數(shù)據(jù)處理的流程如圖1-4所示。301.5大數(shù)據(jù)的處理流程31圖1-4大數(shù)據(jù)的處理流程提綱1.1大數(shù)據(jù)概述1.2大數(shù)據(jù)分析的過程、技術(shù)及工具1.3大數(shù)據(jù)的價(jià)值和影響1.4大數(shù)據(jù)的應(yīng)用1.5大數(shù)據(jù)的處理流程1.6大數(shù)據(jù)成為人工智能產(chǎn)業(yè)的燃料1.7大數(shù)據(jù)技術(shù)的發(fā)展前景習(xí)題小結(jié)321.6大數(shù)據(jù)成為人工智能產(chǎn)業(yè)的燃料人工智能實(shí)現(xiàn)最大的飛躍是大規(guī)模并行處理器的出現(xiàn),特別是GPU,它是具有數(shù)千個(gè)內(nèi)核的大規(guī)模并行處理單元,而不是CPU中的幾十個(gè)并行處理單元。這大大加快了現(xiàn)有的人工智能算法的速度。人工智能應(yīng)用的數(shù)據(jù)越多,其獲得的結(jié)果就越準(zhǔn)確。在過去,人工智能由于處理器速度慢、數(shù)據(jù)量小而不能很好地工作。也沒有先進(jìn)的傳感器,并且當(dāng)時(shí)互聯(lián)網(wǎng)還沒有廣泛使用,所以很難提供實(shí)時(shí)數(shù)據(jù)。如今,人們擁有所需要的一切:快速的處理器、輸入設(shè)備、網(wǎng)絡(luò)和大量的數(shù)據(jù)集。毫無疑問

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論