大數(shù)據(jù)管理概念技術(shù)與挑戰(zhàn)_第1頁(yè)
大數(shù)據(jù)管理概念技術(shù)與挑戰(zhàn)_第2頁(yè)
大數(shù)據(jù)管理概念技術(shù)與挑戰(zhàn)_第3頁(yè)
大數(shù)據(jù)管理概念技術(shù)與挑戰(zhàn)_第4頁(yè)
大數(shù)據(jù)管理概念技術(shù)與挑戰(zhàn)_第5頁(yè)
已閱讀5頁(yè),還剩31頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)

孟小峰慈祥(中國(guó)人民大學(xué)信息學(xué)院北京100872)

摘要云計(jì)算、物聯(lián)網(wǎng)、社交網(wǎng)絡(luò)等新興服務(wù)促使人類(lèi)社會(huì)的數(shù)據(jù)種類(lèi)和規(guī)模

正以前所未有的速度增長(zhǎng),大數(shù)據(jù)時(shí)代正式到來(lái).數(shù)據(jù)從簡(jiǎn)單的處理對(duì)象開(kāi)始

轉(zhuǎn)變?yōu)橐环N基礎(chǔ)性資源,如何更好地管理和利用大數(shù)據(jù)已經(jīng)成為普遍關(guān)注的

話題.大數(shù)據(jù)的規(guī)模效應(yīng)給數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析帶來(lái)了極大的挑戰(zhàn),

數(shù)據(jù)管理方式上的變革正在醞釀和發(fā)生.對(duì)大數(shù)據(jù)的基本概念進(jìn)行剖析,并對(duì)

大數(shù)據(jù)的主要應(yīng)用作簡(jiǎn)單對(duì)比.在此基礎(chǔ)上,闡述大數(shù)據(jù)處理的基本框架,并

就云計(jì)算技術(shù)對(duì)于大數(shù)據(jù)時(shí)代數(shù)據(jù)管理所產(chǎn)生的作用進(jìn)行分析.最后歸納總

結(jié)大數(shù)據(jù)時(shí)代所面臨的新挑戰(zhàn).關(guān)鍵詞大數(shù)據(jù);數(shù)據(jù)分析;云計(jì)算中圖法分類(lèi)號(hào)

TP311

隨著以博客、社交網(wǎng)絡(luò)、基于位置的服務(wù)LBS為代表的新型信息發(fā)布方

式的不斷涌現(xiàn),以及云計(jì)算、物聯(lián)網(wǎng)等技術(shù)的興起,數(shù)據(jù)正以前所未有的速度在

不斷地增長(zhǎng)和累積,大數(shù)據(jù)時(shí)代已經(jīng)來(lái)到.學(xué)術(shù)界、工業(yè)界甚至于政府機(jī)構(gòu)都已

經(jīng)開(kāi)始密切關(guān)注大數(shù)據(jù)問(wèn)題,并對(duì)其產(chǎn)生濃厚的興趣.就學(xué)術(shù)界而言,《Na

ture》早在2008年就推出了BigData專(zhuān)刊1].計(jì)算社區(qū)聯(lián)

盟(ComputingCommunityConsortium)在

2008年發(fā)表了報(bào)告“Bigdatacomputing:Creat

ingrevolutionarybreakthroughsi

ncommerce,science,

andsociety"[2],闡述了在數(shù)據(jù)驅(qū)動(dòng)的研究背景下,解決大數(shù)

據(jù)問(wèn)題所需的技術(shù)以及面臨的一些挑戰(zhàn).《Science》在2011年

2月推出專(zhuān)刊"Dea1ingwithData"[3],主要圍繞著科學(xué)研

究中大數(shù)據(jù)的問(wèn)題展開(kāi)討論,說(shuō)明大數(shù)據(jù)對(duì)于科學(xué)研究的重要性美國(guó)一些知

名的數(shù)據(jù)管理領(lǐng)域的專(zhuān)家學(xué)者則從專(zhuān)業(yè)的研究角度出發(fā),聯(lián)合發(fā)布了一份白

皮書(shū)《ChallengesandOpportunitieswi

thBigData》[4].該白皮書(shū)從學(xué)術(shù)的角度出發(fā)介紹了大數(shù)據(jù)的

產(chǎn)生,分析了大數(shù)據(jù)的處理流程,并提出大數(shù)據(jù)所面臨的若干挑戰(zhàn)全球知名

的咨詢(xún)公司麥肯錫(McKinsey)2011年6月份發(fā)布了一份關(guān)于大

數(shù)據(jù)的詳盡報(bào)告"Bigdata:Thenextfrontierfo

rinnovation,competition,andprodu

ctivityH[5],對(duì)大數(shù)據(jù)的影響、關(guān)鍵技術(shù)和應(yīng)用領(lǐng)域等都進(jìn)行

了詳盡的分析.進(jìn)入2012年以來(lái),大數(shù)據(jù)的關(guān)注度與日俱增.1月份的達(dá)

沃斯世界經(jīng)濟(jì)論壇上,大數(shù)據(jù)是主題之一,該次會(huì)議還特別針對(duì)大數(shù)據(jù)發(fā)布了報(bào)

告“Bigdata,bigimpact:Newpossibi1it

iesforinternationa1deve1opmen

t"[6],探討了新的數(shù)據(jù)產(chǎn)生方式下,如何更好地利用數(shù)據(jù)來(lái)產(chǎn)生良好的社

會(huì)效益.該報(bào)告重點(diǎn)關(guān)注了個(gè)人產(chǎn)生的移動(dòng)數(shù)據(jù)與其他數(shù)據(jù)的融合與利用

.3月份美國(guó)奧巴馬政府發(fā)布了“大數(shù)據(jù)研究和發(fā)展倡議”[7IBigd

ataresearchanddeve1opmentiniti

ative),投資2億以上美元,正式啟動(dòng)“大數(shù)據(jù)發(fā)展計(jì)劃”.計(jì)劃在科學(xué)研

究、環(huán)境、生物醫(yī)學(xué)等領(lǐng)域利用大數(shù)據(jù)技術(shù)進(jìn)行突破.奧巴馬政府的這一計(jì)劃

被視為美國(guó)政府繼信息高速公路(InformationHighwa

y)計(jì)劃之后在信息科學(xué)領(lǐng)域的又一重大舉措.與此同時(shí),聯(lián)合國(guó)一個(gè)名為"G1

oba1Pulse"的倡議項(xiàng)目在今年5月發(fā)布報(bào)告"Bigdata

fordeve1opment:Cha11enges&oppor

tunities"[8],該報(bào)告主要闡述大數(shù)據(jù)時(shí)代各國(guó)特別是發(fā)展中國(guó)家

在面臨數(shù)據(jù)洪流(datade1uge)的情況下所遇到的機(jī)遇與挑戰(zhàn),

同時(shí)還對(duì)大數(shù)據(jù)的應(yīng)用進(jìn)行了初步的解讀.《紐約時(shí)報(bào)》的文章"Theageo

fbigdata”[9]則通過(guò)主流媒體的宣傳使普通民眾開(kāi)始意識(shí)到

大數(shù)據(jù)的存在,以及大數(shù)據(jù)對(duì)于人們?nèi)粘I畹挠绊?大數(shù)據(jù)的火熱并不意

味著對(duì)于大數(shù)據(jù)的了解深入,反而表明大數(shù)據(jù)存在過(guò)度炒作的危險(xiǎn).大數(shù)據(jù)

的基本概念、關(guān)鍵技術(shù)以及對(duì)其利用上均存在很多的疑問(wèn)和爭(zhēng)議.本文從大數(shù)

據(jù)問(wèn)題背后的本質(zhì)出發(fā),對(duì)現(xiàn)有的大數(shù)據(jù)研究資料進(jìn)行全面的歸納和總結(jié)

.首先簡(jiǎn)要介紹大數(shù)據(jù)的基本概念,闡述其同傳統(tǒng)數(shù)據(jù)庫(kù)的區(qū)別.在此基礎(chǔ)上

,對(duì)大數(shù)據(jù)處理框架進(jìn)行詳細(xì)解析.我們認(rèn)為大數(shù)據(jù)的發(fā)展離不開(kāi)云計(jì)算技

術(shù),云計(jì)算支撐著大數(shù)據(jù)存儲(chǔ)、管理以及數(shù)據(jù)分析等.因此本文展開(kāi)介紹了大數(shù)

據(jù)時(shí)代不可或缺的云計(jì)算技術(shù)和工具.最后全面闡述大數(shù)據(jù)時(shí)代面臨的新挑

戰(zhàn).

1大數(shù)據(jù)的基本概念、來(lái)源與應(yīng)用

1.1大數(shù)據(jù)的基本概念大數(shù)據(jù)本身是一個(gè)比較抽象的概念,單從字面

來(lái)看,它表示數(shù)據(jù)規(guī)模的龐大.但是僅僅數(shù)量上的龐大顯然無(wú)法看出大數(shù)據(jù)這

一概念和以往的“海量數(shù)據(jù)"(massivedata)."超大規(guī)模數(shù)據(jù)"

(very1argedata)等概念之間有何區(qū)別.對(duì)于大數(shù)據(jù)尚未有一

個(gè)公認(rèn)的定義,不同的定義基本是從大數(shù)據(jù)的特征出發(fā),通過(guò)這些特征的

闡述和歸納試圖給出其定義.在這些定義中,比較有代表性的是3V定義[1

0],即認(rèn)為大數(shù)據(jù)需滿足3個(gè)特點(diǎn):規(guī)模性(volume)、多樣性(vari

ety)和高速性(ve1。city).除此之外,還有提出4V定義的,即嘗

試在3V的基礎(chǔ)上增加一個(gè)新的特性.關(guān)于第4個(gè)V的說(shuō)法并不統(tǒng)一,國(guó)際

數(shù)據(jù)公司(Internationa1DataCorporatio

n,IDC)認(rèn)為大數(shù)據(jù)還應(yīng)當(dāng)具有價(jià)值性(value)[11],大數(shù)據(jù)的價(jià)

值往往呈現(xiàn)出稀疏性的特點(diǎn).而IBM認(rèn)為大數(shù)據(jù)必然具有真實(shí)性(vera

city)[12],維基百科對(duì)大數(shù)據(jù)的定義[13]則簡(jiǎn)單明了:大數(shù)據(jù)是

指利用常用軟件工具捕獲、管理和處理數(shù)據(jù)所耗時(shí)間超過(guò)可容忍時(shí)間的數(shù)據(jù)

集.眼下在大數(shù)據(jù)定義問(wèn)題上很難達(dá)成一個(gè)完全的共識(shí),這點(diǎn)和云計(jì)算的概

念剛提出時(shí)的情況是相似的.在面對(duì)實(shí)際問(wèn)題時(shí),不必過(guò)度地拘泥于具體的定

義之中,在把握3V定義的基礎(chǔ)上適當(dāng)?shù)乜紤]4V特性即可.1.2從數(shù)據(jù)庫(kù)

(database,DB)到大數(shù)據(jù)(bigdata,BD)從數(shù)據(jù)庫(kù)到大數(shù)

據(jù),看似只是一個(gè)簡(jiǎn)單的技術(shù)演進(jìn),但細(xì)細(xì)考究不難發(fā)現(xiàn)兩者有著本質(zhì)上的差

別.大數(shù)據(jù)的出現(xiàn)必將顛覆傳統(tǒng)的數(shù)據(jù)管理方式.在數(shù)據(jù)來(lái)源、數(shù)據(jù)處理方式和

數(shù)據(jù)思維等方面都會(huì)對(duì)其帶來(lái)革命性的變化.如果要用簡(jiǎn)單的方式來(lái)匕檄傳統(tǒng)

的數(shù)據(jù)庫(kù)和大數(shù)據(jù)的區(qū)別,我們認(rèn)為"池塘捕魚(yú)"和"大海捕魚(yú)”是個(gè)很好的類(lèi)

比."池塘捕魚(yú)”代表著傳統(tǒng)數(shù)據(jù)庫(kù)時(shí)代的數(shù)據(jù)管理方式,而"大海捕魚(yú)"則對(duì)應(yīng)

著大數(shù)據(jù)時(shí)代的數(shù)據(jù)管理方式,"魚(yú)”是待處理的數(shù)據(jù)."捕魚(yú)"環(huán)境條件的變化

導(dǎo)致了"捕魚(yú)”方式的根本性差異.這些差異主要體現(xiàn)在如下幾個(gè)方面:1)數(shù)據(jù)

規(guī)模."池塘"和"大海"最容易發(fā)現(xiàn)的區(qū)別就是規(guī)模."池塘"規(guī)模相對(duì)較小,

即便是先前認(rèn)為比較大的“池塘",譬如VLDB(verylargeda

tabase),和"大海"XLDB(extreme1ylarged

atabase)相比仍舊偏小."池塘"的處理對(duì)象通常以MB為基本單位,

而“大海"則常常以GB,甚至是TB,PB為基本處理單位.2)數(shù)據(jù)類(lèi)型.過(guò)

去的"池塘"中,數(shù)據(jù)的種類(lèi)單一,往往僅僅有一種或少數(shù)幾種,這些數(shù)據(jù)又以

結(jié)構(gòu)

化數(shù)據(jù)為主.而在"大海"中數(shù)據(jù)的種類(lèi)繁多,數(shù)以千計(jì),而這些數(shù)據(jù)又包含著結(jié)

構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化的數(shù)據(jù),并且半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)所占份

額越來(lái)越大.3)模式(schema)和數(shù)據(jù)的關(guān)系.傳統(tǒng)的數(shù)據(jù)庫(kù)都是先有

模式,然后才會(huì)產(chǎn)生數(shù)據(jù).這就好比是先選好合適的“池塘",然后才會(huì)向其中

投放適合在該“池塘"環(huán)境生長(zhǎng)的"魚(yú)".而大數(shù)據(jù)時(shí)代很多情況下難以預(yù)先確

定模式,模式只有在數(shù)據(jù)出現(xiàn)之后才能確定,且模式隨著數(shù)據(jù)量的增長(zhǎng)處于

不斷的演變之中.這就好比先有少量的魚(yú)類(lèi),隨著時(shí)間推移,魚(yú)的種類(lèi)和數(shù)

量都在不斷地增長(zhǎng).魚(yú)的變化會(huì)使大海的成分和環(huán)境處于不斷的變化之

中.4)處理對(duì)象.在“池塘"中捕魚(yú),"魚(yú)”僅僅是其捕撈對(duì)象.而在“大海"中,"魚(yú)"

除了是捕撈對(duì)象之外,還可以通過(guò)某些"魚(yú)"的存在來(lái)判斷其他種類(lèi)的"魚(yú)"

是否存在.也就是說(shuō)傳統(tǒng)數(shù)據(jù)庫(kù)中數(shù)據(jù)僅作為處理對(duì)象.而在大數(shù)據(jù)時(shí)代,要將

數(shù)據(jù)作為一種資源來(lái)輔助解決其他諸多領(lǐng)域的問(wèn)題.5)處理工具.捕撈"池塘”

中的"魚(yú)",一種漁網(wǎng)或少數(shù)幾種基本就可以應(yīng)對(duì),也就是所謂的One

sizefitsall.但是在"大海"中,不可能存在一種漁網(wǎng)能夠捕獲

所有的魚(yú)類(lèi),也就是說(shuō)Nosizefitsall.從"池塘"到]"大

?!辈粌H僅是規(guī)模的變大傳統(tǒng)的數(shù)據(jù)庫(kù)代表著數(shù)據(jù)工程dataengin

eering)的處理方式,大數(shù)據(jù)時(shí)代的數(shù)據(jù)已不僅僅只是工程處理的

對(duì)象,需要采取新的數(shù)據(jù)思維來(lái)應(yīng)對(duì).圖靈獎(jiǎng)獲得者、著名數(shù)據(jù)庫(kù)專(zhuān)家Jim

Gray博士觀察并總結(jié)人類(lèi)自古以來(lái),在科學(xué)研究上,先后歷經(jīng)了實(shí)驗(yàn)、理論

和計(jì)算3種范式.當(dāng)數(shù)據(jù)量不斷增長(zhǎng)和累積到今天,傳統(tǒng)的3種范式在科學(xué)研

究,特別是一些新的研究領(lǐng)域已經(jīng)無(wú)法很好地發(fā)揮作用,需要有一種全新的第

4種范式來(lái)指導(dǎo)新形勢(shì)下的科學(xué)研究.基于這種考慮,JimGray提出

了一種新的數(shù)據(jù)探索型研究方式,被他自己稱(chēng)之為科學(xué)研究的"第4種范式"

(TheFourthParadigm)[14],4種范式的比較如表1

[14]所示.第4種范式的實(shí)質(zhì)就是從以計(jì)算為中心轉(zhuǎn)變到以數(shù)據(jù)處理為

中心,也就是我們所說(shuō)的數(shù)據(jù)思維.這種方式需要我們從根本上轉(zhuǎn)變思維.正如

前面提至II的“捕魚(yú)",在大數(shù)據(jù)時(shí)代,數(shù)據(jù)不再僅僅是"捕撈"的對(duì)象,而應(yīng)當(dāng)轉(zhuǎn)變

成一種基礎(chǔ)資源,用數(shù)據(jù)這種資源來(lái)協(xié)同解決其他諸多領(lǐng)域的問(wèn)題.計(jì)算社會(huì)科

學(xué)(computationa1socia1science)[1

5]基于特定社會(huì)需求,在特定的社會(huì)理論指導(dǎo)下,收集、整理和分析數(shù)據(jù)足跡

(dataprint),以便進(jìn)行社會(huì)解釋、監(jiān)控、預(yù)測(cè)與規(guī)劃的過(guò)程和活

動(dòng).計(jì)算社會(huì)科學(xué)是一種典型的需要采用第4種范式來(lái)作指導(dǎo)的科學(xué)研究領(lǐng)域

.Watts在《Nature》雜志上的文章”Atwenty-fir

stcenturysciencef,[16]也指出,借助于社交網(wǎng)

絡(luò)和計(jì)算機(jī)分析技術(shù),21世紀(jì)的社會(huì)科學(xué)有可能實(shí)現(xiàn)定量化的研究,從而成為

-門(mén)真正的自然科學(xué).

Table1FourScienceParadigms表1

科學(xué)發(fā)現(xiàn)的4種范式

ScienceParadigmsTimeMethodo1ogy

Empirica1ThousandyearsagoDescr

ibingnatura1phenomena

Theoretica1Lastfewhundredyears

Usingmodels7genera1izations

Computationa1LastfewdecadesSim

u1atingcomp1exphenomena

DataxP1orationeScienee)

Today

Datacapturedbyinstrumentsor9

eneraedbysimu1ator;Processedby

software;

Informationstoredincomputer;Sci

entistanalyzesdatabase

1.3大數(shù)據(jù)的產(chǎn)生和應(yīng)用人類(lèi)歷史上從未有哪個(gè)時(shí)代和今天一樣產(chǎn)生如

此海量的數(shù)據(jù).數(shù)據(jù)的產(chǎn)生已經(jīng)完全不受時(shí)間、地點(diǎn)的限制.從開(kāi)始采用數(shù)據(jù)庫(kù)

作為數(shù)據(jù)管理的主要方式開(kāi)始,人類(lèi)社會(huì)的數(shù)據(jù)產(chǎn)生方式大致經(jīng)歷了3個(gè)階

段,而正是數(shù)據(jù)產(chǎn)生方式的巨大變化才最終導(dǎo)致大數(shù)據(jù)的產(chǎn)生.1)運(yùn)營(yíng)式系統(tǒng)

階段.數(shù)據(jù)庫(kù)的出現(xiàn)使得數(shù)據(jù)管

理的復(fù)雜度大大降低,實(shí)際中數(shù)據(jù)庫(kù)大都為運(yùn)營(yíng)系統(tǒng)所采用,作為運(yùn)營(yíng)系統(tǒng)的數(shù)

據(jù)管理子系統(tǒng),比如超市的銷(xiāo)售記錄系統(tǒng)、銀行的交易記錄系統(tǒng)、醫(yī)院病人的醫(yī)療

記錄等.人類(lèi)社會(huì)數(shù)據(jù)量第1次大的飛躍正是建立在運(yùn)營(yíng)式系統(tǒng)開(kāi)始廣泛使

用數(shù)據(jù)庫(kù)這個(gè)階段最主要特點(diǎn)是數(shù)據(jù)往往伴隨著一定的運(yùn)營(yíng)活動(dòng)而產(chǎn)生并記

錄在數(shù)據(jù)庫(kù)中,比如超市每銷(xiāo)售出T牛產(chǎn)品就會(huì)在數(shù)據(jù)庫(kù)中產(chǎn)生相應(yīng)的一條

銷(xiāo)售記錄.這種

數(shù)據(jù)的產(chǎn)生方式是被動(dòng)的.2)用戶原創(chuàng)內(nèi)容階段.互聯(lián)網(wǎng)的誕生促使人類(lèi)社

會(huì)數(shù)據(jù)量出現(xiàn)第2次大的飛躍.但是真正的數(shù)據(jù)爆發(fā)產(chǎn)生于Web2.0時(shí)

代,而Web2.0的最重要標(biāo)志就是用戶原創(chuàng)內(nèi)容usergenera

tedcontent,UGC).這類(lèi)數(shù)據(jù)近幾年一直呈現(xiàn)爆炸性的增長(zhǎng),

主要有兩方面的原因:首先是以博客、微博為代表的新型社交網(wǎng)絡(luò)的出現(xiàn)和

快速發(fā)展,使得用戶產(chǎn)生數(shù)據(jù)的意愿更加強(qiáng)烈;其次就是以智能手機(jī)、平板電腦

為代表的新型移動(dòng)設(shè)備的出現(xiàn),這些易攜帶、全天候接入網(wǎng)絡(luò)的移動(dòng)設(shè)備使

得人們?cè)诰W(wǎng)上發(fā)表自己意見(jiàn)的途徑更為便捷,這個(gè)階段數(shù)據(jù)的產(chǎn)生方式是主動(dòng)

的.3)感知式系統(tǒng)階段.人類(lèi)社會(huì)數(shù)據(jù)量第3次大的飛躍最終導(dǎo)致了大數(shù)

據(jù)的產(chǎn)生,今天我們正處于這個(gè)階段.這次飛躍的根本原因在于感知式系統(tǒng)的

廣泛使用.隨著技術(shù)的發(fā)展,人們已經(jīng)有能力制造極其微小的帶有處理功能的

傳感器,并開(kāi)始將這些設(shè)備廣泛地布置于社會(huì)的各個(gè)角落,通過(guò)這些設(shè)備來(lái)對(duì)

整個(gè)社會(huì)的運(yùn)轉(zhuǎn)進(jìn)行監(jiān)控.這些設(shè)備會(huì)源源不斷地產(chǎn)生新數(shù)據(jù),這種數(shù)據(jù)的產(chǎn)

生方式是自動(dòng)的.簡(jiǎn)單來(lái)說(shuō),數(shù)據(jù)產(chǎn)生經(jīng)歷了被動(dòng)、主動(dòng)和自動(dòng)3個(gè)階段.這些被

動(dòng)、主動(dòng)和自動(dòng)的數(shù)據(jù)共同構(gòu)成了大數(shù)據(jù)的數(shù)據(jù)來(lái)源,但其中自動(dòng)式的數(shù)據(jù)才

是大數(shù)據(jù)產(chǎn)生的最根本原因.正如Goog1e的首席經(jīng)濟(jì)學(xué)家Ha1Var

ian所說(shuō)[17],數(shù)據(jù)是廣泛可用的,所缺乏的是從中提取出知識(shí)的能力

.數(shù)據(jù)收集的根本目的是根據(jù)需求從數(shù)據(jù)中提取有用的知識(shí),并將其應(yīng)用到

具體的領(lǐng)域之中.不同領(lǐng)域的大數(shù)據(jù)應(yīng)用有不同的特點(diǎn),表2列舉了若干具有

代表性的大數(shù)據(jù)應(yīng)用及其特征:

Table2ComparisonbetweenTypica

1BigDataApp1ications表2典型大數(shù)據(jù)應(yīng)用的

比較

App1icationsExamplesNumberofU

sersResponseTimeDataScaleRe1ia

bi1ityAccuracy

ScientificComputingBioinformatic

sSmallSlowTBModerateVeryHig

h

FinanceHigh-frequencytradingL

argeVeryFastGBVeryHighVeryHi

gh

Socia1networkFacebookVeryLarg

eFastPBHighHigh

MobileDataMobilephoneVeryLarg

eFastTBHighHigh

InternetofThingsSensonetwork

LargeFastTBHighHigh

WebDataNewswebsiteVeryLargeFas

tPBHighHigh

Mu1timediaVideositeVeryLargeF

astPBHighModerate

正是由于大數(shù)據(jù)的廣泛存在才使得大數(shù)據(jù)問(wèn)題的解決很具挑戰(zhàn)性.而它的

廣泛應(yīng)用則促使越來(lái)越多的人開(kāi)始關(guān)注和研究大數(shù)據(jù)問(wèn)題.

2大數(shù)據(jù)處理框架

2.1大數(shù)據(jù)處理模式大數(shù)據(jù)的應(yīng)用類(lèi)型有很多,主要的處理模式可以分為

流處理(streamprocessing)和批處理(batchp

rocessing)兩種[18-19].批處理是先存儲(chǔ)后處理(st。

re-then-process),而流處理則是直接處理(strai

ght-throughprocessing).2.1.1流處理流

處理的基本理念是數(shù)據(jù)的價(jià)值會(huì)隨著時(shí)間的流逝而不斷減少,因此盡可能快

地對(duì)最新的數(shù)據(jù)作出分析并給出結(jié)果是所有流數(shù)據(jù)處理模式的共同目標(biāo).需

要采用流數(shù)據(jù)處理的大數(shù)據(jù)應(yīng)用場(chǎng)景主要有

網(wǎng)頁(yè)點(diǎn)擊數(shù)的實(shí)時(shí)統(tǒng)計(jì)、傳感器網(wǎng)絡(luò)、金融中的高頻交易等?流處理的處理模

式將數(shù)據(jù)視為流,源源不斷的數(shù)據(jù)組成了數(shù)據(jù)流.當(dāng)新的數(shù)據(jù)到來(lái)時(shí)就立刻處

理并返回所需的結(jié)果.圖1[18]是流處理中基本的數(shù)據(jù)流模型:

Fig.1Basicdatastreammodel.圖1基本

的數(shù)據(jù)流模型數(shù)據(jù)的實(shí)時(shí)處理是一個(gè)很有挑戰(zhàn)性的工作,數(shù)據(jù)流本身具有持續(xù)

達(dá)到、速度快且規(guī)模巨大等特點(diǎn),因此通常不會(huì)對(duì)所有的數(shù)據(jù)進(jìn)行永久化存

儲(chǔ),而且

數(shù)據(jù)環(huán)境處在不斷的變化之中,系統(tǒng)很難準(zhǔn)確掌握整個(gè)數(shù)據(jù)的全貌.由于響應(yīng)時(shí)

間的要求,流處理的過(guò)程基本在內(nèi)存中完成,其處理方式更多地依賴(lài)于在內(nèi)存

中設(shè)計(jì)巧妙的概要數(shù)據(jù)結(jié)構(gòu)(synopsisdatastructu

re),內(nèi)存容量是限制流處理模型的一個(gè)主要瓶頸以PCM(相變存儲(chǔ)器)為

代表的儲(chǔ)存級(jí)內(nèi)存(st。rageclassmemory,SCM)

設(shè)備的出現(xiàn)或許可以使內(nèi)存未來(lái)不再成為流處理模型的制約.

數(shù)據(jù)流的理論及技術(shù)研究已經(jīng)有十幾年的歷史,目前仍舊是研究熱點(diǎn).與此同時(shí)

很多實(shí)際系統(tǒng)也已開(kāi)發(fā)和得到廣泛的應(yīng)用,比較代表性的開(kāi)源系統(tǒng)如Tw

的的以及

itterStorm[20]xYahooS4[21]Linke

din的Kafka[22]等.2.1.2批處理Go。g1e公司在2

004年提出的MapReduce[23]編程模型是最具代表性的批處理

模式.一個(gè)完整的MapReduce過(guò)程如圖2[23]所示:

Fig.2ExecutionoverviewofMapRedue

e.圖2MapReduce執(zhí)行流程圖MapReduce模型首先將

用戶的原始數(shù)據(jù)源進(jìn)彳亍分塊,然后分別交給不同的Map任務(wù)區(qū)處理.Map

任務(wù)從輸入中解析出鏈?值(Key?Va1ue)對(duì)集合,然后對(duì)這些集合執(zhí)行

用戶自行定義的Map函數(shù)得到中間結(jié)果,并將該結(jié)果寫(xiě)入本地硬盤(pán).Re

duce任務(wù)從硬盤(pán)上讀取數(shù)據(jù)之后會(huì)根據(jù)key值進(jìn)行排序,將具有相同

Key值的組織在一起.最后用戶自定義的Reduce函數(shù)會(huì)作用于這些排

好序的結(jié)果并輸出最終結(jié)果.從MapReduce的處理過(guò)程我們可以看

出,MapReduce的核心設(shè)計(jì)思想在于:1)將問(wèn)題分而治之;2)把

計(jì)算推到數(shù)據(jù)而不是把數(shù)據(jù)推到計(jì)算,有效地避免數(shù)據(jù)傳輸過(guò)程中產(chǎn)生的大量

通信開(kāi)銷(xiāo).MapReduce模型簡(jiǎn)單,且現(xiàn)實(shí)中很多問(wèn)題都可用MapR

educe模型來(lái)表示.因此該模型公開(kāi)后立刻受到極大的關(guān)注,并在生物信

息學(xué)、文本挖掘等領(lǐng)域得到廣泛的應(yīng)用.無(wú)論是流處理還是批處理都是大數(shù)

據(jù)處理的可行思路.大數(shù)據(jù)的應(yīng)用類(lèi)型很多,在實(shí)際的大數(shù)據(jù)處理中,常常并

不是簡(jiǎn)單地只使用其中的某一種,而是將二者結(jié)合起來(lái).互聯(lián)網(wǎng)是大數(shù)據(jù)最重

要的來(lái)源之一,很多互聯(lián)網(wǎng)公司根據(jù)處理時(shí)間的要求將自己的業(yè)務(wù)劃分為

在線(on1ine)、近線(near1ine)和離線(。ff1ine),

比如著名的職業(yè)社交網(wǎng)站Linkedin[24],這種劃分方式是按處理所

耗時(shí)間來(lái)劃分的.其中在線的處理時(shí)間一般在秒級(jí)甚至是毫秒級(jí),因此通常采

用上面所說(shuō)的流處理.離線的處理時(shí)間可以以天為基本單位,基本采用批處理

方式,這種方式可以最大限度地利用系統(tǒng)I?。.近線的處理時(shí)間一般在分鐘級(jí)

或者是小時(shí)級(jí),對(duì)其處理模型并沒(méi)有特別的要求,可以根據(jù)需求靈活選擇,但在

實(shí)際中多采用批處理模式.2.2大數(shù)據(jù)處理的基本流程大數(shù)據(jù)的數(shù)據(jù)來(lái)源

廣泛,應(yīng)用需求和數(shù)據(jù)類(lèi)型都不盡相同,但是最基本的處理流程一致.海量W

eb數(shù)據(jù)的處理是一類(lèi)非常典型的大數(shù)據(jù)應(yīng)用,從中可以歸納出大數(shù)據(jù)處理的最

基本流程.ScholarSpace[25]由中國(guó)人民大學(xué)網(wǎng)絡(luò)與移動(dòng)數(shù)

據(jù)管理實(shí)驗(yàn)室(WAMDM)開(kāi)發(fā),目標(biāo)是建立一個(gè)"以人為本",即

150計(jì)算機(jī)研究與發(fā)展2013,50(1)

以作者為中心來(lái)展示多學(xué)科中文文獻(xiàn)的集成數(shù)據(jù)庫(kù)系統(tǒng).該系統(tǒng)已經(jīng)從最初的

計(jì)算機(jī)領(lǐng)域擴(kuò)展到包括經(jīng)濟(jì)、法律等人文社會(huì)科學(xué)在內(nèi)的多領(lǐng)域,從數(shù)據(jù)抽

取和集成,一直到最終的結(jié)果展示,ScholarSpace完整地體現(xiàn)出

大數(shù)據(jù)處理的一般流程.在其基礎(chǔ)上我們歸納出大數(shù)據(jù)的基本流程,如圖3所

示:

Fig.3Basicframeworkofbigdata

processing.圖3大數(shù)據(jù)處理基本流程整個(gè)大數(shù)據(jù)的處理流程

可以定義為在合適工具的輔助下,對(duì)廣泛異構(gòu)的數(shù)據(jù)源進(jìn)行抽取和集成,結(jié)

果按照一定的標(biāo)準(zhǔn)統(tǒng)一存儲(chǔ).利用合適的數(shù)據(jù)分析技術(shù)對(duì)存儲(chǔ)的數(shù)據(jù)進(jìn)行分

析,從中提取有益的知識(shí)并利用恰當(dāng)?shù)姆绞綄⒔Y(jié)果展現(xiàn)給終端用戶.具體來(lái)說(shuō)可

以分為數(shù)據(jù)抽取與集成、數(shù)據(jù)分析以及數(shù)據(jù)解釋.2.2.1數(shù)據(jù)抽取與集

成大數(shù)據(jù)的一個(gè)重要特點(diǎn)就是多樣性,這就意味著數(shù)據(jù)來(lái)源極其廣泛,數(shù)據(jù)類(lèi)型

極為繁雜,這種復(fù)雜的數(shù)據(jù)環(huán)境給大數(shù)據(jù)的處理帶來(lái)極大的挑戰(zhàn).要想處理大數(shù)

據(jù),首先必須對(duì)所需數(shù)據(jù)源的數(shù)據(jù)進(jìn)行抽取和集成,從中提取出關(guān)系和實(shí)體

,經(jīng)過(guò)關(guān)聯(lián)和聚合之后采用統(tǒng)一定義的結(jié)構(gòu)來(lái)存儲(chǔ)這些數(shù)據(jù).在數(shù)據(jù)集成和提

取時(shí)需要對(duì)數(shù)據(jù)進(jìn)行清洗,保證數(shù)據(jù)質(zhì)量及可信性.同時(shí)還要特別注意前面

提及的大數(shù)據(jù)時(shí)代模式和數(shù)據(jù)的關(guān)系,大數(shù)據(jù)時(shí)代的數(shù)據(jù)往往是先有數(shù)據(jù)再有

模式,且模式是在不斷的動(dòng)態(tài)演化之中的.數(shù)據(jù)抽取和集成技術(shù)不是一項(xiàng)全

新的技術(shù),傳統(tǒng)數(shù)據(jù)庫(kù)領(lǐng)域已對(duì)此問(wèn)題有了比較成熟的研究.隨著新的數(shù)據(jù)

源的涌現(xiàn),數(shù)據(jù)集成方法也在不斷的發(fā)展之中.從數(shù)據(jù)集成模型來(lái)看,現(xiàn)有的數(shù)據(jù)

抽取與集成方式可以大致分為以下4種類(lèi)型[26]:基于物化或ETL方

法的引飄materia1izationorETLengine\

基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件方法的引擎(federationengin

eormediator)、基于數(shù)據(jù)流方法的引擎(streameng

ine)及基于搜索引擎的方法(searchengine).2.2.2

數(shù)據(jù)分析數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程的核心,因?yàn)榇髷?shù)據(jù)的價(jià)值產(chǎn)生于分

析過(guò)程.從異構(gòu)數(shù)據(jù)源抽取和集成的數(shù)據(jù)構(gòu)成了數(shù)據(jù)分析的原始數(shù)據(jù)根據(jù)不同

應(yīng)用的需求可以從這些數(shù)據(jù)中選擇全部或部分進(jìn)行分析.傳統(tǒng)的分析技術(shù)如數(shù)

據(jù)挖掘、機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析等在大數(shù)據(jù)時(shí)代需要作出調(diào)整,因?yàn)檫@些技術(shù)在

大數(shù)據(jù)時(shí)代面臨著一些新的挑戰(zhàn),主要有:

151孟小峰等:大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)

1)數(shù)據(jù)量大并不一定意味著數(shù)據(jù)價(jià)值的增加,相反這往往意味著數(shù)據(jù)噪音的

增多.因此在數(shù)據(jù)分析之前必須進(jìn)行數(shù)據(jù)清洗等預(yù)處理工作,但是預(yù)處理如此

大量的數(shù)據(jù)對(duì)于機(jī)器硬件以及算法都是嚴(yán)峻的考驗(yàn).2)大數(shù)據(jù)時(shí)代的算法需

要進(jìn)行調(diào)整首先大數(shù)據(jù)的應(yīng)用常常具有實(shí)時(shí)性的特點(diǎn),算法的準(zhǔn)確率不再是大

數(shù)據(jù)應(yīng)用的最主要指標(biāo).很多場(chǎng)景中算法需要在處理的實(shí)時(shí)性和準(zhǔn)確率之間取

得一個(gè)平衡,比如在線的機(jī)器學(xué)習(xí)算法(onlinemachine

learning);其次云計(jì)算是進(jìn)行大數(shù)據(jù)處理的有力工具,這就要求很多算

法必須作出調(diào)整以適應(yīng)云計(jì)算的框架,算法需要變得具有可擴(kuò)展性;最后在

選擇算法處理大數(shù)據(jù)時(shí)必須謹(jǐn)慎,當(dāng)數(shù)據(jù)量增長(zhǎng)到一定規(guī)模以后,可以從小量

數(shù)據(jù)中挖掘出有效信息的算法并一定適用于大數(shù)據(jù).統(tǒng)計(jì)學(xué)中的邦弗朗尼原

理(Bonferroniprincipie)[27]①就是一個(gè)典

型的例子.3)數(shù)據(jù)結(jié)果好壞的衡量.得到分析結(jié)果并不難,但是結(jié)果好壞的衡

量卻是大數(shù)據(jù)時(shí)代數(shù)據(jù)分析的新挑戰(zhàn).大數(shù)據(jù)時(shí)代的數(shù)據(jù)量大、類(lèi)型龐雜,進(jìn)

行分析時(shí)往往對(duì)整個(gè)數(shù)據(jù)的分布特點(diǎn)掌握的不太清楚,這會(huì)導(dǎo)致最后在設(shè)計(jì)

衡量的方法以及指標(biāo)時(shí)遇到諸多困難.大數(shù)據(jù)分析已被廣泛應(yīng)用于諸多領(lǐng)

域,典型的有推薦系統(tǒng)、商業(yè)智能、決策支持等.2.2.3數(shù)據(jù)解釋數(shù)據(jù)分析是

大數(shù)據(jù)處理的核心,但是用戶往往更關(guān)心結(jié)果的展示.如果分析的結(jié)果正確但

是沒(méi)有采用適當(dāng)?shù)慕忉尫椒?,則所得到的結(jié)果很可能讓用戶難以理解,極端

情況下甚至?xí)`導(dǎo)用戶.數(shù)據(jù)解釋的方法很多,比較傳統(tǒng)的就是以文本形式輸

出結(jié)果或者直接在電腦終端上顯示結(jié)果.這種方法在面對(duì)小數(shù)據(jù)量時(shí)是一種

很好的選擇.但是大數(shù)據(jù)時(shí)代的數(shù)據(jù)分析結(jié)果往往也是海量的,同時(shí)結(jié)果之間

的關(guān)聯(lián)關(guān)系極其復(fù)雜,采用傳統(tǒng)的解釋方法基本不可行.可以考慮從下面兩個(gè)方

面提升數(shù)據(jù)解釋能力.1)引入可視化技術(shù).可視化作為解釋大量數(shù)據(jù)最有效

的手段之一率先被科學(xué)與工程計(jì)算領(lǐng)域采用.通過(guò)對(duì)分析結(jié)果的可視化用形

象的方式向用戶展示結(jié)果,而且圖形化的方式比文字更易理解和接受.常見(jiàn)

的可視化技術(shù)有標(biāo)簽云(tagcloud\歷史流

(historyflow)、空間信息流(spatia1infor

mationflow)等.可以根據(jù)具體的應(yīng)用需要選擇合適的可視化技

術(shù).2)讓用戶能夠在一定程度上了解和參與具體的分析過(guò)程.這個(gè)既可以采

用人機(jī)交互技術(shù),利用交互式的數(shù)據(jù)分析過(guò)程來(lái)引導(dǎo)用戶逐步地進(jìn)行分析,使

得用戶在得到結(jié)果的同時(shí)更好地理解分析結(jié)果的由來(lái).也可以采用數(shù)據(jù)起源技

術(shù)[28],通過(guò)該技術(shù)可以幫助追溯整個(gè)數(shù)據(jù)分析的過(guò)程,有助于用戶理解

結(jié)果?

3關(guān)鍵技術(shù)分析

大數(shù)據(jù)價(jià)值的完整體現(xiàn)需要多種技術(shù)的協(xié)同.文件系統(tǒng)提供最底層存儲(chǔ)能力的

支持.為了便于數(shù)據(jù)管理,需要在文件系統(tǒng)之上建立數(shù)據(jù)庫(kù)系統(tǒng).通過(guò)索引等

的構(gòu)建,對(duì)外提供高效的數(shù)據(jù)杳詢(xún)等常用功能.最終通過(guò)數(shù)據(jù)分析技術(shù)從數(shù)

據(jù)庫(kù)中的大數(shù)據(jù)提取出有益的知識(shí).3.1云計(jì)算:大數(shù)據(jù)的基礎(chǔ)平臺(tái)與支

撐技術(shù)如果將各種大數(shù)據(jù)的應(yīng)用比作一輛輛"汽車(chē)",支撐起這些"汽車(chē)"運(yùn)行的

"高速公路"就是云計(jì)算.正是云計(jì)算技術(shù)在數(shù)據(jù)存儲(chǔ)、管理與分析等方面的支

撐,才使得大數(shù)據(jù)有用武之地.在所有的“高速公路”中,G。。g1e無(wú)疑是技

術(shù)最為先進(jìn)的一個(gè).需求推動(dòng)創(chuàng)新,面對(duì)海量的Web數(shù)據(jù),Google

于2006年首先提出了云計(jì)算的概念.支撐G。。g1e內(nèi)部各種大數(shù)據(jù)應(yīng)

用的正是其自行研發(fā)的一系列云計(jì)算技術(shù)和工具.難能可貴的是G。。g1

e并未將這些技術(shù)完全封閉,而是以論文的形式逐步公開(kāi)其實(shí)現(xiàn).正是這

些公開(kāi)的論文,使得以GFS,MapReduce,Bigtable為代表

的一系列大數(shù)據(jù)處理技術(shù)被廣泛了解并得到應(yīng)用,同時(shí)還催生出以Had。

op[29]為代表的一系列云計(jì)算開(kāi)源工具.云計(jì)算所涉及到的技術(shù)很多,

但是通過(guò)Goog1e云計(jì)算技術(shù)的介紹能夠快速、完整地把握云計(jì)算技術(shù)的

核心和精髓.本節(jié)以Goog1e的相關(guān)技術(shù)介紹為主線,詳細(xì)介紹Goog1

e以及其他眾多學(xué)者和研究機(jī)構(gòu)在大數(shù)據(jù)技術(shù)方面已有的一些工作.根據(jù)G

oog1e已公開(kāi)的論文及相關(guān)資料,結(jié)合大數(shù)據(jù)處理的需求,我們對(duì)Goo

g1e的技術(shù)演化進(jìn)行了整理,如圖4②所示:

①邦弗朗尼原理表明并非給定數(shù)據(jù)集和挖掘任務(wù)就肯定能挖掘出合理的結(jié)

果。具體內(nèi)容見(jiàn)文獻(xiàn)27].②上面所列的系統(tǒng)絕大部分都已經(jīng)有論文公布其

大致實(shí)現(xiàn),雖然Colossus和Caffeine系統(tǒng)并沒(méi)有論文公開(kāi),

但是可以確定其存在.圖4中所列時(shí)間如無(wú)特別標(biāo)明,均為論文發(fā)表時(shí)間,并不

代表其在G。。g1e內(nèi)部的正式部署和使用時(shí)間.

152計(jì)算機(jī)研究與發(fā)展2013,50(1)

Fig.4Techno1ogyev

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論