版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
大數(shù)據(jù)技術(shù)綜述21
Abstract:Weareenteringintoa“bigdata"era.Duetothebottlenecks,suchaspoorscalability,installationand
maintenancedifficulties,faulttoleranceandlowperformance,intraditionalinformationtechniqueframework,we
needtoleveragethecloudcomputingtechniquesandsolutionstodealwithbigdataproblems.Cloudcomputing
andbigdataarecomplementarytoeachotherandhaveinherentconnectionofdialecticalunity.Thebreakthrough
ofbigdatatechniqueswillnotonlyresolvethecurrentsituation,butalsopromotethewideapplicationofcloud
computingandtheinternetofthingstechniques.Wefocusondiscussingthedevelopmentandthepivotal
techniquesofbigdata.Andprovideacomprehensivedescriptionofbigdatafromseveralperspectives,including
thedevelopmentofbigdata,thecurrentdata-burstsituation,therelationshipbetweenbigdataandcloudcomputing
andthebigdatatechniques.Finally,weintroducetherelatedtechniqueresearchesandourcurrentwork.
Keywords:bigdatatechnique;cloudcomputing;dataacquisition;datastorage;datacomputation;presentationand
interaction
摘要:我們正在進入一個“大數(shù)據(jù)''時代,傳統(tǒng)的信息技術(shù)架構(gòu),存在著擴展性差、容錯性差、性能低、安裝部署
及保護困難等諸多瓶頸,需要以現(xiàn)代云計算手段與技術(shù)來解決大數(shù)據(jù)問題.云計算與大數(shù)據(jù)是相輔相成、辨證統(tǒng)一
的關(guān)系,大數(shù)據(jù)技術(shù)的突破不僅能解決現(xiàn)實困難,同時也會促使云計算、物聯(lián)網(wǎng)技術(shù)真正落地并深入推廣與應(yīng)用.針
對大數(shù)據(jù)的進展歷程與關(guān)鍵性的大數(shù)據(jù)技術(shù)進行探討,從大數(shù)據(jù)的進展歷程、當(dāng)前面臨的大數(shù)據(jù)問題、大數(shù)據(jù)與云
計算的關(guān)系與大數(shù)據(jù)技術(shù)等方面進行綜合描述.歸納總結(jié)有關(guān)的技術(shù)研究與我們的研究成果.
關(guān)鍵詞:大數(shù)據(jù)技術(shù);云計算;數(shù)據(jù)采集;數(shù)據(jù)存儲;數(shù)據(jù)計算;展現(xiàn)與交互
中圖法分類號:TP301文獻標(biāo)識碼:A
1大數(shù)據(jù)的進展背景及定義
當(dāng)今,信息技術(shù)為人類步入智能社會開啟了大門,帶動了互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、電子商務(wù)、現(xiàn)代物流、網(wǎng)絡(luò)金
融等現(xiàn)代服務(wù)業(yè)進展,催生了車聯(lián)網(wǎng)、智能電網(wǎng)、新能源、智能交通、智能城市、高端裝備制造等新興產(chǎn)業(yè)進
展.現(xiàn)代信息技術(shù)正成為各行各業(yè)運營與進展的引擎.但這個引擎正面臨著大數(shù)據(jù)這個巨大的考驗各類業(yè)務(wù)
數(shù)據(jù)正以幾何級數(shù)的形式爆發(fā)叫其格式、收集、儲存、檢索、分析、應(yīng)用等諸多問題,不再能以傳統(tǒng)的信息處
理技術(shù)加以解決,對人類實現(xiàn)數(shù)字社會、網(wǎng)絡(luò)社會與智能社會帶來了極大的障礙.紐約證券交易所每天產(chǎn)生1TB
的交易數(shù)據(jù);Twitter每天就會生成超過7TB的數(shù)據(jù);Facebook每天會產(chǎn)生超過10TB的數(shù)據(jù);位于歐洲粒子物理
實驗室的大型強子對撞機每年產(chǎn)生約15PB的數(shù)據(jù).根據(jù)著名咨詢公司1DC的調(diào)查與統(tǒng)計,07年全球信息量約
為165EB,即使在全球遭遇金融危機的2009年,全球信息量仍達到800EB.比上一年度增長62%;未來每隔18個
月,整個世界的數(shù)據(jù)總量就會翻倍;估計2020年這一數(shù)字將達到35ZB,約為2007年的230倍,而人類歷史5000
年的文字記載只有5EB數(shù)據(jù).上述統(tǒng)計與調(diào)查預(yù)示著TB、PB、EB的時代已經(jīng)成為過去,全球?qū)⒄竭M入數(shù)據(jù)
存儲的“澤它(Zetta)時代”.
從2009年開始,“大數(shù)據(jù)”成為互聯(lián)網(wǎng)信息技術(shù)行業(yè)的流行詞匯,大數(shù)據(jù)起初成熟應(yīng)用多在互聯(lián)網(wǎng)行業(yè),互聯(lián)
網(wǎng)上的數(shù)據(jù)每年增長50%,每兩年翻一番,全球互聯(lián)網(wǎng)企、也都意識到“大數(shù)據(jù)”時代的來臨,數(shù)據(jù)關(guān)于企業(yè)有著重
要意義.2011年5月,麥肯錫全球研究院公布題為《大數(shù)據(jù):創(chuàng)新、競爭與生產(chǎn)力的下一個新領(lǐng)域》⑵的報告.報
告公布后,“大數(shù)據(jù)”迅速成為計算機行業(yè)的熱門概念.2012年4月美國奧巴馬政府推出“大數(shù)據(jù)研究與進展倡
議''⑶,并劃撥2億美元的專項資金之后,在全球掀起了一股大數(shù)據(jù)的熱潮.根據(jù)Wikibon2011年公布的大數(shù)據(jù)報
告也大數(shù)據(jù)市場正處在井噴式增長的前夕,未來五年全球大數(shù)據(jù)市場價值將高達500億美元.2012年初,大數(shù)據(jù)
有關(guān)軟件、硬件與服務(wù)的收入總與只有約50億美元.但隨著企業(yè)逐步認識到大數(shù)據(jù)與有關(guān)分析將形成新的差
異化競爭優(yōu)勢,提升運營效率,大數(shù)據(jù)有關(guān)技術(shù)與服務(wù)將獲得長足進展,大數(shù)據(jù)將逐步落地,并在未來五年保持
58%的驚人復(fù)合增長速度.投資銀行JMPSecurities分析師GregMcDowell則表示大數(shù)據(jù)工具市場估計將在10
年內(nèi)由去年的90億美元增長至860億美元.到2020年,企業(yè)在大數(shù)據(jù)工具方面的投資將占整體企業(yè)IT開支的
11%.
目前,業(yè)界對大數(shù)據(jù)還沒有一個統(tǒng)一的定義,常見的大數(shù)據(jù)定義如下:
“大數(shù)據(jù)是指無法在一定時間內(nèi)用傳統(tǒng)數(shù)據(jù)庫軟件工具對其內(nèi)容進行抓取、管理與處理的數(shù)據(jù)集合.”一
麥肯錫.
“大數(shù)據(jù)是指無法在一定時間內(nèi)用常規(guī)軟件工具對其內(nèi)容通行抓取、管理與處理的數(shù)據(jù)集——維基百科
“大數(shù)據(jù)是需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力與流程優(yōu)化能力的海量、高增長率與多樣
化的信息資產(chǎn).”--Gartner
大數(shù)據(jù)具備Volume、Velocity.Variety與Value四個特征21(簡稱之“4V”,即數(shù)據(jù)體量巨大、處理速度快、
數(shù)據(jù)類型繁多與價值密度低),下面對每個特征分別作簡要描述.
Volume:表示大數(shù)據(jù)的數(shù)據(jù)量巨大.數(shù)據(jù)集合的規(guī)模不斷擴大,已從GB到TB再到PB級,甚至開始以EB
與ZB來計數(shù).比如一個中型城市的視頻監(jiān)控頭每天就能產(chǎn)生幾十TB的數(shù)據(jù).
Variety:表示大數(shù)據(jù)的類型復(fù)雜.以往我們產(chǎn)生或者者處理的數(shù)據(jù)類型較為單一,大部分是結(jié)構(gòu)化數(shù)據(jù).而
如今,社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)、移動計算、在線廣告等新的渠道與技術(shù)不斷涌現(xiàn),產(chǎn)生大量半結(jié)構(gòu)化或者者非結(jié)構(gòu)
化數(shù)據(jù),如XML、郵件、博客、即時消息等,導(dǎo)致了新數(shù)據(jù)類型的居I1增.企業(yè)需要整合并分析來自復(fù)雜的傳統(tǒng)與
非傳統(tǒng)信息源的數(shù)據(jù),包含企業(yè)內(nèi)部與外部的數(shù)據(jù).隨著傳感器、智能設(shè)備與社會協(xié)同技術(shù)的爆炸性增長,數(shù)據(jù)
的類型無以計數(shù),包含:文本、微博、傳感器數(shù)據(jù)、音頻、視頻、點擊流、日志文件等.
Velocity:數(shù)據(jù)產(chǎn)生、處理與分析的速度持續(xù)在加快,數(shù)據(jù)流量大.加速的原因是數(shù)據(jù)創(chuàng)建的實時性天性,與
需要將流數(shù)據(jù)結(jié)合到'也務(wù)流程與決策過程中的要求.數(shù)據(jù)處理速度快,處理能力從批處理轉(zhuǎn)向流處理.業(yè)界對大
數(shù)據(jù)的處理能力有一個稱謂一“1秒定律”,也就充分說明了大數(shù)據(jù)的處理能力,表達出它與傳統(tǒng)的數(shù)據(jù)挖掘技
術(shù)有著本質(zhì)的區(qū)別;
Value:大數(shù)據(jù)由于體量不斷加大,單位數(shù)據(jù)的價值密度在不斷降低,然而數(shù)據(jù)的整體價值在提高.有人甚至
將大數(shù)據(jù)等同于黃金與石油,表示大數(shù)據(jù)當(dāng)中蘊含了無限的商業(yè)價值.根據(jù)IDC調(diào)研報告中預(yù)測,大數(shù)據(jù)技術(shù)與
服務(wù)市場將從2010年的32億美元攀升至2015年的169億美元,實現(xiàn)年增長率達40%,同時將會是整個IT與
通信產(chǎn)業(yè)增長率的7倍.通過對大數(shù)據(jù)進行處理,找出其中潛在的商業(yè)價值,將會產(chǎn)生巨大的商業(yè)利潤.
大數(shù)據(jù)處理技術(shù)在具體的應(yīng)用方面,能夠為國家支柱企業(yè)的數(shù)據(jù)分析與處理提供技術(shù)與平臺支持,為企業(yè)
進行數(shù)據(jù)分析、處理、挖掘,提取出重要的信息與知識,再轉(zhuǎn)化為有用的模型,應(yīng)用到研究、生產(chǎn)、運營與銷售
過程中.同時,國家大力倡導(dǎo)“智慧城市’'建設(shè),在城市化與信息化融合等背景下,圍繞改善民生、增強企業(yè)競爭力、
促進城市可持續(xù)進展等關(guān)注點,綜合利用物聯(lián)網(wǎng)、云計算等信息技術(shù)手段,結(jié)合城市現(xiàn)有信息化基礎(chǔ),融合先進
的城市運營服務(wù)理念,建立廣泛覆蓋與深度互聯(lián)的城市信息網(wǎng)絡(luò),對城市的資源、環(huán)境、基礎(chǔ)設(shè)施、產(chǎn)業(yè)等多
方面要素進行全面感知,并整合構(gòu)建協(xié)同共享的城市信息平臺,對信息進行智能處理利用,從而為城市運行與資
源配置提供智能響應(yīng)操縱,為政府社會管理與公共服務(wù)提供智能決策根據(jù)及手段,為企業(yè)與個人提供智能信息
資源及開放式信息應(yīng)用平臺的綜合性區(qū)域信息化進展過程.
數(shù)據(jù)無疑是新型信息技術(shù)服務(wù)與科學(xué)研究的基石,而大數(shù)據(jù)處理技術(shù)理所當(dāng)然地成為當(dāng)今信息技術(shù)進展
的核心熱點,大數(shù)據(jù)處理技術(shù)的蓬勃進展也預(yù)示著又一次信息技術(shù)革命的到來.另一方面,隨著國家經(jīng)濟結(jié)構(gòu)調(diào)
整、產(chǎn)業(yè)升級的不斷深化,信息處理技術(shù)的作用將日益凸顯,而大數(shù)據(jù)處理技術(shù)無疑將成為在國民經(jīng)濟支柱產(chǎn)
業(yè)信息化建設(shè)中實現(xiàn)核心技術(shù)的彎道追趕、跟隨進展、應(yīng)用突破、減少綁架的最佳突破點”61.
2大數(shù)據(jù)問題
大數(shù)據(jù)由于它所蘊含的潛在價值,正在成為企業(yè)的隱形“金礦”.隨著生產(chǎn)、運營、管理、監(jiān)控、銷售、客服
等各個環(huán)節(jié)的數(shù)據(jù)不斷累積與增長,與用戶數(shù)的不斷上升,通過從龐大的數(shù)據(jù)中分析出有關(guān)模式與趨勢,能夠?qū)?/p>
現(xiàn)高效管理、精準(zhǔn)營銷,成為企業(yè)打開這一“金礦”的鑰匙.然而傳統(tǒng)的IT基礎(chǔ)架構(gòu)與數(shù)據(jù)管理分析方法已經(jīng)不
能習(xí)慣大數(shù)據(jù)的快速增長.大數(shù)據(jù)的爆發(fā)是我們在信息化與社會進展中遇到的棘手問題,需要我們使用新的數(shù)
據(jù)管理模式,研究與進展新一代的信息技術(shù)才能解決.我們把大數(shù)據(jù)問題歸納為表1中所列7類:
Table1Problemsofbigdata
表1大數(shù)據(jù)問題
大數(shù)據(jù)問題分類大數(shù)據(jù)問題描述
導(dǎo)入導(dǎo)出問題
統(tǒng)計分析問題
速度方面的問題
檢索查詢問題
實時響應(yīng)問題
多源問題
種類及架構(gòu)問題異構(gòu)問題
原系統(tǒng)的底層架構(gòu)問題
線性擴展問題
體量及靈活性問題
動態(tài)調(diào)度問題
大機與小型服務(wù)器的成本對比
成本問題
原有系統(tǒng)改造的成本把控
數(shù)據(jù)分析與挖掘問題
價值挖掘問題
數(shù)據(jù)挖掘后的實際增效問題
結(jié)構(gòu)與非結(jié)構(gòu)
存儲及安全問題數(shù)據(jù)安全
隱私安全
數(shù)據(jù)標(biāo)準(zhǔn)與接口
互聯(lián)互通與數(shù)據(jù)共享問題共享協(xié)議
訪問權(quán)限
2.1速度方面的問題
傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)通常都是集中式的存儲與處理,沒有使用分布式架構(gòu),在很多大型
企業(yè)中的配置往往都是基于IOE(IBM服務(wù)器Qracle數(shù)據(jù)庫,EMC存儲).在這種典型配置中單臺服務(wù)器的配置
通常都很高,能夠多達幾十個CPU核,內(nèi)存也能達到上百GB;數(shù)據(jù)庫的存儲放在高速大容量的磁陣上,存儲空間
可達TB級.這種配置關(guān)于傳統(tǒng)的信息管理系統(tǒng)(MIS)訴求來說是能夠滿足需求的然而面對不斷增長的數(shù)據(jù)量
與動態(tài)數(shù)據(jù)使用場景,這種集中式的處理方式就日益成為瓶頸,特別是在速度響應(yīng)方面捉襟見肘.在面對大數(shù)據(jù)
量的導(dǎo)入導(dǎo)出、統(tǒng)計分析、檢索查詢方面,由于依靠于集中式的數(shù)據(jù)存儲與索引.性能隨著數(shù)據(jù)量的增長而急
速下降.關(guān)于需要實時響應(yīng)的統(tǒng)計及倉詢場景更是無能為力.比如在物聯(lián)網(wǎng)中,傳感器的數(shù)據(jù)能夠多達幾十億
條,對這些數(shù)據(jù)需要進行實時入庫、查詢及分析,傳統(tǒng)的RDBMS就不再適合應(yīng)用需求.
2.2種類及架構(gòu)問題
RDMBS關(guān)于結(jié)構(gòu)化的、固定模式的數(shù)據(jù),已經(jīng)形成了相當(dāng)成熟的存儲、查詢、統(tǒng)計處理方式.隨著物聯(lián)網(wǎng)、
互聯(lián)網(wǎng)與移動通信網(wǎng)絡(luò)的飛速進展,數(shù)據(jù)的格式及種類在不斷變化與進展.在智能交通領(lǐng)域,所涉及的數(shù)據(jù)可能
包含文本、日志、圖片、視頻、矢量地圖等來自不一致數(shù)據(jù)采集監(jiān)控源的,不一致種類的數(shù)據(jù).這些數(shù)據(jù)的格
式通常都不是固定的,假如使用結(jié)構(gòu)化的存儲模式將很難應(yīng)對不斷變化的需求.因此關(guān)于這些種類各異的多源
異構(gòu)數(shù)據(jù),需要使用不一致的數(shù)據(jù)與存儲處理模式,結(jié)合結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)存儲.在整體的數(shù)據(jù)管理模式與
架構(gòu)上,也需要使用新型的分布式文件系統(tǒng)及分布式NoSQL數(shù)據(jù)庫架構(gòu),才能習(xí)慣大數(shù)據(jù)量及變化的結(jié)構(gòu).
2.3體量及靈活性問題
如前所述,大數(shù)據(jù)由于總體的體量巨大,使用集中式的存儲,在速度、響應(yīng)方面都存在問題.當(dāng)數(shù)據(jù)量越來越
大,并發(fā)讀寫量也越來越大時.集中式的文件系統(tǒng)或者單數(shù)據(jù)庫操作將成為致命的性能瓶頸,畢竟單臺機器的承
受壓力是有限的.我們能夠使用線性擴展的架構(gòu)與方式,把數(shù)據(jù)的壓力分散到很多臺機器上,直到能夠承受,這
樣就能夠根據(jù)數(shù)據(jù)量與并發(fā)量來動態(tài)增加與減少文件或者數(shù)據(jù)庫服務(wù)器,實現(xiàn)線性擴展.
在數(shù)據(jù)的存儲方面,需要使用分件式可擴展的架構(gòu),比如大家所熟知的Hadoop文件系統(tǒng)31.與HBase
庫.同時在數(shù)據(jù)的處理方面,也需要使用分布式的架構(gòu),把數(shù)據(jù)處理任務(wù),分配到很多計算節(jié)點上,同時還需考
慮數(shù)據(jù)存放節(jié)點與計算節(jié)點之間的位置有關(guān)性.在計算領(lǐng)域中,資源分配,任務(wù)的分配實際上是一個任務(wù)調(diào)度問
題.其要緊任務(wù)是根據(jù)i中各個節(jié)點上面的資源(包含CPU、內(nèi)存、存儲空間與網(wǎng)絡(luò);,力占用情況.
與各個用戶作業(yè)服務(wù)質(zhì)量要求.在資源與作業(yè)或者者任務(wù)之間做出最優(yōu)的匹配.由于用戶對作業(yè)服務(wù)質(zhì)量的要
求是多樣化的,同時資源的狀態(tài)也在不斷變化,因此,為分布式數(shù)據(jù)處理找到合適的資源是一個力態(tài)說度問的
2.4成本問題
集中式的數(shù)據(jù)存儲與處理,在硬件軟件選型時,基本使用的方式都是配置相當(dāng)高的大型機或者小型機服務(wù)
器,與訪問速度快、保障性高的磁盤陣列,來保障數(shù)據(jù)處理性能.這些硬件設(shè)備都非常昂貴,動輒高達數(shù)百萬元,
同時軟件也經(jīng)常是國外大廠商如Oracle,IBM,SAP,微軟等的產(chǎn)品,關(guān)于服務(wù)器及數(shù)據(jù)庫的保護也需要專業(yè)技術(shù)
人員,投入及運維成本很高.在面對海量數(shù)據(jù)處理的挑戰(zhàn)時,這些廠商也推出了形似龐然大物的“一體機”解決方
案,如Oracle的Exadata,SAP的Hana等,通過把多服務(wù)器、大規(guī)模內(nèi)存、閃存、高速網(wǎng)絡(luò)等硬件進行堆疊,來緩
解數(shù)據(jù)壓力,然而在硬件成本上,更是大幅跳高,通常的企業(yè)很難承受.
新型的分布式存儲架構(gòu)、分布式數(shù)據(jù)庫如HDFS,HBase,Cassandra。*,MongoDB^四等由于大多使用中心
化的、海量并行處理MPP架構(gòu),在數(shù)據(jù)處理上不存在集中處理與匯總的瓶頸,同時具備線性擴展能力,能有效地
應(yīng)對大數(shù)據(jù)的存儲與處理問題.在軟件架構(gòu)上,也都實現(xiàn)了一些自管理、自恢復(fù)的機制,以面對大規(guī)模節(jié)點中容
易出現(xiàn)的偶發(fā)故障,保障系統(tǒng)整體的健壯性,因此對每個節(jié)點的硬件配置,要求并不高,甚至能夠使用普通的PC
作為服務(wù)器,因此在服務(wù)器成本上能夠大大節(jié)約,在軟件方面開源軟件也占據(jù)非常大的價格優(yōu)勢.
當(dāng)然,在談及成本問題時,我們不能簡單地進行硬件軟件的成本對比.要把原有的系統(tǒng)及應(yīng)用遷移到新的分
布式架構(gòu)上,從底層平臺到上層應(yīng)用都需要做很大的調(diào)整.特別是在數(shù)據(jù)庫模式與應(yīng)用編程接口方面,新型的
NoSQL數(shù)據(jù)庫與原先的RDBMS存在較大的差別,企業(yè)需要評估遷移及開發(fā)成本、周期及風(fēng)險.除此之外,還需
考慮服務(wù)、培訓(xùn)、運維方面的成本.但在總體趨勢上,隨著這些新型數(shù)據(jù)架構(gòu)及產(chǎn)品的逐步成熟與完善,與一些
商業(yè)運營公司基于開源基礎(chǔ)為企業(yè)提供專業(yè)的數(shù)據(jù)庫開發(fā)及咨詢服務(wù),新型的分布式、可擴展數(shù)據(jù)庫模式必將
在大數(shù)據(jù)浪潮中勝出,從成本到性能方面完勝傳統(tǒng)的集中式大機模式.
2.5價值挖掘問題
大數(shù)據(jù)由于體量巨大,同時又在不斷增長,因此單位數(shù)據(jù)的價值密度在不斷降低.但同時大數(shù)據(jù)的整體價值
在不斷提高,大數(shù)據(jù)被類比為石油與黃金,因此從中能夠發(fā)掘巨大的商業(yè)價值網(wǎng).要從海量數(shù)據(jù)中找到潛藏的模
式,需要進行深度的數(shù)據(jù)挖掘與分析.大數(shù)據(jù)挖掘與傳統(tǒng)的數(shù)據(jù)挖掘模式也存在較大的區(qū)別:傳統(tǒng)的數(shù)據(jù)挖掘通
常數(shù)據(jù)量較小,算法相對復(fù)雜,收斂速度慢.然而大數(shù)據(jù)的數(shù)據(jù)量巨大,在對數(shù)據(jù)的存儲、清洗、ETL(抽取、轉(zhuǎn)換、
加載)方面都需要能夠應(yīng)對大數(shù)據(jù)量的需求與挑戰(zhàn),在很大程度上需要使用分布式并行處理的方式,比如
Google,微軟的搜索引擎,在對用戶的搜索日志進行歸檔存儲時,就需要多達幾百臺甚至上千臺服務(wù)器同步工作,
才能應(yīng)付全球上億用戶的搜索行為.同時,在對數(shù)據(jù)進行挖掘時,也需要改造傳統(tǒng)數(shù)據(jù)挖掘算法與底層處理架
構(gòu),同樣使用并行處理的方式才能對海量數(shù)據(jù)進行快速計算分析.Apache的Mahoutmi項目就提供了一系列數(shù)
據(jù)挖掘算法的并行實現(xiàn).在很多應(yīng)用場景中,甚至需要挖掘的結(jié)果能夠?qū)崟r反饋回來,這對系統(tǒng)提出了很大的挑
戰(zhàn),由于數(shù)據(jù)挖掘算法通常需要較長的時間,特別是在大數(shù)據(jù)量的情況下,在這種情形下,可能需要結(jié)合大批量
的離線處理與實時計算才可能滿足需求.
數(shù)據(jù)挖掘的實際增效也是我們在進行大數(shù)據(jù)價值挖掘之前需要認真評估的問題.并不見得所有的數(shù)據(jù)挖
掘計劃都能得到理想的結(jié)果.首先需要保障數(shù)據(jù)本身的真實性與全面性,假如所采集的信息本身噪音較大,或者
者一些關(guān)鍵性的數(shù)據(jù)沒有被包含進來,那么所挖掘出來的價值規(guī)律也就大打折扣.其次也要考慮價值挖掘的成
本與收益,假如對挖掘項目投入的人力物力、硬件軟件平臺耗資巨大,項目周期也較長,而挖掘出來的信息關(guān)于
企業(yè)生產(chǎn)決策、成本效益等方面的奉獻不大,那么片面地相信與依靠數(shù)據(jù)挖掘的威力,也是不切實際與得不償
失的.
2.6存儲及安全問題
在大數(shù)據(jù)的存儲及安全保障方面,大數(shù)據(jù)由于存在格式多變、體量巨大的特點,也帶來了很多挑戰(zhàn).針對結(jié)
構(gòu)化數(shù)據(jù),關(guān)系型數(shù)據(jù)庫管理系統(tǒng)RDBMS通過幾十年的進展,已經(jīng)形成了一套完善的存儲、訪問、安全與備份
操縱體系.由于大數(shù)據(jù)的巨大體量,也對傳統(tǒng)RDBMS造成了沖擊,如前所述,集中式的數(shù)據(jù)存儲與處理也在轉(zhuǎn)向
分布式并行處理.大數(shù)據(jù)更多的時候是非結(jié)構(gòu)化數(shù)據(jù),因此也衍生了許多分布式文件存儲系統(tǒng),分布式NoSQL
數(shù)據(jù)庫等來應(yīng)對這類數(shù)據(jù).然而這些新興系統(tǒng),在用戶管理、數(shù)據(jù)訪問權(quán)限、備份機制、安全操縱等各方面還
需進一步完善.安全問題,假如簡而言之,一是要保障數(shù)據(jù)不丟失,對海量的結(jié)構(gòu)、中結(jié)構(gòu)化數(shù)據(jù).需要有合理的備
份冗余機制,在任何情況下數(shù)據(jù)不能丟.二是要保障數(shù)據(jù)不被非法訪問與竊取,只有對數(shù)據(jù)有訪問權(quán)限的用戶,
才能行到數(shù)據(jù).拿到數(shù)據(jù).由于大量的非結(jié)構(gòu)化數(shù)據(jù)可能需要不一致的存儲與訪問機制,因此要形成對多源、多
類型數(shù)據(jù)的統(tǒng)一安全訪問操縱機制,還是亟待解決的問題.大數(shù)據(jù)由于將更多更敏感的數(shù)據(jù)匯合在一起,對潛在
攻擊者的吸引力更大;若攻擊者成功實施一次攻擊,將能得到更多的信息,“性價比”更高,這些都使得大數(shù)據(jù)更易
成為被攻擊的目標(biāo).Linkcdln在2012年被曝650萬用戶賬戶密碼泄露;雅虎遭到網(wǎng)絡(luò)攻擊,致使45萬用戶ID泄
露.2011年12月,CSDN的安全系統(tǒng)遭到黑客攻擊,600萬用戶的登錄名、密碼及郵箱遭到泄漏.
2.7互聯(lián)互通與數(shù)據(jù)共享問題
為實現(xiàn)跨行業(yè)的數(shù)據(jù)整合,需要制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、交換接口與共享協(xié)議,這樣不一致行業(yè)、不一致部
門、不一致格式的數(shù)據(jù)才能基于一個統(tǒng)一的基礎(chǔ)進行訪問、交換與共享.關(guān)于數(shù)據(jù)訪問,還需制定細致的訪問
權(quán)限,規(guī)定什么樣的用戶在什么樣的場景下,能夠訪問什么類型的數(shù)據(jù).在大數(shù)據(jù)及云計算時代,不一致行業(yè)、企
業(yè)的數(shù)據(jù)可能存放在統(tǒng)一的平臺與數(shù)據(jù)中心之上,需要對一些敏感信息進行保護,比如涉及到企業(yè)商業(yè)機密及
交易信息方面的數(shù)據(jù),盡管是依托平臺來進行處理,但是除了企業(yè)自身的授權(quán)人員之外,要保證平臺管理員與其
他企業(yè)都不能訪問此類數(shù)據(jù).
3大數(shù)據(jù)與云計算的辯證關(guān)系
云計算技術(shù)自2007年以來取得了蓬勃的進展.云計算的核心模式是大規(guī)模分布式計算,將計算、存儲、網(wǎng)
絡(luò)等資源以服務(wù)的模式提供給多用戶,按需使用⑸.云計算為企業(yè)與用戶提供高可擴展性、高可用性與高可靠
性,提高資源使用效率,降低企業(yè)信息化建設(shè)、投入與保護成本.隨著美國亞馬遜、Google、與微軟公司提供的
公共云服務(wù)的不斷成熟與完善,越來越多的企業(yè)正在朝著云計算平臺上遷移.
由于國家的戰(zhàn)略規(guī)劃需要與積極引導(dǎo),云計算及技術(shù)在我國近幾年來取得了長足的進展.我國設(shè)立了北
京、上海、深圳、杭州、無錫作為第一批云計算示范城市,北京的“祥云”計劃,上海的“云?!庇媱潱钲诘摹霸朴?/p>
算國際聯(lián)合實驗室”,無錫的“元云計算項目”,與杭州的“西湖云計算公共服務(wù)平臺”也先后啟動與上線,其他城市
如天津、廣州、武漢、西安、重慶、成都等也都推出了相應(yīng)的云計算進展計劃或者成立了云計算聯(lián)盟,積極開
展云計算的研究開發(fā)與產(chǎn)業(yè)試點.然而中國云計算的普及在很大程度上仍然局限在基礎(chǔ)設(shè)施的建設(shè)方面,缺乏
規(guī)模性的行業(yè)應(yīng)用,沒有真正實現(xiàn)云計算的落地.究其原因,物聯(lián)網(wǎng)及云計算技術(shù)的全面普及是我們的美好愿
景,能夠?qū)崿F(xiàn)信息采集、信息處理,與信息應(yīng)用的規(guī)模化、泛在化、協(xié)同化.然而其應(yīng)用的前提是大部分行業(yè)、
企業(yè)在信息化建設(shè)方面已經(jīng)具備良好的基礎(chǔ)與經(jīng)驗,有著迫切的需求去改造現(xiàn)有系統(tǒng)架構(gòu),提高現(xiàn)有系統(tǒng)的效
率.而現(xiàn)實情況是我們的大部分中小企業(yè)在信息化建設(shè)方面還才剛剛起步,只有一些大型企業(yè)與國家部委在信
息化建設(shè)方面具備基礎(chǔ).
大數(shù)據(jù)的爆發(fā)則是社會與行業(yè)信息化進展中遇到的棘手問題.由于數(shù)據(jù)流量與體量增長迅速,數(shù)據(jù)格式存
在多源異構(gòu)的特點,而我們對數(shù)據(jù)處理又要求能夠準(zhǔn)確實時,能夠幫助我們發(fā)掘出大體量數(shù)據(jù)中潛在的價值.傳
統(tǒng)的信息技術(shù)架構(gòu),已無法處理大數(shù)據(jù)問題,存在著擴展性差、容錯性差、性能低、安裝部署及保護困難等諸
多瓶頸.由于物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、移動通信網(wǎng)絡(luò)技術(shù)在近些年來的迅猛進展,造成數(shù)據(jù)產(chǎn)生與傳輸?shù)念l度與速度
都大大加快,催生了大數(shù)據(jù)問題,而數(shù)據(jù)的二次開發(fā),深度循環(huán)利用則讓大數(shù)據(jù)問題日益突出.
我們認為公計算與大數(shù)據(jù)是相輔相成、辨證統(tǒng)?的關(guān)系.云計算、物聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用是我們的愿景,
而大數(shù)據(jù)的爆發(fā)則是進展中遇到的棘手問題;前者是人類文明追求的夢想,后者是社會進展亟待解決的瓶頸;.,、
計算是技術(shù)進展趨勢,大數(shù)據(jù)是現(xiàn)代信息社會飛速進展的必定現(xiàn)象.解決大數(shù)據(jù)問題,又需要以現(xiàn)代云計算的手
段與技術(shù).大數(shù)據(jù)技術(shù)的突破不僅能解決現(xiàn)實困難,同時也會促使云計算、物聯(lián)網(wǎng)技術(shù)真正落地并深入推廣與
M日.從現(xiàn)代IT技術(shù)的進展,卜.我們能總結(jié)出幾個規(guī)律:
(1)大型機與個人PC之爭,以個人PC完勝為終局.蘋果iOS與Android之爭,開放的Android平臺在2-3
年內(nèi)即搶占了1/3的市場份額.Nokia的塞班操作系統(tǒng)由于不開放,現(xiàn)在處于淘汰邊緣.這些都表達了現(xiàn)代IT技
術(shù)需要本著開放、眾包的觀念,才能取得長足進展.
(2)現(xiàn)有的常規(guī)技術(shù)同云計算技術(shù)的碰撞與之相類似,云計算技術(shù)的優(yōu)勢在于利用眾包理論與開源體系,
建設(shè)基于開放平臺與開源新技術(shù)的分布式架構(gòu)之上,能夠解決現(xiàn)有集中式的大機處理方式難以解決或者不能
解決的問題.像淘寶、騰訊等大型互聯(lián)網(wǎng)公司也曾經(jīng)依靠于Sun,Oracle,EMC這樣的大公司專有解決方案,后來
都由于成本太貴而使用開源技術(shù),自身的產(chǎn)品最終也奉獻給開源界,也反映了信息技術(shù)進展的趨勢.
(3)傳統(tǒng)行業(yè)巨頭已經(jīng)向開源體系傾斜,這是利于追趕的歷史機遇.傳統(tǒng)的行業(yè)巨頭、大型央企如國家電
網(wǎng)、電信、銀行、民航等由于歷史原因過度依靠外企成熟的專有方案,造成創(chuàng)新性不足,被外企產(chǎn)品綁架的格
局.從破解問題的方案路徑上分析,解決大數(shù)據(jù)問題,務(wù)必逐步放棄傳統(tǒng)信息技術(shù)架構(gòu),利用以“云”技術(shù)為代表的
新一代信息技術(shù)來解決大數(shù)據(jù)問題.盡管先進的云計算技術(shù)要緊還是發(fā)源于美國,但是基于開源基礎(chǔ),我們與發(fā)
達技術(shù)的差距并不大,將云計算技術(shù)應(yīng)用于大型行業(yè)中的迫切的大數(shù)據(jù)問題,也是我們實現(xiàn)創(chuàng)新突破、打破壟
斷、追趕國際先進技術(shù)的歷史契機.
4大數(shù)據(jù)技術(shù)
大數(shù)據(jù)帶來的不僅是機遇,同時也是挑戰(zhàn).傳統(tǒng)的數(shù)據(jù)處理手段已經(jīng)無法滿足大數(shù)據(jù)的海量實時需求,需要
使用新一代的信息技術(shù)來應(yīng)對大數(shù)據(jù)的爆發(fā).我們把大數(shù)據(jù)技術(shù)歸納為五大類,如表2中所示.
Table2Classificationofbigdatatechniques
表2大數(shù)據(jù)技術(shù)分類
大數(shù)據(jù)技術(shù)分類大數(shù)據(jù)技術(shù)與工具
云計算平臺
云存儲
基礎(chǔ)架構(gòu)支持虛擬化技術(shù)
網(wǎng)絡(luò)技術(shù)
資源監(jiān)控技術(shù)
數(shù)據(jù)總線
數(shù)據(jù)采集
ETL工具
分布式文件系統(tǒng)
關(guān)系型數(shù)據(jù)庫
數(shù)據(jù)存儲NoSQL技術(shù)
關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫融合
內(nèi)存數(shù)據(jù)庫
數(shù)據(jù)查詢、統(tǒng)計與分析
數(shù)據(jù)預(yù)測與挖掘
數(shù)據(jù)計算
圖譜處理
BI商業(yè)智能
圖形與報表
展現(xiàn)與交互可視化工具
增強現(xiàn)實技術(shù)
基礎(chǔ)架構(gòu)支持.要緊包含為支撐大數(shù)據(jù)處理的基礎(chǔ)架構(gòu)級數(shù)據(jù)中心管理、云計算平臺、云存儲設(shè)備及技
術(shù)、網(wǎng)絡(luò)技術(shù)、資源監(jiān)控等技術(shù).大數(shù)據(jù)處理需要擁有大規(guī)模物理資源的云數(shù)據(jù)中心與具備高效的調(diào)度管理功
能的云計算平臺的支撐.
數(shù)據(jù)采集技術(shù).數(shù)據(jù)采集技術(shù)是數(shù)據(jù)處理的必備條件,首先需要有數(shù)據(jù)采集的手段,把信息收集上來,才能
應(yīng)用上層的數(shù)據(jù)處理技術(shù).數(shù)據(jù)采集除了各類傳感設(shè)備等硬件軟件設(shè)施之外,要緊涉及到的是數(shù)據(jù)的ETL(采
集、轉(zhuǎn)換、加載)過程,能對數(shù)據(jù)進行清洗、過濾、校驗、轉(zhuǎn)換等各類預(yù)處理,將有效的數(shù)據(jù)轉(zhuǎn)換成適合的格式
與類型.同時,為了支持多源異構(gòu)的數(shù)據(jù)采集與存儲訪問,還需設(shè)計企業(yè)的數(shù)據(jù)總線,方便企業(yè)各個應(yīng)用與服務(wù)
之間數(shù)據(jù)的交換與共享.
數(shù)據(jù)存儲技術(shù).數(shù)據(jù)通過采集與轉(zhuǎn)換之后,需要存儲歸檔.針對海量的大數(shù)據(jù),通常能夠使用分布式文件系
統(tǒng)與分布式數(shù)據(jù)庫的存儲方式,把數(shù)據(jù)分布到多個存儲節(jié)點上,同時還需提供備份、安全、訪問接口及協(xié)議等
機制.
數(shù)據(jù)計算.我們把與數(shù)據(jù)查詢、統(tǒng)計、分析、預(yù)測、挖掘、圖譜處理、BI商業(yè)智能等各項有關(guān)的技術(shù)統(tǒng)
稱之?dāng)?shù)據(jù)計算技術(shù).數(shù)據(jù)計算技術(shù)涵蓋數(shù)據(jù)處理的方方面面,也是大數(shù)據(jù)技術(shù)的核心.
數(shù)據(jù)展現(xiàn)與交互.數(shù)據(jù)展現(xiàn)與交互在大數(shù)據(jù)技術(shù)中也至關(guān)重要,由于數(shù)據(jù)最終需要為人們所使用,為生產(chǎn)、
運營、規(guī)劃提供決策支持.選擇恰當(dāng)?shù)摹⑸鷦又庇^的展示方式能夠幫助我們更好地懂得數(shù)據(jù)及其內(nèi)涵與關(guān)聯(lián)關(guān)
系,也能夠更有效地解釋與運用數(shù)據(jù),發(fā)揮其價值.在展現(xiàn)方式上,除了傳統(tǒng)的報表、圖形之外,我們還能夠結(jié)合現(xiàn)
代化的可視化工具及人機交互手段,甚至是基于最新的如Google眼鏡等增強現(xiàn)實手段,來實現(xiàn)數(shù)據(jù)與現(xiàn)實的無
縫接口.
4.1基礎(chǔ)架構(gòu)支持
大數(shù)據(jù)處理需要擁有大規(guī)模物理資源的云數(shù)據(jù)中心與具備高效的調(diào)度管理功能的云計算平臺的支撐.云
計算管理平臺能為大型數(shù)據(jù)中心及企業(yè)提供靈活高效的部署、運行與管理環(huán)境,通過虛擬化技術(shù)支持異構(gòu)的底
層硬件及操作系統(tǒng),為應(yīng)用提供安全、高性能、高可擴展、高可靠與高伸縮性的云資源管懂得決方案,降低應(yīng)
用系統(tǒng)開發(fā)、部署、運行與保護的成本,提高資源使用效率.
作為新興的計算模式,云計算在學(xué)術(shù)界與業(yè)界獲得巨大的進展動力.政府、研究機構(gòu)與行業(yè)領(lǐng)跑者正在積
極的嘗試應(yīng)用云計算來解決網(wǎng)絡(luò)時代日益增長的計算與存儲問題.除了亞馬遜的AWS、Google的AppEngine
與Microsoft的WindowsAzureServices等商業(yè)云平臺之外,還有一些如OpenNebula^m、Eucalyptus1121s
Nimbus^、與OpenStack⑻等開源的云計算平臺,每個平臺都有其顯著的特點與不斷進展的社區(qū).
亞馬遜的AWS能夠說是當(dāng)前最主流的云計算平臺,2013年上半年其平臺及云計算服務(wù)等收入17億美元,
同比增長60%.其系統(tǒng)架構(gòu)最大的特點就是通過WebService接口開放數(shù)據(jù)與功能,并通過SOA的架構(gòu)使系統(tǒng)
達到松耦合.AWS提供的WebService??煞譃樗膶樱?/p>
1)訪問層:提供管理操縱臺,API與各類命令行等
2)通用服務(wù)層:包含身份認證、監(jiān)控、部署與自動化等
3)PaaS層服務(wù):包含并行處理、內(nèi)容傳輸與消息服務(wù)等
4)laaS層服務(wù):包含云計算平臺EC2、云存儲服務(wù)S3/EBS、網(wǎng)絡(luò)服務(wù)VPC/ELB、數(shù)據(jù)庫服務(wù)等
Eucalyptus是試圖克隆AWS的開源云計算平臺,實現(xiàn)了類似AmazonEC2的功能,用來通過計算集群或者
工作站群實現(xiàn)彈性的、使用的云計算.它提供了與EC2與存儲系統(tǒng)S3的接口兼容性.使用這些接口的應(yīng)用能夠
直接與Eucalyptus進行交互,支持Xen”s與KVM“u虛擬技術(shù),還有用于系統(tǒng)管理與用戶結(jié)算的云管理工
具.Eucalyptus包含五個要緊組件,分別為云操縱器CLC、云存儲服務(wù)Walrus、集群操縱器CC、存儲操縱器SC
與節(jié)點操縱器NC.Eucalyptus通過Agent的方式來管理計算資源,組件能相互協(xié)作共同提供所需的云服務(wù).
OpenNebula是2005年歐洲研究學(xué)會發(fā)起的虛擬基礎(chǔ)設(shè)備與云端運算計劃的虛擬化管理層的開源實現(xiàn).它
是一個用來創(chuàng)建laaS私有云、公有云與混合云的開源工具,同時還是一個能夠?qū)崿F(xiàn)多種不一致云架構(gòu)并與多
種數(shù)據(jù)中心服務(wù)進行交互的模塊化系統(tǒng).OpenNebula集成了存儲、網(wǎng)絡(luò)、虛擬化、監(jiān)測與安全技術(shù),能夠根據(jù)
分配策略,以虛擬機形式在分布式基礎(chǔ)設(shè)施上部署多層次服務(wù).OpenNebula分為三層,即接口層、核心層與驅(qū)動
層.
1)接口層提供原生的XML-RPC接口,同時實現(xiàn)了EC2、OCCI(開放云計算接口)與OpenNebulaCloud
API(OCA)等多種API,為用戶訪問提供了多種選擇.
2)核心層提供統(tǒng)一的插件管理.、請求管理、VM生命周期管理、Hypervisor管理、網(wǎng)絡(luò)資源管理與存
儲資源管理等核心功能.
3)最底層是由各類驅(qū)動構(gòu)成的驅(qū)動層與虛擬化軟件(KVM、XEN)與物理基礎(chǔ)設(shè)施交互.
OpenStack是一個開源云計算虛擬架構(gòu),用戶能夠使用它來建立并運行他們的云計算與存儲架構(gòu).用戶通
過AmazonEC2/S3兼容的API來使用OpenStack提供的云計算服務(wù),并使得為亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)所寫的客
戶工具也能夠與OpenStack一起使用.OpenStack在SOA與服務(wù)化組件解耦上是做得最好的.OpenStack整體架
構(gòu)分也3層,最上層為應(yīng)用程序與管理門戶(Horizon)、API等接入層;核心層包含計算服務(wù)(Nova)、存儲服務(wù)(包
含對象存儲服務(wù)Swift與塊存儲服務(wù)Cinder)與網(wǎng)絡(luò)服務(wù)(Quantum);第3層為共享服務(wù),現(xiàn)在為賬戶權(quán)限管理服
務(wù)(keystone)與鏡像服務(wù)(Glance).
Nimbus系統(tǒng)是一個開源系統(tǒng),提供與AmazonEC2兼容的接口,能夠快速方便地生成一個虛擬機集群,這樣
就能夠像普通集群一樣使用集群調(diào)度系統(tǒng)在上面進行任務(wù)調(diào)度.Nimbus也支持不?致的虛擬實現(xiàn)(Xcn與
KVM).它要緊被應(yīng)用在科學(xué)計算領(lǐng)域.
4.2數(shù)據(jù)采集
足夠的數(shù)據(jù)量是企業(yè)大數(shù)據(jù)戰(zhàn)略建設(shè)的基礎(chǔ),因此數(shù)據(jù)采集就成了大數(shù)據(jù)分析的前站.采集是大數(shù)據(jù)價值
挖掘重要的一環(huán),其后的分析挖掘都建立在采集的基礎(chǔ)上.大數(shù)據(jù)技術(shù)的意義確實不在于掌握規(guī)模龐大的數(shù)據(jù)
信息,而在于對這些數(shù)據(jù)進行智能處理,從中分析與挖掘出有價值的信息,但前提是擁有大量的數(shù)據(jù).絕大多數(shù)
的企業(yè)現(xiàn)在還很難推斷,到底什么數(shù)據(jù)未來將成為資產(chǎn),通過什么方式將數(shù)據(jù)提煉為現(xiàn)實收入.關(guān)于這一點即便
是大數(shù)據(jù)服務(wù)企業(yè)也很難給出確定的答案.但有一點是確信的,大數(shù)據(jù)時代,誰掌握了足夠的數(shù)據(jù),誰就有可能
掌握未來,現(xiàn)在的數(shù)據(jù)采集就是將來的資產(chǎn)積存.
數(shù)據(jù)的采集有基于物聯(lián)網(wǎng)傳感器的采集,也有基于網(wǎng)絡(luò)信息的數(shù)據(jù)采集.比如在智能交通中,數(shù)據(jù)的采集有
基于GPS的定位信息采集、基于交通攝像頭的視頻采集,基于交通卡口的圖像采集,基于路口的線圈信號采集
等.而在互聯(lián)網(wǎng)上的數(shù)據(jù)采集是對各類網(wǎng)絡(luò)媒介,如搜索引擎、新聞網(wǎng)站、論壇、微博、博客、電商網(wǎng)站等的
各類頁面信息與用戶訪問信息進行采集,采集的內(nèi)容要緊有文本信息、URL、訪問日志、日期與圖片等.之后我
們需要把采集到的各類數(shù)據(jù)進行清洗、過濾、去重等各項預(yù)處理并分類歸納存儲.
數(shù)據(jù)采集過程中的ETLil.負責(zé)將分布的、異構(gòu)數(shù)據(jù)源中的不一致種類與結(jié)構(gòu)的數(shù)據(jù)如文本數(shù)據(jù)、關(guān)系
數(shù)據(jù)、與圖片?、視頻等非結(jié)構(gòu)化數(shù)據(jù)等抽取到臨時中間層后進行,3".£狼、分類、集成,最后加載到對應(yīng)的
數(shù)據(jù)存儲系統(tǒng)如數(shù)據(jù)倉庫或者數(shù)據(jù)集市中,成為聯(lián)機分析處理、依據(jù)挖推的基礎(chǔ).針對大數(shù)據(jù)的ETL工具同時
又有別于傳統(tǒng)的ETL處理過程,由于一方面大數(shù)據(jù)的體量巨大,另一方面數(shù)據(jù)的產(chǎn)生速度也非??欤热缫粋€城
市的視頻監(jiān)控頭、智能電表每一秒鐘都在產(chǎn)生大量的數(shù)據(jù),對數(shù)據(jù)的預(yù)處理需要實時快速,因此在ETL的架構(gòu)
與工具選擇上,也會使用如分布式內(nèi)存數(shù)據(jù)庫、實時流處理系統(tǒng)等現(xiàn)代信息技術(shù).
現(xiàn)代企業(yè)中存在各類不一致的應(yīng)用與各類數(shù)據(jù)格式及存儲需求,但在企業(yè)之間、企業(yè)內(nèi)部都存在條塊分
割、信息孤島的現(xiàn)象,各個企業(yè)之間的數(shù)據(jù)不能實現(xiàn)可控的數(shù)據(jù)交換與共享,而且各個應(yīng)用之間由于涉及到開
發(fā)技術(shù)與環(huán)境的限制也為企業(yè)的數(shù)據(jù)共享設(shè)置了障礙,阻礙了企業(yè)各個應(yīng)用之間與數(shù)據(jù)交換與共享,也阻礙了
企業(yè)對數(shù)據(jù)可控,數(shù)據(jù)管理,數(shù)據(jù)安全方面的需求.為實現(xiàn)跨行業(yè)跨部門的數(shù)據(jù)整合,特別是在智慧城市建設(shè)中,
需要制定統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)、交換接口與共享協(xié)議,這樣不一致行業(yè)、不一致部門、不一致格式的數(shù)據(jù)才能基于
一個統(tǒng)一的基礎(chǔ)進行訪問、交換與共享.通過實現(xiàn)企業(yè)數(shù)據(jù)總線(EDS),能夠提供對企業(yè)應(yīng)用中各類數(shù)據(jù)的存取
功能,把企業(yè)數(shù)據(jù)的存取集成與企業(yè)的功能集成分離開來.
企業(yè)數(shù)據(jù)總線有效地創(chuàng)建了一層數(shù)據(jù)訪問抽象層,使業(yè)務(wù)功能躲開企業(yè)數(shù)據(jù)訪問的細節(jié).業(yè)務(wù)組件只需包
含服務(wù)功能組件(用以實現(xiàn)現(xiàn)有服務(wù)功能)與數(shù)據(jù)訪問組件(通過使用企業(yè)數(shù)據(jù)總線的方式).通過企業(yè)數(shù)據(jù)總線
這種方式,為企業(yè)的管理數(shù)據(jù)模型與應(yīng)用系統(tǒng)數(shù)據(jù)模型間提供了一個統(tǒng)一的轉(zhuǎn)換接口,并有效減少了各應(yīng)用服
務(wù)之間的耦合度.在大數(shù)據(jù)場景下,企業(yè)數(shù)據(jù)總線上會存在大量的同步的數(shù)據(jù)訪問請求,總線上任何一個模塊性
能下降,都會大大影響總線功能,因此企業(yè)數(shù)據(jù)總線也需要使用大規(guī)模并發(fā)式、具備高可擴展性的實現(xiàn)方式.
4.3數(shù)據(jù)存儲
大數(shù)據(jù)每年都在激增龐大的信息量,加上已有的歷史數(shù)據(jù)信息,對整個業(yè)界的數(shù)據(jù)存儲、處理帶來了很大
的機遇與挑戰(zhàn).為了滿足快速增長的存儲需求,存儲需要具備高擴展性、高可靠性、高可用性、墨本、自
動容錯與去中心化等特點.常見的云存儲形式能夠分為分布式文件系統(tǒng)與分布式數(shù)據(jù)庫.其中,分布式文件系統(tǒng)
使用大規(guī)模的分布式存儲節(jié)點來滿足存儲大量文件的需求,而分布式的NoSQL數(shù)據(jù)庫則為大規(guī)模非結(jié)構(gòu)化數(shù)
據(jù)的處理與分析提供支持.
Google在早期面對海量互聯(lián)網(wǎng)網(wǎng)頁的存儲及分析難題時,率先開發(fā)出了Google文件系統(tǒng)GFS21與基于
GFS的MapReduce分布式計算分析模型”電川.由于一部分的Google應(yīng)用程序需要處理大量的格式化與半格
式化數(shù)據(jù),Google又構(gòu)建了弱?致性要求的大規(guī)模數(shù)據(jù)庫系統(tǒng)BigTablM"l,能夠?qū)A繑?shù)據(jù)進行索引、查詢與
分析.Google的這一系列產(chǎn)品,開創(chuàng)了云計算時代大規(guī)模數(shù)據(jù)存儲、查詢與處理的先河,也成為了這個領(lǐng)域的事
實上的標(biāo)準(zhǔn),在技術(shù)上一直保持領(lǐng)先地位.
由于Google的技術(shù)并不對外開放,因此Yahoo與開源社區(qū)協(xié)同開發(fā)了Hadoop系統(tǒng),相當(dāng)于GFS與
MapReduce的開源實現(xiàn).其底層的Hadoop文件系統(tǒng)HDFS與GFS的設(shè)計原理完全是一致的,同時也實現(xiàn)了
Bigtable的開源系統(tǒng)HBase分布式數(shù)據(jù)庫.Hadoop與HBase自推出以來在全世界得到了廣泛的應(yīng)用,現(xiàn)在已經(jīng)
由Apache基金會管理,Yahoo本身的搜索系統(tǒng)就是運行在上萬臺的Hadoop集群之上.
Google文件系統(tǒng)充分考慮了在一個大規(guī)模數(shù)據(jù)集群中運行分布式文件系統(tǒng)所面對的非常嚴(yán)酷的環(huán)境:1)
充分考慮到大量節(jié)點的失效問題,需要通過軟件將容錯與自動恢復(fù)功能集成在系統(tǒng)中⑵構(gòu)造特殊的文件系統(tǒng)
參數(shù),文件通常大小以G字節(jié)計,并包含大量小文件;3)充分考慮應(yīng)用的特性,增加文件追加操作,優(yōu)化順序讀寫
速度;4)文件系統(tǒng)的某些具體操作不再透明,需要應(yīng)用程序的協(xié)助完成.
Fig.lSystemarchitectureofGoogleFileSystem
圖1GoogleFileSystem的系統(tǒng)架構(gòu)
圖I描述了GoogleFileSystem的系統(tǒng)架構(gòu),即一個GFS集群包含一個主服務(wù)器(GFSMaster)與多個塊服
務(wù)器(GFSchunkserver),被多個客戶端訪問(GFSClient).大文件被分割成固定尺寸的塊,塊服務(wù)器把塊作為
Linux文件儲存在本地硬盤上,并根據(jù)指定的塊句柄與字節(jié)范圍來讀寫塊數(shù)據(jù).為了保證可靠性,每個塊被缺省
儲存三個備份.主服務(wù)器管理文件系統(tǒng)所有的元數(shù)據(jù),包含名字空間,訪問操縱,文件到塊的映射,塊物理位置等
有關(guān)信息.通過服務(wù)器端與客戶端的聯(lián)合設(shè)計,GFS對應(yīng)用支持達到性能與可用性最優(yōu).GFS是為Google應(yīng)用程
序本身而設(shè)計的,在內(nèi)部部署了許多GFS集群.有的集群擁有超過幾千個的存儲節(jié)點,超過PB的存儲空間,被不
一致機器上的數(shù)千個客戶端連續(xù)不斷的頻繁訪問著.
為了應(yīng)對海量數(shù)據(jù)的挑戰(zhàn),一些商業(yè)數(shù)據(jù)庫系統(tǒng)試圖結(jié)合傳統(tǒng)的RDBMS技術(shù)與分布式及并行計算技術(shù),
來處理大數(shù)據(jù)的需求.很多系統(tǒng)還是從硬件層面來對數(shù)據(jù)處理進行加速.比較典型的系統(tǒng)有IBM的
Netezza,Oracle的Exadata,EMC的Grccnplum.HP的VerticalTeradata.這些系統(tǒng)從功能上來講,能夠繼續(xù)支持
傳統(tǒng)數(shù)據(jù)庫及數(shù)據(jù)倉庫的操作語義與分析模式,而在擴展性上,也能利用大規(guī)模的集群資源對數(shù)據(jù)進行并行處
理,大大加速數(shù)據(jù)的加載、索引與查詢處理時間.
Netezza與Exadata都是使用的數(shù)據(jù)倉庫一體機的方案.把軟件與硬件結(jié)合在一起,無縫的整合數(shù)據(jù)庫管理
系統(tǒng)(DBMS)、服務(wù)器(Server)、存儲設(shè)備(Storage)及網(wǎng)絡(luò).關(guān)于最終用戶來說一體機能夠快速簡易的安裝,通過
標(biāo)準(zhǔn)的接口與簡單的操作來滿足用戶的需求.然而這些一體機解決方案存在硬件價格充開銷能耗大,系
統(tǒng)限務(wù)費昂貴.系統(tǒng)升級獷容時也需要整體購置等缺點.Oracle的Exadata最大的問題還是在于Shared
Everything的架構(gòu),導(dǎo)致10的處理能力有限,而且擴展能力也有限.Exadata的儲存層不能互相通信,任何中間計
算的結(jié)果務(wù)必先從儲存層傳遞到RACNode,然后通過RACNode傳遞到對應(yīng)的儲存層Node,然后計算.大量的
數(shù)據(jù)移動又造成了不必要的IO與網(wǎng)絡(luò)資源消耗.Exadata在查詢性能上不太穩(wěn)固,在性能調(diào)優(yōu)方面也需要經(jīng)驗
與深入的知識.
NoSQL數(shù)據(jù)庫,顧名思義就是打破了傳統(tǒng)的關(guān)系數(shù)據(jù)庫的范式約束.很多NoSQL數(shù)據(jù)庫從數(shù)據(jù)存儲的角
度來看,也不是關(guān)系型的數(shù)據(jù)庫,而是key-value數(shù)據(jù)格式的散列數(shù)據(jù)庫.由于放棄了關(guān)系數(shù)據(jù)庫強大的SQL查
詢語言與事務(wù)一致性與范式的約束,NoSQL數(shù)據(jù)庫能夠在很大程度上解決傳統(tǒng)關(guān)系數(shù)據(jù)庫面臨的諸多挑戰(zhàn).在
設(shè)計上,它們非常關(guān)注對數(shù)據(jù)高并發(fā)地讀寫與對海量數(shù)據(jù)的存儲等,與關(guān)系型數(shù)據(jù)庫相比,在擴展性、并發(fā)性及
容錯性等方面具有很大優(yōu)勢.現(xiàn)在主流NoSQL數(shù)據(jù)庫有Google開發(fā)的BigTable,與類似BigTable的開源實現(xiàn)
HBase^與出自Facebook的Cassandra等.
由于一部分的Google應(yīng)用程序需要處理大量的格式化與半格式化數(shù)據(jù),Google構(gòu)建了弱一致性要求的大
規(guī)模數(shù)據(jù)庫系統(tǒng)BigTable.BigTable的應(yīng)用包含搜索日志,地圖Qrkut網(wǎng)絡(luò)社區(qū),RSS閱讀器等.
Fig.2DatamodelinBigTable
圖2BigTable的數(shù)據(jù)模型
圖2中描述了在BigTable模型中應(yīng)用的數(shù)據(jù)模型.數(shù)據(jù)模型包含行列與相應(yīng)的時間戳,所有的數(shù)據(jù)都存放
在表格單元中.BigTable的內(nèi)容按照行來劃分,將多個行構(gòu)成一個小表,儲存到某一個服務(wù)器節(jié)點中.這一個小表
就被稱之Tablet.
與前述的系統(tǒng)類似,BigTable也是客戶端與服務(wù)器端的聯(lián)合設(shè)計,使得性能能夠最大程度地符合應(yīng)用的需
求.BigTable系統(tǒng)依靠于集群系統(tǒng)的底層結(jié)構(gòu),一個是分布式的集群任務(wù)調(diào)度器,一個是前述的Google文件系
統(tǒng),還有一個分布式的鎖服務(wù)Chubby.Chubby是一個非常健壯的粗粒度鎖,BigTable使用Chubby來儲存根數(shù)據(jù)
表格的指針,即用戶能夠首先從Chubby鎖服務(wù)器中獲得根表的位置,繼而對數(shù)據(jù)進行訪問.BigTable使用一臺服
務(wù)器作為主服務(wù)器,用來儲存與操作元數(shù)據(jù).主服務(wù)器除了管理元數(shù)據(jù)之外,還負責(zé)關(guān)于tablet服務(wù)器(即通常意
義上的數(shù)據(jù)服務(wù)器)進行遠程管理與負載調(diào)配.客戶端通過編程接口與主服務(wù)器進行元數(shù)據(jù)通信,與tablet服務(wù)
器進行數(shù)據(jù)通信.
在大規(guī)模分布式數(shù)據(jù)庫方面,HBase及Cassandra等主流NoSQL數(shù)據(jù)庫要緊是提供高可擴展性支持,在一
致性與可用性方面會做相應(yīng)的犧牲,在對傳統(tǒng)的RDBMS的ACID語義、事務(wù)支持等方面存在不足.Google的
Megastore^i則是努力把NoSQL與傳統(tǒng)的關(guān)系型數(shù)據(jù)庫融合,并為一致性與高可用性提供了強有力的保
證.Megastore使用同步復(fù)制來達到高可用性與數(shù)據(jù)的一致性視圖.簡而言之,MegaStore對“不一致地域的低延
遲性的數(shù)據(jù)副本”提供了完全的串行化ACID語義來支持交互的在線服務(wù).Megastore兼具了NoSQL與RDBMS
兩者的優(yōu)點,在保障一致性的原則下,又能滿足高可擴展性、高容錯性與低延遲,為Google的上百個生產(chǎn)應(yīng)用提
供服務(wù).
4.4數(shù)據(jù)計算
面向大數(shù)據(jù)處理的數(shù)據(jù)查詢、統(tǒng)計、分析、挖掘等需求,促生了大數(shù)據(jù)計算的不一致計算模式,整體上我
們把大數(shù)據(jù)計算分為離線批處理計算、實時交互計算與流計算三種.
4.4.1離線批處理
隨著云計算技術(shù)到廣泛的應(yīng)用的進展,基于開源的Hadoop分布式存儲系統(tǒng)與MapReduce數(shù)據(jù)處理模式的
分析系統(tǒng)也得到了廣泛的應(yīng)用.Hadoop通過數(shù)據(jù)分塊及自恢復(fù)機制,能支持PB級的分布式的數(shù)據(jù)存儲,與基于
MapReduce分布式處理模式對這些數(shù)據(jù)進行分析與處理.MapReduce編程模型能夠很容易的將多個通用批數(shù)
據(jù)處理任務(wù)與操作在大規(guī)模集群上并行化,而且有自動化的故障轉(zhuǎn)移功能.MapReduce編程模型在Hadoop這樣
的開源軟件帶動下被廣泛使用,應(yīng)用到Web搜索、欺詐檢測等各類各樣的實際應(yīng)用中.
Hadoop是一個能夠?qū)Υ罅繑?shù)據(jù)進行分布式處理的軟件框架,而且是以一種可靠、高效、可伸縮的方式進
行處理,依靠橫向擴展,通過不斷增加廉價的商用服務(wù)器來提高計算與存儲能力.用戶能夠輕松地在上面開發(fā)與
運行處理海量數(shù)據(jù)的應(yīng)用程序,我們總結(jié)出Hadoop要緊有下列幾個優(yōu)點:
I)高可靠性:按位存儲與處理數(shù)據(jù)的能力值得人們信賴;
2)高擴展性:在可用的計算機集群中分配數(shù)據(jù)并完成計算任務(wù),這些集群能夠方便地擴展到數(shù)以千計的
節(jié)點規(guī)模;
3)高效性:能夠在節(jié)點之間動態(tài)地移動數(shù)據(jù),并
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026廣東惠州市博羅縣司法局招聘司法協(xié)理員、司法輔助人員5人備考考試題庫附答案解析
- 學(xué)校安全生產(chǎn)追溯制度
- 中藥材種植安全生產(chǎn)制度
- 2025年企業(yè)內(nèi)部控制制度評估方法手冊
- 生產(chǎn)線員工離線管理制度
- 2025 小學(xué)四年級科學(xué)上冊實驗結(jié)論的可靠性課件
- 農(nóng)產(chǎn)品安全生產(chǎn)上墻制度
- 林場生產(chǎn)經(jīng)營部規(guī)章制度
- 2025年物業(yè)管理規(guī)范與實務(wù)手冊
- 烘焙店生產(chǎn)人員管理制度
- 綠化設(shè)備安全培訓(xùn)課件
- 給水管道遷改工程施工方案
- 【數(shù)學(xué)】二次根式及其性質(zhì)第1課時二次根式的概念課件 2025~2026學(xué)年人教版數(shù)學(xué)八年級下冊
- 漢源縣審計局關(guān)于公開招聘編外專業(yè)技術(shù)人員的備考題庫附答案
- 2025安徽省合肥市公務(wù)員考試《行測》題庫及答案(各地真題)
- 2026年上海市普陀區(qū)社區(qū)工作者公開招聘筆試參考題庫及答案解析
- 2024年4月自考05424現(xiàn)代設(shè)計史試題
- 綜合能源管理系統(tǒng)平臺方案設(shè)計及實施合集
- 甲苯磺酸奧馬環(huán)素片-藥品臨床應(yīng)用解讀
- 共享單車對城市交通的影響研究
- 監(jiān)理大綱(暗標(biāo))
評論
0/150
提交評論