版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
網(wǎng)絡(luò)新技術(shù)之大數(shù)據(jù)5.大數(shù)據(jù)技術(shù)5.1大數(shù)據(jù)的定義5.2大數(shù)據(jù)的技術(shù)特征5.3大數(shù)據(jù)的典型應(yīng)用5.4大數(shù)據(jù)的發(fā)展趨勢(shì)一組數(shù)據(jù)3億用戶,每天上億條微博.2015年全球移動(dòng)終端產(chǎn)生的數(shù)據(jù)量6300PBFacebook每天要存儲(chǔ)大約100TB的用戶數(shù)據(jù);NASA美國(guó)宇航局每天要處理約24TB的數(shù)據(jù)微信國(guó)內(nèi)用戶4億,國(guó)外用戶突破7千萬(wàn),每天產(chǎn)生數(shù)據(jù)百度每天處理數(shù)據(jù)量100PBGBTBPBEBZB大數(shù)據(jù)時(shí)代的爆炸增長(zhǎng)想駕馭這龐大的數(shù)據(jù),我們必須了解大數(shù)據(jù)的特征。地球上至今總共的數(shù)據(jù)量:在2006年,個(gè)人用戶才剛剛邁進(jìn)TB時(shí)代,全球一共新產(chǎn)生了約180EB的數(shù)據(jù);在2011年,這個(gè)數(shù)字達(dá)到了1.8ZB。而有市場(chǎng)研究機(jī)構(gòu)預(yù)測(cè):到2020年,整個(gè)世界的數(shù)據(jù)總量將會(huì)增長(zhǎng)44倍,達(dá)到35.2ZB(1ZB=10億TB)!1PB
(拍字節(jié))
=2^50字節(jié)1EB
(艾字節(jié))
=2^60字節(jié)1ZB(澤字節(jié))=2^70字節(jié)大數(shù)據(jù)概念和特征什么是大數(shù)據(jù)(Bigdata)?維基百科的定義:大數(shù)據(jù)指難以用常用的軟件工具在可容忍時(shí)間內(nèi)抓取、管理以及處理的數(shù)據(jù)集(一般單個(gè)數(shù)據(jù)集大小在10T左右)。大數(shù)據(jù)之所以在最近走紅,主要?dú)w結(jié)于互聯(lián)網(wǎng)、移動(dòng)設(shè)備、物聯(lián)網(wǎng)和云計(jì)算等快速崛起,全球數(shù)據(jù)量大大提升?!按髷?shù)據(jù)”是繼云計(jì)算、物聯(lián)網(wǎng)之后IT產(chǎn)業(yè)又一次顛覆性的技術(shù)變革2006年左右,數(shù)據(jù)量已足夠大,但是當(dāng)時(shí)大數(shù)據(jù)不紅,why?為什么叫大數(shù)據(jù):一是數(shù)量大YB:2的80次方,ZB的1000倍ZB:2的70次方,EB的1000倍EB:2的60次方,PB的1000倍PB:2的50次方,TB的1000倍TB:2的40次方,GB的1000倍GB:2的30次方,MB的1000倍絕大部分應(yīng)用在這兩個(gè)數(shù)量級(jí)二是類(lèi)型多結(jié)構(gòu)特征:結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化擁有特征:私有、共有、公開(kāi)形態(tài)特征:語(yǔ)音、文本、數(shù)值、圖像、視頻為什么叫大數(shù)據(jù):二是類(lèi)型多三是更接近把握信息資源的本質(zhì)大數(shù)據(jù)真正開(kāi)始把信息變成資源有的文章將大數(shù)據(jù)看作石油,大數(shù)據(jù)研究與自然資源利用發(fā)現(xiàn)、開(kāi)采、提煉存在一定的相似之處研究大數(shù)據(jù),首先要研究各種有用的信息在何處,就是找礦其次是把滿足特定需求的信息收集過(guò)來(lái),就是開(kāi)礦第三是把收集的信息按應(yīng)用需求進(jìn)行結(jié)構(gòu)化處理,就是提煉,如同石油必須經(jīng)過(guò)煉化才能變成消費(fèi)用的汽油、柴油或作為原料用的聚乙烯、聚丙烯第四是將這樣的信息與具體的應(yīng)用結(jié)合,使之發(fā)揮作用,這就是基于大數(shù)據(jù)的應(yīng)用系統(tǒng),或稱之為圍繞應(yīng)用的大數(shù)據(jù)管理系統(tǒng),如同汽油通過(guò)加油站加到消費(fèi)者的汽車(chē)內(nèi),石化原料變成衣服、設(shè)備或其部件。大數(shù)據(jù)的各部分組成大數(shù)據(jù)技術(shù):圖像、音頻、視頻、非結(jié)構(gòu)化、社交關(guān)系數(shù)據(jù)處理技術(shù)商;現(xiàn)有IT系統(tǒng)改造商:大數(shù)據(jù)咨詢公司、集成商、ERP、商務(wù)智能、客戶關(guān)系管理系統(tǒng);終端提供商向數(shù)據(jù)提供商演進(jìn):對(duì)現(xiàn)有客戶數(shù)據(jù)的深度把握、建立客戶之間的社交和聯(lián)系;展現(xiàn)方式:大型控制中心、移動(dòng)終端在多樣性、體量、速度三大特征的指引下,大數(shù)據(jù)將有新型的展現(xiàn)方式:大型控制中心和移動(dòng)終端,實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)處理和快速?zèng)Q策。大數(shù)據(jù)與傳統(tǒng)統(tǒng)數(shù)據(jù)庫(kù)11采集環(huán)節(jié)存儲(chǔ)環(huán)節(jié)分析環(huán)節(jié)應(yīng)用環(huán)節(jié)傳統(tǒng)數(shù)據(jù)分析大數(shù)據(jù)分析擴(kuò)展到傳感、互聯(lián)網(wǎng)、交易等多來(lái)源多類(lèi)型數(shù)據(jù)來(lái)源單一,以內(nèi)部結(jié)構(gòu)化數(shù)據(jù)為主主要是面向結(jié)構(gòu)化數(shù)據(jù)和事務(wù)處理的關(guān)系型數(shù)據(jù)庫(kù)擴(kuò)展到面向非結(jié)構(gòu)化數(shù)據(jù)和分析處理的非關(guān)系型數(shù)據(jù)庫(kù)依賴高性能計(jì)算機(jī),主要利用統(tǒng)計(jì)和機(jī)器學(xué)習(xí)算法需用分布式并行計(jì)算,Scaleout
能力,以機(jī)器學(xué)習(xí)算法為主局限在金融、保險(xiǎn)、零售、電信等少數(shù)領(lǐng)域,以決策支撐為主有望滲透到政府、醫(yī)療、交通等各個(gè)領(lǐng)域,嵌入到業(yè)務(wù)流程中來(lái)源廣,3V非結(jié)構(gòu)化和面向分析為主分布式并行架構(gòu)結(jié)合機(jī)器學(xué)習(xí)算法更廣的領(lǐng)域,更深入的嵌入業(yè)務(wù)流大數(shù)據(jù)系統(tǒng)的特點(diǎn)大數(shù)據(jù)資源大數(shù)據(jù)工具大數(shù)據(jù)理念大數(shù)據(jù)與其他他新興技術(shù)的的關(guān)系大數(shù)據(jù)、物聯(lián)聯(lián)網(wǎng)、云計(jì)算算、移動(dòng)通信信等都是近年年涌現(xiàn)出來(lái)的的新興概念,,彼此之間不不是孤立的,,而是存在著著內(nèi)部聯(lián)系。。大數(shù)據(jù)帶來(lái)的的思維方式的的變化處理的對(duì)象往往往是全部數(shù)數(shù)據(jù),而不是是部分?jǐn)?shù)據(jù)的的采樣采樣的不合理理會(huì)導(dǎo)致預(yù)測(cè)測(cè)結(jié)果的偏差差,在大數(shù)據(jù)據(jù)時(shí)代,依靠靠強(qiáng)大的數(shù)據(jù)據(jù)處理能力,,應(yīng)該去處理理全部的數(shù)據(jù)據(jù)。不再執(zhí)迷于精精確性精確的、規(guī)范范化的、可以以被傳統(tǒng)數(shù)據(jù)據(jù)庫(kù)處理的數(shù)數(shù)據(jù)只占全部部數(shù)據(jù)的5%,必須接受不不精確性才能能處理另外95%的數(shù)據(jù)。錯(cuò)誤的數(shù)據(jù)是是客觀存在的的,竭力避免免它就失去了了應(yīng)有的客觀觀性和公平性性。大數(shù)據(jù)的簡(jiǎn)單算算法比小數(shù)據(jù)據(jù)的復(fù)雜算法法更有效。更加關(guān)注相關(guān)關(guān)性,而不是是因果性預(yù)測(cè)依靠的是是相關(guān)性。很多情況下下知道“是是什么”即即可,不必必知道“為為什么”。。大數(shù)據(jù)的價(jià)價(jià)值鏈數(shù)據(jù)數(shù)據(jù)的掌控控者,擁有有或者可以以收集大量量數(shù)據(jù)的公公司。海量量的數(shù)據(jù)就就是財(cái)富,,可以考慮慮自己分析析或者賣(mài)數(shù)數(shù)據(jù)給其他他公司。技術(shù)技術(shù)供應(yīng)商商或者分析析公司。掌掌握了從海海量數(shù)據(jù)中中分析出有有用信息的的技能或者者工具,但但本身不一一定擁有數(shù)數(shù)據(jù)。思維有創(chuàng)新思維維的人或者者公司。他他們對(duì)大數(shù)數(shù)據(jù)敏感,,有怎樣挖挖掘數(shù)據(jù)的的新價(jià)值的的獨(dú)特想法法。@2013北京澤佳公公司版權(quán)所所有Copyright?2013ZejiaConsultingCorporation第15頁(yè)大數(shù)據(jù)基礎(chǔ)礎(chǔ)架構(gòu)要求求可預(yù)測(cè)的低低延遲高事務(wù)參數(shù)靈活的數(shù)據(jù)據(jù)結(jié)構(gòu)獲取組織分析決策高吞吐量就地準(zhǔn)備所有數(shù)據(jù)源源和結(jié)構(gòu)深度分析敏捷開(kāi)發(fā)高度可伸縮性實(shí)時(shí)流數(shù)據(jù)運(yùn)營(yíng)影響5.大數(shù)據(jù)技術(shù)術(shù)5.1大數(shù)據(jù)的定定義5.2大數(shù)據(jù)的技技術(shù)特征5.3大數(shù)據(jù)的典典型應(yīng)用5.4大數(shù)據(jù)的發(fā)發(fā)展趨勢(shì)大數(shù)據(jù)的技技術(shù)特征數(shù)據(jù)結(jié)構(gòu):結(jié)結(jié)構(gòu)化數(shù)數(shù)據(jù)與非結(jié)結(jié)構(gòu)化數(shù)據(jù)據(jù)數(shù)據(jù)庫(kù)數(shù)據(jù)據(jù)模型:關(guān)關(guān)系型數(shù)據(jù)據(jù)庫(kù)與非關(guān)關(guān)系型數(shù)據(jù)據(jù)庫(kù)數(shù)據(jù)處理特特性:OLTP與OLAP數(shù)據(jù)一致性性:強(qiáng)一致致性與最終終一致性數(shù)據(jù)存儲(chǔ)方式式:行式存存儲(chǔ)與列式式存儲(chǔ)數(shù)據(jù)庫(kù)存儲(chǔ)儲(chǔ)與處理架架構(gòu):SMP與MPP數(shù)據(jù)存儲(chǔ)架架構(gòu):傳統(tǒng)統(tǒng)分布式文文件與新型型分布式文文件數(shù)據(jù)處理架構(gòu)構(gòu):基于并并行計(jì)算的的分布式數(shù)數(shù)據(jù)處理技技術(shù)(MapReduce)-17-數(shù)據(jù)的結(jié)構(gòu)—結(jié)構(gòu)化、非結(jié)構(gòu)化、半結(jié)構(gòu)構(gòu)化數(shù)據(jù)-18-對(duì)比項(xiàng)結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半非結(jié)構(gòu)化數(shù)據(jù)定義有數(shù)據(jù)結(jié)構(gòu)描述信息的數(shù)據(jù)不方便用固定結(jié)構(gòu)來(lái)表現(xiàn)的數(shù)據(jù)介于完全結(jié)構(gòu)化數(shù)據(jù)和完全無(wú)結(jié)構(gòu)的數(shù)據(jù)之間的數(shù)據(jù)結(jié)構(gòu)與內(nèi)容的關(guān)系先有結(jié)構(gòu)、再有數(shù)據(jù)只有數(shù)據(jù),沒(méi)有結(jié)構(gòu)先有數(shù)據(jù),再有結(jié)構(gòu)示例各類(lèi)表格圖形、圖像、音頻、視頻信息HTML文檔,它一般是自描述的,數(shù)據(jù)的結(jié)構(gòu)和內(nèi)容混在一起結(jié)構(gòu)化數(shù)據(jù)據(jù)和非結(jié)構(gòu)構(gòu)化數(shù)據(jù)都都是客觀存存在,大數(shù)據(jù)技術(shù)需要涵蓋蓋兩者數(shù)據(jù)庫(kù)數(shù)據(jù)據(jù)模型—關(guān)系型數(shù)據(jù)據(jù)庫(kù)與非關(guān)關(guān)系型數(shù)據(jù)庫(kù)庫(kù)在大數(shù)據(jù)技技術(shù)中"非關(guān)系型"數(shù)據(jù)庫(kù)庫(kù)技技術(shù)術(shù)是是必必不不可可少少的,,但關(guān)系系數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)也也是是不不可可或或缺缺的的-19-對(duì)比項(xiàng)關(guān)系型數(shù)據(jù)庫(kù)非關(guān)系型數(shù)據(jù)庫(kù)定義創(chuàng)建在關(guān)系模型基礎(chǔ)上,借助于集合代數(shù)等數(shù)學(xué)概念和方法來(lái)處理數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)系模型由關(guān)系數(shù)據(jù)結(jié)構(gòu)、關(guān)系操作集合、關(guān)系完整性約束三部分組成沒(méi)有標(biāo)準(zhǔn)定義包括:表存儲(chǔ)數(shù)據(jù)庫(kù)、鍵值存儲(chǔ)數(shù)據(jù)庫(kù)、面向文檔的數(shù)據(jù)庫(kù)等接口語(yǔ)言SQL(StructuredQueryLanguage,結(jié)構(gòu)化查詢語(yǔ)言),對(duì)數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行查詢、操作和管理無(wú)統(tǒng)一標(biāo)準(zhǔn)包括:各自定義的API、類(lèi)SQL、MR等典型案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型的MPPRDB(Greenplum)也屬于關(guān)系型數(shù)據(jù)庫(kù)Hbase、MongoDB、Redis數(shù)據(jù)據(jù)處處理理特特性—OLTP與OLAP-20-比較項(xiàng)聯(lián)機(jī)事務(wù)處理OLTP(On-LineTransactionProcessing)聯(lián)機(jī)分析處理OLAP(On-LineAnalyticalProcessing)基本類(lèi)型業(yè)務(wù)操作型業(yè)務(wù)分析型數(shù)據(jù)特性對(duì)一條記錄數(shù)據(jù)會(huì)多次修改,支持大量并發(fā)用戶添加和修改數(shù)據(jù)數(shù)據(jù)寫(xiě)入后基本不再修改,能較好地支持大量并發(fā)用戶進(jìn)行大數(shù)據(jù)量查詢技術(shù)特性確保數(shù)據(jù)的一致性確保事務(wù)的完整性數(shù)據(jù)讀寫(xiě)實(shí)時(shí)性高支持多維數(shù)據(jù)以及對(duì)多維數(shù)據(jù)的復(fù)雜分析大數(shù)據(jù)量數(shù)據(jù)量GB-TB級(jí)TB-PB級(jí)典型示例銀行業(yè)務(wù)系統(tǒng)/數(shù)據(jù)庫(kù)各類(lèi)決策分析系統(tǒng)/數(shù)據(jù)庫(kù)OLTP以業(yè)業(yè)務(wù)務(wù)操操作作型型為為主主,,OLAP以業(yè)業(yè)務(wù)務(wù)分分析析性性為為主主,,兩兩者者對(duì)對(duì)技技術(shù)術(shù)的的要要求求很很難難兼兼顧顧數(shù)據(jù)據(jù)一一致致性性::強(qiáng)強(qiáng)一一致致性性與與最最終終一一致致性性-21-強(qiáng)一一致致性性和和最最終終一一致致性性都都是是指指客客戶戶端端向數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)系系統(tǒng)寫(xiě)寫(xiě)入入數(shù)數(shù)據(jù)據(jù)后后,數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)系系統(tǒng)能能夠夠提提供供的的數(shù)數(shù)據(jù)據(jù)一一致致性性的的表表現(xiàn)現(xiàn)對(duì)比項(xiàng)強(qiáng)一致性(即時(shí)一致性)最終一致性弱一致性場(chǎng)景定義假定三個(gè)進(jìn)程A、B、C是互相獨(dú)立的,且都在對(duì)存儲(chǔ)系統(tǒng)進(jìn)行讀寫(xiě)操作數(shù)據(jù)一致性表現(xiàn)A寫(xiě)入數(shù)據(jù)到存儲(chǔ)系統(tǒng)后,存儲(chǔ)系統(tǒng)能夠保證后續(xù)任何時(shí)刻發(fā)起讀操作的B、C可以讀到A寫(xiě)入的數(shù)據(jù)A寫(xiě)入數(shù)據(jù)到存儲(chǔ)系統(tǒng)后,經(jīng)過(guò)一定時(shí)間,或者在某個(gè)特定操作后,B、C最終會(huì)讀到A寫(xiě)入的數(shù)據(jù)A寫(xiě)入數(shù)據(jù)到存儲(chǔ)系統(tǒng)后,存儲(chǔ)系統(tǒng)不能夠保證后續(xù)發(fā)起讀操作的B、C可以讀到A寫(xiě)入的數(shù)據(jù)示例OLTP需要強(qiáng)一致性O(shè)LAP需最終一致性絕大多數(shù)應(yīng)用不能夠容忍弱一致性數(shù)據(jù)據(jù)存存儲(chǔ)儲(chǔ)方方式—行式式存存儲(chǔ)儲(chǔ)與與列式存存儲(chǔ)儲(chǔ)-22-傳統(tǒng)統(tǒng)關(guān)關(guān)系系型型數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)主主要要采采用用行行存存儲(chǔ)儲(chǔ)模模式式,,海海量量數(shù)數(shù)據(jù)據(jù)的的高高效效存存儲(chǔ)儲(chǔ)和和訪訪問(wèn)問(wèn)要要求求引引發(fā)發(fā)了了從從行行存存儲(chǔ)儲(chǔ)模模式式向向列列存存儲(chǔ)儲(chǔ)模模式式的的轉(zhuǎn)轉(zhuǎn)變行存儲(chǔ)儲(chǔ)用戶生日聊天記錄日均在線時(shí)長(zhǎng)用戶11981-10-3Xxxxyyyy...2用戶21990-5-15Mmnnn…3.7用戶11981-10-3Xxxxyyyy...2用戶21990-5-15Mmnnn…3.7列存儲(chǔ)儲(chǔ)用戶11981-10-3用戶21990-5-15用戶1Xxxxyyyy..用戶2Mmnnn..用戶12用戶23.7行存儲(chǔ)列存儲(chǔ)存儲(chǔ)一行中各列一起存放,單行集中存儲(chǔ)一行中各列獨(dú)立存放,單列集中存儲(chǔ)索引效率海量數(shù)據(jù)索引既占用大量空間,且索引效率會(huì)隨著數(shù)據(jù)增長(zhǎng)越來(lái)越低基于列自動(dòng)索引,海量數(shù)據(jù)查詢效率高,不產(chǎn)生額外存儲(chǔ)空間效率同一行不同列數(shù)據(jù)類(lèi)型不同,壓縮效率低空值列依然占據(jù)空間列同數(shù)據(jù)類(lèi)型,壓縮效率高空值不占空間I/O查某列必須讀出整行,I/O負(fù)荷高、速度慢只需讀出某列數(shù)據(jù),I/O低速度快結(jié)構(gòu)表結(jié)構(gòu)改變影響很大可隨時(shí)動(dòng)態(tài)增加列適用場(chǎng)景數(shù)據(jù)寫(xiě)入后需要修改和刪除,基于行的反復(fù)查詢,多用于OLTP數(shù)據(jù)庫(kù)批量數(shù)據(jù)一次寫(xiě)入和基于少量列的反復(fù)查詢,多用于OLAP數(shù)據(jù)庫(kù)樣例例數(shù)數(shù)據(jù)據(jù)表表數(shù)據(jù)據(jù)庫(kù)庫(kù)存存儲(chǔ)儲(chǔ)與與處處理理架架構(gòu)構(gòu)—SMP與MPP在數(shù)數(shù)據(jù)據(jù)量量急急劇劇膨膨脹脹的的背景景下下,數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)處處理理要要求超超出出了單單機(jī)機(jī)或或SMP架構(gòu)構(gòu)能能力力范范圍圍,,最最高高配配置小小型機(jī)也也無(wú)法法滿滿足,,所以以在在大大數(shù)數(shù)據(jù)據(jù)技技術(shù)術(shù)中中,MPP架構(gòu)構(gòu)(計(jì)算分分布+存儲(chǔ)分分布))架架構(gòu)構(gòu)成成為主主流-23-計(jì)算算分分布,存儲(chǔ)集集中DBServ共享磁磁盤(pán)盤(pán)DBServDBServDBServ網(wǎng)絡(luò)絡(luò)SAN/FC計(jì)算算集集中,存儲(chǔ)集集中DBServ磁盤(pán)盤(pán)計(jì)算算分分布,存儲(chǔ)分分布布DBServDBServDBServDBServ高速通通信信網(wǎng)網(wǎng)絡(luò)磁盤(pán)盤(pán)磁盤(pán)盤(pán)磁盤(pán)盤(pán)磁盤(pán)盤(pán)Master如:Oracle傳統(tǒng)統(tǒng)單機(jī)機(jī)數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)如:OracleRAC小型機(jī)機(jī)+共享享盤(pán)盤(pán)陣陣如:Greenplum、HbaseX86+本地地硬硬盤(pán)盤(pán)傳統(tǒng)統(tǒng)單單機(jī)機(jī)數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)SMP架構(gòu)構(gòu)數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)MPP架構(gòu)構(gòu)數(shù)數(shù)據(jù)據(jù)庫(kù)庫(kù)對(duì)稱稱多多處處理,,SymmetricalMulti-Processing有兩臺(tái)以以上的服服務(wù)器,,各主機(jī)機(jī)之間共享總線結(jié)結(jié)構(gòu),共共享數(shù)據(jù)據(jù)存儲(chǔ)磁磁盤(pán)節(jié)點(diǎn)數(shù)有有限制,主要通過(guò)提高節(jié)節(jié)點(diǎn)配置置來(lái)提高高整體處處理能力力,擴(kuò)展展能力有有限對(duì)共享磁磁盤(pán)的訪訪問(wèn)可能能成為瓶瓶頸SMP大規(guī)模并并行處理,MassivelyParallelProcessing多個(gè)松耦合處理單元組組成,數(shù)據(jù)據(jù)存在本本機(jī)磁盤(pán)盤(pán)上通過(guò)增加加服務(wù)器數(shù)量量提高系系統(tǒng)處理理能力,,理論上可無(wú)限限擴(kuò)展,目技術(shù)可實(shí)現(xiàn)現(xiàn)上千個(gè)個(gè)節(jié)點(diǎn)互互聯(lián)對(duì)軟件體體系要求求較高,,需要通通過(guò)軟件件層來(lái)調(diào)調(diào)度和平平衡各個(gè)個(gè)節(jié)點(diǎn)的的負(fù)載和和并行處處理過(guò)程MPP數(shù)據(jù)存儲(chǔ)儲(chǔ)架構(gòu)::傳統(tǒng)分分布式文文件與新新型分布布式文件-24-傳統(tǒng)分布布式文件件系統(tǒng)也可以適應(yīng)海海量數(shù)據(jù)據(jù)增長(zhǎng),,但是由由于數(shù)據(jù)據(jù)計(jì)算與與存儲(chǔ)是是分離的的,隨數(shù)數(shù)據(jù)量的增長(zhǎng),網(wǎng)絡(luò)絡(luò)帶寬形形成瓶頸。新型分布式式文件系系統(tǒng)采用用數(shù)據(jù)計(jì)計(jì)算與存存儲(chǔ)綁定定的新策策略,可可有效應(yīng)應(yīng)對(duì)海量量數(shù)據(jù)增增長(zhǎng)X86PC集群數(shù)據(jù)存儲(chǔ):磁盤(pán)盤(pán)陣列數(shù)據(jù)存儲(chǔ)儲(chǔ)與計(jì)算算合一數(shù)據(jù)計(jì)算:數(shù)據(jù)服務(wù)務(wù)器數(shù)據(jù)靠靠網(wǎng)絡(luò)絡(luò)傳輸輸本機(jī)硬盤(pán)盤(pán)本機(jī)硬盤(pán)盤(pán)本機(jī)硬盤(pán)盤(pán)本機(jī)硬盤(pán)盤(pán)計(jì)算模模式擁有成成本盤(pán)陣負(fù)負(fù)責(zé)存存儲(chǔ),,數(shù)據(jù)據(jù)服務(wù)務(wù)器負(fù)負(fù)責(zé)計(jì)計(jì)算,,彼此此靠網(wǎng)網(wǎng)絡(luò)連連接,,計(jì)算算效率率受網(wǎng)網(wǎng)絡(luò)帶帶寬影影響PC機(jī)自行行負(fù)責(zé)責(zé)存儲(chǔ)儲(chǔ)和計(jì)計(jì)算,,數(shù)據(jù)據(jù)與計(jì)計(jì)算綁綁定,,不受受網(wǎng)絡(luò)絡(luò)帶寬寬影響響專用設(shè)設(shè)備價(jià)價(jià)格昂昂貴,,維護(hù)護(hù)費(fèi)用用高通用PC,價(jià)格格低廉廉,維維護(hù)方方便存儲(chǔ)模模式磁盤(pán)陣陣列存存儲(chǔ)由每臺(tái)臺(tái)PC機(jī)自帶帶硬盤(pán)盤(pán)組成成容錯(cuò)模模式不能容容忍盤(pán)盤(pán)陣設(shè)設(shè)備出出問(wèn)題題,靠靠RAID容錯(cuò)個(gè)個(gè)別硬硬盤(pán)故故障容許PC節(jié)點(diǎn)故故障,,通過(guò)過(guò)多個(gè)個(gè)文件件副本本保證證數(shù)據(jù)據(jù)完整整性數(shù)據(jù)存存儲(chǔ)與與計(jì)算算分離離新型分布布式文文件系系統(tǒng)—HadoopHDFS-25-HadoopHDFS是新型元數(shù)據(jù)據(jù)節(jié)點(diǎn)點(diǎn)Namenode文件名名,文文件塊塊,文文件塊塊所在在數(shù)據(jù)據(jù)節(jié)點(diǎn)點(diǎn),…文件元元數(shù)據(jù)據(jù)123數(shù)據(jù)節(jié)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)節(jié)點(diǎn)Datanode數(shù)據(jù)節(jié)節(jié)點(diǎn)Datanode先讀取取文件元數(shù)據(jù)據(jù),知知道文文件在在哪后讀取取各個(gè)個(gè)文件件塊管理文文件分分布存存儲(chǔ)優(yōu)點(diǎn)支持任任意超超大文文件存存儲(chǔ);;硬件件節(jié)點(diǎn)點(diǎn)可不不斷擴(kuò)擴(kuò)展,,低成成本存存儲(chǔ)對(duì)上層層應(yīng)用用屏蔽蔽分布布式部部署結(jié)結(jié)構(gòu),,提供供統(tǒng)一一的文文件系系統(tǒng)訪訪問(wèn)接接口,,感覺(jué)覺(jué)就是是一個(gè)個(gè)大硬硬盤(pán);;應(yīng)用用無(wú)需需知道道文件件具體體存放放位置置,使使用簡(jiǎn)簡(jiǎn)單;;文件分分塊存存儲(chǔ)((1塊缺省64MB),不同同塊可可分布布在不不同機(jī)機(jī)器節(jié)節(jié)點(diǎn)上上,通通過(guò)元元數(shù)據(jù)據(jù)記錄錄文件件塊位位置;;應(yīng)用用順序序讀取取各個(gè)個(gè)塊系統(tǒng)設(shè)設(shè)計(jì)為為高容容錯(cuò)性性,允允許廉廉價(jià)PC故障;;每塊塊文件件數(shù)據(jù)據(jù)在不不同機(jī)機(jī)器節(jié)節(jié)點(diǎn)上上保存存3份;這這種備備份的的另一一個(gè)好好處是是可方方便不不同應(yīng)應(yīng)用就就近讀讀取,,提高高訪問(wèn)問(wèn)效率率缺點(diǎn)適合大大數(shù)據(jù)據(jù)文件件保存存和分分析,,不適合合小文文件,由于于分布布存儲(chǔ)儲(chǔ)需要要從不不同節(jié)節(jié)點(diǎn)讀讀取數(shù)數(shù)據(jù),,效率率反而而沒(méi)有有集中中存儲(chǔ)儲(chǔ)高;;一次次寫(xiě)入入多次次讀取取,不支持持文件件修改改是最基基礎(chǔ)的的大數(shù)數(shù)據(jù)技技術(shù),,基于于文件件系統(tǒng)統(tǒng)層面面提供供文件件訪問(wèn)問(wèn)能力力,不不如數(shù)數(shù)據(jù)庫(kù)庫(kù)技術(shù)術(shù)強(qiáng)大大,但但也是是海量量數(shù)據(jù)據(jù)庫(kù)技技術(shù)的的底層層依托托文件系系統(tǒng)接接口完完全不不同于于傳統(tǒng)統(tǒng)文件件系統(tǒng)統(tǒng),應(yīng)應(yīng)用需需要重重新開(kāi)開(kāi)發(fā)上層應(yīng)應(yīng)用YahooAmazonFacebookEbay淘寶百度中國(guó)移移動(dòng)飛飛信中中國(guó)移移動(dòng)大大云行業(yè)應(yīng)用技術(shù)特特點(diǎn)基于并并行計(jì)計(jì)算的的分布布式數(shù)數(shù)據(jù)處處理技技術(shù)(MapReduce)-26-TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中間結(jié)結(jié)果中間結(jié)結(jié)果中間結(jié)結(jié)果輸出數(shù)數(shù)據(jù)輸出數(shù)數(shù)據(jù)JobTracker用戶程序(JobClient)提交作業(yè)任務(wù)調(diào)度任務(wù)調(diào)度狀態(tài)監(jiān)控狀態(tài)監(jiān)控123MapReduce技術(shù)特性自動(dòng)并行化:系統(tǒng)自動(dòng)動(dòng)進(jìn)行作業(yè)業(yè)并行化處處理自動(dòng)可靠處處理:系統(tǒng)自動(dòng)動(dòng)處理節(jié)點(diǎn)點(diǎn)/任務(wù)的故障障檢測(cè)和恢恢復(fù)靈活擴(kuò)展:節(jié)點(diǎn)可以以靈活加入入和退出,,系統(tǒng)自動(dòng)動(dòng)感知節(jié)點(diǎn)點(diǎn)狀態(tài)并進(jìn)進(jìn)行處理高性能:計(jì)算任務(wù)務(wù)將被調(diào)度度至數(shù)據(jù)所所在的節(jié)點(diǎn)點(diǎn),減少網(wǎng)網(wǎng)絡(luò)開(kāi)銷(xiāo),,提升執(zhí)行行性能MapReduceMapReduce是解決海量數(shù)據(jù)處理的并行編編程環(huán)境5.大數(shù)據(jù)技術(shù)術(shù)5.1大數(shù)據(jù)的定定義5.2大數(shù)據(jù)的技技術(shù)特征5.3大數(shù)據(jù)的典典型應(yīng)用5.4大數(shù)據(jù)的發(fā)發(fā)展趨勢(shì)@2013北京澤佳公公司版權(quán)所所有Copyright?2013ZejiaConsultingCorporation第28頁(yè)大數(shù)據(jù)行業(yè)業(yè)應(yīng)用分析析應(yīng)用可能性性電信政府(公共共事業(yè))交通金融醫(yī)療教育能源(電力力/石油)縱軸契合度度:表示該用戶戶的IT應(yīng)用特點(diǎn)與與大數(shù)據(jù)特特性的契合合程度;橫軸應(yīng)用可可能性:表示該用用戶出于主主客觀因素素在短期內(nèi)內(nèi)投資大數(shù)數(shù)據(jù)的可能能性;注:該位置為分分析師訪談?wù)劦木C合印印象,為定定性分析,,圖中位置置不代表具具體數(shù)值HighMidLowLowMidHigh優(yōu)先關(guān)注行行業(yè)用戶應(yīng)用特點(diǎn)與與大數(shù)據(jù)技技術(shù)有較高高的契合度度,在主客客觀條件上上也有較高高的應(yīng)用可可能性。值得關(guān)注行行業(yè)用戶應(yīng)有特點(diǎn)與與大數(shù)據(jù)的的契合度及及應(yīng)用可能能性綜合較較高適當(dāng)關(guān)注行行業(yè)用戶兩個(gè)維度暫暫時(shí)都不具具備優(yōu)勢(shì),,可適當(dāng)給給予關(guān)注互聯(lián)網(wǎng)(電電子商務(wù)))契合度流通零售制造@2013北京澤佳公公司版權(quán)所所有Copyright?2013ZejiaConsultingCorporation第29頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)場(chǎng)景(1)為企業(yè)提供供全面,可可靠的績(jī)效效信息第30頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)場(chǎng)景(2)為城市管理理提供最新新,實(shí)時(shí)數(shù)數(shù)據(jù)@2013北京澤佳公公司版權(quán)所所有Copyright?2013ZejiaConsultingCorporation第31頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)場(chǎng)景(3)更快的基因組組和蛋白質(zhì)質(zhì)組分析@2013北京澤佳公公司版權(quán)所所有Copyright?2013ZejiaConsultingCorporation第32頁(yè)大數(shù)據(jù)應(yīng)用場(chǎng)場(chǎng)景(4)利用社交媒媒體等公開(kāi)開(kāi)的信息增增強(qiáng)傳統(tǒng)的的CRM數(shù)據(jù),從從而憑借借全面的的個(gè)人資資料實(shí)現(xiàn)現(xiàn)實(shí)現(xiàn)微微觀細(xì)分分。@2013北京澤佳佳公司版版權(quán)所有有Copyright??2013ZejiaConsultingCorporation第33頁(yè)2013年1月29日,住房房和城鄉(xiāng)鄉(xiāng)建設(shè)部部公布了了首批990個(gè)國(guó)國(guó)家智慧慧城市試試點(diǎn)名單單,試點(diǎn)點(diǎn)城市的的公布標(biāo)標(biāo)志著我我國(guó)智慧慧城市發(fā)發(fā)展進(jìn)入入規(guī)模推推廣的階階段。在在目前智智慧城市市的發(fā)展展階段,,主要的的應(yīng)用還還處于對(duì)對(duì)感知設(shè)設(shè)備傳遞遞的信息息進(jìn)行簡(jiǎn)簡(jiǎn)單處理理的水平平,充分分認(rèn)識(shí)大大數(shù)據(jù)對(duì)對(duì)于智慧慧城市建建設(shè)的關(guān)關(guān)鍵作用用,對(duì)于于避免智智慧城市市建設(shè)中中出現(xiàn)““重感知知,輕智智慧”的的通病具具有重要要意義。。從智慧城城市的體體系結(jié)構(gòu)構(gòu)來(lái)看,,由于智智慧城市市的基礎(chǔ)礎(chǔ)在于物物聯(lián)網(wǎng)技技術(shù),因因此智慧慧城市體體系架構(gòu)構(gòu)和物聯(lián)聯(lián)網(wǎng)的體體系結(jié)構(gòu)構(gòu)相類(lèi)似似,也可可分為四四層,分分別為感感知層、、傳輸層層、平臺(tái)臺(tái)層、應(yīng)應(yīng)用層。。智慧城城市相對(duì)對(duì)于之前前數(shù)字城城市概念念,最大大的區(qū)別別在于對(duì)對(duì)感知層層獲取的的信息進(jìn)進(jìn)行了智智慧的處處理,因因此也可可以認(rèn)為為智慧城城市是數(shù)數(shù)字城市市的升級(jí)級(jí)版。由由城市數(shù)數(shù)字化到到城市智智慧化,,關(guān)鍵是是要實(shí)現(xiàn)現(xiàn)對(duì)數(shù)字字信息的的智慧處處理,其其核心是是大數(shù)據(jù)據(jù)處理技技術(shù)。智慧城市市大數(shù)據(jù)應(yīng)用用場(chǎng)景((5)5.大數(shù)據(jù)技技術(shù)5.1大數(shù)據(jù)的的定義5.2大數(shù)據(jù)的的技術(shù)特特征5.3大數(shù)據(jù)的的典型應(yīng)應(yīng)用5.4大數(shù)據(jù)的的發(fā)展趨趨勢(shì)大數(shù)據(jù)時(shí)時(shí)代發(fā)展展趨勢(shì)大數(shù)據(jù)時(shí)時(shí)代發(fā)展展趨勢(shì)之之一:軟軟件應(yīng)用用泛互聯(lián)聯(lián)網(wǎng)化軟件的價(jià)價(jià)值是同同它所協(xié)協(xié)助管理理的數(shù)據(jù)據(jù)的規(guī)模模和活性性成正比比大數(shù)據(jù)時(shí)時(shí)代,掌掌握更多多用戶行行為數(shù)據(jù)據(jù),并能能加以充充分挖掘掘利用的的公司,,將在競(jìng)競(jìng)爭(zhēng)中贏贏得先機(jī)機(jī),桌面面應(yīng)用軟軟件鏈接接軟件公公司與互互聯(lián)網(wǎng)平平臺(tái)的核核心紐帶帶,如何何充分發(fā)發(fā)揮桌面面應(yīng)用軟軟件的紐紐帶作用用,是大大數(shù)據(jù)時(shí)時(shí)代的核核心趨勢(shì)勢(shì)之一。。富界面::集成瀏瀏覽器,,支持移移動(dòng)終端端、PC等設(shè)備((富界面面是指桌桌面應(yīng)用用軟件與與瀏覽器器的深度度整合,,軟件外外觀與傳傳統(tǒng)的應(yīng)應(yīng)用軟件件雷同,,但所有有的數(shù)據(jù)據(jù)都來(lái)自自于互聯(lián)聯(lián)網(wǎng))門(mén)戶化((排他性性,產(chǎn)品品相互支支援,提提高客戶戶粘性))門(mén)戶化化的核心心要義在在于排他他性、相相關(guān)性。。第一排排他性是是指用戶戶一旦適適應(yīng)一個(gè)個(gè)門(mén)戶,,則難以以割舍,,從而提提供用戶戶粘性;;第二相相關(guān)性是是指用戶戶在門(mén)戶戶化軟件件中,可可以完成成他大部部分的任任務(wù),而而無(wú)需離離開(kāi)門(mén)戶戶,門(mén)戶戶中相關(guān)關(guān)軟件互互為支援援,互提提供流量量,促使使用戶粘粘性越來(lái)來(lái)越強(qiáng)。。碎片化——按需付費(fèi)費(fèi),改變變商業(yè)模模式(桌桌面應(yīng)用用軟件的的這三個(gè)個(gè)特征相相互促進(jìn)進(jìn)、缺一一不可,,沒(méi)有互互聯(lián)網(wǎng)化化,門(mén)戶戶化將無(wú)無(wú)從談起起,碎片片化也就就推動(dòng)了了依托;;沒(méi)有碎碎片化,,則商業(yè)業(yè)模式?jīng)]沒(méi)有形成成的突破破,在走走賣(mài)拷貝貝的老路路。泛互聯(lián)網(wǎng)網(wǎng)化趨勢(shì)勢(shì),將引引發(fā)軟件件企業(yè)商商業(yè)模式式的弈,,從單一一的賣(mài)軟軟件,向向服務(wù)轉(zhuǎn)轉(zhuǎn)型。大數(shù)據(jù)時(shí)時(shí)代發(fā)展展趨勢(shì)大數(shù)據(jù)時(shí)時(shí)代發(fā)展展趨勢(shì)之之二:行行業(yè)應(yīng)用用垂直整整合大數(shù)據(jù)時(shí)時(shí)代開(kāi)源源技術(shù)的的發(fā)展已已經(jīng)可以以和商務(wù)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 中學(xué)宿舍管理制度
- 臨時(shí)麻醉管理制度
- 2026年高級(jí)IT項(xiàng)目管理專業(yè)試題庫(kù)及答案
- 2026年音樂(lè)創(chuàng)作與音樂(lè)理論專業(yè)題庫(kù)
- 輸尿管支架管拔除同意書(shū)
- 廣東省肇慶市高要區(qū)2025-2026學(xué)年九年級(jí)上學(xué)期1月期末化學(xué)試題(含答案)
- 2025年陜西省初中學(xué)業(yè)水平考試物理試卷(副題)(含答案)
- 2025年濰坊食品科技職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題帶答案解析(必刷)
- 2024年綏江縣幼兒園教師招教考試備考題庫(kù)附答案解析
- 2025年連云港職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)適應(yīng)性測(cè)試題庫(kù)附答案解析
- 危險(xiǎn)化學(xué)品安全法解讀
- 廣東省佛山市南海區(qū)2025-2026學(xué)年上學(xué)期期末八年級(jí)數(shù)學(xué)試卷(含答案)
- 放射應(yīng)急演練及培訓(xùn)制度
- 儲(chǔ)能技術(shù)培訓(xùn)課件模板
- IT項(xiàng)目管理-項(xiàng)目管理計(jì)劃
- GB/T 7714-2025信息與文獻(xiàn)參考文獻(xiàn)著錄規(guī)則
- 2026元旦主題班會(huì):馬年猜猜樂(lè)新春祝福版 教學(xué)課件
- 光伏收購(gòu)合同范本
- 2025海洋水下機(jī)器人控制系統(tǒng)行業(yè)市場(chǎng)需求及發(fā)展趨勢(shì)分析投資評(píng)估規(guī)劃報(bào)告
- 第5章 PowerPoint 2016演示文稿制作軟件
- 基坑支護(hù)降水施工組織設(shè)計(jì)
評(píng)論
0/150
提交評(píng)論