版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《云計(jì)算和大數(shù)據(jù)技術(shù):概念應(yīng)用與實(shí)戰(zhàn)》第2章大數(shù)據(jù)基礎(chǔ)人民郵電出版社二十一世紀(jì)高等院校云計(jì)算和大數(shù)據(jù)人才培養(yǎng)規(guī)劃教材第1頁(yè)大數(shù)據(jù)經(jīng)典應(yīng)用示例大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)中集群技術(shù)云計(jì)算與大數(shù)據(jù)發(fā)展2.12.2內(nèi)容導(dǎo)航CONTENTS2.32.4第2頁(yè)2.1大數(shù)據(jù)技術(shù)概述——2.1.1大數(shù)據(jù)介紹數(shù)據(jù)是指無(wú)法在可容忍時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)數(shù)據(jù)集合。這里傳統(tǒng)IT技術(shù)和軟硬件工具是指單機(jī)計(jì)算模式和傳統(tǒng)數(shù)據(jù)分析算法。所以實(shí)現(xiàn)大數(shù)據(jù)分析通常需要從兩個(gè)方面來(lái)著手:①采取集群方法來(lái)獲取強(qiáng)大數(shù)據(jù)分析能力;②研究面向大數(shù)據(jù)新數(shù)據(jù)分析算法。第3頁(yè)2.1.2大數(shù)據(jù)產(chǎn)生原因
歸納起來(lái)大數(shù)據(jù)出現(xiàn)原因有以下幾點(diǎn):數(shù)據(jù)生產(chǎn)方式變自動(dòng)化數(shù)據(jù)生產(chǎn)融入到每個(gè)人日常生活圖像、視頻和音頻數(shù)據(jù)所占百分比越來(lái)越大網(wǎng)絡(luò)技術(shù)發(fā)展為數(shù)據(jù)生產(chǎn)提供了極大方便云計(jì)算概念出現(xiàn)深入促進(jìn)了大數(shù)據(jù)發(fā)展服務(wù)器技術(shù)第4頁(yè)2.1.3數(shù)據(jù)計(jì)量單位
計(jì)算機(jī)學(xué)科中我們普通采取0,1這么二進(jìn)制來(lái)表示數(shù)據(jù)信息,信息最小單位是bit(比特),一個(gè)0或1就是一個(gè)比特,而8個(gè)bit就是一個(gè)Byte(字節(jié)),如10010111就是一個(gè)Byte。習(xí)慣在人們將小寫(xiě)b表示bit,大寫(xiě)B(tài)表示Byte。信息計(jì)量普通以210為一個(gè)進(jìn)制,如1024Byte=1KB(KiloByte)千字節(jié)。第5頁(yè)1.1.1云計(jì)算介紹更多慣用數(shù)據(jù)單位列表以下:數(shù)值換算單位名稱1024B=1KB千字節(jié)(KiloByte)
1024KB=1MB兆字節(jié)(MegaByte)1024MB=1GB吉字節(jié)(GigaByte)1024GB=1TB太字節(jié)(TeraByte)1024TB=1PB拍字節(jié)(PetaByte)1024PB=1EB艾字節(jié)(ExaByte)1024EB=1ZB皆字節(jié)(ZettaByte)1024ZB=1YB佑字節(jié)(YottaByte)1024YB=1NB諾字節(jié)(NonaByte)1024NB=1DB刀字節(jié)(DoggaByte)第6頁(yè)2.1.4大數(shù)據(jù)是人類認(rèn)識(shí)世界新伎倆網(wǎng)絡(luò)技術(shù)和計(jì)算機(jī)技術(shù)發(fā)展使人類在近期取得了一個(gè)新認(rèn)識(shí)世界伎倆,就是利用大量數(shù)據(jù)來(lái)發(fā)覺(jué)新規(guī)律,這種認(rèn)識(shí)世界方法被稱為“第四范式”。大數(shù)據(jù)出現(xiàn)后人類認(rèn)識(shí)世界方法就到達(dá)以下四種。觀察試驗(yàn)理論數(shù)據(jù)計(jì)算仿真計(jì)算萌發(fā)面向計(jì)算面向數(shù)據(jù)第7頁(yè)2.1.5幾類高性能計(jì)算系統(tǒng)對(duì)比分析特點(diǎn)科學(xué)計(jì)算系統(tǒng)批處理大數(shù)據(jù)系統(tǒng)流處理大數(shù)據(jù)系統(tǒng)分類面向計(jì)算高性能計(jì)算面向數(shù)據(jù)高性能計(jì)算面向數(shù)據(jù)高性能計(jì)算基本架構(gòu)集群集群集群慣用結(jié)構(gòu)主從結(jié)構(gòu)主從結(jié)構(gòu)主從結(jié)構(gòu)實(shí)時(shí)性非實(shí)時(shí)計(jì)算非實(shí)時(shí)計(jì)算實(shí)時(shí)計(jì)算數(shù)據(jù)存放集中存放分布式存放內(nèi)存存放文件系統(tǒng)無(wú)有無(wú)不一樣高性能計(jì)算系統(tǒng)之間特點(diǎn)比較:第8頁(yè)2.1.5幾類高性能計(jì)算系統(tǒng)對(duì)比分析遷移方式數(shù)據(jù)向計(jì)算遷移計(jì)算向數(shù)據(jù)遷移數(shù)據(jù)流式移動(dòng)可用性無(wú)高可用性高可用性高可用性擴(kuò)展性可擴(kuò)展可擴(kuò)展可擴(kuò)展并行化方法計(jì)算并行數(shù)據(jù)并行流水線并行經(jīng)典應(yīng)用科學(xué)計(jì)算大數(shù)據(jù)分析實(shí)時(shí)數(shù)據(jù)分析單節(jié)點(diǎn)要求強(qiáng)弱強(qiáng)程序難度高低低經(jīng)典系統(tǒng)MPIHadoopStorm不一樣高性能計(jì)算系統(tǒng)之間特點(diǎn)比較:第9頁(yè)2.1.6主要大數(shù)據(jù)處理系統(tǒng)大數(shù)據(jù)時(shí)代,數(shù)據(jù)查詢分析計(jì)算系統(tǒng)需要具備對(duì)大規(guī)模數(shù)據(jù)實(shí)時(shí)或準(zhǔn)實(shí)時(shí)查詢能力,數(shù)據(jù)規(guī)模增加已經(jīng)超出了傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)承載和處理能力。當(dāng)前主要數(shù)據(jù)查詢分析計(jì)算系統(tǒng)包含HBase、Hive、Cassandra、Dremel、Shark、Hana等。1.?dāng)?shù)據(jù)查詢分析
計(jì)算系統(tǒng)第10頁(yè)2.1.6主要大數(shù)據(jù)處理系統(tǒng)
MapReduce是被廣泛使用批處理計(jì)算模式。MapReduce對(duì)含有簡(jiǎn)單數(shù)據(jù)關(guān)系、易于劃分大數(shù)據(jù)采取“分而治之”并行處理思想,將數(shù)據(jù)統(tǒng)計(jì)處理分為Map和Reduce兩個(gè)簡(jiǎn)單抽象操作,提供了一個(gè)統(tǒng)一并行計(jì)算框架。批處理系統(tǒng)將并行計(jì)算實(shí)現(xiàn)進(jìn)行封裝,大大降低開(kāi)發(fā)人員并行程序設(shè)計(jì)難度。Hadoop和Spark是經(jīng)典批處理系統(tǒng)。2.批處理系統(tǒng)第11頁(yè)2.1.6主要大數(shù)據(jù)處理系統(tǒng)流式計(jì)算含有很強(qiáng)實(shí)時(shí)性,需要對(duì)應(yīng)用不停產(chǎn)生數(shù)據(jù)實(shí)時(shí)進(jìn)行處理,使數(shù)據(jù)不積壓、不丟失,慣用于處理電信、電力等行業(yè)應(yīng)用以及互聯(lián)網(wǎng)行業(yè)訪問(wèn)日志等。FacebookScribe、ApacheFlume、TwitterStorm、YahooS4、UCBerkeleySparkStreaming是慣用流式計(jì)算系統(tǒng)。3.流式計(jì)算系統(tǒng)第12頁(yè)2.1.6主要大數(shù)據(jù)處理系統(tǒng)
針對(duì)MapReduce不支持迭代計(jì)算缺點(diǎn),人們對(duì)HadoopMapReduce進(jìn)行了大量改進(jìn),Haloop、iMapReduce、Twister、Spark是經(jīng)典迭代計(jì)算系統(tǒng)。4.迭代計(jì)算系統(tǒng)5.圖計(jì)算系統(tǒng)
社交網(wǎng)絡(luò)、網(wǎng)頁(yè)鏈接等包含含有復(fù)雜關(guān)系圖數(shù)據(jù),這些圖數(shù)據(jù)規(guī)模巨大,可包含數(shù)十億頂點(diǎn)和上百億條邊,圖數(shù)據(jù)需要由專門(mén)系統(tǒng)進(jìn)行存放和計(jì)算。慣用圖計(jì)算系統(tǒng)有Google企業(yè)Pregel、Pregel開(kāi)源版本Giraph、微軟Trinity、BerkeleyAMPLabGraphX以及高速圖數(shù)據(jù)處理系統(tǒng)PowerGraph。第13頁(yè)2.1.6主要大數(shù)據(jù)處理系統(tǒng)
伴隨內(nèi)存價(jià)格不停下降和服務(wù)器可配置內(nèi)存容量不停增加,使用內(nèi)存計(jì)算完成高速大數(shù)據(jù)處理已成為大數(shù)據(jù)處理主要發(fā)展方向。當(dāng)前慣用內(nèi)存計(jì)算系統(tǒng)有分布式內(nèi)存計(jì)算系統(tǒng)Spark、全內(nèi)存式分布式數(shù)據(jù)庫(kù)系統(tǒng)HANA、Google可擴(kuò)展交互式查詢系統(tǒng)Dremel。6.內(nèi)存計(jì)算系統(tǒng)第14頁(yè)2.1.7大數(shù)據(jù)處理基本流程第15頁(yè)2.1.7大數(shù)據(jù)處理基本流程因?yàn)榇髷?shù)據(jù)處理數(shù)據(jù)起源類型豐富,大數(shù)據(jù)處理第一步是對(duì)數(shù)據(jù)進(jìn)行抽取和集成,從中提取出關(guān)系和實(shí)體,經(jīng)過(guò)關(guān)聯(lián)和聚合等操作,按照統(tǒng)一定義格式對(duì)數(shù)據(jù)進(jìn)行存放。現(xiàn)有數(shù)據(jù)抽取和集成方法有四種:基于物化或ETL方法引擎(MaterializationorETLEngine)基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件方法引擎(FederationEngineorMediator)基于數(shù)據(jù)流方法引擎(StreamEngine)。1、數(shù)據(jù)抽取
與集成流程1第16頁(yè)2.1.7大數(shù)據(jù)處理基本流程
數(shù)據(jù)分析是大數(shù)據(jù)處理流程關(guān)鍵步驟,經(jīng)過(guò)數(shù)據(jù)抽取和集成步驟,我們已經(jīng)從異構(gòu)數(shù)據(jù)源中取得了用于大數(shù)據(jù)處理原始數(shù)據(jù),用戶能夠依據(jù)自己需求對(duì)這些數(shù)據(jù)進(jìn)行分析處理,比如數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、數(shù)據(jù)統(tǒng)計(jì)等,數(shù)據(jù)分析能夠用于決議支持、商業(yè)智能、推薦系統(tǒng)、預(yù)測(cè)系統(tǒng)等。2.?dāng)?shù)據(jù)分析流程2第17頁(yè)2.1.7大數(shù)據(jù)處理基本流程
大數(shù)據(jù)處理流程中用戶最關(guān)心是數(shù)據(jù)處理結(jié)果,正確數(shù)據(jù)處理結(jié)果只有經(jīng)過(guò)適當(dāng)展示方式才能被終端用戶正確了解,所以數(shù)據(jù)處理結(jié)果展示非常主要,可視化和人機(jī)交互是數(shù)據(jù)解釋主要技術(shù)。我們?cè)陂_(kāi)發(fā)調(diào)試程序時(shí)候經(jīng)常經(jīng)過(guò)打印語(yǔ)句方式來(lái)展現(xiàn)結(jié)果,這種方式非常靈活、方便,但只有熟悉程序人才能很好地了解打印結(jié)果。3.?dāng)?shù)據(jù)解釋流程3第18頁(yè)大數(shù)據(jù)經(jīng)典應(yīng)用示例大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)中集群技術(shù)云計(jì)算與大數(shù)據(jù)發(fā)展2.12.2內(nèi)容導(dǎo)航CONTENTS2.32.4第19頁(yè)2.2.1大數(shù)據(jù)在高能物理中應(yīng)用高能物理是一個(gè)天然需要面對(duì)大數(shù)據(jù)學(xué)科,高能物理科學(xué)家往往需要從大量數(shù)據(jù)中去發(fā)覺(jué)一些小概率粒子事件。當(dāng)前世界上最大高能物理試驗(yàn)裝置是在日內(nèi)瓦歐洲核子中心(CERN)大型強(qiáng)子對(duì)撞機(jī)(LHC),其主要物理目標(biāo)是尋找希格斯(Higgs)粒子。大型強(qiáng)子對(duì)撞機(jī)(LHC)第20頁(yè)2.2.2推薦系統(tǒng)推薦系統(tǒng)是利用電子商務(wù)網(wǎng)站向客戶提供商品信息和提議,幫助用戶決定應(yīng)該購(gòu)置什么東西,模擬銷售人員幫助客戶完成購(gòu)置過(guò)程。我們經(jīng)常在上網(wǎng)時(shí)看見(jiàn)網(wǎng)頁(yè)某個(gè)位置出現(xiàn)一些商品推薦或者系統(tǒng)彈出一個(gè)商品信息,而且往往這些商品可能正是我們自己感興趣或者正希望購(gòu)置商品,這就是推薦系統(tǒng)在發(fā)揮作用。第21頁(yè)2.2.3搜索引擎系統(tǒng)搜索引擎是大家最為熟悉大數(shù)據(jù)系統(tǒng),成立于1998年谷歌和成立于baidu在簡(jiǎn)練用戶界面下面隱藏著世界上最大規(guī)模大數(shù)據(jù)系統(tǒng)。搜索引擎是簡(jiǎn)單與復(fù)雜完美結(jié)合,當(dāng)前最為慣用開(kāi)源系統(tǒng)Hadoop就是按照谷歌系統(tǒng)架構(gòu)設(shè)計(jì)。baidu搜索引擎()第22頁(yè)2.2.4baidu遷徙baidu遷徙是baidu利用其位置服務(wù)(LocationBasedService,LBS)所取得數(shù)據(jù),將人們?cè)诖汗?jié)期間位置移動(dòng)情況用可視化方法顯示在屏幕上如圖所表示。第23頁(yè)大數(shù)據(jù)經(jīng)典應(yīng)用示例大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)中集群技術(shù)云計(jì)算與大數(shù)據(jù)發(fā)展2.12.2內(nèi)容導(dǎo)航CONTENTS2.32.4第24頁(yè)1.3分布式系統(tǒng)中計(jì)算和數(shù)據(jù)協(xié)作機(jī)制
集群技術(shù)采取成為了應(yīng)對(duì)大數(shù)據(jù)挑戰(zhàn)最為直接方法,在CPU計(jì)算速度無(wú)法滿足數(shù)據(jù)增加需要時(shí)經(jīng)過(guò)增加計(jì)算節(jié)點(diǎn)來(lái)處理從技術(shù)角度講是最為簡(jiǎn)單,所以當(dāng)前我們所見(jiàn)到大數(shù)據(jù)系統(tǒng)基本都采取了集群架構(gòu)。集群系統(tǒng)、并行計(jì)算一直以來(lái)被視為只有少數(shù)人才有能力和機(jī)會(huì)使用高端設(shè)備,不過(guò)大數(shù)據(jù)出現(xiàn)使集群系統(tǒng)逐步進(jìn)入了我們?nèi)粘I?。?5頁(yè)2.3.1集群文件系統(tǒng)基本概念當(dāng)前慣用HDFS、GFS、Lustre等文件系統(tǒng)都屬于集群文件系統(tǒng)。集群文件系統(tǒng)存放數(shù)據(jù)時(shí)并不是將數(shù)據(jù)放置于某一個(gè)節(jié)點(diǎn)存放設(shè)備上,而是將數(shù)據(jù)按一定策略分布式地放置于不一樣物理節(jié)點(diǎn)存放設(shè)備上。集群文件系統(tǒng)將系統(tǒng)中每個(gè)節(jié)點(diǎn)上存放空間進(jìn)行虛擬整合,形成一個(gè)虛擬全局邏輯目錄,集群文件系統(tǒng)在進(jìn)行文件存取時(shí)依據(jù)邏輯目錄按文件系統(tǒng)內(nèi)在存放策略與物理存放位置對(duì)應(yīng),從而實(shí)現(xiàn)文件定位。第26頁(yè)2.3.1集群文件系統(tǒng)基本概念1)利用集群文件系統(tǒng)能夠?qū)⒂?jì)算任務(wù)在數(shù)據(jù)存放節(jié)點(diǎn)位置發(fā)起,從而防止了數(shù)據(jù)在網(wǎng)絡(luò)上傳輸所造成擁塞。2)集群文件系統(tǒng)能夠充分利用各節(jié)點(diǎn)物理存放空間,經(jīng)過(guò)文件系統(tǒng)形成一個(gè)大規(guī)模存放池,為用戶提供一個(gè)統(tǒng)一可彈性擴(kuò)充存放空間。在云計(jì)算系統(tǒng)中采取集群文件系統(tǒng)有以下幾個(gè)優(yōu)點(diǎn)3)利用集群文件系統(tǒng)備份策略、數(shù)據(jù)切塊策略能夠?qū)崿F(xiàn)數(shù)據(jù)存放高可靠性以及數(shù)據(jù)讀取并行化,提升數(shù)據(jù)安全性和數(shù)據(jù)訪問(wèn)效率。4)利用集群文件系統(tǒng)能夠?qū)崿F(xiàn)利用廉價(jià)服務(wù)器構(gòu)建大規(guī)模高可靠性存放目標(biāo),經(jīng)過(guò)備份機(jī)制確保數(shù)據(jù)高可靠性和系統(tǒng)高可用性。第27頁(yè)2.3.2集群系統(tǒng)概述
集群系統(tǒng)是一個(gè)相互經(jīng)過(guò)網(wǎng)絡(luò)連接起來(lái)計(jì)算機(jī)(節(jié)點(diǎn))所組成分布式系統(tǒng),集群中每一個(gè)節(jié)點(diǎn)都含有獨(dú)立存放系統(tǒng),和共享存放系統(tǒng)相比集群是一個(gè)松耦合系統(tǒng)。集群系統(tǒng)現(xiàn)在是實(shí)現(xiàn)高性能計(jì)算主要方法,集群系統(tǒng)不只是計(jì)算聚集也是存放聚集。這里所指分布式系統(tǒng)包含分布式計(jì)算和分布式存放。第28頁(yè)2.3.2集群系統(tǒng)概述Beowulf集群是一個(gè)用作并行計(jì)算集群架構(gòu),通常是由一臺(tái)主節(jié)點(diǎn)和一臺(tái)以上子節(jié)點(diǎn)經(jīng)過(guò)以太網(wǎng)或其它網(wǎng)絡(luò)連接系統(tǒng),它采取市面上能夠購(gòu)置普通硬件(比如裝有LinuxPC)、標(biāo)準(zhǔn)以太網(wǎng)卡和交換機(jī),它不包含任何特殊硬件設(shè)備,能夠重新組建。Beowulf系統(tǒng)與其它并行計(jì)算機(jī)對(duì)比第29頁(yè)2.3.2集群系統(tǒng)概述與專用大型計(jì)算機(jī)系統(tǒng)相比大數(shù)據(jù)系統(tǒng)采取集群架構(gòu)有以下幾個(gè)優(yōu)點(diǎn):價(jià)格低廉1243系統(tǒng)擴(kuò)展性好高可用性5系統(tǒng)連接簡(jiǎn)單系統(tǒng)靈活性高第30頁(yè)2.3.3大數(shù)據(jù)并行計(jì)算層次1.程序級(jí)并行一個(gè)數(shù)據(jù)分析任務(wù)能被切分為多個(gè)相互之間獨(dú)立計(jì)算任務(wù)并被分配給不一樣節(jié)點(diǎn)進(jìn)行處理,這種并行就叫程序級(jí)并行。程序級(jí)并行是一個(gè)粗粒度并行,一個(gè)問(wèn)題能實(shí)現(xiàn)程序級(jí)并行意味著這個(gè)問(wèn)題很輕易在集群中被執(zhí)行,而且因?yàn)楸磺蟹秩蝿?wù)獨(dú)立,子問(wèn)題之間所需要通訊代價(jià)也是非常小,不需要在集群節(jié)點(diǎn)間進(jìn)行大量數(shù)據(jù)傳輸。程序級(jí)并行中各個(gè)計(jì)算任務(wù)能夠被認(rèn)為是沒(méi)有任何計(jì)算關(guān)聯(lián)和數(shù)據(jù)關(guān)聯(lián)任務(wù),其并行性是天然、宏觀。第31頁(yè)2.3.3大數(shù)據(jù)并行計(jì)算層次2.子程序級(jí)并行一個(gè)程序能夠被分為多子程序任務(wù)并被集群并行執(zhí)行,最終經(jīng)過(guò)合并結(jié)果得到最終止果,這稱為子程序并行。子程序級(jí)并行是對(duì)程序級(jí)并行深入分解,粒度比程序級(jí)并行小,以切分?jǐn)?shù)據(jù)為基礎(chǔ)一些批處理大數(shù)據(jù)系統(tǒng)能夠被認(rèn)為屬于子程序級(jí)并行。如Hadoop系統(tǒng)數(shù)據(jù)被切分后被預(yù)先存放于集群中分布式文件系統(tǒng),各子程序被分配到節(jié)點(diǎn),完成計(jì)算后利用歸約過(guò)程實(shí)現(xiàn)數(shù)據(jù)合并。這類面向數(shù)據(jù)并行計(jì)算能夠被較為輕易實(shí)現(xiàn),并能實(shí)現(xiàn)自動(dòng)化并行化。子程序級(jí)并行是在大數(shù)據(jù)系統(tǒng)中實(shí)現(xiàn)并行計(jì)算主要層次。第32頁(yè)2.3.4大數(shù)據(jù)系統(tǒng)分類方法
Flynn分類方法是依據(jù)指令流和數(shù)據(jù)流之間數(shù)目關(guān)系來(lái)分類,這一分類方法是Flynn在1972年所提出,我們能夠借鑒Flynn對(duì)大數(shù)據(jù)系統(tǒng)進(jìn)行分類:1.Flynn分類法單指令單數(shù)據(jù)系統(tǒng)(SingleInstructionSingleData,SISD):每條指令每次只對(duì)一個(gè)數(shù)據(jù)集進(jìn)行操作,這就是通常單臺(tái)串行計(jì)算機(jī)工作模式。單指令多數(shù)據(jù)系統(tǒng)(SingleInstructionMultipleData,SIMD):同一條指令同時(shí)對(duì)不一樣數(shù)據(jù)集進(jìn)行操作。多指令多數(shù)據(jù)系統(tǒng)(MultipleDataSingleInstruction,MIMD):每個(gè)處理單元都能單獨(dú)執(zhí)行指令并含有單獨(dú)數(shù)據(jù)集。第33頁(yè)2.3.4大數(shù)據(jù)系統(tǒng)分類方法單指令多數(shù)據(jù)系統(tǒng)多指令多數(shù)據(jù)系統(tǒng)第34頁(yè)2.3.5單一系統(tǒng)映象對(duì)于大數(shù)據(jù)系統(tǒng)而言單一系統(tǒng)映象包含以下幾個(gè)含義。數(shù)據(jù)計(jì)算可能是分布式,但用戶看上去是統(tǒng)一計(jì)算,計(jì)算分配是由系統(tǒng)統(tǒng)一進(jìn)行。部分大數(shù)據(jù)系統(tǒng)需要用戶對(duì)計(jì)算進(jìn)行切分,但用戶不用考慮詳細(xì)物理節(jié)點(diǎn)分配問(wèn)題。集群系統(tǒng)高可用性冗余、負(fù)載均衡、一致性問(wèn)題對(duì)于用戶是不可見(jiàn),由系統(tǒng)自動(dòng)完成。數(shù)據(jù)在系統(tǒng)中可能是分布式存放,但對(duì)于用戶視角而言只有一個(gè)邏輯存放區(qū)域,用戶不用關(guān)心數(shù)據(jù)物理在是存放在哪一個(gè)節(jié)點(diǎn)上。第35頁(yè)2.3.6集群中一致性一致性要求在對(duì)同一個(gè)數(shù)據(jù)進(jìn)行并發(fā)訪問(wèn)時(shí)系統(tǒng)能返回相同結(jié)果,一致性能夠被分為以下幾個(gè)類型。強(qiáng)一致性:強(qiáng)一致性系統(tǒng)會(huì)在全部副本都完全相同后才返回,系統(tǒng)在未到達(dá)一致時(shí)是不能訪問(wèn),強(qiáng)一致性能確保全部訪問(wèn)結(jié)果是一致。弱一致性:弱一致性系統(tǒng)中數(shù)據(jù)更新后,后續(xù)對(duì)數(shù)據(jù)讀取操作得到不一定是更新后值。最終一致性:最終一致性允許系統(tǒng)在實(shí)現(xiàn)一致性前有一個(gè)不一致窗口期,窗口期完成后系統(tǒng)最終能確保一致性。第36頁(yè)2.3.4大數(shù)據(jù)系統(tǒng)分類方法為了到達(dá)最終一致性需要盡快地實(shí)現(xiàn)副本復(fù)制,慣用有以下兩種。第37頁(yè)大數(shù)據(jù)經(jīng)典應(yīng)用示例大數(shù)據(jù)技術(shù)概述大數(shù)據(jù)中集群技術(shù)云計(jì)算與大數(shù)據(jù)發(fā)展2.12.2內(nèi)容導(dǎo)航CONTENTS2.32.4第38頁(yè)2.4.1云計(jì)算與大數(shù)據(jù)發(fā)展歷程在1958年,人工智能之父JohnMcCarthy創(chuàng)造了函數(shù)式語(yǔ)言LISP,LISP語(yǔ)言以后成為MapReduce思想起源。1960年JohnMcCarthy預(yù)言了:“今后計(jì)算機(jī)將會(huì)作為公共設(shè)施提供給公眾”。在1986年中國(guó)第一封E-mail發(fā)出去時(shí)560bps網(wǎng)速條件下能出現(xiàn)云計(jì)算這么技術(shù)變革。1984年SUN企業(yè)提出“網(wǎng)絡(luò)就是計(jì)算機(jī)”這一含有云計(jì)算特征論點(diǎn)。Google企業(yè)CEOEricSchmidt提出云計(jì)算概念。年云計(jì)算概念全方面進(jìn)入中國(guó)。20中國(guó)首屆云計(jì)算大會(huì)召開(kāi),今后云計(jì)算技術(shù)和產(chǎn)品快速地發(fā)展起來(lái)。第39頁(yè)2.4.1云計(jì)算與大數(shù)據(jù)發(fā)展歷程
網(wǎng)絡(luò)技術(shù)在云計(jì)算和大數(shù)據(jù)發(fā)展歷程中發(fā)揮了主要推進(jìn)
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年美容師皮膚護(hù)理操作技能考核題
- 2026年音樂(lè)理論知識(shí)基礎(chǔ)進(jìn)階題目集
- 2026年四川省綿陽(yáng)市普明中學(xué)高考英語(yǔ)一模試卷
- 2026年鐘山職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)考試備考題庫(kù)含詳細(xì)答案解析
- 2026年廣西城市職業(yè)大學(xué)單招綜合素質(zhì)考試備考題庫(kù)含詳細(xì)答案解析
- 2026年河北政法職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能考試參考題庫(kù)含詳細(xì)答案解析
- 2026年浙江機(jī)電職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試備考試題含詳細(xì)答案解析
- 2026年常州工程職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)技能考試備考試題含詳細(xì)答案解析
- 代詞知識(shí)點(diǎn)的歸納總結(jié)
- 2026年安徽廣播影視職業(yè)技術(shù)學(xué)院?jiǎn)握芯C合素質(zhì)筆試模擬試題含詳細(xì)答案解析
- 施工電梯基礎(chǔ)施工方案-北京大學(xué)第一醫(yī)院城南院區(qū)工程 V1
- 人教版三年級(jí)上冊(cè)豎式計(jì)算練習(xí)300題及答案
- 心臟血管檢查課件
- 運(yùn)用PDCA循環(huán)管理提高手衛(wèi)生依從性課件
- 二手房定金合同(2023版)正規(guī)范本(通用版)1
- 點(diǎn)因素法崗位評(píng)估體系詳解
- 初中畢業(yè)英語(yǔ)學(xué)業(yè)考試命題指導(dǎo)
- DB63T 1933-2021無(wú)人機(jī)航空磁測(cè)技術(shù)規(guī)范
- 繪本這就是二十四節(jié)氣春
- 開(kāi)車前安全環(huán)保檢查表(PSSR )
- 渾河渾南攔河壩海漫改造工程項(xiàng)目環(huán)評(píng)報(bào)告
評(píng)論
0/150
提交評(píng)論