版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
云計算與大數(shù)據技術
人民郵電出版社王鵬黃焱安俊秀張逸琴編著
云計算與大數(shù)據技術人民郵電出版社王鵬黃焱安俊秀1目錄CONTENTS第1章云計算與大數(shù)據基礎第2章云計算與大數(shù)據的相關技術第3章虛擬化技術第4章集群系統(tǒng)基礎第5章MPI—面向計算第6章Hadoop—分布式大數(shù)據系統(tǒng)第7章HPCC—面向數(shù)據的高性能計算集群系統(tǒng)第8章Storm—基于拓撲的流數(shù)據實時計算系統(tǒng)第9章服務器與數(shù)據中心第10章云計算大數(shù)據仿真技術目錄CONTENTS第1章云計算與大數(shù)據基礎2第1章云計算與大數(shù)據基礎《云計算與大數(shù)據技術》
第1章云計算與大數(shù)據基礎《云計算與大數(shù)據技術》3第1章云計算與大數(shù)據基礎1.1云計算技術概述 1.1.1云計算簡介
1.1.2云計算的特點 1.1.3云計算技術分類
1.2大數(shù)據技術概述1.2.1大數(shù)據簡介
1.2.2主要的大數(shù)據處理系統(tǒng)
1.2.3大數(shù)據處理的基本流程
1.3云計算與大數(shù)據的發(fā)展
第1章云計算與大數(shù)據基礎1.1云計算技術概述 41.1.1云計算簡介云計算技術是硬件技術和網絡技術發(fā)展到一定階段而出現(xiàn)的一種新的技術模型云計算并不是對某一項獨立技術的稱呼,而是對實現(xiàn)云計算模式所需要的所有技術的總稱。1.1.1云計算簡介云計算技術是硬件技術和網絡技術發(fā)展到一5云計算技術的內容很多包括分布式計算技術、虛擬化技術、網絡技術、服務器技術、數(shù)據中心技術、云計算平臺技術、存儲技術等。從廣義上說,云計算技術幾乎包括了當前信息技術中的絕大部分。
1.1.1云計算簡介云計算技術的內容很多1.1.1云計算簡介6維基百科中對云計算的定義為:云計算是一種基于互聯(lián)網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。2012年的國務院政府工作報告將云計算作為國家戰(zhàn)略性新興產業(yè)給出了定義:云計算是基于互聯(lián)網的服務的增加、使用和交付模式,通常涉及通過互聯(lián)網來提供動態(tài)、易擴展且經常是虛擬化的資源。云計算是傳統(tǒng)計算機和網絡技術發(fā)展融合的產物,它意味著計算能力也可作為一種商品通過互聯(lián)網進行流通。
1.1.1云計算簡介維基百科中對云計算的定義為:1.1.1云計算簡介7云計算技術的出現(xiàn)改變了信息產業(yè)傳統(tǒng)的格局。傳統(tǒng)的信息產業(yè)企業(yè)既是資源的整合者又是資源的使用者;這這種格局并不符合現(xiàn)代產業(yè)分工高度專業(yè)化的需求,同時也不符合企業(yè)需要靈敏地適應客戶的需要。1.1.1云計算簡介云計算技術的出現(xiàn)改變了信息產業(yè)傳統(tǒng)的格局。1.1.1云計算8傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動性的需求時會非常的不敏捷,企業(yè)的計算和存儲資源要么是被浪費,要么是面對客戶峰值需求時力不從心。云計算技術使資源與用戶需求之間是一種彈性化的關系,資源的使用者和資源的整合者并不是一個企業(yè),資源的使用者只需要對資源按需付費,從而敏捷地響應客戶不斷變化的資源需求,這一方法降低了資源使用者的成本,提高了資源的利用效率。
1.1.1云計算簡介傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動9云計算時代基本的3種角色:
資源的整合運營者、資源的使用者、終端客戶。資源的整合運營者就像是發(fā)電廠負責資源的整合輸出;資源的使用者負責將資源轉變?yōu)闈M足客戶需求的各種應用;終端客戶為資源的最終消費者。1.1.1云計算簡介云計算時代基本的3種角色:1.1.1云計算簡介10云計算這種新的模式的出現(xiàn)被認為是信息產業(yè)的一大變革,吸引了大量企業(yè)重新布局:IBM、微軟、谷歌、DELL等企業(yè)國內企業(yè):華為、中興、騰訊、阿里、聯(lián)想、浪潮、五舟等企業(yè)1.1.1云計算簡介云計算這種新的模式的出現(xiàn)被認為是信息產業(yè)的一大變革,吸引了大11云計算技術作為一項涵蓋面廣且對產業(yè)影響深遠的技術,未來將逐步滲透到信息產業(yè)和其他產業(yè)的方方面面,并將深刻改變產業(yè)的結構模式、技術模式和產品銷售模式,進而深刻影響人們的生活;云計算會逐步成為人們生活中必不可少的技術;1.1.1云計算簡介云計算技術作為一項涵蓋面廣且對產業(yè)影響深遠的技術,未來將逐步12移動互聯(lián)網的出現(xiàn)使云計算應用走向了人們的指間,推動了云計算技術的應用發(fā)展,今后云計算將是一項隨時、隨地、隨身為我們提供服務的技術;云計算的出現(xiàn)也將如電的出現(xiàn)一般,為信息產業(yè)的發(fā)展提供無限的想象空間,使應用的創(chuàng)新能力得到完全釋放。
1.1.1云計算簡介移動互聯(lián)網的出現(xiàn)使云計算應用走向了人們的指間,推動了云計算技131.1.2云計算的特點1.資源池彈性可擴張2.按需提供資源服務3.虛擬化4.網絡化的資源接入5.高可靠性和安全性1.1.2云計算的特點1.1.2云計算的特點1.1.2云計算的特點14與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:
(1)資源池彈性可擴張云計算系統(tǒng)的一個重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計算的基本特征之一。分散的資源使用方法造成了資源的極大浪費,現(xiàn)在每個人都可能有一到兩臺自己的計算機,但對這種資源的利用率卻非常的低,計算機在大量時間都是在等待狀態(tài)或是在處理文字數(shù)據等低負荷的任務。資源集中起來后資源的利用效率會大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴張能力成為云計算系統(tǒng)的一個基本要求,云計算系統(tǒng)只有具備了資源的彈性化擴張能力才能有效地應對不斷增長的資源需求。大多數(shù)云計算系統(tǒng)都能較為方便地實現(xiàn)新資源的加入。
1.1.2云計算的特點與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:
1.1.215(2)按需提供資源服務云計算系統(tǒng)帶給客戶最重要的好處就是敏捷地適應用戶對資源不斷變化的需求;云計算系統(tǒng)實現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開支,用戶不用自己購買并維護大量固定的硬件資源,只需向自己實際消費的資源量來付費;按需提供資源服務使應用開發(fā)者在邏輯上可以認為資源池的大小是不受限制的,應用開發(fā)者的主要精力只需要集中在自己的應用上。
1.1.2云計算的特點(2)按需提供資源服務1.1.2云計算的特點16(3)虛擬化
現(xiàn)有的云計算平臺的重要特點是利用軟件來實現(xiàn)硬件資源的虛擬化管理、調度及應用。在云計算中利用虛擬化技術可大大降低維護成本和提高資源的利用率。
1.1.2云計算的特點(3)虛擬化
1.1.2云計算的特點17(4)網絡化的資源接入。
從最終用戶的角度看,基于云計算系統(tǒng)的應用服務通常都是通過網絡來提供的,應用開發(fā)者將云計算中心的計算、存儲等資源封裝為不同的應用后往往會通過網絡提供給最終的用戶。云計算技術必須實現(xiàn)資源的網絡化接入才能有效地向應用開發(fā)者和最終用戶提供資源服務。以網絡技術的發(fā)展是推動云計算技術出現(xiàn)的首要動力。1.1.2云計算的特點(4)網絡化的資源接入。
1.1.2云計算的特點18(5)高可靠性和安全性。
用戶數(shù)據存儲在服務器端,而應用程序在服務器端運行,計算由服務器端來處理。所有的服務分布在不同的服務器上,如果什么地方(節(jié)點)出問題就在什么地方終止它,另外再啟動一個程序或節(jié)點,即自動處理失敗節(jié)點,從而保證了應用和計算的正常進行。數(shù)據被復制到多個服務器節(jié)點上有多個副本(備份),存儲在云里的數(shù)據即使遇到意外刪除或硬件崩潰也不會受到影響。1.1.2云計算的特點(5)高可靠性和安全性。
1.1.2云計算的特點191.1.3云計算技術分類1.1.3云計算技術分類1.按技術路線分類2.按服務對象分類3.按資源封裝的層次分類1.1.3云計算技術分類1.1.3云計算技術分類20目前已出現(xiàn)的云計算技術種類非常多,對于云計算的分類可以有多種角度:從技術路線角度可以分為資源整合型云計算和資源切分型云計算;從服務對像角度可以被分為公有云和私有云;按資源封裝的層次來分可以分為:基礎設施即服務(InfrastructureasaService,IaaS)平臺即服務(PlatformasaService,PaaS)軟件即服務(SoftwareasaService,SaaS)。1.1.3云計算技術分類目前已出現(xiàn)的云計算技術種類非常多,對于云計算的分類可以有多種21
1.按技術路線分類
資源整合型云計算:這種類型的云計算系統(tǒng)在技術實現(xiàn)方面大多體現(xiàn)為集群架構,通過將大量節(jié)點的計算資源和存儲資源整合后輸出。這類系統(tǒng)通常能實現(xiàn)跨節(jié)點彈性化的資源池構建,核心技術為分布式計算和存儲技術。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計算系統(tǒng)。1.1.3云計算技術分類
1.按技術路線分類
1.1.3云計算技術分類22資源切分型云計算:這種類型最為典型的就是虛擬化系統(tǒng),這類云計算系統(tǒng)通過系統(tǒng)虛擬化實現(xiàn)對單個服務器資源的彈性化切分,從而有效地利用服務器資源,其核心技術為虛擬化技術。這種技術的優(yōu)點是用戶的系統(tǒng)可以不做任何改變接入采用虛擬化技術的云系統(tǒng),是目前應用較為廣泛的技術,特別是在桌面云計算技術上應用得較為成功;缺點是跨節(jié)點的資源整合代價較大;KVM、VMware都是這類技術的代表。1.1.3云計算技術分類1.1.3云計算技術分類232.按服務對象分類公有云:指服務對象是面向公眾的云計算服務,公有云對云計算系統(tǒng)的穩(wěn)定性、安全性和并發(fā)服務能力有更高的要求。私有云:指主要服務于某一組織內部的云計算服務,其服務并不向公眾開放,如企業(yè)、政府內部的云服務。公有云與私有云的界限并不是特別清晰,有時服務于一個地區(qū)和團體的云也被稱為公有云。所以這種云計算分類方法并不是一種準確的分類方法,主要是在商業(yè)領域的一種稱呼。1.1.3云計算技術分類2.按服務對象分類1.1.3云計算技術分類243.按資源封裝的層次分類基礎設施即服務(InfrastructureasaService,IaaS):把單純的計算和存儲資源不經封裝地直接通過網絡以服務的形式提供的用戶使用。這類云計算服務用戶的自主性較大,就像是發(fā)電廠將發(fā)的電直接送出去一樣。這類云服務的對象往往是具有專業(yè)知識能力的資源使用者,傳統(tǒng)數(shù)據中心的主機租用等可能作為IaaS的典型代表。1.1.3云計算技術分類3.按資源封裝的層次分類1.1.3云計算技術分類25平臺即服務(PlatformasaService,PaaS):計算和存儲資源經封裝后,以某種接口和協(xié)議的形式提供給用戶調用,資源的使用者不再直接面對底層資源。平臺即服務需要平臺軟件的支撐,可以認為是從資源到應用軟件的一個中間件,通過這類中間件可以大大減小應用軟件開發(fā)時的技術難度。這類云服務的對象往往是云計算應用軟件的開發(fā)者,平臺軟件的開發(fā)需要使用者具有一定的技術能力。1.1.3云計算技術分類平臺即服務(PlatformasaService,Pa26軟件即服務(SoftwareasaService,SaaS):將計算和存儲資源封裝為用戶可以直接使用的應用并通過網絡提供給用戶;SaaS面向的服務對象為最終用戶,用戶只是對軟件功能進行使用,無需了解任何云計算系統(tǒng)的內部結構,也不需要用戶具有專業(yè)的技術開發(fā)能力。
1.1.3云計算技術分類軟件即服務(SoftwareasaService,Sa27圖1.1云計算服務體系結構如圖所示,云計算系統(tǒng)按資源封裝的層次分為IaaS、PaaS、SaaS,分為對底層硬件資源不同級別的封裝,從而實現(xiàn)將資源轉變?yōu)榉盏哪康?。傳統(tǒng)的信息系統(tǒng)資源的使用者通常是以直接占有物理硬件資源的形式來使用資源的,而云計算系統(tǒng)通過IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以服務的形式利用網絡提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費者,他們將資源轉變?yōu)閼梅粘绦蚝笠許aaS的形式提供給資源的最終消費者。實現(xiàn)對物理資源封裝的技術并不是惟一的,目前不少的軟件都能實現(xiàn),甚至有的系統(tǒng)只有SaaS層,并沒有進行逐層的封裝。
1.1.3云計算技術分類圖1.1云計算服務體系結構傳統(tǒng)的信息系統(tǒng)資源的使用者通常是28云計算的服務層次是根據服務類型即服務集合來劃分,與大家熟悉的計算機網絡體系結構中層次的劃分不同。在計算機網絡中每個層次都實現(xiàn)一定的功能,層與層之間有一定關聯(lián)。而云計算體系結構中的層次是可以分割的,即某一層次可以單獨完成一項用戶的請求而不需要其他層次為其提供必要的服務和支持。
1.1.3云計算技術分類云計算的服務層次是根據服務類型即服務集合來劃分,與大家熟悉的29在云計算服務體系結構中各層次與相關云產品對應。應用層對應SaaS軟件即服務,如:GoogleAPPS、SoftWare+Services。平臺層對應PaaS平臺即服務,如:IBMITFactory、GoogleAPPEngine、F?;A設施層對應IaaS基礎設施即服務,如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對應硬件即服務,結合PaaS提供硬件服務,包括服務器集群及硬件檢測等服務。1.1.3云計算技術分類在云計算服務體系結構中各層次與相關云產品對應。1.1.3云301.2大數(shù)據技術概述1.2大數(shù)據技術概述1.2.1大數(shù)據簡介1.什么是大數(shù)據2.數(shù)據的來源3.生產數(shù)據的三個階段4.大數(shù)據的特點5.大數(shù)據的應用領域1.2大數(shù)據技術概述1.2大數(shù)據技術概述311.2大數(shù)據技術概述1.2.1大數(shù)據簡介計算和數(shù)據是信息產業(yè)不變的主題,在信息和網絡技術迅速發(fā)展的推動下,人們的感知、計算、仿真、模擬、傳播等活動產生了大量的數(shù)據,數(shù)據的產生不受時間、地點的限制,大數(shù)據的概念逐漸形成,大數(shù)據涵蓋了計算和數(shù)據兩大主題,是產業(yè)界和學術界的研究熱點,被譽為未來十年的革命性技術。1.2大數(shù)據技術概述1.2.1大數(shù)據簡介321.2.1大數(shù)據簡介2008年,《Nature》雜志推出了“大數(shù)據”專輯,引發(fā)了學術界和產業(yè)界的關注;2011年,大數(shù)據應用進入我國并快速發(fā)展,目前大數(shù)據的應用和研究已經是學術界和產業(yè)界的熱點;2012年3月,美國政府發(fā)布《大數(shù)據研究和發(fā)展倡議》,投資2億美元發(fā)展大數(shù)據,用以強化國土安全、轉變教育學習模式、加速科學和工程領域的創(chuàng)新速度和水平;2012年7月,日本提出以電子政府、電子醫(yī)療、防災等為中心制定新ICT(信息通信技術)戰(zhàn)略,發(fā)布“新ICT計劃”,重點關注大數(shù)據研究和應用;2013年1月,英國政府宣布將在對地觀測、醫(yī)療衛(wèi)生等大數(shù)據和節(jié)能計算技術方面投資1.89億英鎊;2013年我國上海、重慶等地相繼發(fā)布大數(shù)據行動計劃。
1.2.1大數(shù)據簡介2008年,《Nature》雜志推出了331.什么是大數(shù)據維基百科將大數(shù)據描述為:大數(shù)據是現(xiàn)有數(shù)據庫管理工具和傳統(tǒng)數(shù)據處理應用很難處理的大型、復雜的數(shù)據集,大數(shù)據的挑戰(zhàn)包括采集、存儲、搜索、共享、傳輸、分析和可視化等。大數(shù)據的“大”是一個動態(tài)的概念以前10GB的數(shù)據是個天文數(shù)字;而現(xiàn)在,在地球、物理、基因、空間科學等領域,TB級的數(shù)據集已經很普遍。大數(shù)據系統(tǒng)需要滿足以下三個特性。
(1)規(guī)模性(Volume):需要采集、處理、傳輸?shù)臄?shù)據容量大;(2)多樣性(Variety):數(shù)據的種類多、復雜性高;
(3)高速性(Velocity):數(shù)據需要頻繁地采集、處理并輸出。
1.2.1大數(shù)據簡介1.什么是大數(shù)據1.2.1大數(shù)據簡介342.數(shù)據的來源大數(shù)據的數(shù)據來源很多,主要有信息管理系統(tǒng)、網絡信息系統(tǒng)、物聯(lián)網系統(tǒng)、科學實驗系統(tǒng)等;其數(shù)據類型包括結構化數(shù)據、半結構化數(shù)據和非結構化數(shù)據。(1)管理信息系統(tǒng):企業(yè)內部使用的信息系統(tǒng),包括辦公自動化系統(tǒng)、業(yè)務管理系統(tǒng)等,是常見的數(shù)據產生方式。管理信息系統(tǒng)主要通過用戶輸入和系統(tǒng)的二次加工的方式生成數(shù)據,其產生的數(shù)據大多為結構化數(shù)據,存儲在數(shù)據庫中。1.2.1大數(shù)據簡介2.數(shù)據的來源1.2.1大數(shù)據簡介35
(2)網絡信息系統(tǒng):基于網絡運行的信息系統(tǒng)是大數(shù)據產生的重要方式,電子商務系統(tǒng)、社交網絡、社會媒體、搜索引擎等都是常見的網絡信息系統(tǒng),網絡信息系統(tǒng)產生的大數(shù)據多為半結構化或無結構化的數(shù)據,網絡信息系統(tǒng)與管理信息系統(tǒng)的區(qū)別在于管理信息系統(tǒng)是內部使用的,不接入外部的公共網絡。(3)物聯(lián)網系統(tǒng):通過傳感器獲取外界的物理、化學、生物等數(shù)據信息。(4)科學實驗系統(tǒng):主要用于學術科學研究,其環(huán)境是預先設定的,數(shù)據既可以是由真實實驗產生也可以是通過模擬方式獲取仿真的。
1.2.1大數(shù)據簡介
(2)網絡信息系統(tǒng):基于網絡運行的信息系統(tǒng)是大數(shù)據產生的重363.生產數(shù)據的三個階段(1)被動式生成數(shù)據:
數(shù)據庫技術使得數(shù)據的保存和管理變得簡單,業(yè)務系統(tǒng)在運行時產生的數(shù)據直接保存數(shù)據庫中,這個時候數(shù)據的產生是被動的,數(shù)據是隨著業(yè)務系統(tǒng)的運行產生的。1.2.1大數(shù)據簡介3.生產數(shù)據的三個階段1.2.1大數(shù)據簡介37(2)主動式生成數(shù)據:互聯(lián)網的誕生尤其是Web2.0、移動互聯(lián)網的發(fā)展大大加速了數(shù)據的產生,人們可以隨時隨地通過手機等移動終端隨時隨地地生成數(shù)據,人們開始主動地生成數(shù)據。(3)感知式生成數(shù)據:感知技術尤其是物聯(lián)網的發(fā)展促進了數(shù)據生成方式發(fā)生了根本性的變化,遍布在城市各個角落的攝像頭等數(shù)據采集設備源源不斷地自動采集、生成數(shù)據。1.2.1大數(shù)據簡介1.2.1大數(shù)據簡介38
4.大數(shù)據的特點(1)數(shù)據產生方式:在大數(shù)據時代,數(shù)據的產生方式發(fā)生了巨大的變化,數(shù)據的采集方式由以往的被動采集數(shù)據轉變?yōu)橹鲃由蓴?shù)據。
(2)數(shù)據采集密度:以往我們進行數(shù)據采集時的采樣密度較低,獲得的采樣數(shù)據有限;在大數(shù)據時代,有了大數(shù)據處理平臺的支撐,我們可以對需要分析的事件的數(shù)據進行更加密集地采樣,從而精確地獲取事件的全局數(shù)據。
(3)數(shù)據源:以往我們多從各個單一的數(shù)據源獲取數(shù)據,獲取的數(shù)據較為孤立,不同數(shù)據源之間的數(shù)據整合難度較大;在大數(shù)據時代,我們可以通過分布式計算、分布式文件系統(tǒng)、分布式數(shù)據庫等技術對多個數(shù)據源獲取的數(shù)據進行整合處理。
1.2.1大數(shù)據簡介
4.大數(shù)據的特點1.2.1大數(shù)據簡介39(4)數(shù)據處理方式:
以往我們對數(shù)據的處理大多采用離線處理的方式,對已經生成的數(shù)據集中進行分析處理,不對實時產生的數(shù)據進行分析;在大數(shù)據時代,我們可以根據應用的實際需求對數(shù)據采取靈活的處理方式,對于較大的數(shù)據源、響應時間要求低的應用可以采取批處理的方式進行集中計算,而對于響應時間要求高的實時數(shù)據處理則采用流處理的方式進行實時計算,并且可以通過對歷史數(shù)據的分析進行預測分析;1.2.1大數(shù)據簡介(4)數(shù)據處理方式:1.2.1大數(shù)據簡介40大數(shù)據需要處理的數(shù)據大小通常達到PB(1024TB)或EB(1024PB)級;數(shù)據的類型多種多樣,包括結構化數(shù)據、半結構化數(shù)據和非結構化數(shù)據;巨大的數(shù)據量和種類繁多的數(shù)據類型給大數(shù)據系統(tǒng)的存儲和計算帶來很大挑戰(zhàn),單節(jié)點的存儲容量和計算能力成為瓶頸;分布式系統(tǒng)是對大數(shù)據進行處理的基本方法,分布式系統(tǒng)將數(shù)據切分后存儲到多個節(jié)點上,并在多個節(jié)點上發(fā)起計算,解決單節(jié)點的存儲和計算瓶頸。常見的數(shù)據切分的方法有隨機方法、哈希方法和區(qū)間方法:隨機方法將數(shù)據隨機分布到不同的節(jié)點;哈希方法根據數(shù)據的某一行或者某一列的哈希值將數(shù)據分布到不同的節(jié)點;區(qū)間方法將不同的數(shù)據按照不同區(qū)間分布到不同節(jié)點。1.2.1大數(shù)據簡介大數(shù)據需要處理的數(shù)據大小通常達到PB(1024TB)或EB415.大數(shù)據的應用領域大數(shù)據在社會生活的各個領域得到廣泛的應用,不同領域的大數(shù)據應用具有不同的特點,其對響應時間、系統(tǒng)穩(wěn)定性、計算精確性的要求各不相同,其對比如表1.1所示。
表1.1典型的大數(shù)據應用特征對比
應用領域示例用戶數(shù)量響應時延數(shù)據量級穩(wěn)定性精確度科學計算基因計算小長TB一般非常高金融股票交易大實時GB非常高非常高社交網絡Facebook非常大快速PB高高移動數(shù)據移動終端非常大快速TB高高物聯(lián)網傳感網大快速TB高高網頁數(shù)據新聞網站非常大快速GB高高多媒體視頻網站非常大快速GB高一般1.2.1大數(shù)據簡介5.大數(shù)據的應用領域應用領域示例用戶數(shù)量響應時延數(shù)據量級穩(wěn)定421.2.2主要的大數(shù)據處理系統(tǒng)大數(shù)據處理的數(shù)據源類型多種多樣,如結構化數(shù)據、半結構化數(shù)據、非結構化數(shù)據,數(shù)據處理的需求各不相同:對海量已有數(shù)據進行批量處理,對大量的實時生成的數(shù)據進行實時處理,在進行數(shù)據分析時進行反復迭代計算,對圖數(shù)據進行分析計算。1.2.2主要的大數(shù)據處理系統(tǒng)1.2.2主要的大數(shù)據處理系統(tǒng)1.2.2主要的大數(shù)據處理43目前主要的大數(shù)據處理系統(tǒng)有:數(shù)據查詢分析計算系統(tǒng)、批處理系統(tǒng)、流式計算系統(tǒng)、迭代計算系統(tǒng)、圖計算系統(tǒng)和內存計算系統(tǒng)。
1.數(shù)據查詢分析計算系統(tǒng)大數(shù)據時代,數(shù)據查詢分析計算系統(tǒng)需要具備對大規(guī)模數(shù)據進行實時或準實時查詢的能力,數(shù)據規(guī)模的增長已經超出了傳統(tǒng)關系型數(shù)據庫的承載和處理能力。目前主要的數(shù)據查詢分析計算系統(tǒng)包括HBase、Hive、Cassandra、Dremel、Shark、Hana等。1.2.2主要的大數(shù)據處理系統(tǒng)目前主要的大數(shù)據處理系統(tǒng)有:1.2.2主要的大數(shù)據處44
HBase:開源、分布式、面向列的非關系型數(shù)據庫模型,是Apache的Hadoop項目的子項目;源于Google論文《Bigtable:一個結構化數(shù)據的分布式存儲系統(tǒng)》,實現(xiàn)了其中的壓縮算法、內存操作和布隆過濾器HBase的編程語言為Java。HBase的表能夠作為MapReduce任務的輸入和輸出,可以通過JavaAPI來存取數(shù)據。
1.2.2主要的大數(shù)據處理系統(tǒng)
HBase:1.2.2主要的大數(shù)據處理系統(tǒng)45Hive:基于Hadoop的數(shù)據倉庫工具,用于查詢、管理分布式存儲中的大數(shù)據集,提供完整的SQL查詢功能,可以將結構化的數(shù)據文件映射為一張數(shù)據表。Hive提供了一種類SQL語言(HiveQL)可以將SQL語句轉換為MapReduce任務運行。
1.2.2主要的大數(shù)據處理系統(tǒng)Hive:1.2.2主要的大數(shù)據處理系統(tǒng)46Cassandra:開源NoSQL數(shù)據庫系統(tǒng),最早由Facebook開發(fā),并于2008年開源;由于其良好的可擴展性,Cassandra被Facebook、Twitter、Backspace、Cisco等公司使用;其數(shù)據模型借鑒了Amazon的Dynamo和GoogleBigTable,是一種流行的分布式結構化數(shù)據存儲方案。
1.2.2主要的大數(shù)據處理系統(tǒng)Cassandra:1.2.2主要的大數(shù)據處理系統(tǒng)47Impala:由Cloudera公司主導開發(fā),是運行在Hadoop平臺上的開源的大規(guī)模并行SQL查詢引擎。用戶可以使用標準的SQL接口的工具查詢存儲在Hadoop的HDFS和HBase中的PB級大數(shù)據。
1.2.2主要的大數(shù)據處理系統(tǒng)Impala:1.2.2主要的大數(shù)據處理系統(tǒng)48
Shark:Spark上的數(shù)據倉庫實現(xiàn),即SQLonSpark;與Hive相兼容,但處理HiveQL的性能比Hive快100倍。Hana:由SAP公司開發(fā)的與數(shù)據源無關、軟硬件結合、基于內存計算的平臺。1.2.2主要的大數(shù)據處理系統(tǒng)
Shark:1.2.2主要的大數(shù)據處理系統(tǒng)492.批處理系統(tǒng)
MapReduce是被廣泛使用的批處理計算模式。MapReduce對具有簡單數(shù)據關系、易于劃分的大數(shù)據采用“分而治之”的并行處理思想,將數(shù)據記錄的處理分為Map和Reduce兩個簡單的抽象操作,提供了一個統(tǒng)一的并行計算框架。批處理系統(tǒng)將復雜的并行計算的實現(xiàn)進行封裝,大大降低開發(fā)人員的并行程序設計難度。Hadoop和Spark是典型的批處理系統(tǒng)。MapReduce的批處理模式不支持迭代計算。
1.2.2主要的大數(shù)據處理系統(tǒng)1.2.2主要的大數(shù)據處理系統(tǒng)50
Hadoop:目前大數(shù)據處理最主流的平臺,是Apache基金會的開源軟件項目,使用Java語言開發(fā)實現(xiàn)。Hadoop平臺使開發(fā)人員無需了解底層的分布式細節(jié),即可開發(fā)出分布式程序,在集群中對大數(shù)據進行存儲、分析。1.2.2主要的大數(shù)據處理系統(tǒng)
Hadoop:1.2.2主要的大數(shù)據處理系統(tǒng)51Spark:由加州伯克利大學AMP實驗室開發(fā),適合用于機器學習、數(shù)據挖掘等迭代運算較多的計算任務。Spark引入了內存計算的概念,運行Spark時服務器可以將中間數(shù)據存儲在RAM內存中,大大加速數(shù)據分析結果的返回速度,可用于需要互動分析的場景。
1.2.2主要的大數(shù)據處理系統(tǒng)Spark:1.2.2主要的大數(shù)據處理系統(tǒng)523.流式計算系統(tǒng)流式計算具有很強的實時性,需要對應用源源不斷產生的數(shù)據實時進行處理,使數(shù)據不積壓、不丟失,常用于處理電信、電力等行業(yè)應用以及互聯(lián)網行業(yè)的訪問日志等。Facebook的Scribe、Apache的Flume、Twitter的Storm、Yahoo的S4、UCBerkeley的SparkStreaming是常用的流式計算系統(tǒng)。
1.2.2主要的大數(shù)據處理系統(tǒng)3.流式計算系統(tǒng)1.2.2主要的大數(shù)據處理系統(tǒng)53Scribe:Scribe由Facebook開發(fā)開源系統(tǒng),用于從海量服務器實時收集日志信息,對日志信息進行實時的統(tǒng)計分析處理,應用在Facebook內部。Flume:Flume由Cloudera公司開發(fā),其功能與Scribe相似,主要用于實時收集在海量節(jié)點上產生的日志信息,存儲到類似于HDFS的網絡文件系統(tǒng)中,并根據用戶的需求進行相應的數(shù)據分析。1.2.2主要的大數(shù)據處理系統(tǒng)Scribe:1.2.2主要的大數(shù)據處理系統(tǒng)54
Storm:基于拓撲的分布式流數(shù)據實時計算系統(tǒng),由BackType公司(后被Twitter收購)開發(fā),現(xiàn)已經開放源代碼,并應用于淘寶、百度、支付寶、Groupon、Facebook等平臺,是主要的流數(shù)據計算平臺之一。1.2.2主要的大數(shù)據處理系統(tǒng)
Storm:1.2.2主要的大數(shù)據處理系統(tǒng)55S4:S4的全稱是SimpleScalableStreamingSystem,是由Yahoo開發(fā)的通用、分布式、可擴展、部分容錯、具備可插拔功能的平臺;其設計目的是根據用戶的搜索內容計算得到相應的推薦廣告,現(xiàn)已經開源,是重要的大數(shù)據計算平臺。1.2.2主要的大數(shù)據處理系統(tǒng)S4:1.2.2主要的大數(shù)據處理系統(tǒng)56SparkStreaming:構建在Spark上的流數(shù)據處理框架,將流式計算分解成一系列短小的批處理任務進行處理。網站流量統(tǒng)計是SparkStreaming的一種典型的使用場景,這種應用既需要具有實時性,還需要進行聚合、去重、連接等統(tǒng)計計算操作;如果使用HadoopMapReduce框架,則可以很容易地實現(xiàn)統(tǒng)計需求,但無法保證實時性;如果使用Storm這種流式框架則可以保證實時性,但實現(xiàn)難度較大;SparkStreaming可以以準實時的方式方便地實現(xiàn)復雜的統(tǒng)計需求。1.2.2主要的大數(shù)據處理系統(tǒng)SparkStreaming:1.2.2主要的大數(shù)據處理574.迭代計算系統(tǒng)針對MapReduce不支持迭代計算的缺陷,人們對Hadoop的MapReduce進行了大量改進,Haloop、iMapReduce、Twister、Spark是典型的迭代計算系統(tǒng)。HaLoop:Haloop是HadoopMapReduce框架的修改版本,用于支持迭代、遞歸類型的數(shù)據分析任務,如PageRank、K-means等。iMapReduce:一種基于MapReduce的迭代模型,實現(xiàn)了MapReduce的異步迭代。Twister:基于Java的迭代MapReduce模型,上一輪Reduce的結果會直接傳送到下一輪的Map。Spark:基于內存計算的開源集群計算框架。
1.2.2主要的大數(shù)據處理系統(tǒng)4.迭代計算系統(tǒng)1.2.2主要的大數(shù)據處理系統(tǒng)585.圖計算系統(tǒng)社交網絡、網頁鏈接等包含具有復雜關系的圖數(shù)據,這些圖數(shù)據的規(guī)模巨大,可包含數(shù)十億頂點和上百億條邊,圖數(shù)據需要由專門的系統(tǒng)進行存儲和計算。常用的圖計算系統(tǒng)有Google公司的Pregel、Pregel的開源版本Giraph、微軟的Trinity、BerkeleyAMPLab的GraphX以及高速圖數(shù)據處理系統(tǒng)PowerGraph。
1.2.2主要的大數(shù)據處理系統(tǒng)5.圖計算系統(tǒng)1.2.2主要的大數(shù)據處理系統(tǒng)59Pregel:
Google公司開發(fā)的一種面向圖數(shù)據計算的分布式編程框架,采用迭代的計算模型。Google的數(shù)據計算任務中,大約80%的任務處理采用MapReduce模式,如網頁內容索引;圖數(shù)據的計算任務約占20%,采用Pregel進行處理。Giraph:一個迭代的圖計算系統(tǒng),最早由雅虎公司借鑒Pregel系統(tǒng)開發(fā),后捐贈給Apache軟件基金會,成為開源的圖計算系統(tǒng)。Giraph是基于Hadoop建立的,F(xiàn)acebook在其臉譜搜索服務中大量使用了Giraph。1.2.2主要的大數(shù)據處理系統(tǒng)Pregel:1.2.2主要的大數(shù)據處理系統(tǒng)60Trinity:微軟公司開發(fā)的圖數(shù)據庫系統(tǒng),該系統(tǒng)是基于內存的數(shù)據存儲與運算系統(tǒng),源代碼不公開。GraphX:由AMPLab開發(fā)的運行在數(shù)據并行的Spark平臺上的圖數(shù)據計算系統(tǒng)。PowerGraph:高速圖處理系統(tǒng),常用于廣告推薦計算和自然語言處理。
1.2.2主要的大數(shù)據處理系統(tǒng)1.2.2主要的大數(shù)據處理系統(tǒng)616.內存計算系統(tǒng)隨著內存價格的不斷下降、服務器可配置內存容量的不斷增長,使用內存計算完成高速的大數(shù)據處理已成為大數(shù)據處理的重要發(fā)展方向。目前常用的內存計算系統(tǒng)有分布式內存計算系統(tǒng)Spark、全內存式分布式數(shù)據庫系統(tǒng)HANA、Google的可擴展交互式查詢系統(tǒng)Dremel。
1.2.2主要的大數(shù)據處理系統(tǒng)6.內存計算系統(tǒng)1.2.2主要的大數(shù)據處理系統(tǒng)62Dremel:Google的交互式數(shù)據分析系統(tǒng),可以在數(shù)以千計的服務器組成的集群上發(fā)起計算,處理PB級的數(shù)據。Dremel是GoogleMapReduce的補充,大大縮短了數(shù)據的處理時間,成功地應用在Google的bigquery中。HANA:SAP公司開發(fā)的基于內存技術、面向企業(yè)分析性的產品。Spark:基于內存計算的開源集群計算系統(tǒng)。
1.2.2主要的大數(shù)據處理系統(tǒng)Dremel:1.2.2主要的大數(shù)據處理系統(tǒng)631.2.3大數(shù)據處理的基本流程1.2.3大數(shù)據處理的基本流程大數(shù)據的處理流程可以定義為在適合工具的輔助下,對廣泛異構的數(shù)據源進行抽取和集成,結果按照一定的標準統(tǒng)一存儲,利用合適的數(shù)據分析技術對存儲的數(shù)據進行分析,從中提取有益的知識并利用恰當?shù)姆绞綄⒔Y果展示給終端用戶。大數(shù)據處理的基本流程如圖1.2所示。
圖1.2大數(shù)據處理的基本流程1.2.3大數(shù)據處理的基本流程1.2.3大數(shù)據處理的基本64
1.數(shù)據抽取與集成由于大數(shù)據處理的數(shù)據來源類型豐富,大數(shù)據處理的第一步是對數(shù)據進行抽取和集成,從中提取出關系和實體,經過關聯(lián)和聚合等操作,按照統(tǒng)一定義的格式對數(shù)據進行存儲?,F(xiàn)有的數(shù)據抽取和集成方法有三種:基于物化或ETL方法的引擎(MaterializationorETLEngine)、基于聯(lián)邦數(shù)據庫或中間件方法的引擎(FederationEngineorMediator)、基于數(shù)據流方法的引擎(StreamEngine)。1.2.3大數(shù)據處理的基本流程
1.數(shù)據抽取與集成1.2.3大數(shù)據處理的基本流程652.數(shù)據分析數(shù)據分析是大數(shù)據處理流程的核心步驟,通過數(shù)據抽取和集成環(huán)節(jié),我們已經從異構的數(shù)據源中獲得了用于大數(shù)據處理的原始數(shù)據,用戶可以根據自己的需求對這些數(shù)據進行分析處理,比如數(shù)據挖掘、機器學習、數(shù)據統(tǒng)計等,數(shù)據分析可以用于決策支持、商業(yè)智能、推薦系統(tǒng)、預測系統(tǒng)等。
1.2.3大數(shù)據處理的基本流程2.數(shù)據分析1.2.3大數(shù)據處理的基本流程663.數(shù)據解釋大數(shù)據處理流程中用戶最關心的是數(shù)據處理的結果,正確的數(shù)據處理結果只有通過合適的展示方式才能被終端用戶正確理解,因此數(shù)據處理結果的展示非常重要,可視化和人機交互是數(shù)據解釋的主要技術。
1.2.3大數(shù)據處理的基本流程3.數(shù)據解釋1.2.3大數(shù)據處理的基本流程67我們在開發(fā)調試程序的時候經常通過打印語句的方式來呈現(xiàn)結果,這種方式非常靈活、方便,但只有熟悉程序的人才能很好地理解打印結果。使用可視化技術,可以將處理的結果通過圖形的方式直觀地呈現(xiàn)給用戶,標簽云(TagCloud)、歷史流(HistoryFlow)、空間信息流(SpatialInformationFlow)等是常用的可視化技術,用戶可以根據自己的需求靈活地使用這些可視化技術;人機交互技術可以引導用戶對數(shù)據進行逐步的分析,使用戶參與到數(shù)據分析的過程中,使用戶可以深刻地理解數(shù)據分析結果。
1.2.3大數(shù)據處理的基本流程我們在開發(fā)調試程序的時候經常通過打印語句的方式來呈現(xiàn)結果,這681.3云計算與大數(shù)據的發(fā)展1.3云計算與大數(shù)據的發(fā)展
1.云計算與大數(shù)據發(fā)展歷程早在1958年,人工智能之父JohnMcCarthy發(fā)明了函數(shù)式語言LISP,LISP語言后來成為MapReduce的思想來源。1960年JohnMcCarthy預言了:“今后計算機將會作為公共設施提供給公眾”,這一概念與我們現(xiàn)在所定義的云計算已非常相似,但當時的技術條件決定了這一設想只是一種對未來技術發(fā)展的預言。云計算是網絡技術發(fā)展到一定階段后必然出現(xiàn)的新的技術體系和產業(yè)模式。1984年SUN公司提出“網絡就是計算機”這一具有云計算特征的論點,2006年Google公司CEOEricSchmidt提出云計算概念,2008年云計算概念全面進入中國,2009年中國首屆云計算大會召開,此后云計算技術和產品迅速地發(fā)展起來。1.3云計算與大數(shù)據的發(fā)展1.3云計算與大數(shù)據的發(fā)展
169
隨著社交網絡、物聯(lián)網等技術的發(fā)展,數(shù)據正在以前所未有的速度增長和積累,IDC的研究數(shù)據表明,全球的數(shù)據量每年增長50%,兩年翻一番,這意味著全球近兩年產生的數(shù)據量將超過之前全部數(shù)據的總和。2011年全球數(shù)據總量已達1.8ZB,到2020年,全球數(shù)據總量將達到35ZB。2008年《Nature》雜志推出了大數(shù)據???,2011年《Science》雜志推出大數(shù)據???,討論科學研究的中大數(shù)據問題。2012年大數(shù)據的關注度和影響力快速增長,成為當年達沃斯世界經濟論壇的主題,美國政府啟動大數(shù)據發(fā)展計劃。中國計算機學會于2012年成立了大數(shù)據專家委員會,并發(fā)布了大數(shù)據技術白皮書。1.3云計算與大數(shù)據的發(fā)展
1.3云計算與大數(shù)據的發(fā)展70
圖1.3近年來云計算、大數(shù)據的關注度
如圖1.3所示為云計算、大數(shù)據兩個關鍵詞近年來的網絡關注度,可以看出2012年至今大數(shù)據的關注度越來越高,云計算和大數(shù)據是信息技術未來的發(fā)展方向。
1.3云計算與大數(shù)據的發(fā)展1.3云計算與大數(shù)據的發(fā)展71網絡技術在云計算和大數(shù)據的發(fā)展歷程中發(fā)揮了重要的推動作用??梢哉J為信息技術的發(fā)展經歷了硬件發(fā)展推動和網絡技術推動兩個階段。早期主要以硬件發(fā)展為主要動力,在這個階段硬件的技術水平決定著整個信息技術的發(fā)展水平,硬件的每一次進步都有力地推動著信息技術的發(fā)展,從電子管技術到晶體管技術再到大規(guī)模集成電路,這種技術變革成為產業(yè)發(fā)展的核心動力。但網絡技術的出現(xiàn)逐步地打破了單純的硬件能力決定技術發(fā)展的格局,通信帶寬的發(fā)展為信息技術的發(fā)展提供了新的動力,在這一階段通信帶寬成為了信息技術發(fā)展的決定性力量之一,云計算、大數(shù)據技術的出現(xiàn)正是這一階段的產物,其廣泛應用并不是單純靠某一個人發(fā)明而是由于技術發(fā)展到現(xiàn)在的必然產物,生產力決定生產關系的規(guī)律在這里依然是成立的。
1.3云計算與大數(shù)據的發(fā)展網絡技術在云計算和大數(shù)據的發(fā)展歷程中發(fā)揮了重要的推動作用。172當前移動互聯(lián)網的出現(xiàn)并迅速普及更是對云計算、大數(shù)據的發(fā)展起到了推動作用。移動瘦客戶終端與云計算資源池的結合大大拓展了移動應用的思路,云計算資源得以在移動終端上實現(xiàn)隨時、隨地、隨身資源服務。移動互聯(lián)網再次拓展了以網絡化資源交付為特點的云計算技術的應用能力,同時也改變了數(shù)據的產生方式,推動了全球數(shù)據的快速增長,推動了大數(shù)據的技術和應用的發(fā)展。
1.3云計算與大數(shù)據的發(fā)展當前移動互聯(lián)網的出現(xiàn)并迅速普及更是對云計算、大數(shù)據的發(fā)展起到73云計算是一種全新的領先信息技術,結合IT技術和互聯(lián)網實現(xiàn)超級計算和存儲的能力,而推動云計算興起的動力是高速互聯(lián)網和虛擬化技術的發(fā)展、更加廉價且功能強勁的芯片及硬盤、數(shù)據中心的發(fā)展。云計算作為下一代企業(yè)數(shù)據中心,其基本形式為大量鏈接在一起的共享IT基礎設施,不受本地和遠程計算機資源的限制,可以很方便地訪問云中的“虛擬”資源,使用戶和云服務提供商之間可以像訪問網絡一樣進行交互操作。1.3云計算與大數(shù)據的發(fā)展云計算是一種全新的領先信息技術,結合IT技術和互聯(lián)網實現(xiàn)超級74云計算的興起有以下因素:(1)高速互聯(lián)網技術發(fā)展。
云計算能夠利用現(xiàn)有的IT基礎設施在極短的時間內處理大量的信息以滿足動態(tài)網絡的高性能的需求。
(2)資源利用率需求。
引入云計算模式后可以通過整合資源或采用租用存儲空間、租用計算能力等服務來降低企業(yè)運行成本和節(jié)省能源。
同時,利用云計算將資源集中,統(tǒng)一提供可靠服務,能減少企業(yè)成本,提升企業(yè)靈活性,企業(yè)可以把更多的時間用于服務客戶和進一步研發(fā)新的產品上。
1.3云計算與大數(shù)據的發(fā)展云計算的興起有以下因素:1.3云計算與大數(shù)據的發(fā)展75
(3)簡單與創(chuàng)新需求。
在實際的業(yè)務需求中,越來越多的個人用戶和企業(yè)用戶都在期待著使用計算機操作能簡單化,能夠直接通過購買軟件或硬件服務而不是軟件或硬件實體,為自己的學習、生活和工作帶來更多的便利,能在學習場所、工作場所、住所之間建立便利的文件或資料共享的紐帶。而對資源的利用可以簡化到通過接入網絡就可以實現(xiàn)自己想要實現(xiàn)的一切,就需要在技術上有所創(chuàng)新,利用云計算來提供這一切,將我們需要的資料、數(shù)據、文檔、程序等全部放在云端實現(xiàn)同步。1.3云計算與大數(shù)據的發(fā)展
(3)簡單與創(chuàng)新需求。
在實際的業(yè)務需求中,越來越76(4)其他需求連接設備、實時數(shù)據流、SOA的采用以及搜索、開放協(xié)作、社會網絡和移動商務等的移動互聯(lián)網應用急劇增長,數(shù)字元器件性能的提升也使IT環(huán)境的規(guī)模大幅度提高,從而進一步加強了對一個由統(tǒng)一的云進行管理的需求。個人或企業(yè)希望按需計算或服務,能在不同的地方實時實現(xiàn)項目、文檔的協(xié)作處理,能在繁雜的信息中方便地找到自己需要的信息等需求也是云計算興起的原因之一。人類歷史不斷地證明生產力決定生產關系,技術的發(fā)展歷史也證明了技術能力決定技術的形態(tài),1.3云計算與大數(shù)據的發(fā)展(4)其他需求1.3云計算與大數(shù)據的發(fā)展77縱觀整個信息技術的發(fā)展歷史
圖1.4信息產業(yè)發(fā)展演進路線圖
1.3云計算與大數(shù)據的發(fā)展縱觀整個信息技術的發(fā)展歷史1.3云計算與大數(shù)據的發(fā)展78硬件驅動的時代誕生了IBM、微軟、Intel等企業(yè)。20世紀50年代最早的網絡開始出現(xiàn),信息產業(yè)的發(fā)展驅動力中開始出現(xiàn)網絡的力量,但當時網絡性能很弱,網絡并不是推動信息產業(yè)發(fā)展的主要動力,處理器等硬件的影響還占絕對主導因素。隨著網絡的發(fā)展,網絡通信帶寬逐步加大,從20世紀80年代的局域網到20世紀90年代的互聯(lián)網,網絡逐漸成為了推動信息產業(yè)發(fā)展的主導力量,這個時期誕生了百度、谷歌、亞馬遜等企業(yè)。直到云計算的出現(xiàn)才標志著網絡已成為信息產業(yè)發(fā)展的主要驅動力,此時技術的變革即將出現(xiàn)。
1.3云計算與大數(shù)據的發(fā)展硬件驅動的時代誕生了IBM、微軟、Intel等企業(yè)。20世紀792.為云計算與大數(shù)據發(fā)展做出貢獻的科學家超級計算機之父—西摩·克雷(SeymourCray)
在人類解決計算和存儲問題的歷程中,西摩·克雷成為了一座豐碑,被稱為超級計算機之父。西摩·克雷,生于1925年9月28日,美國人,1958年設計建造了世界上第一臺基于晶體管的超級計算機,成為計算機發(fā)展史上的重要里程碑。同時也對精簡指令(RISC)高端微處理器的產生有重大的貢獻。1972年,他創(chuàng)辦了克雷研究公司,公司的宗旨是只生產超級計算機。此后的十余年中,克雷先后創(chuàng)造了Cray-1、Cray-2等機型。作為高性能計算機領域中最重要的人物之一,他親手設計了Cray全部的硬件與操作系統(tǒng)。Cray機成為了從事高性能計算學者中永遠的記憶,到1986年1月為止,世界上有130臺超級計算機投入使用,其中大約90臺是由克雷的上市公司—克雷研究所研制的。美國的《商業(yè)周刊》在1990年的一篇文章中曾這樣寫道:“西摩·克雷的天賦和非凡的干勁已經給本世紀的技術留下了不可磨滅的印記”。2013年11月高性能計算Top500排行中第2名和第6名均為Cray機。
圖1.5西摩·克雷1.3云計算與大數(shù)據的發(fā)展2.為云計算與大數(shù)據發(fā)展做出貢獻的科學家圖1.5西摩·克雷802.為云計算與大數(shù)據發(fā)展做出貢獻的科學家云計算之父—約翰·麥卡錫(JohnMcCarthy)約翰·麥卡錫1927年生于美國,1951年獲得普林斯頓大學數(shù)學博士學位。他因在人工智能領域的貢獻而在1971年獲得圖靈獎;麥卡錫真正廣為人知的稱呼是“人工智能之父”,因為他在1955年的達特矛斯會議上提出了“人工智能”這個概念,使人工智能成為了一門新的學科。1958年發(fā)明了LISP語言,而LISP語言中的MapReduce在幾十年后成為了Google云計算和大數(shù)據系統(tǒng)中最為核心的技術。麥卡錫更為富有遠見的預言是他在1960年提出的“今后計算機將會作為公共設施提供給公眾”這一觀點與現(xiàn)在的云計算的理念竟然絲毫不差。正是由于他提前半個多世紀就預言了云計算這種新的模式,因此我們將他稱為“云計算之父”。圖1.6約翰·麥卡錫1.3云計算與大數(shù)據的發(fā)展2.為云計算與大數(shù)據發(fā)展做出貢獻的科學家圖1.6約翰·麥卡812.為云計算與大數(shù)據發(fā)展做出貢獻的科學家大數(shù)據之父—吉姆·格雷(JimGray)吉姆·格雷生于1944年,在著名的加州大學伯克利分校計算機科學系獲得博士學位,是聲譽卓著的數(shù)據庫專家,1998年度的圖靈獎獲得者;2007年1月11日在美國國家研究理事會計算機科學與通信分會上吉姆·格雷明確地闡述了科學研究第四范式,認為依靠對數(shù)據分析挖掘也能發(fā)現(xiàn)新的知識,這一認識吹響了大數(shù)據前進的號角,計算應用于數(shù)據的觀點在當前的云計算大數(shù)據系統(tǒng)中得到了大量的體現(xiàn)。在他發(fā)表這一演講后的十幾天,2007年1月28號格雷獨自架船出海就再也沒有了音訊,雖然經多方的努力搜索卻沒有發(fā)現(xiàn)一絲他的信息,人們再也沒能見到這位天才的科學家。圖1.8大數(shù)據之父—吉姆·格雷1.3云計算與大數(shù)據的發(fā)展2.為云計算與大數(shù)據發(fā)展做出貢獻的科學家圖1.8大數(shù)據之父823.云計算與大數(shù)據的國內發(fā)展現(xiàn)狀
云計算與大數(shù)據概念進入中國以來,國內高度重視云計算產業(yè)和技術的發(fā)展,中國電子學會率先成立了云計算專業(yè)委員會,并在2009年舉辦了第一屆中國云計算大會,該委員會在大會后來每年舉辦一次,成為云計算領域的一個重要會議,同時每年出版一本《云計算技術發(fā)展報告》,報道當年云計算的發(fā)展狀況。中國計算機學會于2012年成立了大數(shù)據專家委員會;2013年發(fā)布了《中國大數(shù)據技術與產業(yè)發(fā)展白皮書》,并舉辦了第一節(jié)CCF大數(shù)據學術會議。
1.3云計算與大數(shù)據的發(fā)展3.云計算與大數(shù)據的國內發(fā)展現(xiàn)狀
1.3云計算與大數(shù)據的發(fā)83國內的研究機構也紛紛開展云計算、大數(shù)據研究工作,如清華大學、中國科學院計算所、華中科技大學、成都信息工程學院并行計算實驗室都在開展相關的研究工作??蒲腥藛T逐步發(fā)現(xiàn)在云計算的新的體系下,有大量需要研究解決的問題,如理論框架、安全機制、調度策略、能耗模型、數(shù)據分析、虛擬化、遷移機制等。自“第四范式”提出后,數(shù)據成為科學研究的研究對象,大數(shù)據概念成為云計算之后信息產業(yè)的又一熱點,成為科研領域研究的熱點。國家自然科學基金反映了我國科研領域的進展,2009~2013年云計算、大數(shù)據、數(shù)據中心方向的國家自然科學基金立項數(shù)據如圖1.9所示。
1.3云計算與大數(shù)據的發(fā)展國內的研究機構也紛紛開展云計算、大數(shù)據研究工作,如清華大學、84圖1.9云計算、大數(shù)據、數(shù)據中心方向的國家自然科學基金立項情況
1.3云計算與大數(shù)據的發(fā)展1.3云計算與大數(shù)據的發(fā)展85國內的企業(yè)也對云計算、大數(shù)據給予了高度關注,華為、中興、阿里、騰訊都宣布了自己龐大的云計算計劃。這些企業(yè)多年來積累的數(shù)據在大數(shù)據時代將發(fā)揮巨大作用。數(shù)據分析、數(shù)據運營的作用已經顯現(xiàn)出來,擁有用戶數(shù)據的IT企業(yè)對傳統(tǒng)的行業(yè)產生了巨大影響,“數(shù)據為王”的時代正在到來。1.3云計算與大數(shù)據的發(fā)展1.3云計算與大數(shù)據的發(fā)展86練習題1.在信息產業(yè)的發(fā)展歷程中,
、
作為兩個重要的內在動力在不同時期起著重要作用。2.
建造了世界上第一臺基于晶體管的超級計算機,被譽為“超級計算機之父”。3.
最早預言了“今后計算機將會作為公共設施提供給公眾”,被譽為“云計算之父”。4.萬維網的發(fā)明人、世界上第一個網頁的開發(fā)者是
。練習題87云計算與大數(shù)據技術
人民郵電出版社王鵬黃焱安俊秀張逸琴編著
云計算與大數(shù)據技術人民郵電出版社王鵬黃焱安俊秀88目錄CONTENTS第1章云計算與大數(shù)據基礎第2章云計算與大數(shù)據的相關技術第3章虛擬化技術第4章集群系統(tǒng)基礎第5章MPI—面向計算第6章Hadoop—分布式大數(shù)據系統(tǒng)第7章HPCC—面向數(shù)據的高性能計算集群系統(tǒng)第8章Storm—基于拓撲的流數(shù)據實時計算系統(tǒng)第9章服務器與數(shù)據中心第10章云計算大數(shù)據仿真技術目錄CONTENTS第1章云計算與大數(shù)據基礎89第1章云計算與大數(shù)據基礎《云計算與大數(shù)據技術》
第1章云計算與大數(shù)據基礎《云計算與大數(shù)據技術》90第1章云計算與大數(shù)據基礎1.1云計算技術概述 1.1.1云計算簡介
1.1.2云計算的特點 1.1.3云計算技術分類
1.2大數(shù)據技術概述1.2.1大數(shù)據簡介
1.2.2主要的大數(shù)據處理系統(tǒng)
1.2.3大數(shù)據處理的基本流程
1.3云計算與大數(shù)據的發(fā)展
第1章云計算與大數(shù)據基礎1.1云計算技術概述 911.1.1云計算簡介云計算技術是硬件技術和網絡技術發(fā)展到一定階段而出現(xiàn)的一種新的技術模型云計算并不是對某一項獨立技術的稱呼,而是對實現(xiàn)云計算模式所需要的所有技術的總稱。1.1.1云計算簡介云計算技術是硬件技術和網絡技術發(fā)展到一92云計算技術的內容很多包括分布式計算技術、虛擬化技術、網絡技術、服務器技術、數(shù)據中心技術、云計算平臺技術、存儲技術等。從廣義上說,云計算技術幾乎包括了當前信息技術中的絕大部分。
1.1.1云計算簡介云計算技術的內容很多1.1.1云計算簡介93維基百科中對云計算的定義為:云計算是一種基于互聯(lián)網的計算方式,通過這種方式,共享的軟硬件資源和信息可以按需求提供給計算機和其他設備。2012年的國務院政府工作報告將云計算作為國家戰(zhàn)略性新興產業(yè)給出了定義:云計算是基于互聯(lián)網的服務的增加、使用和交付模式,通常涉及通過互聯(lián)網來提供動態(tài)、易擴展且經常是虛擬化的資源。云計算是傳統(tǒng)計算機和網絡技術發(fā)展融合的產物,它意味著計算能力也可作為一種商品通過互聯(lián)網進行流通。
1.1.1云計算簡介維基百科中對云計算的定義為:1.1.1云計算簡介94云計算技術的出現(xiàn)改變了信息產業(yè)傳統(tǒng)的格局。傳統(tǒng)的信息產業(yè)企業(yè)既是資源的整合者又是資源的使用者;這這種格局并不符合現(xiàn)代產業(yè)分工高度專業(yè)化的需求,同時也不符合企業(yè)需要靈敏地適應客戶的需要。1.1.1云計算簡介云計算技術的出現(xiàn)改變了信息產業(yè)傳統(tǒng)的格局。1.1.1云計算95傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動性的需求時會非常的不敏捷,企業(yè)的計算和存儲資源要么是被浪費,要么是面對客戶峰值需求時力不從心。云計算技術使資源與用戶需求之間是一種彈性化的關系,資源的使用者和資源的整合者并不是一個企業(yè),資源的使用者只需要對資源按需付費,從而敏捷地響應客戶不斷變化的資源需求,這一方法降低了資源使用者的成本,提高了資源的利用效率。
1.1.1云計算簡介傳統(tǒng)的計算資源和存儲資源大小通常是相對固定的,面對客戶高波動96云計算時代基本的3種角色:
資源的整合運營者、資源的使用者、終端客戶。資源的整合運營者就像是發(fā)電廠負責資源的整合輸出;資源的使用者負責將資源轉變?yōu)闈M足客戶需求的各種應用;終端客戶為資源的最終消費者。1.1.1云計算簡介云計算時代基本的3種角色:1.1.1云計算簡介97云計算這種新的模式的出現(xiàn)被認為是信息產業(yè)的一大變革,吸引了大量企業(yè)重新布局:IBM、微軟、谷歌、DELL等企業(yè)國內企業(yè):華為、中興、騰訊、阿里、聯(lián)想、浪潮、五舟等企業(yè)1.1.1云計算簡介云計算這種新的模式的出現(xiàn)被認為是信息產業(yè)的一大變革,吸引了大98云計算技術作為一項涵蓋面廣且對產業(yè)影響深遠的技術,未來將逐步滲透到信息產業(yè)和其他產業(yè)的方方面面,并將深刻改變產業(yè)的結構模式、技術模式和產品銷售模式,進而深刻影響人們的生活;云計算會逐步成為人們生活中必不可少的技術;1.1.1云計算簡介云計算技術作為一項涵蓋面廣且對產業(yè)影響深遠的技術,未來將逐步99移動互聯(lián)網的出現(xiàn)使云計算應用走向了人們的指間,推動了云計算技術的應用發(fā)展,今后云計算將是一項隨時、隨地、隨身為我們提供服務的技術;云計算的出現(xiàn)也將如電的出現(xiàn)一般,為信息產業(yè)的發(fā)展提供無限的想象空間,使應用的創(chuàng)新能力得到完全釋放。
1.1.1云計算簡介移動互聯(lián)網的出現(xiàn)使云計算應用走向了人們的指間,推動了云計算技1001.1.2云計算的特點1.資源池彈性可擴張2.按需提供資源服務3.虛擬化4.網絡化的資源接入5.高可靠性和安全性1.1.2云計算的特點1.1.2云計算的特點1.1.2云計算的特點101與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:
(1)資源池彈性可擴張云計算系統(tǒng)的一個重要特征就是資源的集中管理和輸出,這就是所謂的資源池。從資源低效率的分散使用到資源高效的集約化使用正是云計算的基本特征之一。分散的資源使用方法造成了資源的極大浪費,現(xiàn)在每個人都可能有一到兩臺自己的計算機,但對這種資源的利用率卻非常的低,計算機在大量時間都是在等待狀態(tài)或是在處理文字數(shù)據等低負荷的任務。資源集中起來后資源的利用效率會大大地提高,隨著資源需求的不斷提高,資源池的彈性化擴張能力成為云計算系統(tǒng)的一個基本要求,云計算系統(tǒng)只有具備了資源的彈性化擴張能力才能有效地應對不斷增長的資源需求。大多數(shù)云計算系統(tǒng)都能較為方便地實現(xiàn)新資源的加入。
1.1.2云計算的特點與傳統(tǒng)的資源提供方向相比,云計算具有以下特點:
1.1.2102(2)按需提供資源服務云計算系統(tǒng)帶給客戶最重要的好處就是敏捷地適應用戶對資源不斷變化的需求;云計算系統(tǒng)實現(xiàn)按需向用戶提供資源能大大節(jié)省用戶的硬件資源開支,用戶不用自己購買并維護大量固定的硬件資源,只需向自己實際消費的資源量來付費;按需提供資源服務使應用開發(fā)者在邏輯上可以認為資源池的大小是不受限制的,應用開發(fā)者的主要精力只需要集中在自己的應用上。
1.1.2云計算的特點(2)按需提供資源服務1.1.2云計算的特點103(3)虛擬化
現(xiàn)有的云計算平臺的重要特點是利用軟件來實現(xiàn)硬件資源的虛擬化管理、調度及應用。在云計算中利用虛擬化技術可大大降低維護成本和提高資源的利用率。
1.1.2云計算的特點(3)虛擬化
1.1.2云計算的特點104(4)網絡化的資源接入。
從最終用戶的角度看,基于云計算系統(tǒng)的應用服務通常都是通過網絡來提供的,應用開發(fā)者將云計算中心的計算、存儲等資源封裝為不同的應用后往往會通過網絡提供給最終的用戶。云計算技術必須實現(xiàn)資源的網絡化接入才能有效地向應用開發(fā)者和最終用戶提供資源服務。以網絡技術的發(fā)展是推動云計算技術出現(xiàn)的首要動力。1.1.2云計算的特點(4)網絡化的資源接入。
1.1.2云計算的特點105(5)高可靠性和安全性。
用戶數(shù)據存儲在服務器端,而應用程序在服務器端運行,計算由服務器端來處理。所有的服務分布在不同的服務器上,如果什么地方(節(jié)點)出問題就在什么地方終止它,另外再啟動一個程序或節(jié)點,即自動處理失敗節(jié)點,從而保證了應用和計算的正常進行。數(shù)據被復制到多個服務器節(jié)點上有多個副本(備份),存儲在云里的數(shù)據即使遇到意外刪除或硬件崩潰也不會受到影響。1.1.2云計算的特點(5)高可靠性和安全性。
1.1.2云計算的特點1061.1.3云計算技術分類1.1.3云計算技術分類1.按技術路線分類2.按服務對象分類3.按資源封裝的層次分類1.1.3云計算技術分類1.1.3云計算技術分類107目前已出現(xiàn)的云計算技術種類非常多,對于云計算的分類可以有多種角度:從技術路線角度可以分為資源整合型云計算和資源切分型云計算;從服務對像角度可以被分為公有云和私有云;按資源封裝的層次來分可以分為:基礎設施即服務(InfrastructureasaService,IaaS)平臺即服務(PlatformasaService,PaaS)軟件即服務(SoftwareasaService,SaaS)。1.1.3云計算技術分類目前已出現(xiàn)的云計算技術種類非常多,對于云計算的分類可以有多種108
1.按技術路線分類
資源整合型云計算:這種類型的云計算系統(tǒng)在技術實現(xiàn)方面大多體現(xiàn)為集群架構,通過將大量節(jié)點的計算資源和存儲資源整合后輸出。這類系統(tǒng)通常能實現(xiàn)跨節(jié)點彈性化的資源池構建,核心技術為分布式計算和存儲技術。MPI、Hadoop、HPCC、Storm等都可以被分類為資源整合型云計算系統(tǒng)。1.1.3云計算技術分類
1.按技術路線分類
1.1.3云計算技術分類109資源切分型云計算:這種類型最為典型的就是虛擬化系統(tǒng),這類云計算系統(tǒng)通過系統(tǒng)虛擬化實現(xiàn)對單個服務器資源的彈性化切分,從而有效地利用服務器資源,其核心技術為虛擬化技術。這種技術的優(yōu)點是用戶的系統(tǒng)可以不做任何改變接入采用虛擬化技術的云系統(tǒng),是目前應用較為廣泛的技術,特別是在桌面云計算技術上應用得較為成功;缺點是跨節(jié)點的資源整合代價較大;KVM、VMware都是這類技術的代表。1.1.3云計算技術分類1.1.3云計算技術分類1102.按服務對象分類公有云:指服務對象是面向公眾的云計算服務,公有云對云計算系統(tǒng)的穩(wěn)定性、安全性和并發(fā)服務能力有更高的要求。私有云:指主要服務于某一組織內部的云計算服務,其服務并不向公眾開放,如企業(yè)、政府內部的云服務。公有云與私有云的界限并不是特別清晰,有時服務于一個地區(qū)和團體的云也被稱為公有云。所以這種云計算分類方法并不是一種準確的分類方法,主要是在商業(yè)領域的一種稱呼。1.1.3云計算技術分類2.按服務對象分類1.1.3云計算技術分類1113.按資源封裝的層次分類基礎設施即服務(InfrastructureasaService,IaaS):把單純的計算和存儲資源不經封裝地直接通過網絡以服務的形式提供的用戶使用。這類云計算服務用戶的自主性較大,就像是發(fā)電廠將發(fā)的電直接送出去一樣。這類云服務的對象往往是具有專業(yè)知識能力的資源使用者,傳統(tǒng)數(shù)據中心的主機租用等可能作為IaaS的典型代表。1.1.3云計算技術分類3.按資源封裝的層次分類1.1.3云計算技術分類112平臺即服務(PlatformasaService,PaaS):計算和存儲資源經封裝后,以某種接口和協(xié)議的形式提供給用戶調用,資源的使用者不再直接面對底層資源。平臺即服務需要平臺軟件的支撐,可以認為是從資源到應用軟件的一個中間件,通過這類中間件可以大大減小應用軟件開發(fā)時的技術難度。這類云服務的對象往往是云計算應用軟件的開發(fā)者,平臺軟件的開發(fā)需要使用者具有一定的技術能力。1.1.3云計算技術分類平臺即服務(PlatformasaService,Pa113軟件即服務(SoftwareasaService,SaaS):將計算和存儲資源封裝為用戶可以直接使用的應用并通過網絡提供給用戶;SaaS面向的服務對象為最終用戶,用戶只是對軟件功能進行使用,無需了解任何云計算系統(tǒng)的內部結構,也不需要用戶具有專業(yè)的技術開發(fā)能力。
1.1.3云計算技術分類軟件即服務(SoftwareasaService,Sa114圖1.1云計算服務體系結構如圖所示,云計算系統(tǒng)按資源封裝的層次分為IaaS、PaaS、SaaS,分為對底層硬件資源不同級別的封裝,從而實現(xiàn)將資源轉變?yōu)榉盏哪康?。傳統(tǒng)的信息系統(tǒng)資源的使用者通常是以直接占有物理硬件資源的形式來使用資源的,而云計算系統(tǒng)通過IaaS、PaaS、SaaS等不同層次的封裝將物理硬件資源封裝后,以服務的形式利用網絡提供給資源的使用者。在這里資源的使用者可能是資源的二次加工者,也可能是最終應用軟件的使用者,通常IaaS、PaaS層面向的資源使用者往往是資源的二次加工者,這類資源的使用者并不是資源的最終消費者,他們將資源轉變?yōu)閼梅粘绦蚝笠許aaS的形式提供給資源的最終消費者。實現(xiàn)對物理資源封裝的技術并不是惟一的,目前不少的軟件都能實現(xiàn),甚至有的系統(tǒng)只有SaaS層,并沒有進行逐層的封裝。
1.1.3云計算技術分類圖1.1云計算服務體系結構傳統(tǒng)的信息系統(tǒng)資源的使用者通常是115云計算的服務層次是根據服務類型即服務集合來劃分,與大家熟悉的計算機網絡體系結構中層次的劃分不同。在計算機網絡中每個層次都實現(xiàn)一定的功能,層與層之間有一定關聯(lián)。而云計算體系結構中的層次是可以分割的,即某一層次可以單獨完成一項用戶的請求而不需要其他層次為其提供必要的服務和支持。
1.1.3云計算技術分類云計算的服務層次是根據服務類型即服務集合來劃分,與大家熟悉的116在云計算服務體系結構中各層次與相關云產品對應。應用層對應SaaS軟件即服務,如:GoogleAPPS、SoftWare+Services。平臺層對應PaaS平臺即服務,如:IBMITFactory、GoogleAPPEngine、F?;A設施層對應IaaS基礎設施即服務,如:AmazoEC2、IBMBlueCloud、SunGrid。虛擬化層對應硬件即服務,結合PaaS提供硬件服務,包括服務器集群及硬件檢測等服務。1.1.3云計算技術分類在云計算服務體系結構中各層次與相關云產品對應。1.1.3云1171.2大數(shù)據技術概述1.2大數(shù)據技術概述1.2.1大數(shù)據簡介1.什么是大數(shù)據2.數(shù)據的來源3.生產數(shù)據的三個階段4.大數(shù)據的特點5.大數(shù)據的應用領域1.2大數(shù)據技術概述1.2大數(shù)據技術概述1181.2大數(shù)據技術概述1.2.1大數(shù)據簡介計算和數(shù)據是信息產業(yè)不變的主題,在信息和網絡技術迅速發(fā)展的推動下,人們的感知、計算、仿真、模擬、傳播等活動產生了大量的數(shù)據,數(shù)據的產生不受時間、地點的限制,大數(shù)據的概念逐漸形成,大數(shù)據涵蓋了計算和數(shù)據兩大主題,是產業(yè)界和學術界的研究熱點,被譽為未來十年的革命性技術。1.2大數(shù)據技術概述1.2.1大數(shù)據簡介1191.2.1大數(shù)據簡介2008年,《Nature》雜志推出了“大數(shù)據”專輯,引發(fā)了學術界和產業(yè)界的關注;2011年,大數(shù)據應用進入我國并快速發(fā)展,目前大數(shù)據的應用和研究已經是學術界和產業(yè)界的熱點;2012年3月,美國政府發(fā)布《大數(shù)據研究和發(fā)展倡議》,投資2億美元發(fā)展大數(shù)據,用以強化國土安全、轉變教育學習模式、加速科學和工程領域的創(chuàng)新速度和水平;2012年7月,日本提出以電子政府、電子醫(yī)療、防災等為中心制定新ICT(信息通信技術)戰(zhàn)略,發(fā)布“新ICT計劃”,重點關注大數(shù)據研究和應用;2013年1月,英國政府宣布將在對地觀測、醫(yī)療衛(wèi)生等大數(shù)據和節(jié)能計算技術方面投資1.89億英鎊;2013年我國上海、重慶等地相繼發(fā)布大數(shù)據行動計劃。
1.2.1大數(shù)據簡介2008年,《Nature》雜志推出了1201.什么是大數(shù)據維基百科將大數(shù)據描述為:大數(shù)據是現(xiàn)有數(shù)據庫管理工具和傳統(tǒng)數(shù)據處理應用很難處理的大型、復雜的數(shù)據集,大數(shù)據的挑戰(zhàn)包括采集、存儲、搜索、共享、傳輸、分析和可視化等。大數(shù)據的“大”是一個動態(tài)的概念以前10GB的數(shù)據是個天文數(shù)字;而現(xiàn)在,在地球、物理、基因、空間科學等領域,TB級的數(shù)據集已經很普遍。大數(shù)據系統(tǒng)需要滿足以下三個特性。
(1)規(guī)模性(Volume):需要采集、處理、傳輸?shù)臄?shù)據容量大;(2)多樣性(Variety):數(shù)據的種類多、復雜性高;
(3)高速性(Velocity):數(shù)據需要頻繁地采集、處理并輸出。
1.2.1大數(shù)據簡介1.什么是大數(shù)據1.2.1大數(shù)據簡介1212.數(shù)據的來源大數(shù)據的數(shù)據來源很多,主要有信息管理系統(tǒng)、網絡信息系統(tǒng)、物聯(lián)網系統(tǒng)、科學實驗系統(tǒng)等;其數(shù)據類型包括結構化數(shù)據、半結構化數(shù)據和非結
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年法律職業(yè)道德與法律實務技能題庫
- 城市自然災害應急預案方案
- 道路養(yǎng)護管理信息系統(tǒng)方案
- 雨水排出速率計算方案
- 垃圾分類投放及管理方案
- 城市交通出行方式調查方案
- 2026年稅務師職業(yè)資格考試題目稅法實務與政策
- 2026年軟件測試及質量保障實操題目集
- 2026年環(huán)境保護與可持續(xù)發(fā)展策略題集
- 2026年高級心理學理論與應用測試題
- 2023年人教版六年級上冊語文期末考試卷(A4打印版)
- JTG-D40-2002公路水泥混凝土路面設計規(guī)范-PDF解密
- 研學旅行概論第六章
- 《雅思閱讀精講》
- 產前檢查的操作評分標準
- GB/T 22176-2023二甲戊靈乳油
- 50年同學聚會邀請函(十二篇)
- GB/T 28046.4-2011道路車輛電氣及電子設備的環(huán)境條件和試驗第4部分:氣候負荷
- 臨時用水施工方案
- 初中體育《正確跑姿勢》教學課件
- LOTO上鎖掛牌安全培訓課件
評論
0/150
提交評論