版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
《信息技術(shù)導(dǎo)論》課程教案課題:第一章云計(jì)算教學(xué)目的:1.了解云計(jì)算的概述;2.正確理解云技術(shù)架構(gòu)及其技術(shù);3.掌握云計(jì)算系統(tǒng)的使能技術(shù);4.掌握。課型:新授課課時(shí):本章安排5個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):掌握云計(jì)算系統(tǒng)的使能技術(shù)。教學(xué)難點(diǎn):難點(diǎn):掌握。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題云計(jì)算課次3授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排5學(xué)分共2分授課對(duì)象企業(yè)管理人員的培訓(xùn)任課教師教材及參考資料1.《信息技術(shù)導(dǎo)論》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段引導(dǎo)案例什么是云計(jì)算?美國(guó)國(guó)家標(biāo)準(zhǔn)與技術(shù)研究院對(duì)此有這樣一個(gè)權(quán)威和經(jīng)典的定義:“所謂云計(jì)算,就是這樣一種模式,該模式允許用戶通過無所不在的、便捷的、按需獲得的網(wǎng)絡(luò)接入到一個(gè)可動(dòng)態(tài)配置的共享計(jì)算資源池(包括網(wǎng)絡(luò)設(shè)備、服務(wù)器、存儲(chǔ)、應(yīng)用及業(yè)務(wù)),并且以最小的管理代價(jià)或業(yè)務(wù)提供者交互復(fù)雜度即可實(shí)現(xiàn)這些可配置計(jì)算資源的快速發(fā)放與發(fā)布?!痹朴?jì)算的目標(biāo)是將計(jì)算和存儲(chǔ)簡(jiǎn)化為像水和電一樣易用的資源,用戶只要連上網(wǎng)絡(luò)即可方便地使用,按量付費(fèi)。云計(jì)算具有靈活的計(jì)算能力并提供了高效的海量數(shù)據(jù)分析方法,企業(yè)不需要構(gòu)建專用的數(shù)據(jù)中心就可以在云平臺(tái)上運(yùn)行各種各樣的業(yè)務(wù)系統(tǒng),這種計(jì)算模式和商業(yè)模式吸引了產(chǎn)業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。虛擬化是云計(jì)算的基石,是云計(jì)算重要的支撐技術(shù)。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式本章基本知識(shí)匯總第一節(jié)云計(jì)算概述一、云計(jì)算的產(chǎn)生與發(fā)展20世紀(jì)60年代只有大型機(jī),20世紀(jì)70年代計(jì)算機(jī)的操作系統(tǒng)以UNIX為主導(dǎo),小型機(jī)開始成為主流。個(gè)人計(jì)算機(jī)(PC)時(shí)代到來的標(biāo)志是原來昂貴的、只在特殊行業(yè)使用的大型機(jī)發(fā)展成為每個(gè)人都能負(fù)擔(dān)得起、每個(gè)人都會(huì)使用的個(gè)人計(jì)算機(jī)。個(gè)人計(jì)算機(jī)時(shí)代的到來提高了個(gè)人的工作效率和企業(yè)的生產(chǎn)效率?;ヂ?lián)網(wǎng)時(shí)代的到來使數(shù)億計(jì)的單個(gè)信息孤島匯集成龐大的信息網(wǎng)絡(luò),方便了信息的發(fā)布、收集、檢索和共享,極大地提高了人類溝通、共享和協(xié)作的效率,提高了社會(huì)生產(chǎn)力,豐富了人們的社交和娛樂活動(dòng)??梢哉f,當(dāng)前絕大多數(shù)企業(yè)、學(xué)校的日常工作都依賴于互聯(lián)網(wǎng)。1959年6月,ChristopherStrachey發(fā)表關(guān)于虛擬化技術(shù)的論文,虛擬化技術(shù)是云計(jì)算基礎(chǔ)架構(gòu)的基石。1962年,J.C.R.Licklider提出“星際計(jì)算機(jī)網(wǎng)絡(luò)”設(shè)想。1984年,Sun公司的聯(lián)合創(chuàng)始人JohnGage提出了“網(wǎng)絡(luò)就是計(jì)算機(jī)”的名言,用于描述分布式計(jì)算技術(shù)帶來的新世界,今天的云計(jì)算正在將這一理念變成現(xiàn)實(shí)。1997年,南加州大學(xué)教授RamnathK.Chellappa提出云計(jì)算的第一個(gè)學(xué)術(shù)定義:“計(jì)算的邊界可以不是技術(shù)局限,而是經(jīng)濟(jì)合理性。”1998年,VMware公司成立并首次引入x86的虛擬化技術(shù)。1999年,MarcAndreessen創(chuàng)建了LoudCloud,LoudCloud是第一個(gè)商業(yè)化的IaaS平臺(tái)。同年公司成立,宣布“軟件終結(jié)”革命開始。2000年,SaaS興起。2006年3月,亞馬遜推出彈性計(jì)算云(ElasticComputeCloud)服務(wù)。2006年8月,谷歌首席執(zhí)行官埃里克·施密特在搜索引擎大會(huì)首次提出“云計(jì)算”(CloudComputing)的概念。2008年2月,IBM宣布將在中國(guó)無錫太湖新城科教產(chǎn)業(yè)園為中國(guó)的軟件公司建立全球第一個(gè)云計(jì)算中心。2010年,阿里巴巴旗下的“阿里云”正式對(duì)外提供云計(jì)算商業(yè)服務(wù)。2013年9月,華為面向企業(yè)和運(yùn)營(yíng)商客戶推出云操作系統(tǒng)FusionSphere3.0。2015年3月,第十二屆全國(guó)人民代表大會(huì)第三次會(huì)議提出制定“互聯(lián)網(wǎng)+”行動(dòng)計(jì)劃,推動(dòng)移動(dòng)互聯(lián)網(wǎng)、云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等與現(xiàn)代制造業(yè)結(jié)合,促進(jìn)電子商務(wù)、工業(yè)互聯(lián)網(wǎng)和互聯(lián)網(wǎng)金融健康發(fā)展,引導(dǎo)互聯(lián)網(wǎng)企業(yè)拓展國(guó)際市場(chǎng)。2015年10月,教育部頒布《普通高等學(xué)校高等職業(yè)教育(??疲I(yè)目錄(2015年)》,“云計(jì)算技術(shù)與應(yīng)用”列入新的專業(yè)目錄。2016年9月,教育部頒布《普通高等學(xué)校高等職業(yè)教育(??疲I(yè)目錄(2016年)》,“大數(shù)據(jù)技術(shù)與應(yīng)用”列入新的專業(yè)目錄。據(jù)中國(guó)信息通信研究院發(fā)布的《云計(jì)算白皮書(2020)》,2019年我國(guó)公有云市場(chǎng)規(guī)模首次超過私有云。2019年我國(guó)云計(jì)算整體市場(chǎng)規(guī)模達(dá)1334億元,增速38.6%。其中公有云市場(chǎng)規(guī)模達(dá)689億元,相比2018年增長(zhǎng)57.6%,2020—2022年仍處于快速增長(zhǎng)階段,到2023年市場(chǎng)規(guī)模將超過2300億元。云計(jì)算的內(nèi)涵與特性云計(jì)算有狹義和廣義之分。狹義的云計(jì)算是指IT基礎(chǔ)設(shè)施的交付和使用模式;廣義的云計(jì)算是指服務(wù)的交付和使用模式,這種服務(wù)可以是和軟件、互聯(lián)網(wǎng)相關(guān)的,也可以是任意的其他服務(wù)。云計(jì)算具有如下特性。(1)計(jì)算資源集成提高設(shè)備計(jì)算能力。云計(jì)算把大量計(jì)算資源集中到一個(gè)公共資源池中,通過多主租用的方式共享計(jì)算資源。雖然單個(gè)用戶在云計(jì)算平臺(tái)獲得的服務(wù)水平會(huì)受到網(wǎng)絡(luò)帶寬等因素的影響,但是從整個(gè)社會(huì)資源的角度而言,整體的資源調(diào)控降低了部分地區(qū)資源的峰值荷載,提高了部分荒廢主機(jī)的運(yùn)行率,從而提高了資源利用率。(2)分布式數(shù)據(jù)中心保證系統(tǒng)容災(zāi)能力。分布式數(shù)據(jù)中心可以將云端的用戶信息備份到地理上相互隔離的數(shù)據(jù)庫主機(jī)中,甚至用戶自己也無法判斷信息的確切備份地點(diǎn)。該特點(diǎn)不僅提供了數(shù)據(jù)恢復(fù)的依據(jù),也使得網(wǎng)絡(luò)病毒和網(wǎng)絡(luò)黑客的攻擊失去目的性,大大提高了系統(tǒng)的安全性和容災(zāi)能力。(3)軟硬件相互隔離減少設(shè)備依賴性。虛擬化層將云平臺(tái)上方的應(yīng)用軟件和下方的基礎(chǔ)設(shè)備隔離開來。設(shè)備的維護(hù)者無法看到設(shè)備中運(yùn)行的具體應(yīng)用。同時(shí)對(duì)于軟件層的用戶而言,基礎(chǔ)設(shè)備層是透明的,用戶只能看到虛擬化層中虛擬出來的各類設(shè)備。這種架構(gòu)既減少了對(duì)設(shè)備的依賴性,也為動(dòng)態(tài)的資源配置提供了可能。(4)平臺(tái)模塊化設(shè)計(jì)體現(xiàn)高可擴(kuò)展性。目前主流的云計(jì)算平臺(tái)均根據(jù)SPI架構(gòu)在各層集成了功能各異的軟硬件設(shè)備和中間件軟件。大量中間件軟件能夠提供針對(duì)該平臺(tái)的通用接口,允許用戶添加本層的擴(kuò)展設(shè)備。部分云與云之間提供的接口,允許用戶在不同云之間進(jìn)行數(shù)據(jù)遷移。類似的功能更大程度上滿足了用戶需求,集成了計(jì)算資源,是未來云計(jì)算的發(fā)展方向之一。(5)虛擬資源池為用戶提供彈性服務(wù)。云計(jì)算平臺(tái)管理軟件將整合的計(jì)算資源根據(jù)應(yīng)用訪問的具體情況進(jìn)行動(dòng)態(tài)調(diào)整,包括增大資源的要求和減少資源的要求。云計(jì)算對(duì)于非恒定需求,如對(duì)需求波動(dòng)很大、階段性需求等,具有非常好的應(yīng)用效果。在云計(jì)算環(huán)境中,既可以對(duì)規(guī)律性需求通過事先預(yù)測(cè)事先分配,也可以根據(jù)事先設(shè)定的規(guī)則進(jìn)行實(shí)時(shí)調(diào)整。彈性的云計(jì)算服務(wù)可以幫助用戶在任意時(shí)間得到滿足需求的計(jì)算資源。(6)按需付費(fèi)降低使用成本。作為云計(jì)算的代表,按需提供服務(wù)和按需付費(fèi)是目前各類云計(jì)算服務(wù)中不可或缺的一部分。對(duì)于用戶而言,云計(jì)算不僅省去了基礎(chǔ)設(shè)備的購置和運(yùn)維費(fèi)用,而且能根據(jù)企業(yè)成長(zhǎng)的需要不斷擴(kuò)展訂購服務(wù),提高了資金的利用率。云計(jì)算的發(fā)展目標(biāo)、任務(wù)與價(jià)值云計(jì)算作為一種技術(shù)手段和實(shí)現(xiàn)模式,使得計(jì)算資源成為向大眾提供服務(wù)的社會(huì)基礎(chǔ)設(shè)施,將對(duì)信息技術(shù)本身及其應(yīng)用產(chǎn)生深刻影響。美國(guó)的微軟、亞馬遜、IBM等大牌廠商,都將云計(jì)算列為自己的核心戰(zhàn)略,國(guó)內(nèi)的百度、阿里巴巴、騰訊、華為、浪潮等主流IT企業(yè)也都已經(jīng)在云計(jì)算領(lǐng)域各顯神通。據(jù)統(tǒng)計(jì),2015年我國(guó)云計(jì)算產(chǎn)業(yè)規(guī)模已達(dá)1500億元,產(chǎn)業(yè)發(fā)展勢(shì)頭迅猛、創(chuàng)新能力顯著增強(qiáng)、服務(wù)能力大幅提升、應(yīng)用范疇不斷拓展,已成為提升信息化發(fā)展水平、打造數(shù)字經(jīng)濟(jì)新動(dòng)能的重要支撐。據(jù)業(yè)界預(yù)測(cè),到2025年,80%的企業(yè)應(yīng)用將運(yùn)行在云中,100%的應(yīng)用將在云中開發(fā),軟件的開發(fā)、測(cè)試、部署、運(yùn)維都將在云中進(jìn)行,軟件開發(fā)工具本身也將服務(wù)化和云化,并將和企業(yè)云平臺(tái)進(jìn)行集成。云計(jì)算的任務(wù)具體體現(xiàn)在:發(fā)展新技術(shù),提升處理能力;提供新模式,實(shí)現(xiàn)按需服務(wù);形成新業(yè)態(tài),拓寬應(yīng)用范疇。第二節(jié)云計(jì)算系統(tǒng)的架構(gòu)一、云計(jì)算系統(tǒng)架構(gòu)的參考模型云計(jì)算系統(tǒng)的業(yè)務(wù)模型業(yè)務(wù)系統(tǒng)是商業(yè)模式的核心,云計(jì)算作為一種服務(wù)的商業(yè)模式,高效運(yùn)營(yíng)的業(yè)務(wù)系統(tǒng)是云計(jì)算企業(yè)重要的競(jìng)爭(zhēng)優(yōu)勢(shì)之一。水、電服務(wù)是將水、電作為資源提供給用戶,云計(jì)算服務(wù)提供則是提供IT資源,如云主機(jī)、云存儲(chǔ)、VPC、網(wǎng)盤等,用戶可以根據(jù)自己的需要通過自助、付費(fèi)的方式按需獲取這些資源,從而得到服務(wù)。隨著近幾年云計(jì)算市場(chǎng)的發(fā)展,云計(jì)算服務(wù)已經(jīng)隨處可見,通常將這些服務(wù)歸為基礎(chǔ)設(shè)施即服務(wù)(InfrastructureasaService,IaaS)、平臺(tái)即服務(wù)(PlatformasaService,PaaS)、數(shù)據(jù)即服務(wù)(DataasaService,DaaS)、軟件即服務(wù)(SoftwareasaService,SaaS)四大類,如圖1-3所示。除了這四類服務(wù),根據(jù)用戶的需求,云計(jì)算服務(wù)也衍生出了其他一些服務(wù)類型,如容器即服務(wù)(ContainerasaService,CaaS)、數(shù)據(jù)庫即服務(wù)(DatabaseasaService,DBaaS)等。借助這些云服務(wù),用戶可以像用水用電一樣便捷地獲取和使用計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、大數(shù)據(jù)、數(shù)據(jù)庫等IT資源。云計(jì)算系統(tǒng)的部署模型根據(jù)IT資源部署的方式,以及面向服務(wù)對(duì)象的不同,可以把云服務(wù)分為公有云、私有云和混合云三類,這三類云服務(wù)部署模型的特點(diǎn)見表1-1。1.公有云(PublicCloud)公有云也稱公共云,是指云服務(wù)提供商通過互聯(lián)網(wǎng)提供的計(jì)算服務(wù)面向希望使用或購買的任何組織和個(gè)人。公有云可以免費(fèi)或按需出售,允許用戶根據(jù)CPU內(nèi)存、存儲(chǔ)、帶寬等使用量支付費(fèi)用。公有云具有以下特點(diǎn):(1)快速獲取IT資源。用戶可以通過互聯(lián)網(wǎng)獲取所需的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等資源,免去了自建系統(tǒng)漫長(zhǎng)的周期與高昂的成本。(2)按需使用,按量付費(fèi)。用戶根據(jù)業(yè)務(wù)需求訂購所需的資源配置與數(shù)量,用多少買多少,不需要考慮預(yù)留資源,節(jié)約了成本。(3)彈性伸縮,在訪問量突發(fā)增長(zhǎng)的時(shí)候,系統(tǒng)可以根據(jù)策略動(dòng)態(tài)增加相應(yīng)的資源,以保證業(yè)務(wù)可用性;當(dāng)訪問量回落之后,系統(tǒng)可以釋放相應(yīng)的資源,避免浪費(fèi)。(4)安全可靠。公有云服務(wù)提供商通過多個(gè)可用區(qū)和區(qū)域的架構(gòu)設(shè)計(jì),保證了系統(tǒng)整體的健壯性;用戶數(shù)據(jù)有多個(gè)副本,有嚴(yán)格的訪問控制,用戶不用擔(dān)心數(shù)據(jù)丟失、病毒侵?jǐn)_等問題。目前比較知名的公有云服務(wù)提供商有亞馬遜的AWS、微軟的Azure及國(guó)內(nèi)的阿里云、騰訊云、移動(dòng)云、電信云等。2.私有云(PrivateCloud)私有云也稱專用云,部署在企業(yè)數(shù)據(jù)中心或安全的主機(jī)托管場(chǎng)所,是為企業(yè)單獨(dú)使用而構(gòu)建的專有資源,一般不直接連接外部網(wǎng)絡(luò)私有云具有以下特點(diǎn):(1)安全可控。私有云一般會(huì)在網(wǎng)絡(luò)出口位置部署防火墻、抗分布式拒絕服務(wù)(DistributedDenialofServiceAttack,DDoS)設(shè)備、入侵檢測(cè)系統(tǒng)(IntrusionDetectionSystem,IDS)、入侵防御系統(tǒng)(IntrusionPreventionSystem,IPS)、Web應(yīng)用防護(hù)系統(tǒng)(WebApplicationFirewall,WAF)等設(shè)備保證私有云網(wǎng)絡(luò)的安全。業(yè)務(wù)數(shù)據(jù)是企業(yè)的核心資產(chǎn),所以用戶操作行為都會(huì)被記錄和審計(jì),數(shù)據(jù)在私有云內(nèi)部可以得到嚴(yán)格的控制。(2)服務(wù)質(zhì)量保證。部署在企業(yè)數(shù)據(jù)中心的私有云可以提供高速、穩(wěn)定的業(yè)務(wù)訪問體驗(yàn),不會(huì)受到網(wǎng)絡(luò)不穩(wěn)定、斷網(wǎng)、黑客攻擊等的影響。(3)良好的兼容性。企業(yè)的一些系統(tǒng),因?yàn)榧軜?gòu)和性能的要求,并不一定適合部署在公有云上,而私有云可以兼容原有系統(tǒng),并且對(duì)原有IT資源也可以實(shí)現(xiàn)統(tǒng)一管理,保護(hù)企業(yè)投資。3.混合云(HybridCloud)混合云是公有云和私有云的融合,通過專線或VPN將企業(yè)私有云和公有云連通,實(shí)現(xiàn)私有云的延伸,是近年來云計(jì)算的主要模式和發(fā)展方向。混合云具有以下特點(diǎn):(1)安全擴(kuò)展。私有云的安全性超越公有云,但公有云的海量資源又是私有云無法企及的?;旌显瓶梢暂^好地解決這個(gè)問題,既可以將內(nèi)部的重要數(shù)據(jù)保存在私有云中,同時(shí)也可以使用公有云的計(jì)算資源,從而更高效地完成工作。(2)成本控制。私有云配置的容量一般只能滿足企業(yè)業(yè)務(wù)的近期需求,往往不會(huì)預(yù)留太多資源,在業(yè)務(wù)高峰時(shí)期會(huì)出現(xiàn)資源不足的情況,而如果為了短暫的高峰時(shí)期購買大量資源就會(huì)造成投資回報(bào)率低的問題?;旌显瓶梢跃徑膺@個(gè)難題,即在業(yè)務(wù)高峰時(shí)期將訪問引導(dǎo)到公有云上,以緩解私有云上的訪問壓力。(3)新技術(shù)引入。私有云追求的是系統(tǒng)整體的安全穩(wěn)定,公有云上產(chǎn)品和服務(wù)的豐富程度遠(yuǎn)超私有云,同時(shí)還在不斷更新和上線新的產(chǎn)品和服務(wù);混合云突破了私有云的限制,讓企業(yè)可以迅速體驗(yàn)新產(chǎn)品,在引入私有云之前進(jìn)行充分測(cè)試,降低了企業(yè)引入新服務(wù)的成本。第三節(jié)云計(jì)算系統(tǒng)的使能技術(shù)一、分布式技術(shù)加強(qiáng)云計(jì)算服務(wù)平臺(tái)建設(shè)、構(gòu)建下一代信息基礎(chǔ)設(shè)施是IT技術(shù)演進(jìn)的重要方向。如何在云中對(duì)大規(guī)模數(shù)據(jù)進(jìn)行高效的計(jì)算和存儲(chǔ)成為發(fā)展中的關(guān)鍵問題,前者是在前端對(duì)外部應(yīng)用進(jìn)行計(jì)算,后者是在后臺(tái)對(duì)應(yīng)用數(shù)據(jù)進(jìn)行存儲(chǔ)。分布式系統(tǒng)既是計(jì)算機(jī)系統(tǒng),特別是云化的計(jì)算機(jī)系統(tǒng)的核心思想之一,也是分布式計(jì)算和分布式存儲(chǔ)的支撐主體。理解分布式系統(tǒng)的概念,首先要了解集中式系統(tǒng)。集中式系統(tǒng)是指一個(gè)主機(jī)帶多個(gè)終端的系統(tǒng),整個(gè)系統(tǒng)的數(shù)據(jù)存儲(chǔ)、控制與處理完全交由主機(jī)處理,每個(gè)終端沒有數(shù)據(jù)處理能力,僅僅負(fù)責(zé)數(shù)據(jù)的輸入和輸出。集中式系統(tǒng)最大的特點(diǎn)就是部署結(jié)構(gòu)簡(jiǎn)單,但是,由于采用單節(jié)點(diǎn)部署,很可能帶來系統(tǒng)過大而難以維護(hù)、發(fā)生單點(diǎn)故障等問題。為了解決集中式系統(tǒng)面臨的挑戰(zhàn),分布式系統(tǒng)應(yīng)運(yùn)而生。所謂分布式,就是一件事分給多臺(tái)機(jī)器,所有機(jī)器一起完成任務(wù)。分布式意味著采用多臺(tái)普通計(jì)算機(jī)組成分布式集群對(duì)外提供服務(wù)。計(jì)算機(jī)越多,計(jì)算的資源也就越多,能夠處理的并發(fā)訪問量與數(shù)據(jù)量也就越大。分布式系統(tǒng)通常定義為,一組通過網(wǎng)絡(luò)進(jìn)行通信,為了完成共同的任務(wù)而協(xié)調(diào)工作的計(jì)算機(jī)節(jié)點(diǎn)組成的系統(tǒng)。虛擬化技術(shù)云計(jì)算的核心技術(shù)之一是虛擬化技術(shù),虛擬化技術(shù)是云計(jì)算體系架構(gòu)中虛擬化池層的主要支撐技術(shù)。所謂虛擬化,是指通過虛擬化技術(shù)將一臺(tái)計(jì)算機(jī)虛擬為多臺(tái)邏輯計(jì)算機(jī)。在一臺(tái)計(jì)算機(jī)上同時(shí)運(yùn)行多個(gè)邏輯計(jì)算機(jī),每個(gè)邏輯計(jì)算機(jī)可運(yùn)行不同的操作系統(tǒng),并且應(yīng)用程序可以在相互獨(dú)立的空間內(nèi)運(yùn)行而互不影響,從而顯著提高計(jì)算機(jī)的工作效率。虛擬化技術(shù)源于大型機(jī)的虛擬分區(qū)技術(shù)。早在20世紀(jì)60年代,IBM公司就發(fā)明了一種操作系統(tǒng)虛擬機(jī)技術(shù),即在一臺(tái)主機(jī)上運(yùn)行多個(gè)操作系統(tǒng),以使用戶盡可能地充分利用昂貴的大型機(jī)資源。隨著技術(shù)的發(fā)展,大型機(jī)的相關(guān)技術(shù)開始向小型機(jī)移植,但真正使用大型機(jī)和小型機(jī)的用戶畢竟還是少數(shù)。虛擬化技術(shù)不僅僅是一種技術(shù),還反映出一種服務(wù)化的思想。服務(wù)器、存儲(chǔ)架構(gòu)、數(shù)據(jù)庫等所有硬件或軟件資源都被抽象成一種便于重組、聚合、配置的“服務(wù)”,形成一個(gè)可以被用戶靈活調(diào)用的資源池,從而實(shí)現(xiàn)外部用戶業(yè)務(wù)系統(tǒng)和IT軟件和硬件環(huán)境的解耦。這意味著外部用戶業(yè)務(wù)系統(tǒng)無須了解軟件和硬件的實(shí)現(xiàn)細(xì)節(jié),就能方便地使用各式各樣的軟件和硬件資源。云平臺(tái)技術(shù)云計(jì)算的本質(zhì)就是將計(jì)算能力作為一種較小粒度的服務(wù)提供給用戶,按需使用和付費(fèi),具有經(jīng)濟(jì)、快捷、柔性等特性。云平臺(tái)技術(shù)是支撐云計(jì)算的基礎(chǔ)技術(shù),云平臺(tái)技術(shù)主要有四種:服務(wù)計(jì)算技術(shù)、多租戶技術(shù)、容器技術(shù)和邊緣計(jì)算技術(shù)。1.服務(wù)計(jì)算技術(shù)設(shè)想一個(gè)基于云服務(wù)的手機(jī)游戲開發(fā)場(chǎng)景,游戲創(chuàng)業(yè)團(tuán)隊(duì)最大的優(yōu)勢(shì)是內(nèi)容上的創(chuàng)新,但是技術(shù)能力上的不足會(huì)嚴(yán)重影響他們的創(chuàng)新,如自主部署服務(wù)器的運(yùn)行環(huán)境至少需要3個(gè)月的時(shí)間。本來自己擁有一個(gè)好的創(chuàng)意,卻因?yàn)殚_發(fā)周期過長(zhǎng),導(dǎo)致這個(gè)創(chuàng)意被別人搶先一步發(fā)布,這對(duì)創(chuàng)業(yè)者的打擊是十分沉重的。那么,如何大大縮短游戲創(chuàng)業(yè)團(tuán)隊(duì)的開發(fā)周期?答案是利用服務(wù)計(jì)算技術(shù)支撐該業(yè)務(wù)要求。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,出現(xiàn)了一種利用網(wǎng)絡(luò)進(jìn)行應(yīng)用集成的解決方案——Web服務(wù)(WebService)。Web服務(wù)是一個(gè)用統(tǒng)一資源標(biāo)識(shí)(UniformResourceIdentifier,URI)的軟件實(shí)體,其接口和綁定可以用XML協(xié)議定義、描述和發(fā)現(xiàn)。Web服務(wù)具有以下優(yōu)點(diǎn):(1)良好的封裝性。(2)標(biāo)準(zhǔn)協(xié)議性。(3)松散耦合性。(4)高度集成性。2.多租戶技術(shù)設(shè)想一個(gè)政務(wù)云辦公權(quán)限分配的場(chǎng)景,近兩年政務(wù)云的發(fā)展非常迅速,從許多地方政府披露的信息來看,政務(wù)云已拓展到鄉(xiāng)鎮(zhèn)一級(jí),這為提高電子政務(wù)效率、惠及于民打下堅(jiān)實(shí)的基礎(chǔ)。政務(wù)云迅猛發(fā)展的同時(shí),也出現(xiàn)了新的問題,那就是不少地方的政務(wù)云只追求快速上線,而忽視數(shù)據(jù)安全保障體系的構(gòu)建,特別是權(quán)限設(shè)置。例如,如何在政務(wù)云中做好不同權(quán)限的人員獲取不同級(jí)別的數(shù)據(jù)呢?多租戶技術(shù)可以解決這個(gè)問題。多租戶技術(shù)(Multi-tenancyTechnology)實(shí)際是一種軟件架構(gòu)技術(shù),它是在探討與實(shí)現(xiàn)如何在多用戶的環(huán)境下共用相同的系統(tǒng)或程序組件,并且仍可以確保各用戶的數(shù)據(jù)隔離且業(yè)務(wù)互不影響。其主要研究?jī)?nèi)容為在共用的數(shù)據(jù)中心內(nèi)如何以單一系統(tǒng)架構(gòu)與服務(wù)提供多數(shù)客戶端相同甚至可定制化的服務(wù),并且仍然可以隔離用戶數(shù)據(jù)。3.容器技術(shù)設(shè)想一個(gè)平臺(tái)虛擬化管理的場(chǎng)景,某公司的平臺(tái)上,一臺(tái)16核32GB內(nèi)存的虛擬機(jī)上,需要跑500個(gè)以上用戶的應(yīng)用,在一臺(tái)機(jī)器上開500個(gè)虛擬機(jī),雖然可以在資源隔離方面做得很好,但這種虛擬化本身帶來的資源消耗太嚴(yán)重。那么,如何在平臺(tái)上,進(jìn)行虛擬化的有效管理呢?容器技術(shù)可以解決該問題。虛擬化技術(shù)已經(jīng)成為一種被大家廣泛認(rèn)可的服務(wù)器資源共享方式,但是虛擬化技術(shù)仍然存在一些性能和資源使用效率方面的局限。一方面,每個(gè)虛擬機(jī)都是一個(gè)完整的操作系統(tǒng),所以需要給其分配物理資源,當(dāng)虛擬機(jī)數(shù)量增多時(shí),操作系統(tǒng)本身消耗的資源勢(shì)必增多;另一方面,開發(fā)環(huán)境和線上環(huán)境通常存在區(qū)別,所以開發(fā)環(huán)境與線上環(huán)境之間無法達(dá)到很好的橋接,在部署線上應(yīng)用時(shí),依舊需要花時(shí)間去處理環(huán)境不兼容的問題。因此出現(xiàn)了一種稱為容器(Container)的新型虛擬化技術(shù)來幫助解決這些問題。容器可以把開發(fā)環(huán)境及應(yīng)用整個(gè)打包帶走,打包好的容器可以在任何環(huán)境下運(yùn)行,這樣就可以解決開發(fā)環(huán)境與線上環(huán)境不一致的問題了。4.邊緣計(jì)算技術(shù)設(shè)想一個(gè)安全城市的場(chǎng)景,某城市計(jì)劃安裝上百萬個(gè)攝像頭,以提升社會(huì)公共安全。例如,通過監(jiān)視共享車輛服務(wù)中司機(jī)的駕駛行為來觸發(fā)報(bào)警,由于攝像頭很少具備計(jì)算功能,因此大量的視頻數(shù)據(jù)不得不通過網(wǎng)絡(luò)傳輸至云計(jì)算數(shù)據(jù)中心來處理。然而,這將導(dǎo)致大量的網(wǎng)絡(luò)帶寬消粍,并影響安全事件的響應(yīng)時(shí)間。因此,就需要邊緣計(jì)算技術(shù)來解決這個(gè)問題。邊緣計(jì)算技術(shù)針對(duì)云計(jì)算模型的集中式服務(wù)所導(dǎo)致的網(wǎng)絡(luò)傳輸開銷大、用戶需求響應(yīng)速度慢等缺點(diǎn),通過在用戶側(cè)的網(wǎng)絡(luò)邊緣就近提供計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)等服務(wù),來縮短數(shù)據(jù)傳輸路徑以減少帶寬消耗,并高效響應(yīng)用戶的業(yè)務(wù)需求。在實(shí)際使用中,云計(jì)算通常會(huì)融入邊緣計(jì)算技術(shù),實(shí)現(xiàn)“云邊協(xié)同”架構(gòu),以對(duì)不同的用戶需求予以靈活部署。第四節(jié)云計(jì)算系統(tǒng)的管理與服務(wù)一、云計(jì)算系統(tǒng)的硬件管理1.云設(shè)備選型及供應(yīng)鏈管理21世紀(jì)初,云計(jì)算服務(wù)的早期,各個(gè)云計(jì)算廠商通過硬件的管理實(shí)踐總結(jié)出經(jīng)驗(yàn),不約而同對(duì)云計(jì)算的硬件發(fā)展方向達(dá)成了通用性、低成本的共識(shí),主要滿足用戶四點(diǎn)核心需求。(1)云計(jì)算應(yīng)該是低成本的。無論是企業(yè)用戶還是個(gè)人用戶,使用云計(jì)算服務(wù)的首要原因都是云計(jì)算服務(wù)比自己實(shí)施要便宜。對(duì)于企業(yè)用戶,通過云計(jì)算服務(wù)可以大幅削減服務(wù)器采購、網(wǎng)絡(luò)構(gòu)建、應(yīng)用部署等支出。個(gè)人用戶對(duì)價(jià)格更加敏感,常用的構(gòu)建個(gè)人網(wǎng)站、存儲(chǔ)個(gè)人數(shù)據(jù)等,其價(jià)格必須比個(gè)人使用PC及一般網(wǎng)絡(luò)接入的成本更低。(2)云計(jì)算應(yīng)該是通用的。業(yè)務(wù)邏輯和業(yè)務(wù)數(shù)據(jù)分析涉及商業(yè)秘密和個(gè)人隱私,用戶通常會(huì)選擇自行研發(fā)或采購專業(yè)的軟件服務(wù)。因此,云計(jì)算服務(wù)商所提供的服務(wù)或產(chǎn)品必須與現(xiàn)有的操作系統(tǒng)接口、硬件驅(qū)動(dòng)軟件等完全兼容,并且應(yīng)該盡量涵蓋所有主流操作系統(tǒng)環(huán)境、軟件開發(fā)和運(yùn)行環(huán)境。(3)云計(jì)算應(yīng)該是可持續(xù)的。用戶對(duì)云計(jì)算服務(wù)商的要求是,其必須能夠長(zhǎng)時(shí)間、穩(wěn)定、高質(zhì)量地提供基礎(chǔ)設(shè)施與系統(tǒng)軟件服務(wù),并且投入足夠的資源跟進(jìn)軟件和硬件的升級(jí),以及解決用戶的穩(wěn)定性問題。(4)云計(jì)算應(yīng)該是開放的。由于對(duì)云計(jì)算有需求的用戶的差異性極大,從專業(yè)的軟件和硬件研發(fā)人員,到普通IT從業(yè)者,再到每個(gè)公司各自的業(yè)務(wù)人員,涉及面非常廣。用戶這樣的組成模式,需要云計(jì)算廠商有能夠適應(yīng)各類用戶的開放性接口,因此云計(jì)算應(yīng)該是開放的。2.針對(duì)云存儲(chǔ)需求的云原生存儲(chǔ)設(shè)備隨著云上人工智能、大數(shù)據(jù)需求的迅猛發(fā)展,數(shù)據(jù)中心對(duì)存儲(chǔ)產(chǎn)品的要求正在發(fā)生深刻變化。過去以標(biāo)準(zhǔn)SSD固態(tài)硬盤為基礎(chǔ)的傳統(tǒng)架構(gòu),在性能、成本、靈活性、供應(yīng)及服務(wù)響應(yīng)等諸多方面,都越來越無法滿足下一代數(shù)據(jù)中心的需求。針對(duì)這些問題,云計(jì)算服務(wù)商需要提供更加先進(jìn)和多樣的存儲(chǔ)硬件來滿足海量云上用戶的差異性需求。云計(jì)算系統(tǒng)的軟件研發(fā)管理 1.傳統(tǒng)軟件生命周期管理簡(jiǎn)述軟件的生命周期包括七個(gè)階段:(1)問題定義。軟件開發(fā)者和用戶討論階段,旨在明確軟件的開發(fā)目標(biāo)并論證其可行性。(2)需求分析。將軟件的開發(fā)目標(biāo)細(xì)化成體系的功能和性能需求。傳統(tǒng)的軟件研發(fā)思路對(duì)這一階段非常重視,軟件生命周期中大量的時(shí)間會(huì)消耗在這一階段。(3)系統(tǒng)設(shè)計(jì)。根據(jù)需求分析的結(jié)果設(shè)計(jì)整個(gè)軟件系統(tǒng),包括系統(tǒng)框架設(shè)計(jì)、數(shù)據(jù)庫設(shè)計(jì)、用戶界面設(shè)計(jì)等。(4)編碼。將系統(tǒng)設(shè)計(jì)方案轉(zhuǎn)換成計(jì)算機(jī)代碼和可執(zhí)行程序。(5)測(cè)試。編碼結(jié)束后,需要通過測(cè)試環(huán)節(jié)驗(yàn)證軟件的功能指標(biāo)、性能指標(biāo),以及編碼質(zhì)量。測(cè)試通常包括白盒測(cè)試和黑盒測(cè)試。(6)部署。將軟件上線運(yùn)行。(7)維護(hù)。軟件投入使用后的可用性維護(hù),以及根據(jù)用戶、運(yùn)行環(huán)境需求做的小規(guī)模調(diào)整等工作。2.基于敏捷開發(fā)原則的云軟件生命周期管理敏捷開發(fā)與傳統(tǒng)的軟件生命周期模型并不是割裂的,只是更加強(qiáng)調(diào)簡(jiǎn)潔、研發(fā)流程的疊加、提升開發(fā)效率和響應(yīng)時(shí)間。云計(jì)算系統(tǒng)的軟件開發(fā),以不斷變化的市場(chǎng)需求和用戶需求為核心,將設(shè)計(jì)、開發(fā)、測(cè)試、上線、文檔撰寫等工作高度交叉和疊加,其目的是最快速地滿足市場(chǎng)需求,執(zhí)行過程中需要關(guān)注以下四個(gè)方面:(1)快速迭代。通常以小版本的快速迭代為主。(2)架構(gòu)師、開發(fā)人員、測(cè)試人員共同參與需求討論。不限線上線下形式的研討組,所有人在任何時(shí)間都可以實(shí)現(xiàn)信息同步,保持不間斷溝通。(3)需求文檔從用戶工作案例出發(fā)。使用用戶的實(shí)際工作場(chǎng)景編寫需求文檔,而不是系統(tǒng)性的解決方法和實(shí)施技術(shù)。(4)借助用戶的力量。利用好用戶測(cè)試的機(jī)會(huì),在產(chǎn)品正式上線收費(fèi)前,得到第一手的用戶真實(shí)需求資料售后服務(wù)體系由于公有云的公共基礎(chǔ)平臺(tái)屬性,其用戶的差異性很大,因此在傳統(tǒng)的電話售后的基礎(chǔ)之上,云售后服務(wù)還應(yīng)根據(jù)不同用戶的能力和特點(diǎn),給出定制的服務(wù)。除此之外,云計(jì)算廠商在培訓(xùn)認(rèn)證、技術(shù)生態(tài)方面也需要投入,如此才能構(gòu)建一個(gè)良好的云技術(shù)環(huán)境。下面分別詳述云用戶的分類服務(wù)、開發(fā)人員的培訓(xùn)服務(wù),以及技術(shù)生態(tài)構(gòu)建方面的情況。1.用戶分類服務(wù)體系云上用戶可以分為以下三類:(1)普通用戶。為自己的網(wǎng)站、數(shù)據(jù)、計(jì)算需求尋找便宜可靠的供應(yīng)商。(2)開發(fā)人員。有開發(fā)能力的人員,如受雇于技術(shù)公司、利用云資源為企業(yè)搭建業(yè)務(wù)系統(tǒng)的人員。(3)企業(yè)。將生產(chǎn)系統(tǒng)部署在云上的企業(yè),云系統(tǒng)故障會(huì)對(duì)這類企業(yè)產(chǎn)生重大影響。云計(jì)算廠商對(duì)如上三類用戶應(yīng)當(dāng)靈活給出不同的服務(wù)模式,配備經(jīng)驗(yàn)豐富的技術(shù)支持工程師,服務(wù)內(nèi)容涵蓋技術(shù)、產(chǎn)品、解決方案及架構(gòu),支持方式包括網(wǎng)站、即時(shí)通信工具、郵箱、電話等,應(yīng)全天候?yàn)橛脩籼峁┲С郑瑤椭脩艋谠朴?jì)算廠商提供的產(chǎn)品和功能進(jìn)行產(chǎn)品使用、設(shè)計(jì)、應(yīng)用開發(fā)及數(shù)據(jù)管理等。2.培訓(xùn)認(rèn)證體系對(duì)于企業(yè)用戶而言,使用云基礎(chǔ)設(shè)施開發(fā)項(xiàng)目、發(fā)布服務(wù),需要有云上開發(fā)知識(shí)和背景的專業(yè)人才。一方面,需要有人梳理云上的知識(shí)經(jīng)驗(yàn),將其系統(tǒng)化為基礎(chǔ)課程和專業(yè)應(yīng)用課程的課程體系;另一方面,也需要有全面的人才能力認(rèn)證制度,讓企業(yè)在招聘的時(shí)候能夠快速評(píng)判潛在的員工。3.技術(shù)生態(tài)與技術(shù)體系各個(gè)主流云計(jì)算廠商均有官方的技術(shù)交流社區(qū),這里介紹幾個(gè)典型社區(qū)。(1)云棲社區(qū)。為阿里云經(jīng)營(yíng)的云技術(shù)交流平臺(tái),廣大開發(fā)者通過這個(gè)官方社區(qū)提供的平臺(tái)發(fā)布技術(shù)帖,并通過互動(dòng)功能討論技術(shù)問題。社區(qū)的組織者還經(jīng)常組織線下活動(dòng),進(jìn)一步促進(jìn)開發(fā)者形成良性的互相學(xué)習(xí)交流機(jī)制。(2)亞馬遜AWS技術(shù)社區(qū)。AWS的中文技術(shù)社區(qū)活躍于CSDN的AWS頻道,其組織頻道包括博客、論壇、技術(shù)視頻、應(yīng)用案例等常見形式。(3)微軟Azure技術(shù)社區(qū)。微軟Azure社區(qū)是微軟官方的技術(shù)支持網(wǎng)站,其組織形式與門戶網(wǎng)站有些類似,一方面集成了自有的解決方案、文檔、培訓(xùn)頻道,另一方面還將MSDN技術(shù)論壇、StackOverflow技術(shù)問答中關(guān)于Azure的技術(shù)文章整合在了一起。(4)華為云社區(qū)。華為云社區(qū)為華為云的官方技術(shù)資料分享平臺(tái),內(nèi)設(shè)博客、論壇、問答、專題、云市場(chǎng)熱點(diǎn)等頻道,以及幫助用戶學(xué)習(xí)使用華為云服務(wù)產(chǎn)品的視頻課程。(5)其他第三方云計(jì)算技術(shù)社區(qū)。網(wǎng)絡(luò)上還有多家涉及云計(jì)算技術(shù)的第三方技術(shù)交流平臺(tái),包括開源中國(guó)社區(qū)、CSDN等。云計(jì)算系統(tǒng)的運(yùn)維1.產(chǎn)品設(shè)計(jì)運(yùn)維準(zhǔn)入對(duì)于一個(gè)動(dòng)輒數(shù)百萬個(gè)用戶可見的產(chǎn)品,以及支撐這些用戶產(chǎn)品的大量的后臺(tái)軟件所組成的云計(jì)算平臺(tái),運(yùn)維的主要工作不是在產(chǎn)品上線后,而是必須要在產(chǎn)品的設(shè)計(jì)開發(fā)階段就將其作為核心任務(wù)來考慮。產(chǎn)品在設(shè)計(jì)時(shí)需要滿足以下幾點(diǎn):(1)熱升級(jí)。云產(chǎn)品必須支持熱升級(jí),升級(jí)過程中對(duì)業(yè)務(wù)的影響要小于一個(gè)極小的比例,并且要能正確處理錯(cuò)誤客戶端。(2)模塊服務(wù)冗余。產(chǎn)品相關(guān)模塊不存在單點(diǎn)故障,所有模塊均要有冗余,并且單臺(tái)機(jī)器故障(包括宕機(jī)、網(wǎng)絡(luò)不通、磁盤故障、磁盤滿等)不能影響服務(wù)的正常使用。(3)數(shù)據(jù)容災(zāi)。單臺(tái)機(jī)器故障(包括宕機(jī)、網(wǎng)絡(luò)不通、磁盤故障、磁盤滿等)不能導(dǎo)致數(shù)據(jù)丟失,關(guān)鍵數(shù)據(jù)應(yīng)支持多機(jī)房或異地災(zāi)備。(4)過載保護(hù)。云產(chǎn)品必須設(shè)計(jì)過載保護(hù),不能因?yàn)閴毫^大而導(dǎo)致服務(wù)不可用。過載保護(hù)包括每秒訪問次數(shù)和每秒訪問次數(shù)限制等。(5)安全防攻擊。對(duì)公有云提供服務(wù)的業(yè)務(wù),都必須考慮接入安全防攻擊體系。2.產(chǎn)品線上的監(jiān)控級(jí)運(yùn)維工具云產(chǎn)品在上線時(shí),需要接入基礎(chǔ)監(jiān)控及應(yīng)用級(jí)的監(jiān)控。(1)基礎(chǔ)監(jiān)控。包括系統(tǒng)級(jí)別的CPU、內(nèi)存、網(wǎng)卡、負(fù)載等,具體報(bào)警閾值由各個(gè)產(chǎn)品的特點(diǎn)來定;還必須包括進(jìn)程、端口、JVM(Java虛擬機(jī))等的監(jiān)控。(2)應(yīng)用級(jí)的監(jiān)控。包括整體應(yīng)用的工作狀態(tài)、負(fù)載情況監(jiān)控等,其具體的監(jiān)控實(shí)現(xiàn)方式包括運(yùn)行日志關(guān)鍵字類型的監(jiān)控等。監(jiān)控添加完畢,必須驗(yàn)證監(jiān)控的可用性。3.數(shù)據(jù)中心自動(dòng)化運(yùn)維數(shù)據(jù)中心是云計(jì)算的基礎(chǔ)設(shè)施,服務(wù)器資源分配、帶寬分配、業(yè)務(wù)支撐能力、流量防護(hù)和清洗能力,都是基于數(shù)據(jù)中心的大小和其帶寬的容量,數(shù)據(jù)中心分布在不同的核心城市并輻射到周邊城市提供基礎(chǔ)支撐。云計(jì)算系統(tǒng)的數(shù)據(jù)中心運(yùn)維策略,就是要在數(shù)據(jù)中心的基礎(chǔ)上找到盡量高效利用云資源的方法。數(shù)據(jù)中心運(yùn)維自動(dòng)化是一組將靜態(tài)的設(shè)備結(jié)構(gòu)轉(zhuǎn)化為根據(jù)數(shù)據(jù)中心服務(wù)需求動(dòng)態(tài)彈性響應(yīng)的策略,目的就是實(shí)現(xiàn)數(shù)據(jù)中心運(yùn)維的質(zhì)量,降低成本。可以說自動(dòng)化一定是數(shù)據(jù)中心運(yùn)維最重要的屬性之一,并且需要與之配套一系列軟件和硬件平臺(tái)環(huán)境及體系。1.教學(xué)以學(xué)生學(xué)習(xí)教材的基本內(nèi)容為主,系統(tǒng)全面地學(xué)習(xí)稅收制度的構(gòu)成要素的基本內(nèi)容。2.整個(gè)教學(xué)過程中,各教學(xué)點(diǎn)可根據(jù)實(shí)際情況,進(jìn)行拓展知識(shí)的講解。本章小結(jié):本章以云計(jì)算架構(gòu)技術(shù)為核心,圍繞云計(jì)算架構(gòu)涉及的核心技術(shù)和商業(yè)實(shí)踐展開,包括云計(jì)算概述、云計(jì)算系統(tǒng)的架構(gòu)、云計(jì)算系統(tǒng)的使能技術(shù)、云計(jì)算系統(tǒng)的管理與服務(wù)等內(nèi)容,涵蓋了云計(jì)算的發(fā)展趨勢(shì)、原理、特性與實(shí)踐。云計(jì)算誕生至今已有十幾年,這十幾年來,云計(jì)算的技術(shù)條件、行業(yè)和市場(chǎng)環(huán)境均發(fā)生了巨大變化,人們對(duì)云計(jì)算的認(rèn)知需求也從粗淺概念階段發(fā)展到深度探索階段。同時(shí),云計(jì)算的未來發(fā)展前景也十分廣闊,尤其與人工智能、大數(shù)據(jù)、邊緣計(jì)算等技術(shù)的深度融合,將進(jìn)一步提高云計(jì)算的智能化、高效化、安全化程度。未來云計(jì)算的發(fā)展主要體現(xiàn)在以下幾個(gè)方面:1.云計(jì)算與人工智能的融合:青云科技等公司已經(jīng)開始探索將云計(jì)算與AI技術(shù)結(jié)合,推出AI智算平臺(tái),實(shí)現(xiàn)對(duì)多元算力的統(tǒng)一調(diào)度和管理,這代表了云計(jì)算未來的發(fā)展方向。2.邊緣計(jì)算的發(fā)展**:隨著物聯(lián)網(wǎng)設(shè)備的廣泛應(yīng)用,邊緣計(jì)算技術(shù)得到了快速發(fā)展,云計(jì)算將與其他計(jì)算模式如邊緣計(jì)算、分布式計(jì)算等結(jié)合,提供更加強(qiáng)大的計(jì)算能力。3.云安全的發(fā)展:隨著云計(jì)算在各領(lǐng)域的廣泛應(yīng)用,云安全的重要性日益凸顯,加密計(jì)算、隱私計(jì)算等技術(shù)的發(fā)展將進(jìn)一步提高云的安全性。4.云服務(wù)的個(gè)性化和差異化:云計(jì)算服務(wù)的個(gè)性化和差異化將成為趨勢(shì),企業(yè)可以根據(jù)自身需求選擇更加靈活、個(gè)性化的云服務(wù)。5.云平臺(tái)的開放和互聯(lián):未來云平臺(tái)將更加開放和互聯(lián),實(shí)現(xiàn)不同云平臺(tái)、不同云服務(wù)之間的無縫對(duì)接。總體來說,云計(jì)算將會(huì)在未來進(jìn)一步深度融合各類先進(jìn)技術(shù),提升自身的能力和效率,為各行業(yè)提供更加智能、高效、安全的云服務(wù)?!缎畔⒓夹g(shù)導(dǎo)論》課程教案課題:第二章大數(shù)據(jù)教學(xué)目的:1.了解大數(shù)據(jù)的內(nèi)涵;2.明確大數(shù)據(jù)技術(shù)的地位;3.掌握大數(shù)據(jù)的來源、采集以及治理方式;4.熟練掌握數(shù)據(jù)的儲(chǔ)存與管理;5.掌握數(shù)據(jù)安全保護(hù)的策略;6.了解大數(shù)據(jù)現(xiàn)實(shí)中的應(yīng)用實(shí)例。課型:新授課課時(shí):本章安排11個(gè)課時(shí)。教學(xué)重點(diǎn):重點(diǎn):大數(shù)據(jù)的來源、采集以及治理方式。教學(xué)難點(diǎn):難點(diǎn):數(shù)據(jù)安全保護(hù)的策略。教學(xué)過程:教學(xué)形式:講授課,教學(xué)組織采用課堂整體講授和分組演示。教學(xué)媒體:采用啟發(fā)式教學(xué)、案例教學(xué)等教學(xué)方法。教學(xué)手段采用多媒體課件、視頻等媒體技術(shù)。板書設(shè)計(jì):本課標(biāo)題大數(shù)據(jù)課次6授課方式理論課□討論課□習(xí)題課□其他□課時(shí)安排11學(xué)分共2分授課對(duì)象企業(yè)管理人員的培訓(xùn)任課教師教材及參考資料1.《信息技術(shù)導(dǎo)論》;電子工業(yè)出版社。2.本教材配套視頻教程及學(xué)習(xí)檢查等資源。3.與本課程相關(guān)的其他資源。教學(xué)基本內(nèi)容教學(xué)方法及教學(xué)手段引導(dǎo)案例社交媒體已成為現(xiàn)代政治變革的重要工具。以阿拉伯之春為例,2010年底,突尼斯爆發(fā)抗議活動(dòng),隨后蔓延至埃及、利比亞等國(guó)家。社交媒體在這場(chǎng)變革中發(fā)揮了至關(guān)重要的作用。當(dāng)時(shí),突尼斯和埃及的互聯(lián)網(wǎng)使用率分別達(dá)到23.5%和28.5%,許多年輕人通過Facebook、Twitter等平臺(tái)傳播信息、組織抗議活動(dòng),成功地引起了國(guó)際社會(huì)的關(guān)注。大數(shù)據(jù)在分析社交媒體數(shù)據(jù)方面具有重要意義。通過對(duì)社交媒體上的帖子、評(píng)論、圖片等數(shù)據(jù)進(jìn)行挖掘和分析,可以了解民眾的意見、情緒和行為趨勢(shì)。在政治變革中,這種分析有助于政策制定者和企業(yè)了解民情、預(yù)判風(fēng)險(xiǎn),為決策提供有力支持。以我國(guó)為例,政府在應(yīng)對(duì)突發(fā)事件和輿論監(jiān)督方面已開始利用大數(shù)據(jù)技術(shù)。通過分析社交媒體上的熱點(diǎn)話題和民眾情緒,政府可以及時(shí)掌握社會(huì)動(dòng)態(tài),采取有效措施化解危機(jī)。同時(shí),企業(yè)也可以借助大數(shù)據(jù)分析,了解消費(fèi)者需求和市場(chǎng)趨勢(shì),調(diào)整經(jīng)營(yíng)策略。然而,在利用社交媒體數(shù)據(jù)進(jìn)行分析時(shí),也需要關(guān)注倫理和隱私問題。如何在保護(hù)用戶隱私的前提下,合理利用大數(shù)據(jù)為用戶提供更好的服務(wù),是當(dāng)前社交媒體平臺(tái)和企業(yè)需要面臨的挑戰(zhàn)。此外,大數(shù)據(jù)分析結(jié)果可能存在偏差,如何確保分析結(jié)果的準(zhǔn)確性和可靠性,也是需要關(guān)注的問題。參考以下形式:1.銜接導(dǎo)入2.懸念導(dǎo)入3.情景導(dǎo)入4.激疑導(dǎo)入5.演示導(dǎo)入6.實(shí)例導(dǎo)入7.其他形式本章基本知識(shí)匯總第一節(jié)大數(shù)據(jù)概述一、大數(shù)據(jù)的內(nèi)涵和外延大數(shù)據(jù)(BigData),這個(gè)如今耳熟能詳?shù)拿质窃凇蹲匀弧罚∟ature)雜志2008年的專輯BigData中首次提出來的,Google公司在推動(dòng)世界范圍內(nèi)信息整合的過程中,極大地推動(dòng)了大數(shù)據(jù)技術(shù)的創(chuàng)新和發(fā)展。然而,何為大數(shù)據(jù)的內(nèi)涵和外延呢?由于大數(shù)據(jù)是新衍生出來的概念,它的內(nèi)涵和外延也在不斷拓展和變化,目前還沒有一個(gè)被業(yè)界廣泛采納的明確定義。2011年5月,麥肯錫全球研究院(MGI)在報(bào)告《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)前沿》中這樣描述:大數(shù)據(jù)是指其大小超出了典型數(shù)據(jù)庫軟件的采集、儲(chǔ)存、管理和分析等能力的數(shù)據(jù)集。幾乎同時(shí),IDC(InternationalDataCorporation)在編制的年度數(shù)字宇宙研究報(bào)告《從混沌中提取價(jià)值》中給大數(shù)據(jù)下了一個(gè)定義:一般涉及兩種或兩種以上數(shù)據(jù)形式;數(shù)據(jù)量超過100TB并且是高速、實(shí)時(shí)的數(shù)據(jù)流。大數(shù)據(jù)的“4V”特性:(1)Volume:數(shù)據(jù)量巨大。數(shù)據(jù)量巨大是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的顯著特征。一般關(guān)系型數(shù)據(jù)庫處理的數(shù)據(jù)量為TB級(jí),大數(shù)據(jù)的數(shù)據(jù)量通常是PB級(jí)或更高級(jí)。(2)Variety:數(shù)據(jù)類型多。大數(shù)據(jù)的數(shù)據(jù)類型早已不是單一的文本形式或結(jié)構(gòu)化數(shù)據(jù)庫中的表,它包括訂單、日志、微博、音頻、視頻等復(fù)雜結(jié)構(gòu)的數(shù)據(jù)。(3)Velocity:數(shù)據(jù)流動(dòng)快。速度是大數(shù)據(jù)區(qū)別于傳統(tǒng)數(shù)據(jù)的重要特征。例如,對(duì)PB級(jí)大數(shù)據(jù)進(jìn)行一次復(fù)雜查詢,傳統(tǒng)結(jié)構(gòu)化查詢語言(SQL)技術(shù)可能需要幾個(gè)小時(shí),基于大數(shù)據(jù)技術(shù)的平臺(tái)正在將這個(gè)時(shí)延逐步降低到分鐘級(jí)、秒級(jí)、毫秒級(jí),甚至完全實(shí)時(shí)。(4)Value:數(shù)據(jù)潛在價(jià)值大。在研究和技術(shù)開發(fā)領(lǐng)域,上述三個(gè)特征已經(jīng)足夠表示大數(shù)據(jù)的特征。但在商業(yè)應(yīng)用領(lǐng)域,該特征就顯得非常關(guān)鍵。投入如此巨大的研究和技術(shù)開發(fā),就是因?yàn)榇蠹叶级床斓搅舜髷?shù)據(jù)潛在的巨大價(jià)值。如何通過強(qiáng)大的機(jī)器學(xué)習(xí)和高級(jí)分析更迅速地完成數(shù)據(jù)價(jià)值的“提純”,挖掘出大數(shù)據(jù)的潛在價(jià)值,是目前在大數(shù)據(jù)應(yīng)用背景下亟待解決的難題。數(shù)據(jù)量的大小是用計(jì)算機(jī)存儲(chǔ)容量的單位來度量的,基本單位是字節(jié),如下所示。(1)1Byte(B),相當(dāng)于一個(gè)英文字母;(2)1KiloByte(KB)=1024B,相當(dāng)于一則短篇故事的內(nèi)容;(3)1MegaByte(MB)=1024KB,相當(dāng)于一則短篇小說的內(nèi)容;(4)1GigaByte(GB)=1024MB,相當(dāng)于貝多芬第五樂章交響曲的樂譜內(nèi)容;(5)1TeraByte(TB)=1024GB,相當(dāng)于一家大型醫(yī)院中所有X光片的內(nèi)容;(6)1PetaByte(PB)=1024TB,相當(dāng)于美國(guó)學(xué)術(shù)研究圖書館藏書內(nèi)容的50%;(7)1ExaByte(EB)=1024PB,5EB相當(dāng)于至今全世界人類所講過的話語;(8)1ZettByte(ZB)=1024EB,相當(dāng)于全世界海灘上沙子數(shù)量的總和;(9)1YottaByte(YB)=1024ZB,相當(dāng)于1024個(gè)地球一樣的星球上沙子數(shù)量的總和。二、大數(shù)據(jù)技術(shù)的影響和科學(xué)意義我們正處于一個(gè)信息化的時(shí)代,根據(jù)IBM前首席執(zhí)行官路易斯·郭士納的觀點(diǎn),IT領(lǐng)域每隔十五年就會(huì)迎來一次重大變革,時(shí)至今日已經(jīng)發(fā)生了三次信息化革命浪潮,并且發(fā)生的間隔越來越短,如表2-1所示。1.大數(shù)據(jù)技術(shù)的影響(1)在科學(xué)研究方面,大數(shù)據(jù)使得人類的科學(xué)研究在經(jīng)歷了實(shí)驗(yàn)、理論、計(jì)算三種范式之后,迎來了第四種范式——數(shù)據(jù)。(2)在思維方式方面,大數(shù)據(jù)具有“全樣而非抽樣、效率而非精確、相關(guān)而非因果”等顯著特征,完全顛覆了傳統(tǒng)的思維方式。(3)在社會(huì)發(fā)展方面,大數(shù)據(jù)決策逐漸成為一種新的決策方式,大數(shù)據(jù)應(yīng)用有力地促進(jìn)了信息技術(shù)與各行業(yè)的深度融合,大數(shù)據(jù)開發(fā)大大地推動(dòng)了新技術(shù)和新應(yīng)用的不斷涌現(xiàn)。(4)在就業(yè)市場(chǎng)方面,大數(shù)據(jù)的興起使得數(shù)據(jù)分析師成為熱門職業(yè)。(5)在人才培養(yǎng)方面,大數(shù)據(jù)的興起將在很大程度上改變中國(guó)高校信息技術(shù)相關(guān)專業(yè)的現(xiàn)有教學(xué)和科研體制。2.大數(shù)據(jù)技術(shù)的科學(xué)意義大數(shù)據(jù)技術(shù)的科學(xué)意義不在于掌握龐大的數(shù)據(jù)信息,而在于對(duì)這些含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理。換言之,如果把大數(shù)據(jù)比作一種產(chǎn)業(yè),那么這種產(chǎn)業(yè)實(shí)現(xiàn)盈利的關(guān)鍵,在于提高對(duì)數(shù)據(jù)的“加工能力”,以及通過“加工”實(shí)現(xiàn)數(shù)據(jù)的“增值”應(yīng)用。經(jīng)調(diào)研,大數(shù)據(jù)在中國(guó)的發(fā)展前景非常廣闊。在行業(yè)方面,2012年,大數(shù)據(jù)應(yīng)用已經(jīng)從電子商務(wù)/互聯(lián)網(wǎng)、快消品等行業(yè)向金融、政府/公共事業(yè)、能源、交通等行業(yè)擴(kuò)展;在應(yīng)用場(chǎng)景方面,已經(jīng)從用戶上網(wǎng)行為分析拓展到電力安全監(jiān)控系統(tǒng)、輿情監(jiān)測(cè)等;在行業(yè)需求方面,大數(shù)據(jù)需求主要集中在金融行業(yè)中的數(shù)據(jù)模型分析、電子商務(wù)行業(yè)中的用戶行為分析、政府部門中的城市監(jiān)控,以及能源行業(yè)中的能源勘探等。第二節(jié)數(shù)據(jù)采集與治理一、大數(shù)據(jù)的來源與多源數(shù)據(jù)采集方式1.大數(shù)據(jù)的來源如果將Web2.0和智能手機(jī)移動(dòng)設(shè)備產(chǎn)生數(shù)據(jù)的階段合稱為用戶原創(chuàng)內(nèi)容階段,那么可以將這四個(gè)變化劃分為三個(gè)數(shù)據(jù)產(chǎn)生階段,分別是運(yùn)營(yíng)式系統(tǒng)階段、用戶原創(chuàng)內(nèi)容階段、感知式系統(tǒng)階段,如圖2-1所示圖2-1數(shù)據(jù)產(chǎn)生的三個(gè)階段2.多源數(shù)據(jù)采集方式多源數(shù)據(jù)采集方式有多種,主要分為以下四種。(1)離線搜集。工具:ETL(Extract-Transform-Load)。在數(shù)據(jù)倉庫的語境下,ETL基本上是數(shù)據(jù)搜集的代表,包括數(shù)據(jù)的提取(Extract)、轉(zhuǎn)換(Transform)和加載(Load)。在轉(zhuǎn)換的過程中,需要針對(duì)具體的事務(wù)場(chǎng)景對(duì)數(shù)據(jù)進(jìn)行治理,如不合法數(shù)據(jù)的監(jiān)測(cè)與過濾、格式轉(zhuǎn)換與數(shù)據(jù)規(guī)范化、數(shù)據(jù)替換、保證數(shù)據(jù)完整性等。(2)實(shí)時(shí)搜集。工具:Flume/Kafka。實(shí)時(shí)搜集首先用在考慮流處理的事務(wù)場(chǎng)景中,如網(wǎng)絡(luò)監(jiān)控的流量辦理、金融運(yùn)用的股票記賬和Web服務(wù)器記錄的用戶訪問行為等。在流處理場(chǎng)景中,數(shù)據(jù)搜集會(huì)成為Kafka的顧客,Kafka像水壩一樣將源源不斷的數(shù)據(jù)攔截,然后依據(jù)事務(wù)場(chǎng)景做對(duì)應(yīng)的處理(如去重、去噪、中心核算等),然后寫入對(duì)應(yīng)的數(shù)據(jù)存儲(chǔ)中。(3)互聯(lián)網(wǎng)搜集。工具:Crawler、DPI、其他爬蟲工具等。Scribe被稱為網(wǎng)頁蜘蛛、網(wǎng)絡(luò)機(jī)器人,是一種按照一定的規(guī)則,自動(dòng)抓取萬維網(wǎng)信息的程序或腳本,它支持圖片、音頻、視頻等文件或附件的搜集。(4)其他數(shù)據(jù)搜集方法。關(guān)于企業(yè)生產(chǎn)經(jīng)營(yíng)數(shù)據(jù)上的客戶數(shù)據(jù)、財(cái)務(wù)數(shù)據(jù)等對(duì)保密性要求較高的數(shù)據(jù),可以通過與數(shù)據(jù)技術(shù)服務(wù)商合作,運(yùn)用特定體系接口等相關(guān)方式搜集數(shù)據(jù)。二、大數(shù)據(jù)治理與Hadoop解決方案1.大數(shù)據(jù)治理大數(shù)據(jù)治理是指充分運(yùn)用大數(shù)據(jù)、云計(jì)算、人工智能等先進(jìn)技術(shù),實(shí)現(xiàn)治理手段的智能化。大數(shù)據(jù),一般指符合4V特征的數(shù)據(jù),包括社交數(shù)據(jù)、機(jī)器數(shù)據(jù)等。在政策/流程上,大數(shù)據(jù)治理應(yīng)覆蓋大數(shù)據(jù)的獲取、處理、存儲(chǔ)、安全等環(huán)節(jié),需要為大數(shù)據(jù)設(shè)置數(shù)據(jù)管理專員制度;需要考慮大數(shù)據(jù)與主數(shù)據(jù)管理能力的集成,需要對(duì)大數(shù)據(jù)做定義,統(tǒng)一主數(shù)據(jù)標(biāo)準(zhǔn);在數(shù)據(jù)生命周期管理各階段,如數(shù)據(jù)存儲(chǔ)、保留、歸檔、處置時(shí),要考慮大數(shù)據(jù)保存時(shí)間與存儲(chǔ)空間的平衡,應(yīng)識(shí)別對(duì)業(yè)務(wù)有關(guān)鍵影響的數(shù)據(jù)元素,檢查和保證數(shù)據(jù)質(zhì)量。2.大數(shù)據(jù)的Hadoop解決方案(1)Hadoop的特性及其由來與發(fā)展Hadoop是一個(gè)能夠?qū)Υ罅繑?shù)據(jù)進(jìn)行分布式處理的軟件框架,其主要由HDFS(分布式文件系統(tǒng))、MapReduce(分布式計(jì)算框架)和HBase(分布式數(shù)據(jù)庫系統(tǒng))等組成,如圖2-2所示是Hadoop的Logo。Hadoop面向的應(yīng)用環(huán)境是大量低成本計(jì)算構(gòu)成的分布式運(yùn)算環(huán)境,它假設(shè)計(jì)算節(jié)點(diǎn)和存儲(chǔ)節(jié)點(diǎn)會(huì)經(jīng)常發(fā)生故障,因此設(shè)計(jì)了數(shù)據(jù)副本機(jī)制,確保能夠在出現(xiàn)故障節(jié)點(diǎn)的情況下重新分配任務(wù)。同時(shí),Hadoop以并行的方式工作,通過并行處理加快處理速度,具有高效的處理能力。在設(shè)計(jì)之初,Hadoop就為支持可能面對(duì)的PB級(jí)大數(shù)據(jù)環(huán)境進(jìn)行了特殊的設(shè)計(jì),具有優(yōu)秀的可擴(kuò)展性??煽?、高效、可擴(kuò)展這三大特性,加上Hadoop開源、免費(fèi)的特性,使Hadoop技術(shù)得到了迅猛發(fā)展。(2)Hadoop生態(tài)系統(tǒng)Hadoop生態(tài)系統(tǒng)的特點(diǎn):源代碼開源;社區(qū)活躍,參與者眾多;涉及分布式存儲(chǔ)和計(jì)算的方方面面;已得到企業(yè)界驗(yàn)證。如圖2-3所示是Hadoop生態(tài)系統(tǒng)的2.0時(shí)代,除HDFS、MapReduce和HBase外,Hadoop2.0時(shí)代的組成還增加了YARN(分布式計(jì)算框架)等。第三節(jié)數(shù)據(jù)存儲(chǔ)與管理一、分布式文件系統(tǒng)分布式文件系統(tǒng)(DistributedFileSystem,DFS)指文件系統(tǒng)管理的物理存儲(chǔ)資源不用直接連接在本地節(jié)點(diǎn)上,而是通過計(jì)算機(jī)網(wǎng)絡(luò)與節(jié)點(diǎn)(可簡(jiǎn)單理解為一臺(tái)計(jì)算機(jī))相連;或者是若干個(gè)不同的邏輯磁盤分區(qū)或卷標(biāo)組合在一起而形成的完整的有層次的文件系統(tǒng)。下面以HDFS(HadoopDistributedFileSystem)為例進(jìn)行介紹。(1)HDFS存儲(chǔ)實(shí)現(xiàn)過程一個(gè)HDFS基本集群包括兩部分,分別為NameNode和DataNode,用于將管理與工作分離。NameNode是一個(gè)集群的主服務(wù)器,主要用于對(duì)HDFS中的所有文件及數(shù)據(jù)進(jìn)行維護(hù),不斷讀取和記錄集群中DataNode的主機(jī)情況與工作狀態(tài),并且通過寫入鏡像日志文件的方式進(jìn)行存儲(chǔ)。DataNode主要用于在HDFS集群中執(zhí)行具體任務(wù),是整個(gè)集群的工作節(jié)點(diǎn)。如圖2-4所示是HDFS存儲(chǔ)實(shí)現(xiàn)過程圖示,文件被分成若干個(gè)相同大小的數(shù)據(jù)塊,分別存儲(chǔ)于若干個(gè)DataNode中,DataNode定時(shí)向集群中的NameNode發(fā)送自己的運(yùn)行狀態(tài)與存儲(chǔ)內(nèi)容,并且根據(jù)NameNode發(fā)送的指令進(jìn)行工作。(2)HDFS的命令行的操作對(duì)HDFS來說,fs命令用于啟動(dòng)命令行,該命令主要用于提供一系列子命令,一般形式為hadoopfs-cmd<args>例如,將指定路徑下的文件輸出到屏幕上:hadoopfs-cathdfs://host1:port1/file(3)HDFS的接口(API)使用HDFS通過命令行提供了大量操作命令,可以對(duì)HDFS中的數(shù)據(jù)進(jìn)行操作。例如,基本的數(shù)據(jù)讀取命令,常用的增、刪、改、查命令等。此外,Hadoop提供了一整套FileSystemAPI用于對(duì)HDFS中的數(shù)據(jù)進(jìn)行操作。二、關(guān)系數(shù)據(jù)庫關(guān)系數(shù)據(jù)庫(RelationalDataBase)是建立在關(guān)系數(shù)據(jù)庫模型基礎(chǔ)上的數(shù)據(jù)庫,借助集合代數(shù)等概念和方法來處理數(shù)據(jù)庫中的數(shù)據(jù),同時(shí)也是一組具有正式描述特性的表格,該表格是裝載著數(shù)據(jù)項(xiàng)的特殊收集體,這些表格中的數(shù)據(jù)能以多種不同的方式被存取或重新召集而不需要重新組織數(shù)據(jù)庫表格。主流的關(guān)系數(shù)據(jù)庫有Oracle、DB2、SQLServer、Sybase、MySQL等。下面對(duì)關(guān)系數(shù)據(jù)庫的模型結(jié)構(gòu)進(jìn)行介紹。(1)單一的數(shù)據(jù)結(jié)構(gòu)。關(guān)系數(shù)據(jù)庫的表采用二維表格來存儲(chǔ)數(shù)據(jù),是一種按行與列排列的具有相關(guān)信息的邏輯組,它類似于Excel工作表。一個(gè)數(shù)據(jù)庫可以包含多個(gè)數(shù)據(jù)表。(2)元組(記錄)。表中的一行即為一個(gè)元組,或者稱為一條記錄。例如,表2-2第一行元組的值是:成都_A101張三1000.00。(3)屬性(字段)。表中的一列稱為一個(gè)字段,表是由其包含的各種字段定義的,每個(gè)字段描述了它所包含的數(shù)據(jù)的意義。創(chuàng)建表時(shí)需要為每個(gè)字段分配一個(gè)數(shù)據(jù)類型,定義它們的數(shù)據(jù)長(zhǎng)度和其他屬性。字段可以包含各種字符、數(shù)字,甚至圖形。(4)屬性值。行和列的交叉位置表示某個(gè)屬性值,如“張三”就是顧客名的屬性值。(5)主碼。主碼(也稱主鍵或主關(guān)鍵字)是表中用于唯一確定一個(gè)元組的數(shù)據(jù)。主關(guān)鍵字用來確保表中記錄的唯一性,可以是一個(gè)字段或多個(gè)字段,常用作一個(gè)表的索引字段。如賬號(hào)列字段就是主關(guān)鍵字。(6)域。屬性的取值范圍。(7)關(guān)系模式。對(duì)關(guān)系的描述稱為關(guān)系模式,一般表示為:關(guān)系名(屬性1,屬性2,…,屬性n)。例如,上面的關(guān)系可以描述為:余額表(分行名、賬號(hào)、顧客名、余額)。SQL(StructQueryLanguage,結(jié)構(gòu)查詢語言)是1974年由Boyce和Chamberlin提出的,由于它使用方便、功能豐富、語言簡(jiǎn)單易學(xué),因此很快得到了推廣和應(yīng)用。SQL語法如下:(1)數(shù)據(jù)查詢:選擇(SELECT)、投影、連接、除、并、交、差。(2)數(shù)據(jù)操縱:創(chuàng)建(CREATE)、刪除(DROP)。(3)數(shù)據(jù)更新:插入(INSERT)、刪除(DELETE)、修改(UPDATE)。(4)數(shù)據(jù)控制:授權(quán)(GRANT)、回收(REVOKE)三、NoSQL數(shù)據(jù)庫1.NoSQL數(shù)據(jù)庫的改進(jìn)與興起隨著近幾年互聯(lián)網(wǎng)技術(shù)的應(yīng)用及發(fā)展,數(shù)據(jù)處理需要面對(duì)的數(shù)據(jù)量、數(shù)據(jù)特征及處理需求都發(fā)生了很大的變化。這些變化給之前在數(shù)據(jù)庫領(lǐng)域占據(jù)統(tǒng)治地位的傳統(tǒng)關(guān)系型數(shù)據(jù)庫帶來了極大挑戰(zhàn),主要體現(xiàn)在無法適應(yīng)多變的數(shù)據(jù)結(jié)構(gòu)、無法處理高并發(fā)的寫操作、無法應(yīng)對(duì)業(yè)務(wù)量的快速增長(zhǎng)(Web2.0PB級(jí)甚至ZB級(jí))和業(yè)務(wù)類型的快速變化等方面。在這樣的大環(huán)境中,數(shù)據(jù)庫領(lǐng)域興起了一股新的技術(shù)流派——NoSQL。需要注意的是,NoSQL并沒有摒棄傳統(tǒng)關(guān)系型數(shù)據(jù)庫及SQL,其含義是NotonlySQL,即超越傳統(tǒng)的關(guān)系型數(shù)據(jù)庫。NoSQL的主要思路是在阻礙關(guān)系型數(shù)據(jù)庫適應(yīng)新需求的兩個(gè)主要方面進(jìn)行改進(jìn)。(1)放松事務(wù)一致性要求。(2)改變固定的表結(jié)構(gòu)。2.NoSQL數(shù)據(jù)庫的四大分類如表2-3所示是NoSQL數(shù)據(jù)庫的四大分類。3.NoSQL數(shù)據(jù)庫的三大基石1987年,JimGray與GianfrancoPutzolu發(fā)表了I/O的五分鐘法則,簡(jiǎn)而言之,如果一條記錄頻繁被訪問,就應(yīng)該將其存儲(chǔ)于內(nèi)存中,否則應(yīng)該將其存儲(chǔ)于硬盤中,并且按需要訪問,這個(gè)臨界點(diǎn)就是五分鐘。在CAP理論中,C(Consistency)表示一致性,是指任意一個(gè)讀操作總是能夠讀取之前完成的寫操作的結(jié)果;A(Availability)表示可用性,是指快速獲取數(shù)據(jù),可以在確定的時(shí)間內(nèi)返回操作結(jié)果;P(ToleranceofNetworkPartition)表示分區(qū)容錯(cuò)性,是指當(dāng)出現(xiàn)網(wǎng)絡(luò)分區(qū)的情況時(shí)(系統(tǒng)中的一部分節(jié)點(diǎn)無法和其他節(jié)點(diǎn)進(jìn)行通信),分離的系統(tǒng)能夠正常運(yùn)行。CAP理論說明,一個(gè)分布式系統(tǒng)不可能同時(shí)滿足一致性、可用性和分區(qū)容錯(cuò)性這三個(gè)需求,最多只能同時(shí)滿足兩個(gè)。四、多模態(tài)數(shù)據(jù)管理1.多模態(tài)數(shù)據(jù)不同的存在形式或信息來源均可被稱為一種模態(tài),由兩種或兩種以上模態(tài)組成的數(shù)據(jù)稱為多模態(tài)數(shù)據(jù)。多模態(tài)數(shù)據(jù)是指對(duì)于同一個(gè)描述對(duì)象,通過不同領(lǐng)域或視角獲取的數(shù)據(jù),一般把描述這些數(shù)據(jù)的每個(gè)領(lǐng)域或視角叫作一個(gè)模態(tài)。多模態(tài)數(shù)據(jù)管理主要是對(duì)多模態(tài)數(shù)據(jù)進(jìn)行融合。2.多模態(tài)數(shù)據(jù)融合及分類法多模態(tài)數(shù)據(jù)融合負(fù)責(zé)將多個(gè)模態(tài)的信息進(jìn)行有效的整合,汲取不同模態(tài)的優(yōu)點(diǎn),完成對(duì)信息的整合。目前,多模態(tài)數(shù)據(jù)融合主要有三種方式:前端融合(early-fusion)或數(shù)據(jù)水平融合(data-levelfusion)、后端融合(late-fusion)或決策水平融合(decision-levelfusion)、中間融合(intermediate-fusion)。前端融合將多個(gè)獨(dú)立的數(shù)據(jù)集融合成一個(gè)單一的特征向量,然后輸?到機(jī)器學(xué)習(xí)分類器中。由于多模態(tài)數(shù)據(jù)的前端融合往往無法充分利用多個(gè)模態(tài)數(shù)據(jù)間的互補(bǔ)性,并且前端融合的原始數(shù)據(jù)通常包含大量的冗余信息。后端融合則是將不同模態(tài)數(shù)據(jù)分別訓(xùn)練好的分類器輸出打分(決策)進(jìn)行融合。這樣做的好處是,融合模型的錯(cuò)誤來自不同的分類器,而來自不同分類器的錯(cuò)誤往往互不相關(guān)、互不影響,不會(huì)造成錯(cuò)誤的進(jìn)一步累加。中間融合先將不同的模態(tài)數(shù)據(jù)轉(zhuǎn)換成高維特征表達(dá),再于模型的中間層進(jìn)行融合。以神經(jīng)網(wǎng)絡(luò)為例,中間融合先利用神經(jīng)網(wǎng)絡(luò)將原始數(shù)據(jù)轉(zhuǎn)換成高維特征表達(dá),再獲取不同模態(tài)數(shù)據(jù)在高維空間上的共性。中間融合方法的一大優(yōu)勢(shì)是可以靈活選擇融合的位置。第四節(jié)大數(shù)據(jù)處理平臺(tái)一、批處理計(jì)算1.大數(shù)據(jù)批處理計(jì)算MapReduce是最適合用于進(jìn)行大數(shù)據(jù)批處理的計(jì)算模式之一,它是一個(gè)單輸入、兩階段(Map和Reduce)的數(shù)據(jù)處理過程。首先,MapReduce對(duì)具有簡(jiǎn)單數(shù)據(jù)關(guān)系、易于劃分的大規(guī)模數(shù)據(jù)采用“分而治之”的并行處理思想;其次,將大量重復(fù)的數(shù)據(jù)處理過程總結(jié)成Map和Reduce兩個(gè)抽象操作;最后,MapReduce提供了一個(gè)統(tǒng)一的并行計(jì)算框架,將并行計(jì)算涉及的多個(gè)系統(tǒng)層交給計(jì)算框架,大大簡(jiǎn)化了程序員進(jìn)行并行化程序設(shè)計(jì)的工作。在開源社區(qū)的努力下,開源的Hadoop系統(tǒng)目前已成為較成熟的大數(shù)據(jù)處理平臺(tái),并且發(fā)展成一個(gè)包括眾多數(shù)據(jù)處理工具和環(huán)境的完整的生態(tài)系統(tǒng)。目前,國(guó)內(nèi)外的大部分IT企業(yè)都使用Hadoop平臺(tái)進(jìn)行企業(yè)內(nèi)大數(shù)據(jù)的計(jì)算處理。此外,Spark也具備進(jìn)行批處理的能力,Spark代替的是Hadoop中的MapReduce,是一個(gè)計(jì)算框架。Spark繼承了MapReduce的一些核心設(shè)計(jì)思想,并且對(duì)其進(jìn)行了改進(jìn),Spark避免了MapReduce的一些缺陷,Spark不僅有Map函數(shù)和Reduce函數(shù),還提供了更多比較靈活的數(shù)據(jù)操作類型,如filter、sort、groupby等,因此Spark編程模型更靈活,表達(dá)能力也更強(qiáng)。Spark有完整的架構(gòu),其中,SparkStreaming是構(gòu)建在Spark基礎(chǔ)上的流式大數(shù)據(jù)處理框架。Spark可以用Scala、Python、Java、R語言進(jìn)行開發(fā),其中首選Scala語言,因?yàn)镾park是用Scala語言開發(fā)的,所以用Scala語言開發(fā)的應(yīng)用程序是最高效的應(yīng)用程序。因此,將Hadoop與Spark結(jié)合是很好的大數(shù)據(jù)處理方案。2.MapReduce分布式計(jì)算(1)什么是MapReduce?MapReduce是什么,怎么理解MapReduce?下面通過一個(gè)例子進(jìn)行說明。如果要統(tǒng)計(jì)圖書館中所有的書,那么應(yīng)該怎么辦?非常簡(jiǎn)單,你統(tǒng)計(jì)1號(hào)書架上的書,我統(tǒng)計(jì)2號(hào)書架上的書,人越多,統(tǒng)計(jì)書的速度越快,每個(gè)人統(tǒng)計(jì)的數(shù)是Map。然后將所有人統(tǒng)計(jì)的數(shù)加在一起,就是Reduce。這個(gè)例子就是MapReduce的一個(gè)基本模型,當(dāng)然實(shí)際的MapReduce并非如此簡(jiǎn)單。在正式介紹MapReduce之前,除了前面介紹的一些基本概念,還需要了解一些專業(yè)術(shù)語。(2)架構(gòu)與執(zhí)行過程。MapReduce的任務(wù)稱為Job。通常使用Job將輸入的數(shù)據(jù)集切分成若干個(gè)獨(dú)立的數(shù)據(jù)塊,并且將其分布在不同的節(jié)點(diǎn)上。完整的MapReduce流程圖如圖2-5所示。在圖2-5中,Hadoop為每個(gè)創(chuàng)建的Map任務(wù)分配輸入文件的一部分,這部分被稱為split,然后由每個(gè)分配的split運(yùn)行用戶自定義的Map,從而根據(jù)用戶的需要處理每個(gè)split中的內(nèi)容。split存儲(chǔ)于Block中。一般情況下,一次Map任務(wù)的執(zhí)行過程分成兩個(gè)階段:(1)Map讀取split中的內(nèi)容后,將其解析成鍵/值對(duì)(Key/Value),并且將Map定義的算法應(yīng)用于每條內(nèi)容,內(nèi)容范圍可以由用戶自定義確定。(2)在Map中定義的算法處理完split中的內(nèi)容后,Map會(huì)向TaskTracker報(bào)告,然后通知JobTracker任務(wù)執(zhí)行完畢,可以接受新的任務(wù)。(3)在HBase上運(yùn)行MapReduce,作為與Hadoop架構(gòu)無縫集成的數(shù)據(jù)庫系統(tǒng),HBase可以很方便地支持以MapReduce編程模式開發(fā)的數(shù)據(jù)處理應(yīng)用。HBase提供了與Hadoop包中Mapper和Reducer基礎(chǔ)類相近的幾個(gè)類,這些類將HBase的實(shí)現(xiàn)和使用細(xì)節(jié)進(jìn)行了很好的屏蔽,方便開發(fā)者使用。這些類與Hadoop基礎(chǔ)類的關(guān)系見表2-4。二、流計(jì)算1.無界數(shù)據(jù)及流數(shù)據(jù)可以將數(shù)據(jù)分為兩種類型的數(shù)據(jù)集,一種是有界數(shù)據(jù)集,另一種是無界數(shù)據(jù)集(見圖2-6)。(1)有界數(shù)據(jù)集有界數(shù)據(jù)集具有時(shí)間邊界,在處理過程中數(shù)據(jù)一定會(huì)在某個(gè)時(shí)間范圍內(nèi)起始和結(jié)束,有可能是一分鐘,也有可能是一天。對(duì)有界數(shù)據(jù)集的數(shù)據(jù)處理方式被稱為批數(shù)據(jù)處理(BatchDataProcessing),也可稱為批量計(jì)算,即將數(shù)據(jù)從RDBMS(關(guān)系數(shù)據(jù)庫管理系統(tǒng))或文件系統(tǒng)中讀取出來,然后在分布式系統(tǒng)內(nèi)處理,最后將處理結(jié)果寫入存儲(chǔ)介質(zhì)中。(2)無界數(shù)據(jù)集對(duì)于無界數(shù)據(jù)集,數(shù)據(jù)從生成開始就一直持續(xù)不斷地產(chǎn)生新的數(shù)據(jù),因此數(shù)據(jù)是沒有邊界的,如服務(wù)器的日志、傳感器信號(hào)數(shù)據(jù)等。與批數(shù)據(jù)處理對(duì)應(yīng),對(duì)無界數(shù)據(jù)集的數(shù)據(jù)處理方式被稱為流式數(shù)據(jù)處理(StreamingDataProcessing),也可稱為流計(jì)算。(3)統(tǒng)一數(shù)據(jù)處理有界數(shù)據(jù)集和無界數(shù)據(jù)集只是一個(gè)相對(duì)的概念,主要根據(jù)時(shí)間范圍確定,可以認(rèn)為一段時(shí)間內(nèi)的無界數(shù)據(jù)集其實(shí)就是有界數(shù)據(jù)集,同時(shí)有界數(shù)據(jù)集也可以通過一些方法轉(zhuǎn)換為無界數(shù)據(jù)集。如系統(tǒng)一年的訂單交易數(shù)據(jù),其本質(zhì)應(yīng)該是有界數(shù)據(jù)集,可是當(dāng)把它一條一條按照產(chǎn)生的順序發(fā)送到流式系統(tǒng)進(jìn)行處理后,可以認(rèn)為數(shù)據(jù)是相對(duì)無界的。對(duì)于無界數(shù)據(jù)集也可以拆分成有界數(shù)據(jù)集進(jìn)行處理,如將系統(tǒng)產(chǎn)生的數(shù)據(jù)輸入存儲(chǔ)系統(tǒng),按照年或月切分成不同時(shí)間長(zhǎng)度的有界數(shù)據(jù)集,然后就可以通過批處理方式對(duì)數(shù)據(jù)進(jìn)行處理。從以上分析可以得出結(jié)論:有界數(shù)據(jù)集和無界數(shù)據(jù)集其實(shí)是可以相互轉(zhuǎn)換的。2.流計(jì)算的概念(1)什么是流計(jì)算流計(jì)算是指對(duì)數(shù)據(jù)流進(jìn)行處理,實(shí)時(shí)獲取來自不同數(shù)據(jù)源的海量數(shù)據(jù),經(jīng)過實(shí)時(shí)分析處理,獲得有價(jià)值的信息的實(shí)時(shí)計(jì)算方式。流計(jì)算系統(tǒng)應(yīng)該滿足如下需求。高性能:處理大數(shù)據(jù)的基本要求,如每秒處理幾十萬條數(shù)據(jù)。海量式:支持TB級(jí)甚至是PB級(jí)的數(shù)據(jù)規(guī)模。實(shí)時(shí)性:保證較低的延遲時(shí)間,達(dá)到秒級(jí)別,甚至是毫秒級(jí)別。分布式:支持大數(shù)據(jù)的基本架構(gòu),必須能夠平滑擴(kuò)展。易用性:能夠快速進(jìn)行開發(fā)和部署。可靠性:能夠可靠地處理流數(shù)據(jù)。(2)流計(jì)算與批量計(jì)算的區(qū)別流計(jì)算與批量計(jì)算的區(qū)別主要體現(xiàn)在以下幾個(gè)方面。數(shù)據(jù)時(shí)效性不同:流計(jì)算實(shí)時(shí)、低延遲,批量計(jì)算非實(shí)時(shí)、高延遲。數(shù)據(jù)特征不同:流計(jì)算的數(shù)據(jù)一般是動(dòng)態(tài)的、沒有邊界的,批量計(jì)算的數(shù)據(jù)一般是靜態(tài)的、有邊界的。應(yīng)用場(chǎng)景不同:流計(jì)算主要應(yīng)用于實(shí)時(shí)場(chǎng)景,如實(shí)時(shí)推薦、業(yè)務(wù)監(jiān)控等;批量計(jì)算主要應(yīng)用于對(duì)實(shí)時(shí)性要求不高、可以離線計(jì)算的場(chǎng)景,如數(shù)據(jù)分析、離線報(bào)表等。運(yùn)行方式不同:流計(jì)算的任務(wù)是持續(xù)進(jìn)行的,批量計(jì)算的任務(wù)是一次性完成的。3.流計(jì)算框架(1)流計(jì)算框架的匯總大數(shù)據(jù)計(jì)算引擎的第一代是MapReduce,第二代是基于有向無環(huán)圖的Tez,第三代是基于內(nèi)存計(jì)算的Spark,第四代是Flink。Storm是比較早的流計(jì)算框架,后來出現(xiàn)了Trident和SparkStreaming,以及實(shí)時(shí)計(jì)算框架Flink。這幾種流計(jì)算框架如表2-5所示。(2)流計(jì)算框架的對(duì)比這幾種流計(jì)算框架的詳細(xì)對(duì)比如下。模型:Storm和Flink會(huì)逐條處理數(shù)據(jù);Trident(Storm的封裝框架)和SparkStreaming會(huì)進(jìn)行小型批量計(jì)算,一次處理一批數(shù)據(jù)(小批量)。API:Storm和Trident都使用基礎(chǔ)API進(jìn)行開發(fā),如實(shí)現(xiàn)一個(gè)簡(jiǎn)單的求和操作;SparkStreaming和Flink都會(huì)提供封裝后的高階函數(shù),可以直接使用,比較方便。保證次數(shù):在數(shù)據(jù)處理方面,Storm可以實(shí)現(xiàn)至少處理一次,但不能保證僅處理一次,容易導(dǎo)致數(shù)據(jù)重復(fù)處理的問題,所以針對(duì)計(jì)數(shù)類的需求,可能會(huì)產(chǎn)生一些誤差;Trident可以保證對(duì)數(shù)據(jù)只進(jìn)行一次處理,SparkStreaming和Flink也是如此。容錯(cuò)機(jī)制:Storm和Trident可以通過ACK機(jī)制實(shí)現(xiàn)數(shù)據(jù)的容錯(cuò),而SparkStreaming和Flink可以通過CheckPoint機(jī)制實(shí)現(xiàn)數(shù)據(jù)的容錯(cuò)。狀態(tài)管理:Storm沒有實(shí)現(xiàn)狀態(tài)管理,SparkStreaming實(shí)現(xiàn)了基于DStream的狀態(tài)管理,Trident和Flink實(shí)現(xiàn)了基于操作的狀態(tài)管理。延時(shí):表示數(shù)據(jù)處理的延時(shí)情況,Storm和Flink接收到一條數(shù)據(jù)就處理一條數(shù)據(jù),其數(shù)據(jù)處理的延時(shí)性很低;Trident和SparkStreaming會(huì)對(duì)數(shù)據(jù)進(jìn)行小型批量計(jì)算,它們的數(shù)據(jù)處理延時(shí)性相對(duì)較高。吞吐量:Storm的吞吐量其實(shí)不低,但與其他幾種流計(jì)算框架的吞吐量相比,Storm的吞吐量較低;Trident的吞吐量中等;SparkStreaming和Flink的吞吐量較高。4.開源流計(jì)算框架Flink(1)Flink簡(jiǎn)介Flink是什么。Flink是通過實(shí)現(xiàn)GoogleDataflow流計(jì)算模型,從而實(shí)現(xiàn)高吞吐量、高性能的開源流計(jì)算框架。Flink支持高度容錯(cuò)的狀態(tài)管理,可以防止?fàn)顟B(tài)在計(jì)算過程中因?yàn)橄到y(tǒng)異常而丟失。Flink的具體優(yōu)勢(shì)。Flink支持事件時(shí)間(EventTime)概念,可以保證事件原本產(chǎn)生時(shí)的時(shí)序。Flink支持有狀態(tài)計(jì)算。Flink支持高度靈活的窗口(Windows)操作。(2)Flink的基本架構(gòu)Flink的基本架構(gòu)如圖2-7所示。Flink系統(tǒng)主要由兩個(gè)組件組成,分別為JobManager和TaskManager。三、圖計(jì)算1.大數(shù)據(jù)的圖計(jì)算概述大數(shù)據(jù)的圖計(jì)算是大數(shù)據(jù)處理中的一類典型運(yùn)算,目前有兩類圖計(jì)算方式。一類是使用基于MapReduce計(jì)算模型的SparkGraphX圖計(jì)算;另一類是在MapReduce之外參考其他并行圖計(jì)算模型設(shè)計(jì)新的計(jì)算方法,其中比較成功的有Google的Pregel,其借鑒了整體同步并行計(jì)算(BulkSynchronousParallel,BSP)模型。BSP模型是2010年圖靈獎(jiǎng)得主Valiant在1990年提出來的一種基于消息通信的并行計(jì)算模型。BSP模型中定義的計(jì)算過程如圖2-8所示。2.GooglePregel計(jì)算框架Pregel是Google借鑒BSP模型的思想構(gòu)建的分布式圖計(jì)算框架,可以視為繼MapReduce之后的又一大分布式計(jì)算利器,其主要目的是支持實(shí)現(xiàn)對(duì)大規(guī)模圖數(shù)據(jù)進(jìn)行計(jì)算的各類圖算法,是高效、實(shí)用的并行圖處理系統(tǒng)。Pregel的核心思想可以簡(jiǎn)要理解為“像節(jié)點(diǎn)一樣思考”,即算法設(shè)計(jì)和編程實(shí)現(xiàn)都以圖的節(jié)點(diǎn)為核心展開。Pregel的系統(tǒng)架構(gòu)主要包括三類節(jié)點(diǎn),分別為Client、Master和Worker,如圖2-9所示。第五節(jié)數(shù)據(jù)分析計(jì)算一、查詢分析概述雖然Hadoop提供了MapReduce編程模式及HBase基礎(chǔ)數(shù)據(jù)庫。但要真正高效完成數(shù)便于理解的數(shù)據(jù)抽象能力;簡(jiǎn)潔易用的操作方式;高效穩(wěn)定的編譯執(zhí)行環(huán)境。為了滿足以上條件,Hadoop開源社區(qū)的開發(fā)者為用戶提供了幾種解決方案。(1)Hive在Hadoop中相當(dāng)于傳統(tǒng)數(shù)據(jù)分析環(huán)境中的數(shù)據(jù)倉庫,主要用于存儲(chǔ)和處理海量結(jié)構(gòu)化數(shù)據(jù)。Hive將大數(shù)據(jù)存儲(chǔ)于HDFS中,并且為數(shù)據(jù)分析師提供了一套類似于數(shù)據(jù)庫的數(shù)據(jù)存儲(chǔ)和訪問機(jī)制。(2)允許數(shù)據(jù)分析師使用他們熟悉的類似于SQL的語言對(duì)數(shù)據(jù)進(jìn)行操作。(3)Pig是MapReduce的一個(gè)抽象。它是一個(gè)工具,用于分析較大的數(shù)據(jù)集,并將其表示為數(shù)據(jù)流,常與Hadoop一起使用,可以使用Pig在Hadoop中執(zhí)行所有的數(shù)據(jù)處理操作。Pig提供了一種可表示數(shù)據(jù)流的腳本語言PigLatin,以及支持此語言執(zhí)行的環(huán)境,它簡(jiǎn)化了Hadoop常見的數(shù)據(jù)分析任務(wù),可以方便地加載數(shù)據(jù)、表達(dá)數(shù)據(jù)和轉(zhuǎn)換數(shù)據(jù)等。二、Dremel技術(shù)Google的Dremel是一個(gè)用于分析只讀嵌套型數(shù)據(jù)的可擴(kuò)展交互式動(dòng)態(tài)查詢系統(tǒng),其作用是在秒級(jí)時(shí)間內(nèi)完成萬億行級(jí)別的大數(shù)據(jù)聚合查詢。完成如此高難度的任務(wù),Dremel主要依靠?jī)蓚€(gè)核心機(jī)制:多層執(zhí)行樹和列狀數(shù)據(jù)結(jié)構(gòu)。第六節(jié)數(shù)據(jù)可視化一、數(shù)據(jù)可視化的主要技術(shù)數(shù)據(jù)可視化是指將數(shù)據(jù)以圖形或圖像的形式表示,并利用數(shù)據(jù)分析和開發(fā)工具,發(fā)現(xiàn)其中未知信息的處理過程??梢暬夹g(shù)分為兩類,一類是可視化報(bào)表,另一類是可視化分析??梢暬瘓?bào)表用圖表描述業(yè)務(wù)績(jī)效,通常使用度量和時(shí)間系列信息定義。常見的統(tǒng)計(jì)圖表如表2-6所示。二、數(shù)據(jù)可視化案例R軟件是開源的統(tǒng)計(jì)繪圖軟件,通過將R和Hadoop進(jìn)行深度集成可以使Hadoop獲得強(qiáng)大的深度分析能力。R語言是一種腳本語言,有大量的程序包可以用。R語言中的向量、列表、數(shù)組、函數(shù)等都是對(duì)象,可以方便地查詢和引用,并且可以進(jìn)行條件篩選。R語言具有精確的繪圖功能,生成的圖可以以多種格式存儲(chǔ)。在使用R語言編寫函數(shù)時(shí),無須聲明變量類型,通過循環(huán)語句、條件語句可以控制程序的流程。下面介紹如何使用R語言繪制基本圖形,如直方圖等??梢灾苯邮褂胔elp(funciton)查找R語言標(biāo)準(zhǔn)畫圖代碼,實(shí)例數(shù)據(jù)基本都來自內(nèi)置包的數(shù)據(jù)。繪制直方圖的標(biāo)準(zhǔn)代碼如下:hist(x,...)三、可視化工具和軟件主要的可視化工具和軟件如下。1.入門級(jí)工具Excel的圖形化功能并不強(qiáng)大,但作為一個(gè)入門級(jí)工具,Excel是快速分析數(shù)據(jù)的理想工具,也能創(chuàng)建供內(nèi)部使用的數(shù)據(jù)。2.信息圖表工具(1)GoogleChartAPI工具集主要用于提供動(dòng)態(tài)圖表工具,功能豐富,能夠在所有支持SVG\Canvas和VML的瀏覽器中使用。(2)ECharts是一個(gè)純JavaScript的圖表庫,可以流暢地運(yùn)行在PC和移動(dòng)設(shè)備上。(3)D3(Data-DrivenDocmuments),又稱數(shù)據(jù)驅(qū)動(dòng)文檔,是一個(gè)Java庫,主要用于創(chuàng)建數(shù)據(jù)可視化圖形。作為一款網(wǎng)頁前端數(shù)據(jù)可視化工具,其將數(shù)據(jù)在網(wǎng)頁端映射出來,并表現(xiàn)為我們需要的圖形,大部分情況下D3都能滿足我們的需求。(4)Visual.ly是繪制信息圖的首選工具,它提供了大量的信息圖模板。3.地圖工具(1)Google發(fā)布的MapsAPI讓所有的開發(fā)者都能在自己的網(wǎng)站中植入地圖功能。(2)ModestMaps提供了一套查看衛(wèi)星地圖的API。(3)Leaflet是為移動(dòng)設(shè)備建設(shè)互動(dòng)地圖而開發(fā)的現(xiàn)代的、開源的JavaScript庫。(4)GoogleFusionTables(數(shù)據(jù)融合表)。4.可視化設(shè)計(jì)工具Processing是專業(yè)的可視化設(shè)計(jì)工具,可以在大部分的平臺(tái)上運(yùn)行,用于產(chǎn)生圖像、動(dòng)畫和進(jìn)行交互。5.專家級(jí)可視化分析工具(1)R語言和Python語言等是開源大數(shù)據(jù)平臺(tái)上的理想的分析和可視化工具。(2)Weka是根據(jù)特征做分類分析和聚類分析的數(shù)據(jù)挖掘軟件工具。(3)Gephi是社交圖譜數(shù)據(jù)可視化分析的工具。第七節(jié)數(shù)據(jù)安全與隱私保護(hù)一、數(shù)據(jù)安全與傳統(tǒng)信息安全的關(guān)系與傳統(tǒng)的數(shù)據(jù)相比,大數(shù)據(jù)本身的特性給其帶來了更高的風(fēng)險(xiǎn),如大數(shù)據(jù)更容易成為黑客攻擊的首選目標(biāo)、涉及國(guó)家安全、大數(shù)據(jù)加大隱私泄露風(fēng)險(xiǎn)等。對(duì)于大數(shù)據(jù)的安全,如果單純從這些特性本身來看,只是對(duì)現(xiàn)有數(shù)據(jù)安全手段的可擴(kuò)展性提出了更高的要求,并沒有改變對(duì)現(xiàn)有數(shù)據(jù)安全功能的要求。但現(xiàn)實(shí)并非如此,原因是大數(shù)據(jù)存在的目的與傳統(tǒng)數(shù)據(jù)有巨大的差別,這就是數(shù)據(jù)的共享,而共享的背后則是數(shù)據(jù)角色發(fā)生的巨大變化——從IT領(lǐng)域中的一個(gè)信息元素上升為與土地、勞動(dòng)力、資本和技術(shù)同等重要的國(guó)民經(jīng)濟(jì)核心生產(chǎn)要素。2020年3月30日中共中央、國(guó)務(wù)院明確將數(shù)據(jù)作為新型生產(chǎn)要素寫入政策文件。培育發(fā)展數(shù)據(jù)要素市場(chǎng),釋放數(shù)據(jù)紅利,已成為推動(dòng)經(jīng)濟(jì)高質(zhì)量發(fā)展的新動(dòng)能。數(shù)據(jù)作為數(shù)字化時(shí)代的一種核心生產(chǎn)要素,只有在廣泛的使用中才能最大限度地發(fā)揮數(shù)據(jù)資產(chǎn)的價(jià)值,而最大程度的資源利用就是從獨(dú)享走向共享。二、數(shù)據(jù)安全及隱私保護(hù)支撐技術(shù)1.數(shù)據(jù)安全為流動(dòng)的大數(shù)據(jù)保駕護(hù)航的手段包括數(shù)據(jù)監(jiān)控、數(shù)據(jù)溯源、違規(guī)告警、全息網(wǎng)御。(1)數(shù)據(jù)監(jiān)控。數(shù)據(jù)監(jiān)控即流動(dòng)數(shù)據(jù)的可視化,實(shí)時(shí)捕獲、監(jiān)測(cè)并能夠展示網(wǎng)絡(luò)中各種流動(dòng)的數(shù)據(jù),尤其是敏感數(shù)據(jù)及其使用者、與之相關(guān)的應(yīng)用、所涉及的設(shè)備、來自哪里、去往哪里等。(2)數(shù)據(jù)溯源??苫厮莺蛯徲?jì)任意時(shí)間段內(nèi)的數(shù)據(jù)行為,可對(duì)任何流動(dòng)數(shù)據(jù)的當(dāng)前狀況和歷史狀況進(jìn)行追溯,還原數(shù)據(jù)流轉(zhuǎn)路徑及流轉(zhuǎn)范圍,提供完整的數(shù)據(jù)軌跡和證據(jù)鏈。(3)違規(guī)告警。遵守國(guó)家關(guān)于大數(shù)據(jù)和信息安全的法律,通過自定義各種場(chǎng)景,實(shí)時(shí)監(jiān)測(cè)、發(fā)現(xiàn)和告警各種數(shù)據(jù)違規(guī)。從用戶、應(yīng)用、業(yè)務(wù)敏感性、設(shè)備、IP地址、時(shí)間、地點(diǎn)等角度靈活應(yīng)用各種策略,精確發(fā)現(xiàn)數(shù)據(jù)脫敏、用戶違規(guī)訪問、賬號(hào)違規(guī)共享、數(shù)據(jù)違規(guī)流轉(zhuǎn)等行為。(4)全息網(wǎng)御。全息網(wǎng)御是行為數(shù)據(jù)驅(qū)動(dòng)信息安全的領(lǐng)航者,通過其特有的專利技術(shù)系統(tǒng)性融合了NG-DLP、UEBA、NG-SIEM、CASB四項(xiàng)先進(jìn)技術(shù),結(jié)合機(jī)器學(xué)習(xí),發(fā)現(xiàn)并實(shí)時(shí)重構(gòu)網(wǎng)絡(luò)中不可見的“用戶—設(shè)備—數(shù)據(jù)”互動(dòng)關(guān)系,提供以數(shù)據(jù)為核心的數(shù)據(jù)安全風(fēng)險(xiǎn)感知平臺(tái),為企業(yè)的信息安全管理提供無感知、無死角的智能追溯服務(wù),使企業(yè)能夠高效精準(zhǔn)地審計(jì)過去、監(jiān)控現(xiàn)在、防患未來,極大提高了IT安全運(yùn)維、安全人員響應(yīng)事故、抓取證據(jù)鏈和恢復(fù)IT系統(tǒng)的效率。2.隱私保護(hù)支撐技術(shù)以下是六種主要的用于數(shù)據(jù)安全與隱私保護(hù)的關(guān)鍵技術(shù)。(1)數(shù)據(jù)發(fā)布匿名技術(shù)。使攻擊者無法追溯消息發(fā)布者的個(gè)人信息。(2)社交網(wǎng)絡(luò)匿名保護(hù)技術(shù)。即在數(shù)據(jù)發(fā)布時(shí)隱藏用戶的標(biāo)識(shí)、屬性信息及與其他用戶之間的關(guān)系。(3)數(shù)據(jù)水印技術(shù)。指將標(biāo)識(shí)信息以難以察覺的方式嵌入數(shù)據(jù)載體內(nèi)部且不影響其使用的方法,多用于多媒體數(shù)據(jù)的版權(quán)保護(hù)。(4)數(shù)據(jù)溯源技術(shù)。由于數(shù)據(jù)來源的多樣化,有必要記錄數(shù)據(jù)的來源及其傳播過程和計(jì)算過程,為后期的挖掘與決策提供輔助支持。(5)角色挖掘。即基于角色的訪問控制。通過為用戶指派角色、將角色關(guān)聯(lián)至權(quán)限集合,實(shí)現(xiàn)用戶授權(quán)、簡(jiǎn)化權(quán)限管理。(6)風(fēng)險(xiǎn)自適應(yīng)的訪問控制。第八節(jié)社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)一、社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)面臨的挑戰(zhàn)社會(huì)網(wǎng)絡(luò)(SocialNetwork)是以人或人的群體為結(jié)點(diǎn)構(gòu)成的集合,這些結(jié)點(diǎn)之間具有某種接觸或相互作用模式,如朋友關(guān)系、親屬關(guān)系、同事關(guān)系或科研合作關(guān)系等。社會(huì)網(wǎng)絡(luò)是以人物為節(jié)點(diǎn),以人際關(guān)系為邊,將人物節(jié)點(diǎn)連接起來構(gòu)成的網(wǎng)絡(luò),具有平均路徑長(zhǎng)度短、聚集系數(shù)高等特點(diǎn)。社會(huì)網(wǎng)絡(luò)大數(shù)據(jù)不僅為社會(huì)治理領(lǐng)域帶來了新的契機(jī),也對(duì)數(shù)據(jù)處理技術(shù)提出了巨大的挑戰(zhàn)。于是人們構(gòu)建了諸如社會(huì)焦點(diǎn)透視鏡這類系統(tǒng),結(jié)合新浪微博數(shù)據(jù),不僅能夠?qū)崟r(shí)提供每日的焦點(diǎn)事件供輿情分析部門進(jìn)行檢測(cè),還能夠深層剖析焦點(diǎn)事件的情感分布原因和人群分布,協(xié)助社會(huì)治理領(lǐng)域提出應(yīng)對(duì)引導(dǎo)策略或改進(jìn)工作的措施。二、社會(huì)網(wǎng)絡(luò)中的用戶影響力用戶影響力是用戶能夠直接或間接作用于其他用戶的能力,在社會(huì)網(wǎng)絡(luò)中各
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年山西衛(wèi)生健康職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試題庫必考題
- 2026年度河南省省直機(jī)關(guān)公開遴選公務(wù)員159人備考題庫附答案
- 2026山東臨沂高新區(qū)法律顧問選聘4人參考題庫含答案
- 2026年甘肅省天水工業(yè)博物館寒假大學(xué)生志愿者招募參考題庫及答案1套
- 2026年安徽藝術(shù)職業(yè)學(xué)院?jiǎn)握芯C合素質(zhì)考試模擬測(cè)試卷及答案1套
- 2026山東省滕州市第一中學(xué)山東師范大學(xué)校園招聘19人(二)備考題庫及答案1套
- 2026廣東珠海市香洲區(qū)委黨校招聘教師2人備考題庫附答案
- 2026年安康嵐皋縣公益性崗位人員招聘(3人)備考題庫及答案1套
- 2026年中煤陜西能源化工集團(tuán)有限公司招聘(54人)備考題庫附答案
- 2026福建龍洲運(yùn)輸集團(tuán)有限公司上杭分公司招聘?jìng)淇碱}庫完美版
- (2025年)功能性消化不良中西醫(yī)結(jié)合診療專家共識(shí)解讀課件
- 2026春外研社版英語八下單詞表(先鳥版)
- 人教版(PEP)四年級(jí)上學(xué)期英語期末卷(含答案)
- 非煤地下礦山員工培訓(xùn)
- 保安法律法規(guī)及業(yè)務(wù)能力培訓(xùn)
- 人員轉(zhuǎn)簽實(shí)施方案
- C強(qiáng)制認(rèn)證培訓(xùn)資料課件
- 2025秋南方新課堂金牌學(xué)案中國(guó)歷史七年級(jí)上冊(cè)(配人教版)(教師用書)
- GB/T 6109.1-2025漆包圓繞組線第1部分:一般規(guī)定
- 前縱隔占位患者的麻醉管理要點(diǎn)(PASF 2025年)
- 企業(yè)財(cái)務(wù)會(huì)計(jì)制度完整模板
評(píng)論
0/150
提交評(píng)論