版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第10章云計(jì)算與大數(shù)據(jù)10.1云計(jì)算10.2大數(shù)據(jù)10.1云計(jì)算概述云計(jì)算是一種通過互聯(lián)網(wǎng)按需提供計(jì)算資源和服務(wù)的技術(shù),用戶無需購買和維護(hù)硬件,只需按使用量付費(fèi)。云計(jì)算將硬件基礎(chǔ)設(shè)施、軟件平臺(tái)和服務(wù)能力抽象為在線服務(wù),為用戶提供高性價(jià)比、動(dòng)態(tài)擴(kuò)展、靈活可靠的解決方案。10.1云計(jì)算概述10.1.1云計(jì)算基本功能云計(jì)算平臺(tái)在向用戶提供服務(wù)時(shí),通常具備以下核心功能:網(wǎng)絡(luò)資源訪問:用戶可通過互聯(lián)網(wǎng)隨時(shí)隨地訪問云端資源;資源彈性伸縮:支持計(jì)算資源的動(dòng)態(tài)擴(kuò)容與釋放;資源虛擬化池化:通過虛擬化技術(shù),實(shí)現(xiàn)資源共享與動(dòng)態(tài)分配;用戶自主配置:用戶可通過平臺(tái)界面自行申請(qǐng)、配置、管理所需資源;按量計(jì)費(fèi):按實(shí)際使用量收費(fèi),降低使用門檻。云計(jì)算10.1云計(jì)算概述10.1.2服務(wù)模型云計(jì)算中的服務(wù)模型定義了不同層次的服務(wù)和資源如何以不同的方式提供給用戶,從用戶體驗(yàn)的角度出發(fā),服務(wù)模型主要分為軟件即服務(wù)、平臺(tái)即服務(wù)和基礎(chǔ)設(shè)施即服務(wù)。10.1云計(jì)算概述10.1.2軟件即服務(wù)(SaaS)SaaS是通過網(wǎng)絡(luò)提供軟件服務(wù)的模式,用戶無需購買軟件,只需租用基于Web的應(yīng)用,隨時(shí)隨地通過互聯(lián)網(wǎng)訪問。SaaS的優(yōu)勢是低成本、快速部署、運(yùn)維托管和靈活訪問。SaaS的主要功能是隨時(shí)隨地訪問、支持公開協(xié)議、安全保障和多租戶架構(gòu)。10.1云計(jì)算概述10.1.2SaaS的經(jīng)典案例10.1云計(jì)算概述10.1.2平臺(tái)即服務(wù)(PaaS)PaaS是提供服務(wù)器平臺(tái)和開發(fā)環(huán)境的云服務(wù),包含操作系統(tǒng)、編程環(huán)境等,支持應(yīng)用開發(fā)、部署與運(yùn)行,無需關(guān)注底層硬件。PaaS的主要優(yōu)勢是開發(fā)簡單、部署快捷與維護(hù)統(tǒng)一。PaaS的主要功能是良好的開發(fā)環(huán)境、豐富的服務(wù)、自動(dòng)資源調(diào)度和精細(xì)的管理監(jiān)控。10.1云計(jì)算概述10.1.2PaaS的經(jīng)典案例10.1云計(jì)算概述10.1.2基礎(chǔ)設(shè)施即服務(wù)(IaaS)IaaS是通過互聯(lián)網(wǎng)按需提供計(jì)算基礎(chǔ)設(shè)施的云服務(wù),用戶無需購置硬件,按使用量付費(fèi),靈活調(diào)整資源規(guī)模。PaaS的主要功能是資源抽象、負(fù)載管理、數(shù)據(jù)管理、資源部署、安全管理和計(jì)費(fèi)管理。10.1云計(jì)算概述10.1.2IaaS的經(jīng)典案例10.1云計(jì)算概述10.1.2三種服務(wù)模型的比較服務(wù)模型服務(wù)對(duì)象使用方式關(guān)鍵技術(shù)用戶的權(quán)限SaaS企業(yè)和終端用戶上傳數(shù)據(jù)Web服務(wù)技術(shù)、互聯(lián)網(wǎng)應(yīng)用開發(fā)技術(shù)等完全的管理控制PaaS應(yīng)用開發(fā)者上傳數(shù)據(jù)、程序代碼云平臺(tái)技術(shù)、數(shù)據(jù)管理技術(shù)等有限的管理控制IaaS需要硬件資源的用戶上傳數(shù)據(jù)、程序代碼、環(huán)境配置虛擬化技術(shù)、分布式存儲(chǔ)等僅限使用和配置10.1云計(jì)算概述10.1.3部署模型在云計(jì)算中主要有三種部署模式:公有云、私有云和混合云。公有云是由提供商向公眾提供的成本較低的服務(wù),存在一定的安全風(fēng)險(xiǎn)。私有云是由提供商專為單一組織建設(shè)的云計(jì)算系統(tǒng),管理復(fù)雜度較高且規(guī)模受限?;旌显平Y(jié)合了公有云和私有云的特點(diǎn)。它提供了兩者的優(yōu)點(diǎn),是一種折衷方案。私有云公有云混合云10.1云計(jì)算概述10.1.3部署模型應(yīng)用10.2大數(shù)據(jù)基本概念大數(shù)據(jù)是指體量龐大、類型多樣、增長迅猛的數(shù)據(jù)集合,其規(guī)模和復(fù)雜度超出傳統(tǒng)數(shù)據(jù)處理系統(tǒng)的處理能力。隨著物聯(lián)網(wǎng)(IoT)和可穿戴設(shè)備的普及,數(shù)據(jù)生成速度呈現(xiàn)爆炸式增長,大數(shù)據(jù)已成為推動(dòng)產(chǎn)業(yè)變革與技術(shù)創(chuàng)新的重要驅(qū)動(dòng)力。大數(shù)據(jù)的核心價(jià)值在于其對(duì)現(xiàn)實(shí)世界的深度洞察。通過高效的數(shù)據(jù)分析與處理,大數(shù)據(jù)能夠幫助企業(yè)與政府優(yōu)化決策流程、提升運(yùn)行效率,并挖掘出新的業(yè)務(wù)與社會(huì)價(jià)值。10.2大數(shù)據(jù)數(shù)據(jù)的整體體系智慧知識(shí)信息數(shù)據(jù)智能提煉信息之間的聯(lián)系數(shù)據(jù)中提煉出的邏輯、規(guī)律原始素材數(shù)據(jù)是對(duì)客觀事物的記錄,以符號(hào)、文字、圖形等形式表現(xiàn),構(gòu)成金字塔的最底層。它們是最基礎(chǔ)、原始、未經(jīng)加工的事實(shí),通常孤立存在,缺乏直接意義,但蘊(yùn)含著潛在的價(jià)值。信息是從數(shù)據(jù)中提取出的、經(jīng)過加工、組織和解釋的有意義內(nèi)容,能夠?yàn)闆Q策或認(rèn)知提供支持。信息具備傳遞與轉(zhuǎn)換的能力,使得原始數(shù)據(jù)獲得了實(shí)際價(jià)值。知識(shí)是金字塔中的第三層,代表從信息中提煉出的深層理解與系統(tǒng)性洞察。它不僅是信息的累積,更是信息經(jīng)過分析綜合與抽象后的結(jié)構(gòu)化認(rèn)知,體現(xiàn)了人們對(duì)特定領(lǐng)域的認(rèn)知能力。智慧是金字塔的頂層,代表人類在已有知識(shí)的基礎(chǔ)上,運(yùn)用經(jīng)驗(yàn)、判斷與價(jià)值觀對(duì)復(fù)雜問題做出理性分析與有效決策的能力。它不僅是知識(shí)的延伸,更體現(xiàn)了對(duì)知識(shí)的深度融合與靈活運(yùn)用。10.2大數(shù)據(jù)大數(shù)據(jù)的特點(diǎn)大數(shù)據(jù)通常具有以下四個(gè)顯著特征,統(tǒng)稱為“4V”模型:數(shù)據(jù)量(Volume):數(shù)據(jù)規(guī)模龐大,單位通常為PB(1024TB)、EB(1024PB)甚至ZB(1024EB),未來可能達(dá)到Y(jié)B(1024ZB)級(jí)別。數(shù)據(jù)種類(Variety):數(shù)據(jù)類型豐富,包括結(jié)構(gòu)化數(shù)據(jù)(如關(guān)系型數(shù)據(jù)庫)、半結(jié)構(gòu)化數(shù)據(jù)(如日志文件、XML)以及非結(jié)構(gòu)化數(shù)據(jù)(如圖像、音頻、文本等)。處理速度(Velocity):大數(shù)據(jù)處理要求高實(shí)時(shí)性,需在秒級(jí)時(shí)間內(nèi)完成分析并給出反饋,否則數(shù)據(jù)的價(jià)值可能迅速流失。價(jià)值密度(Value):雖然數(shù)據(jù)量龐大,但真正具有高價(jià)值的信息僅占很小比例,因此必須借助高效的算法與模型,挖掘其中潛在的知識(shí)與規(guī)律。10.2大數(shù)據(jù)大數(shù)據(jù)的生命周期大數(shù)據(jù)的本質(zhì)在于從海量、異構(gòu)的數(shù)據(jù)中挖掘出具有潛在價(jià)值的信息。雖然數(shù)據(jù)的價(jià)值往往在被實(shí)際使用時(shí)才能顯現(xiàn),但其潛在價(jià)值有時(shí)需要在未來特定情境下才能被充分釋放。從數(shù)據(jù)采集到結(jié)果展示,大數(shù)據(jù)處理流程一般可劃分為五個(gè)主要階段。數(shù)據(jù)采集數(shù)據(jù)預(yù)處理數(shù)據(jù)存儲(chǔ)數(shù)據(jù)處理數(shù)據(jù)可視化10.2大數(shù)據(jù)數(shù)據(jù)采集大數(shù)據(jù)的生命周期中,數(shù)據(jù)采集是最初也是最關(guān)鍵的階段,是數(shù)據(jù)分析的前提。它指的是通過各種技術(shù)手段實(shí)時(shí)或非實(shí)時(shí)地從不同的數(shù)據(jù)源中獲取數(shù)據(jù)。這些數(shù)據(jù)源可以是各種設(shè)備、系統(tǒng)或平臺(tái),數(shù)據(jù)采集的目標(biāo)是獲取盡可能多的信息,以供后續(xù)分析和處理。結(jié)構(gòu)化數(shù)據(jù)非結(jié)構(gòu)化數(shù)據(jù)半結(jié)構(gòu)化數(shù)據(jù)數(shù)據(jù)采集要求具有全面性、多維性和高效性。10.2大數(shù)據(jù)數(shù)據(jù)預(yù)處理采集到的數(shù)據(jù)往往會(huì)存在一些問題,這些問題使得數(shù)據(jù)質(zhì)量無法滿足實(shí)際需求。數(shù)據(jù)質(zhì)量問題會(huì)對(duì)數(shù)據(jù)挖掘產(chǎn)生不良影響,甚至造成誤導(dǎo)和損失。為了確保后續(xù)數(shù)據(jù)處理操作的能夠得到可靠的結(jié)果,需要對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理。預(yù)處理的目的是將數(shù)據(jù)集轉(zhuǎn)換為符合數(shù)據(jù)挖掘算法要求的格式,提高數(shù)據(jù)的質(zhì)量和有效性。數(shù)據(jù)清洗數(shù)據(jù)集成數(shù)據(jù)轉(zhuǎn)換數(shù)據(jù)規(guī)約10.2大數(shù)據(jù)數(shù)據(jù)清洗采集數(shù)據(jù)清洗是指對(duì)數(shù)據(jù)進(jìn)行重新審查和校驗(yàn)的過程,其目的是刪除重復(fù)數(shù)據(jù)、糾正數(shù)據(jù)中的錯(cuò)誤,并確保數(shù)據(jù)的一致性和準(zhǔn)確性。數(shù)據(jù)清洗的常用方法包括處理缺失值、檢測離群點(diǎn)、不一致數(shù)據(jù)處理和冗余數(shù)據(jù)處理等,其中處理缺失值和檢測離群點(diǎn)是兩個(gè)典型的方法。10.2大數(shù)據(jù)數(shù)據(jù)集成數(shù)據(jù)集成是指將存儲(chǔ)在不同系統(tǒng)、平臺(tái)甚至不同地域的數(shù)據(jù),進(jìn)行整合并合并到統(tǒng)一的存儲(chǔ)介質(zhì)中,使之能夠在一致的框架下進(jìn)行查詢和分析。數(shù)據(jù)集成過程通常面臨以下幾個(gè)挑戰(zhàn):字段意義問題:不同數(shù)據(jù)源中相同的字段可能代表不同的含義;字段結(jié)構(gòu)問題:不同數(shù)據(jù)源在存儲(chǔ)相同字段的數(shù)據(jù)時(shí)采用了不同的存儲(chǔ)格式;字段冗余問題:字段之間的強(qiáng)相關(guān)性或字段間的可推導(dǎo)性;數(shù)據(jù)重復(fù)問題:數(shù)據(jù)集中可能存在多條相同的數(shù)據(jù)記錄。10.2大數(shù)據(jù)數(shù)據(jù)轉(zhuǎn)換在進(jìn)行數(shù)據(jù)分析時(shí),數(shù)據(jù)格式必須滿足特定的要求。為此,通常需要在數(shù)據(jù)分析前對(duì)格式不統(tǒng)一的數(shù)據(jù)進(jìn)行轉(zhuǎn)換,使其符合統(tǒng)一的格式要求。常見的數(shù)據(jù)轉(zhuǎn)換策略包括:平滑處理:去除數(shù)據(jù)中的噪聲,從而提高數(shù)據(jù)質(zhì)量;合計(jì)處理:對(duì)數(shù)據(jù)進(jìn)行匯總或總結(jié);泛化處理:用更高層次的概念替換低層次的概念;屬性構(gòu)造:在現(xiàn)有數(shù)據(jù)集的基礎(chǔ)上生成新的屬性;規(guī)格化處理:將數(shù)據(jù)按比例縮放到特定范圍內(nèi),以消除不同屬性間的量綱差異;數(shù)據(jù)離散化:將連續(xù)的數(shù)值型數(shù)據(jù)轉(zhuǎn)換為離散數(shù)據(jù)。10.2大數(shù)據(jù)數(shù)據(jù)規(guī)約在數(shù)據(jù)系統(tǒng)中常常會(huì)出現(xiàn)重復(fù)數(shù)據(jù)條目或冗余屬性。這些多余的元素不僅增加了數(shù)據(jù)存儲(chǔ)和處理的復(fù)雜性,還可能影響分析結(jié)果的準(zhǔn)確性。因此需要有效識(shí)別并移除這些重復(fù)的數(shù)據(jù)和冗余屬性的技術(shù),在盡可能保留數(shù)據(jù)集核心信息的前提下,縮小數(shù)據(jù)集規(guī)模。屬性子集的選擇:通過篩選出與分析任務(wù)相關(guān)的屬性,從而減少數(shù)據(jù)維度;屬性值歸約:過減少屬性值的可能取值范圍,可以降低數(shù)據(jù)處理的復(fù)雜度;實(shí)例歸約:通過抽樣的方法減少數(shù)據(jù)集中的樣本數(shù)量,而又盡量保持原數(shù)據(jù)的分布和代表性。10.2大數(shù)據(jù)數(shù)據(jù)挖掘的基本任務(wù)為了有效地分析和利用這些數(shù)據(jù),強(qiáng)大的大數(shù)據(jù)處理技術(shù)成為必不可少的工具。大數(shù)據(jù)處理技術(shù)的快速發(fā)展,使我們能夠從這些海量數(shù)據(jù)中挖掘有價(jià)值的信息。分類問題:它指的是根據(jù)數(shù)據(jù)的某些特定屬性或特征,將具有相似屬性的數(shù)據(jù)歸類到同一類別中。聚類問題:將數(shù)據(jù)按照相似性劃分為不同的類(簇)。與分類不同,聚類在分析之前并沒有預(yù)設(shè)的分類標(biāo)準(zhǔn),而是通過算法發(fā)現(xiàn)數(shù)據(jù)之間的內(nèi)在聯(lián)系。關(guān)聯(lián)分析:通過分析大規(guī)模數(shù)據(jù)中各個(gè)元素之間的關(guān)系,挖掘有價(jià)值的關(guān)聯(lián)信息。10.2大數(shù)據(jù)數(shù)據(jù)挖掘的開源工具WekaSPSSHive源自新西蘭懷卡托大學(xué)基于Java的開源機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘軟件支持?jǐn)?shù)據(jù)預(yù)處理、分類、聚類、關(guān)聯(lián)分析及數(shù)據(jù)可視化IBM開發(fā)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 光伏面板安裝培訓(xùn)課件
- 隆昌生物中考試卷及答案
- 光伏區(qū)防火安全培訓(xùn)課件
- 值班工作安全教育培訓(xùn)課件
- 佳木斯綜掘機(jī)培訓(xùn)課件
- 2024統(tǒng)編版八年級(jí)歷史上冊第三次月考測試卷(含答案)
- 余杭區(qū)企業(yè)質(zhì)量安全培訓(xùn)課件
- 概率論期末試卷及答案
- 法律文書考試及答案
- 二建考試題庫及答案
- 留學(xué)合同補(bǔ)充協(xié)議
- 2025山東日照五蓮縣城市社區(qū)專職工作者招聘8人考試題庫必考題
- 溶劑精制裝置操作工班組安全考核試卷含答案
- 2025年超聲科工作總結(jié)和2026年工作計(jì)劃
- 2026年遼寧醫(yī)藥職業(yè)學(xué)院單招職業(yè)適應(yīng)性測試題庫及答案詳解一套
- 2025河南鄭州公用事業(yè)投資發(fā)展集團(tuán)有限公司招聘10人筆試參考題庫附帶答案詳解(3卷)
- 招標(biāo)代理質(zhì)疑投訴處理方案及措施
- 2025西部機(jī)場集團(tuán)航空物流有限公司招聘參考模擬試題及答案解析
- 2025重慶空港人力資源管理有限公司招聘筆試歷年參考題庫附帶答案詳解
- 測量員測量員工作創(chuàng)新案例
- 投資包賠協(xié)議書模板
評(píng)論
0/150
提交評(píng)論