版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
數(shù)據(jù)庫(kù)系統(tǒng)概論
AnIntroductiontoDatabaseSystem第14章大數(shù)據(jù)管理xxxxx1
目錄
大數(shù)據(jù)概述
大數(shù)據(jù)的應(yīng)用
大數(shù)據(jù)管理系統(tǒng)
小結(jié)2023/9/3大數(shù)據(jù)概述什么是大數(shù)據(jù)?2023/9/3什么是大數(shù)據(jù)
2023/9/3什么是大數(shù)據(jù)分類(lèi):按大數(shù)據(jù)的應(yīng)用類(lèi)型將大數(shù)據(jù)分為海量交易數(shù)據(jù)(企業(yè)OLTP應(yīng)用)、海量交互數(shù)據(jù)(社交網(wǎng)、傳感器、全球定位系統(tǒng)、Web信息)和海量處理數(shù)據(jù)(企業(yè)OLAP應(yīng)用)。2023/9/3大數(shù)據(jù)的特征巨量(Volume)多樣(Variety)快變(Velocity)價(jià)值(Value)2023/9/3大數(shù)據(jù)的特征—巨量大數(shù)據(jù)的首要特征是數(shù)據(jù)量巨大,而且在持續(xù)、急劇地膨脹。大規(guī)模數(shù)據(jù)的幾個(gè)主要來(lái)源有:科學(xué)研究、互聯(lián)網(wǎng)應(yīng)用和電子商務(wù)領(lǐng)域、傳感器數(shù)據(jù)、網(wǎng)站點(diǎn)擊流數(shù)據(jù)、移動(dòng)設(shè)備數(shù)據(jù)、無(wú)線(xiàn)射頻識(shí)別數(shù)據(jù)等。2023/9/3大數(shù)據(jù)的特征—巨量觀點(diǎn):大是相對(duì)的,是和當(dāng)時(shí)的計(jì)算機(jī)處理能力相關(guān)的,超過(guò)了現(xiàn)有技術(shù)的能力。但是,“大規(guī)?!庇质谴髷?shù)據(jù)的基本要求。80年代,百萬(wàn)條記錄就是VERYLARGEDATA00年代,TB級(jí)別就是DATAINTENSIVE10年代,100T以上,甚至PB級(jí)才能夠算得上是大數(shù)據(jù)從現(xiàn)在起,每18個(gè)月,新增的存儲(chǔ)量等于有史以來(lái)存儲(chǔ)量之和!——1998年圖靈獎(jiǎng)獲得者JimGray2023/9/3大數(shù)據(jù)的特征—多樣數(shù)據(jù)的多樣性通常是指異構(gòu)的數(shù)據(jù)類(lèi)型、不同的數(shù)據(jù)表示和語(yǔ)義解釋?,F(xiàn)在,越來(lái)越多的應(yīng)用所產(chǎn)生的數(shù)據(jù)類(lèi)型不再是純粹的關(guān)系數(shù)據(jù),更多的是非結(jié)構(gòu)化、半結(jié)構(gòu)化的數(shù)據(jù),如文本、圖形、圖像、音頻、視頻、網(wǎng)頁(yè)、推特、和博客等。2023/9/3大數(shù)據(jù)的特征—快變大數(shù)據(jù)的快變性也稱(chēng)為實(shí)時(shí)性,一方面指數(shù)據(jù)到達(dá)的速度很快,另一方面指能夠進(jìn)行處理的時(shí)間很短,或者要求響應(yīng)速度很快,即實(shí)時(shí)響應(yīng)。數(shù)據(jù)到達(dá)或者產(chǎn)生的速度太快,對(duì)系統(tǒng)處理造成巨大的壓力。例如,入庫(kù)速度要求:100GB/S。2023/9/3大數(shù)據(jù)的特征—快變時(shí)間交易額描述0時(shí)0分52秒超過(guò)10億一分鐘超10億的交易額0時(shí)14分16秒超19億超過(guò)2012年雙十一全天交易額1時(shí)突破353億超過(guò)2013年雙十一全天交易額6時(shí)54分53秒超571億超過(guò)2014年雙十一全天交易額15時(shí)19分13秒912億超過(guò)2015年雙十一全天交易額24時(shí)超1207億交易額翻了一番無(wú)線(xiàn)交易額占比81.87%,覆蓋235個(gè)國(guó)家和地區(qū)“現(xiàn)象級(jí)”應(yīng)用:在某一個(gè)時(shí)期,對(duì)系統(tǒng)的壓力突然暴增,極易導(dǎo)致系統(tǒng)的崩潰。2023/9/3大數(shù)據(jù)的特征—價(jià)值大數(shù)據(jù)的價(jià)值是潛在的、巨大的。大數(shù)據(jù)不僅具有經(jīng)濟(jì)價(jià)值和產(chǎn)業(yè)價(jià)值,還具有科學(xué)價(jià)值。這是大數(shù)據(jù)最重要的特點(diǎn),也是大數(shù)據(jù)的魅力所在。2023/9/3大數(shù)據(jù)的應(yīng)用大數(shù)據(jù)的應(yīng)用特征:大數(shù)據(jù)作為一種新的戰(zhàn)略資源,要重視對(duì)數(shù)據(jù)對(duì)象的管理、重視數(shù)據(jù)治理。大數(shù)據(jù)作為一種新的研究方法,已經(jīng)在許多學(xué)科領(lǐng)域取得成效在:第四研究范型大數(shù)據(jù)作為一種新的信息化的思維,強(qiáng)調(diào)跨界應(yīng)用,數(shù)據(jù)整合基礎(chǔ)上的創(chuàng)新。2023/9/3大數(shù)據(jù)的應(yīng)用應(yīng)用案例:感知現(xiàn)在預(yù)測(cè)未來(lái)——互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘數(shù)據(jù)服務(wù)實(shí)時(shí)推薦——基于大數(shù)據(jù)分析的用戶(hù)建模2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)媒體文本大數(shù)據(jù)應(yīng)用:時(shí)事探針高速發(fā)展的互聯(lián)網(wǎng)媒體在給人們獲取信息帶來(lái)便利的同時(shí),也帶來(lái)了新的挑戰(zhàn),其中之一便是“信息過(guò)載”問(wèn)題。當(dāng)一個(gè)重要新聞事件發(fā)生后,各種互聯(lián)網(wǎng)媒體會(huì)有大量相關(guān)報(bào)道。時(shí)事探針系統(tǒng)可以實(shí)時(shí)監(jiān)控、收集互聯(lián)網(wǎng)媒體數(shù)據(jù),并對(duì)數(shù)據(jù)進(jìn)行深入的挖掘和分析。其主要功能包括動(dòng)態(tài)數(shù)據(jù)抓取、歷史數(shù)據(jù)保留、數(shù)據(jù)深度智能分析、數(shù)據(jù)可視化展示、敏感信息實(shí)時(shí)捕捉、預(yù)定閾值報(bào)警等。2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)媒體文本大數(shù)據(jù)應(yīng)用:時(shí)事探針該系統(tǒng)可以有效地幫助用戶(hù)、企業(yè)以及政府機(jī)構(gòu)對(duì)所關(guān)注的新聞話(huà)題在互聯(lián)網(wǎng)媒體中的報(bào)道進(jìn)行感知、獲取、跟蹤、預(yù)警和深入分析,具有極大應(yīng)用價(jià)值。2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的挑戰(zhàn)無(wú)法事先預(yù)定義關(guān)系模式和值域無(wú)法直接用關(guān)系型數(shù)據(jù)進(jìn)行存儲(chǔ)和查詢(xún)可擴(kuò)展性和實(shí)時(shí)性要求高對(duì)于文本大數(shù)據(jù)處理,目前廣泛使用的互聯(lián)網(wǎng)搜索引擎只是對(duì)文本數(shù)據(jù)的簡(jiǎn)單索引和查找,不能滿(mǎn)足用戶(hù)對(duì)所關(guān)注的話(huà)題進(jìn)行實(shí)時(shí)監(jiān)測(cè)、深入分析以及決策支持等需求。2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)文本大數(shù)據(jù)管理系統(tǒng)時(shí)事探針系統(tǒng)時(shí)事探針系統(tǒng)是一個(gè)面向互聯(lián)網(wǎng)文本大數(shù)據(jù)的通用的管理和分析平臺(tái)。整個(gè)系統(tǒng)分為離線(xiàn)處理和在線(xiàn)處理兩個(gè)部分。其中離線(xiàn)部分是設(shè)計(jì)的重點(diǎn),主要功能有:多源異構(gòu)網(wǎng)絡(luò)大數(shù)據(jù)的感知和獲取文檔理解及結(jié)構(gòu)化數(shù)據(jù)抽取和集成數(shù)據(jù)存儲(chǔ)和索引離線(xiàn)主題文本立方體建立及更新2023/9/3互聯(lián)網(wǎng)文本大數(shù)據(jù)管理與挖掘互聯(lián)網(wǎng)文本大數(shù)據(jù)管理的特點(diǎn):互聯(lián)網(wǎng)文本大數(shù)據(jù)蘊(yùn)含著豐富的社會(huì)信息,可以看作是對(duì)真實(shí)社會(huì)的網(wǎng)絡(luò)映射實(shí)時(shí)、深入分析互聯(lián)網(wǎng)文本大數(shù)據(jù),幫助人們?cè)诤A繑?shù)據(jù)中獲取有價(jià)值的信息,發(fā)現(xiàn)蘊(yùn)含的規(guī)律,可以更好地感知現(xiàn)在、預(yù)測(cè)未來(lái),體現(xiàn)了第四范式數(shù)據(jù)密集型科學(xué)發(fā)現(xiàn)的研究方式和思維方式?;ヂ?lián)網(wǎng)文本大數(shù)據(jù)管理對(duì)大數(shù)據(jù)系統(tǒng)和技術(shù)的挑戰(zhàn)是全面的、跨學(xué)科領(lǐng)域的,需要?jiǎng)?chuàng)新,也需要繼承傳統(tǒng)數(shù)據(jù)管理技術(shù)和數(shù)據(jù)倉(cāng)庫(kù)分析技術(shù)的精華。2023/9/3基于大數(shù)據(jù)分析的用戶(hù)建模面向用戶(hù)建模的大數(shù)據(jù)系統(tǒng)架構(gòu)面向大眾的信息服務(wù)類(lèi)應(yīng)用在為大規(guī)模的用戶(hù)提供信息服務(wù)的同時(shí),通過(guò)用戶(hù)原創(chuàng)內(nèi)容(UserGeneratedContent,UGC)或者系統(tǒng)日志等方式不斷地收集數(shù)據(jù)。這些數(shù)據(jù)與用戶(hù)的行為緊密相關(guān),被用來(lái)分析用戶(hù)的興趣特征,創(chuàng)建用戶(hù)的描述文件,這就是基于大數(shù)據(jù)分析的用戶(hù)建模。2023/9/3基于大數(shù)據(jù)分析的用戶(hù)建模面向用戶(hù)建模的大數(shù)據(jù)系統(tǒng)架構(gòu)用戶(hù)建模的目標(biāo)是為了準(zhǔn)確地把握用戶(hù)的行為特征、興趣愛(ài)好等,進(jìn)而較為精準(zhǔn)地向用戶(hù)提供個(gè)性化地信息服務(wù)或信息推薦。2023/9/3基于大數(shù)據(jù)分析的用戶(hù)建模面向用戶(hù)建模的大數(shù)據(jù)系統(tǒng)架構(gòu)上層應(yīng)用(信息推薦等)數(shù)據(jù)服務(wù)(用戶(hù)興趣模型表)在線(xiàn)分析離線(xiàn)分析實(shí)時(shí)大數(shù)據(jù)歷史大數(shù)據(jù)面向用戶(hù)建模的大數(shù)據(jù)系統(tǒng)架構(gòu)示意圖2023/9/3基于大數(shù)據(jù)分析的用戶(hù)建模數(shù)據(jù)分析:用戶(hù)建模的基礎(chǔ)工具一大類(lèi)用戶(hù)建模方法采用的是批處理方式的離線(xiàn)分析方法,對(duì)結(jié)構(gòu)化或半結(jié)構(gòu)化的歷史日志數(shù)據(jù)進(jìn)行SQL分析或者使用數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)的深度分析方法。特點(diǎn):當(dāng)數(shù)據(jù)量很大時(shí),很耗時(shí);其次,這類(lèi)離線(xiàn)分析方法復(fù)雜度高、處理代價(jià)巨大,不能夠頻繁調(diào)用;實(shí)時(shí)性較差。主要適合分析那些通過(guò)大規(guī)模數(shù)據(jù)得出的相對(duì)穩(wěn)定的用戶(hù)屬性。2023/9/3基于大數(shù)據(jù)分析的用戶(hù)建模數(shù)據(jù)分析:用戶(hù)建模的基礎(chǔ)工具另一大類(lèi)用戶(hù)建模方法則采用實(shí)時(shí)的在線(xiàn)分析方法,數(shù)據(jù)即來(lái)即分析,更強(qiáng)調(diào)數(shù)據(jù)的實(shí)時(shí)分析處理能力。特點(diǎn):實(shí)時(shí)性較好;當(dāng)處理用戶(hù)規(guī)模很大時(shí),其代價(jià)是昂貴的。這類(lèi)方法適合于捕捉一些時(shí)效性強(qiáng)的用戶(hù)屬性,比如用戶(hù)當(dāng)前的位置、手機(jī)信號(hào)強(qiáng)度等。2023/9/3基于大數(shù)據(jù)分析的用戶(hù)建模數(shù)據(jù)服務(wù):用戶(hù)建模的價(jià)值體現(xiàn)特點(diǎn):模型的建立來(lái)自對(duì)大數(shù)據(jù)的分析結(jié)果。建模的過(guò)程是動(dòng)態(tài)的,隨著實(shí)際對(duì)象地變化,模型也在變化。數(shù)據(jù)處理既有對(duì)歷史數(shù)據(jù)的離線(xiàn)分析和挖掘,又有對(duì)實(shí)時(shí)流數(shù)據(jù)的在線(xiàn)采集和分析,體現(xiàn)了大數(shù)據(jù)上不同層次的分析:流分析、SQL分析、深度分析的需求。用戶(hù)模型本身也是大數(shù)據(jù),緯度高,信息稀疏,用戶(hù)模型的存儲(chǔ)、管理是數(shù)據(jù)服務(wù)的重要任務(wù),要滿(mǎn)足大規(guī)模應(yīng)用需求的高并發(fā)數(shù)據(jù)更新與讀取。2023/9/3大數(shù)據(jù)管理系統(tǒng)數(shù)據(jù)管理技術(shù)和系統(tǒng)是大數(shù)據(jù)應(yīng)用系統(tǒng)的基礎(chǔ)。為了應(yīng)對(duì)大數(shù)據(jù)應(yīng)用的迫切需求,人們研究和發(fā)展了以Key/Value非關(guān)系數(shù)據(jù)模型和MapReduce并行編程模型為代表的眾多新技術(shù)和新系統(tǒng)。2023/9/3大數(shù)據(jù)管理系統(tǒng)NoSQL數(shù)據(jù)管理系統(tǒng)NewSQL數(shù)據(jù)庫(kù)系統(tǒng)MapReduce技術(shù)大數(shù)據(jù)管理系統(tǒng)的新格局2023/9/3大數(shù)據(jù)管理系統(tǒng)NoSQL數(shù)據(jù)管理系統(tǒng)NoSQL是以互聯(lián)網(wǎng)大數(shù)據(jù)應(yīng)用為背景發(fā)展起來(lái)的分布式數(shù)據(jù)管理系統(tǒng)。NoSQL有兩種解釋?zhuān)阂环N是Non-Relational,即非關(guān)系數(shù)據(jù)庫(kù);另一種是NotOnlySQL,即數(shù)據(jù)管理技術(shù)不僅僅是SQL。目前第二種解釋更為流行。NoSQL系統(tǒng)支持的數(shù)據(jù)模型通常分為Key-Value模型、BigTable模型、文檔模型和圖模型4種模型。2023/9/3大數(shù)據(jù)管理系統(tǒng)NewSQL數(shù)據(jù)庫(kù)系統(tǒng)NewSQL系統(tǒng)是融合了NoSQL系統(tǒng)和傳統(tǒng)數(shù)據(jù)庫(kù)事務(wù)管理功能的新型數(shù)據(jù)庫(kù)系統(tǒng)。2023/9/3大數(shù)據(jù)管理系統(tǒng)系統(tǒng)名稱(chēng)易用性對(duì)事物的支持?jǐn)U展性數(shù)據(jù)量成本代表系統(tǒng)操作方式一致性、并發(fā)控制經(jīng)典關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)SQL系統(tǒng)易用SQLACID強(qiáng)一致性<1000結(jié)點(diǎn)TB高Oracle,DB2,GreenplumNoSQL系統(tǒng)Get/Put等存取原語(yǔ)弱一致性最終一致性>10000結(jié)點(diǎn)PB低BigTable,PNUTSNewSQL系統(tǒng)SQLACID>10000結(jié)點(diǎn)PB低VoltDB,SpannerSQL系統(tǒng)、NoSQL系統(tǒng)、NewSQL系統(tǒng)的比較2023/9/3大數(shù)據(jù)管理系統(tǒng)MapReduce技術(shù)MapReduce技術(shù)是Google公司于2004年提出的大規(guī)模并行計(jì)算解決方案,主要應(yīng)用于大規(guī)模廉價(jià)集群上的大數(shù)據(jù)并行處理。MapReduce是一種并行編程模型。
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 《GBT 31424-2015 煤灰黏度測(cè)定方法》專(zhuān)題研究報(bào)告
- 某著名企業(yè)發(fā)展戰(zhàn)略
- 《GBT 17999.4-2008 SPF雞 微生物學(xué)監(jiān)測(cè) 第4部分:SPF雞 血清平板凝集試驗(yàn)》專(zhuān)題研究報(bào)告
- 《GBT 21929-2008泰格閉口杯閃點(diǎn)測(cè)定法》專(zhuān)題研究報(bào)告
- 道路安全培訓(xùn)體會(huì)心得課件
- 2026年海南省海口市輔警考試題庫(kù)含答案
- 2026年廣西壯族自治區(qū)賀州市輔警考試試卷及答案
- 道口工人身安全培訓(xùn)課件
- 2024版多協(xié)會(huì)非心臟手術(shù)圍手術(shù)期心血管管理指南解讀課件
- 返崗復(fù)工安全培訓(xùn)要求課件
- 2022年中國(guó)工藝美術(shù)館招聘考試真題
- 輔導(dǎo)員工作的職責(zé)與使命課件
- 防造假管理程序文件
- ktv股東合作協(xié)議書(shū)
- 2023年北京海淀區(qū)高三一?;瘜W(xué)試題及答案
- 腫瘤內(nèi)科靜脈給予抗腫瘤藥物評(píng)價(jià)標(biāo)準(zhǔn)
- 醫(yī)療器械生產(chǎn)質(zhì)量管理規(guī)范無(wú)菌醫(yī)療器械實(shí)施細(xì)則和檢查評(píng)定標(biāo)準(zhǔn)
- 吊籃租賃安拆分包合同
- GB/T 20728-2006封閉管道中流體流量的測(cè)量科里奧利流量計(jì)的選型、安裝和使用指南
- FZ/T 54033-2010錦綸6高取向絲(HOY)
- 六年級(jí)英語(yǔ)上冊(cè)-Unit-5-What-does-he-do單元整體分析-人教PEP
評(píng)論
0/150
提交評(píng)論