版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
高等學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用規(guī)劃教材
大數(shù)據(jù)技術(shù)概論
陳明編著
文前(調(diào)版).indd12019-1-910:57:37
內(nèi)容簡(jiǎn)介
大數(shù)據(jù)技術(shù)是一個(gè)面向?qū)嶋H應(yīng)用的技術(shù)。從大數(shù)據(jù)中獲取有價(jià)值信息是大數(shù)據(jù)技術(shù)的精
髓。本書概括性介紹了數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)的主要內(nèi)容。全書分為9章,主要包括概述、
大數(shù)據(jù)處理平臺(tái)、大數(shù)據(jù)獲取與存儲(chǔ)管理技術(shù)、大數(shù)據(jù)抽取技術(shù)、大數(shù)據(jù)清洗技術(shù)、大數(shù)據(jù)
去噪與標(biāo)準(zhǔn)化、大數(shù)據(jù)約簡(jiǎn)與集成技術(shù)、大數(shù)據(jù)分析與挖掘技術(shù)、大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn)。
本書在內(nèi)容上,注重基本概念、基本方法介紹,實(shí)例豐富、語(yǔ)言精練、邏輯層次清晰,
適合作為大學(xué)“數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)”專業(yè)和相近專業(yè)的教材,也可以作為科技人員的參
考書。
圖書在版編目(CIP)數(shù)據(jù)
大數(shù)據(jù)技術(shù)概論/陳明編著.—北京:中國(guó)鐵道
出版社,2019.1
高等學(xué)校大數(shù)據(jù)技術(shù)與應(yīng)用規(guī)劃教材
ISBN978-7-113-24818-5
Ⅰ.①大…Ⅱ.①陳…Ⅲ.①數(shù)據(jù)處理-高等學(xué)校-
教材Ⅳ.①TP274
中國(guó)版本圖書館CIP數(shù)據(jù)核字(2018)第178257號(hào)
書名:大數(shù)據(jù)技術(shù)概論
作者:陳明編著
策劃:秦緒好讀者熱線:(010)63550836
責(zé)任編輯:秦緒好
封面設(shè)計(jì):鄭春鵬
責(zé)任校對(duì):張玉華
責(zé)任印制:郭向偉
出版發(fā)行:中國(guó)鐵道出版社(100054,北京市西城區(qū)右安門西街8號(hào))
網(wǎng)址:/51eds/
印刷:北京銘成印刷有限公司
版次:2019年1月第1版2019年1月第1次印刷
開本:850mm×1168mm1/16?印張:17.25字?jǐn)?shù):456千
書號(hào):ISBN978-7-113-24818-5
定價(jià):52.00元
版權(quán)所有侵權(quán)必究
凡購(gòu)買鐵道版圖書,如有印制質(zhì)量問(wèn)題,請(qǐng)與本社教材圖書營(yíng)銷部聯(lián)系調(diào)換。電話:(010)63550836
打擊盜版舉報(bào)電話:(010)51873659
文前(調(diào)版).indd22019-1-1014:07:45
PREFACE前言
大數(shù)據(jù)技術(shù)與應(yīng)用展現(xiàn)出銳不可當(dāng)?shù)膹?qiáng)大生命力,科學(xué)界與企業(yè)界對(duì)其寄予厚望。
大數(shù)據(jù)成為繼20世紀(jì)末、21世紀(jì)初互聯(lián)網(wǎng)蓬勃發(fā)展以來(lái)的又一輪IT工業(yè)革命。
大數(shù)據(jù)技術(shù)是指經(jīng)過(guò)數(shù)據(jù)獲取、清洗、集成、挖掘、分析與結(jié)果解釋,從各種類型
的巨量數(shù)據(jù)中快速獲得有價(jià)值信息的全部技術(shù)。大數(shù)據(jù)技術(shù)的精髓是從大數(shù)據(jù)中產(chǎn)生新
見解、識(shí)別復(fù)雜關(guān)系和做出越來(lái)越精準(zhǔn)的預(yù)測(cè)。
大數(shù)據(jù)技術(shù)是現(xiàn)代科學(xué)與技術(shù)發(fā)展,尤其是計(jì)算機(jī)科學(xué)技術(shù)發(fā)展的重要成果和結(jié)晶,
是科學(xué)發(fā)展史的又一個(gè)新的里程碑。大數(shù)據(jù)的出現(xiàn)對(duì)計(jì)算機(jī)許多領(lǐng)域提出了挑戰(zhàn)與沖擊,
推動(dòng)了計(jì)算機(jī)科學(xué)技術(shù)的發(fā)展。
大數(shù)據(jù)技術(shù)的出現(xiàn)凝集了多學(xué)科的研究成果,是一門多學(xué)科的交叉融合技術(shù),隨著
科學(xué)技術(shù)的發(fā)展,大數(shù)據(jù)技術(shù)發(fā)展更為迅速,應(yīng)用更為深入與廣泛,并凸顯其巨大潛力
和應(yīng)用價(jià)值。
本書系統(tǒng)地介紹了大數(shù)據(jù)技術(shù)的核心內(nèi)容,對(duì)大數(shù)據(jù)處理周期的各部分的模型和方
法做了概括性介紹,而且基于應(yīng)用的角度介紹了當(dāng)下流行的Hadoop、Storm和Spark大
數(shù)據(jù)處理平臺(tái),為將大數(shù)據(jù)處理周期中的處理方法在這些平臺(tái)上實(shí)現(xiàn)建立了基礎(chǔ)。本書
主要內(nèi)容說(shuō)明如下。
第1章為概述,主要包括數(shù)據(jù)科學(xué)、大數(shù)據(jù)的生態(tài)環(huán)境、大數(shù)據(jù)的概念、大數(shù)據(jù)的
性質(zhì)、大數(shù)據(jù)處理周期和科學(xué)研究范式;第2章為大數(shù)據(jù)處理平臺(tái),主要包括Hadoop
大數(shù)據(jù)處理平臺(tái)、Storm大數(shù)據(jù)處理平臺(tái)和Spark大數(shù)據(jù)處理平臺(tái);第3章為大數(shù)據(jù)獲
取與存儲(chǔ)管理技術(shù),主要包括大數(shù)據(jù)獲取、領(lǐng)域數(shù)據(jù)、網(wǎng)站數(shù)據(jù)、網(wǎng)絡(luò)爬蟲、大數(shù)據(jù)存儲(chǔ)、
大數(shù)據(jù)的存儲(chǔ)管理技術(shù)、NewSQL和NoSQL、分布式文件系統(tǒng)、虛擬存儲(chǔ)技術(shù)和云存
儲(chǔ)技術(shù);第4章為大數(shù)據(jù)抽取技術(shù),主要包括大數(shù)據(jù)抽取技術(shù)概述、增量數(shù)據(jù)抽取技術(shù)、
文前(調(diào)版).indd32019-1-910:57:38
非結(jié)構(gòu)化數(shù)據(jù)抽取和基于Hadoop平臺(tái)的數(shù)據(jù)抽?。坏?章為大數(shù)據(jù)清洗技術(shù),主要包
括數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗、不完整數(shù)據(jù)清洗、異常數(shù)據(jù)清洗、重復(fù)數(shù)據(jù)清洗、文本清洗和
數(shù)據(jù)清洗的實(shí)現(xiàn);第6章為大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化,主要包括基本的數(shù)據(jù)轉(zhuǎn)換方法、數(shù)據(jù)
平滑技術(shù)、數(shù)據(jù)規(guī)范化和數(shù)據(jù)泛化;第7章為大數(shù)據(jù)約簡(jiǎn)與集成技術(shù),主要包括數(shù)據(jù)約
簡(jiǎn)概述、特征約簡(jiǎn)、樣本約簡(jiǎn)、數(shù)據(jù)立方體聚集、維約簡(jiǎn)屬性子集選擇算法、數(shù)據(jù)壓縮、
數(shù)值約簡(jiǎn)、數(shù)據(jù)集成的概念與相關(guān)問(wèn)題、數(shù)據(jù)遷移、數(shù)據(jù)集成模式、數(shù)據(jù)集成系統(tǒng)和數(shù)
據(jù)聚類集成;第8章為大數(shù)據(jù)分析與挖掘技術(shù),主要包括大數(shù)據(jù)分析概述、統(tǒng)計(jì)分析方法、
數(shù)據(jù)挖掘理論基礎(chǔ)、關(guān)聯(lián)規(guī)則挖掘、分類方法、聚類方法、序列模式挖掘、非結(jié)構(gòu)化文
本數(shù)據(jù)挖掘和基于MapReduce的分析與挖掘?qū)嵗?;?章為大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn),
主要包括數(shù)據(jù)分析結(jié)果解釋、數(shù)據(jù)的基本展現(xiàn)方式、大數(shù)據(jù)可視化、大數(shù)據(jù)可視分析和
數(shù)據(jù)可視化實(shí)現(xiàn)。
本書在結(jié)構(gòu)上為積木狀,各章內(nèi)容均為獨(dú)立、注重概念性與方法性論述。出于篇幅
考慮,書中所提及理論結(jié)果沒(méi)有給出證明,如需要可以查閱相關(guān)文獻(xiàn)。由于作者水平有
限,書中不足之處在所難免,敬請(qǐng)讀者批評(píng)指正。
2018年10月
文前(調(diào)版).indd42019-1-910:57:38
CONTENTS目錄
第1章概述11.5.1大數(shù)據(jù)處理全過(guò)程14
1.1數(shù)據(jù)科學(xué)21.5.2大數(shù)據(jù)技術(shù)的特征15
1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展21.5.3大數(shù)據(jù)的一些熱點(diǎn)技術(shù)17
1.1.2數(shù)據(jù)科學(xué)的相關(guān)術(shù)語(yǔ)21.6科學(xué)研究范式18
1.1.3數(shù)據(jù)科學(xué)的主要內(nèi)容31.6.1科學(xué)研究范式的產(chǎn)生與發(fā)展18
1.1.4數(shù)據(jù)科學(xué)的研究過(guò)程與體系1.6.2數(shù)據(jù)密集型科學(xué)研究第四范式19
框架4小結(jié)23
1.1.5數(shù)據(jù)科學(xué)、數(shù)據(jù)技術(shù)與數(shù)據(jù)第2章大數(shù)據(jù)處理平臺(tái)24
工程6
2.1Hadoop大數(shù)據(jù)處理平臺(tái)24
1.1.6大數(shù)據(jù)問(wèn)題6
2.1.1離線計(jì)算概述25
1.2大數(shù)據(jù)的生態(tài)環(huán)境7
2.1.2MapReduce分布編程模型26
1.2.1互聯(lián)網(wǎng)世界7
2.1.3基于Hadoop的分布計(jì)算27
1.2.2物理世界9
2.1.4MapReduce程序設(shè)計(jì)分析31
1.3大數(shù)據(jù)的概念9
2.1.5Hadoop環(huán)境部署與程序運(yùn)行36
1.3.1數(shù)據(jù)容量10
2.2Storm大數(shù)據(jù)處理平臺(tái)42
1.3.2數(shù)據(jù)類型11
2.2.1流式數(shù)據(jù)的概念與特征43
1.3.3價(jià)值密度11
2.2.2大數(shù)據(jù)的計(jì)算模式45
1.3.4速度11
2.2.3流式數(shù)據(jù)處理技術(shù)的應(yīng)用46
1.3.5真實(shí)性11
2.2.4流式計(jì)算的系統(tǒng)架構(gòu)50
1.4大數(shù)據(jù)的性質(zhì)11
2.2.5Storm流處理過(guò)程52
1.4.1非結(jié)構(gòu)性12
2.2.6單詞計(jì)數(shù)topology56
1.4.2不完備性13
2.3Spark大數(shù)據(jù)處理平臺(tái)58
1.4.3時(shí)效性13
2.3.1交互式處理系統(tǒng)的問(wèn)題58
1.4.4安全性13
2.3.2Scala編程語(yǔ)言簡(jiǎn)介58
1.4.5可靠性13
2.3.3Spark的主要特點(diǎn)59
1.5大數(shù)據(jù)處理周期13
文前(調(diào)版).indd12019-1-910:57:38
2大數(shù)據(jù)技術(shù)概論
2.3.4軟件棧603.4.7分布式爬蟲的系統(tǒng)結(jié)構(gòu)82
2.3.5核心概念613.5大數(shù)據(jù)存儲(chǔ)84
2.3.6彈性分布式數(shù)據(jù)集RDD623.5.1大數(shù)據(jù)存儲(chǔ)模型84
2.3.7單詞計(jì)數(shù)實(shí)例分析663.5.2大數(shù)據(jù)存儲(chǔ)問(wèn)題84
小結(jié)673.5.3大數(shù)據(jù)存儲(chǔ)方式85
3.6大數(shù)據(jù)存儲(chǔ)管理技術(shù)86
第3章大數(shù)據(jù)獲取與存儲(chǔ)管理技術(shù)68
3.6.1數(shù)據(jù)容量問(wèn)題86
3.1大數(shù)據(jù)獲取69
3.6.2大圖數(shù)據(jù)87
3.1.1大數(shù)據(jù)獲取的挑戰(zhàn)69
3.6.3數(shù)據(jù)存儲(chǔ)管理88
3.1.2傳統(tǒng)的數(shù)據(jù)獲取與大數(shù)據(jù)獲取的
3.7NoSQL和NewSQL89
區(qū)別69
3.7.1NoSQL90
3.2領(lǐng)域數(shù)據(jù)70
3.7.2NewSQL數(shù)據(jù)庫(kù)93
3.2.1文本數(shù)據(jù)70
3.7.3不同數(shù)據(jù)庫(kù)架構(gòu)混合應(yīng)用模式93
3.2.2語(yǔ)音數(shù)據(jù)71
3.8分布式文件系統(tǒng)94
3.2.3圖片數(shù)據(jù)71
3.8.1評(píng)價(jià)指標(biāo)94
3.2.4攝像頭視頻數(shù)據(jù)71
3.8.2HDFS文件系統(tǒng)95
3.2.5圖像數(shù)字化數(shù)據(jù)71
3.8.3NFS文件系統(tǒng)96
3.2.6圖形數(shù)字化數(shù)據(jù)71
3.9虛擬存儲(chǔ)技術(shù)97
3.2.7空間數(shù)據(jù)72
3.9.1虛擬存儲(chǔ)的特點(diǎn)98
3.3網(wǎng)站數(shù)據(jù)72
3.9.2虛擬存儲(chǔ)的應(yīng)用98
3.3.1網(wǎng)站內(nèi)部數(shù)據(jù)73
3.10云存儲(chǔ)技術(shù)99
3.3.2網(wǎng)站外部數(shù)據(jù)73
3.10.1云存儲(chǔ)原理99
3.3.3移動(dòng)網(wǎng)站數(shù)據(jù)73
3.10.2網(wǎng)絡(luò)結(jié)構(gòu)99
3.4網(wǎng)絡(luò)爬蟲73
3.10.3云的分類99
3.4.1網(wǎng)絡(luò)爬蟲的工作過(guò)程74
小結(jié)100
3.4.2通用網(wǎng)絡(luò)爬蟲74
3.4.3聚焦網(wǎng)絡(luò)爬蟲77第4章大數(shù)據(jù)抽取技術(shù)101
3.4.4數(shù)據(jù)抓取目標(biāo)的定義794.1大數(shù)據(jù)抽取技術(shù)概述101
3.4.5網(wǎng)頁(yè)分析算法804.1.1數(shù)據(jù)抽取的定義102
3.4.6更新策略814.1.2數(shù)據(jù)映射與數(shù)據(jù)遷移102
文前(調(diào)版).indd22019-1-910:57:38
目??錄3
4.1.3數(shù)據(jù)抽取程序1035.2.1基本方法121
4.1.4抽取、轉(zhuǎn)換和加載1035.2.2基于k-NN近鄰缺失數(shù)據(jù)的
4.1.5數(shù)據(jù)抽取方式104填充算法123
4.2增量數(shù)據(jù)抽取技術(shù)1045.3異常數(shù)據(jù)清洗124
4.2.1增量抽取的特點(diǎn)與策略1055.3.1異常值產(chǎn)生的原因125
4.2.2基于觸發(fā)器的增量抽取5.3.2統(tǒng)計(jì)方法125
方式1055.3.3基于鄰近度的離群點(diǎn)檢測(cè)126
4.2.3基于時(shí)間戳的增量抽取5.4重復(fù)數(shù)據(jù)清洗127
方式1055.4.1使用字段相似度識(shí)別重復(fù)值
4.2.4全表刪除插入方式106算法127
4.2.5全表比對(duì)抽取方式1065.4.2搜索引擎快速去重算法128
4.2.6日志表方式1075.5文本清洗128
4.2.7系統(tǒng)日志分析方式1075.5.1字符串匹配算法129
4.2.8各種數(shù)據(jù)抽取機(jī)制的比較5.5.2文本相似度度量131
與分析1075.5.3文檔去重算法135
4.3非結(jié)構(gòu)化數(shù)據(jù)抽取1095.6數(shù)據(jù)清洗的實(shí)現(xiàn)135
4.3.1非結(jié)構(gòu)化數(shù)據(jù)類型1095.6.1數(shù)據(jù)清洗的步驟135
4.3.2非結(jié)構(gòu)化數(shù)據(jù)模型1095.6.2基于MapReduce的大數(shù)據(jù)
4.3.3非結(jié)構(gòu)化數(shù)據(jù)組織111去重136
4.3.4純文本抽取通用程序庫(kù)112小結(jié)138
4.4基于Hadoop平臺(tái)的數(shù)據(jù)抽取113
第6章大數(shù)據(jù)去噪與標(biāo)準(zhǔn)化139
小結(jié)114
6.1基本的數(shù)據(jù)轉(zhuǎn)換方法139
第5章大數(shù)據(jù)清洗技術(shù)1156.1.1對(duì)數(shù)轉(zhuǎn)換139
5.1數(shù)據(jù)質(zhì)量與數(shù)據(jù)清洗1156.1.2平方根轉(zhuǎn)換140
5.1.1數(shù)據(jù)質(zhì)量1166.1.3平方轉(zhuǎn)換140
5.1.2數(shù)據(jù)質(zhì)量提高技術(shù)1186.1.4倒數(shù)變換140
5.1.3數(shù)據(jù)清洗算法的標(biāo)準(zhǔn)1206.2數(shù)據(jù)平滑技術(shù)140
5.1.4數(shù)據(jù)清洗的過(guò)程與模型1206.2.1移動(dòng)平均法141
5.2不完整數(shù)據(jù)清洗1216.2.2指數(shù)平滑法142
文前(調(diào)版).indd32019-1-910:57:38
4大數(shù)據(jù)技術(shù)概論
6.2.3分箱平滑法1467.6.1逐步向前選擇屬性159
6.3數(shù)據(jù)規(guī)范化1487.6.2逐步向后刪除屬性159
6.3.1最小-最大規(guī)范化方法1487.6.3混合式選擇159
6.3.2z分?jǐn)?shù)規(guī)范化方法1497.6.4判定樹歸納159
6.3.3小數(shù)定標(biāo)規(guī)范化方法1497.7數(shù)據(jù)壓縮160
6.4數(shù)據(jù)泛化處理1507.7.1離散小波變換方法160
6.4.1空間數(shù)據(jù)支配泛化算法1507.7.2主成分分析壓縮方法161
6.4.2非空間數(shù)據(jù)支配泛化方法1517.8數(shù)值約簡(jiǎn)162
6.4.3統(tǒng)計(jì)信息網(wǎng)格方法1517.8.1有參數(shù)值約簡(jiǎn)162
小結(jié)1517.8.2無(wú)參數(shù)值約簡(jiǎn)162
7.9數(shù)據(jù)集成的概念與相關(guān)問(wèn)題163
第7章大數(shù)據(jù)約簡(jiǎn)與集成技術(shù)152
7.9.1數(shù)據(jù)集成的核心問(wèn)題165
7.1數(shù)據(jù)約簡(jiǎn)概述153
7.9.2數(shù)據(jù)集成的分類166
7.1.1數(shù)據(jù)約簡(jiǎn)定義153
7.10數(shù)據(jù)遷移168
7.1.2數(shù)據(jù)約簡(jiǎn)方式153
7.10.1在組織內(nèi)部移動(dòng)數(shù)據(jù)169
7.2特征約簡(jiǎn)153
7.10.2非結(jié)構(gòu)化數(shù)據(jù)集成169
7.2.1特征提取154
7.10.3將處理移動(dòng)到數(shù)據(jù)端170
7.2.2特征選擇154
7.11數(shù)據(jù)集成模式171
7.3樣本約簡(jiǎn)155
7.11.1聯(lián)邦數(shù)據(jù)庫(kù)集成模式171
7.3.1簡(jiǎn)單隨機(jī)抽樣155
7.11.2中間件集成模式172
7.3.2系統(tǒng)抽樣155
7.11.3數(shù)據(jù)倉(cāng)庫(kù)集成模式173
7.3.3分層抽樣155
7.12數(shù)據(jù)集成系統(tǒng)173
7.4數(shù)據(jù)立方體聚集155
7.12.1全局模式174
7.4.1多維性156
7.12.2語(yǔ)義映射175
7.4.2數(shù)據(jù)聚集156
7.12.3查詢重寫175
7.5維約簡(jiǎn)157
7.13數(shù)據(jù)聚類集成175
7.5.1維約簡(jiǎn)的目的157
7.13.1數(shù)據(jù)聚類集成概述175
7.5.2維約簡(jiǎn)的基本策略158
7.13.2高維數(shù)據(jù)聚類集成176
7.5.3維約簡(jiǎn)的分類158
小結(jié)178
7.6屬性子集選擇算法159
文前(調(diào)版).indd42019-1-910:57:39
目??錄5
第8章大數(shù)據(jù)分析與挖掘技術(shù)1798.7.1時(shí)間序列預(yù)測(cè)的常用方法229
8.1大數(shù)據(jù)分析概述1808.7.2序列模式挖掘230
8.1.1大數(shù)據(jù)分析的類型1808.8非結(jié)構(gòu)化文本數(shù)據(jù)挖掘231
8.1.2數(shù)字特征1828.8.1用戶反饋文本232
8.1.3統(tǒng)計(jì)方法論1848.8.2用戶反饋文本挖掘的一般
8.1.4模型與構(gòu)建186過(guò)程232
文本的自然語(yǔ)言處理
8.1.5R語(yǔ)言1868.8.3234
基于的分析與挖掘
8.2統(tǒng)計(jì)分析方法1888.9MapReduce
實(shí)例
8.2.1基本方法188235
大數(shù)據(jù)平均值計(jì)算
8.2.2常用分析方法1948.9.1235
大數(shù)據(jù)排序
8.3數(shù)據(jù)挖掘理論基礎(chǔ)2118.9.2236
倒排索引
8.3.1數(shù)據(jù)挖掘是面向應(yīng)用的技術(shù)2118.9.3237
小結(jié)
8.3.2數(shù)據(jù)挖掘的理論基礎(chǔ)212241
8.3.3基于數(shù)據(jù)存儲(chǔ)方式的數(shù)據(jù)第9章大數(shù)據(jù)分析結(jié)果解釋與展現(xiàn)242
挖掘2129.1數(shù)據(jù)分析結(jié)果解釋的目的與內(nèi)容243
8.4關(guān)聯(lián)規(guī)則挖掘2149.1.1解釋的目的243
8.4.1頻繁項(xiàng)目集生成算法2159.1.2檢查和驗(yàn)證假設(shè)243
8.4.2關(guān)聯(lián)規(guī)則挖掘質(zhì)量2179.1.3追蹤分析過(guò)程244
8.5分類方法2189.2數(shù)據(jù)的基本展現(xiàn)方式245
8.5.1基于距離的分類算法2199.2.1基于時(shí)間變化的可視化展現(xiàn)245
8.5.2KNN算法的MapReduce9.2.2由大及小的可視化展現(xiàn)245
實(shí)現(xiàn)2209.2.3由小及大的可視化展現(xiàn)246
8.5.3決策樹分類方法2209.2.4突出對(duì)比的可視化展現(xiàn)246
8.6聚類方法2239.2.5地域空間可視化展現(xiàn)246
8.6.1聚類定義與分類2239.2.6概念可視化展現(xiàn)248
8.6.2距離與相似性的度量2259.2.7氣泡圖可視化展現(xiàn)248
8.6.3劃分聚類方法2269.2.8注重交叉點(diǎn)的數(shù)據(jù)可視化
8.6.4層次聚類方法228展現(xiàn)248
8.7序列模式挖掘與文本數(shù)據(jù)挖掘2299.2.9剖析原因的數(shù)據(jù)可視化展現(xiàn)248
文前(調(diào)版).indd52019-1-910:57:39
6大數(shù)據(jù)技術(shù)概論
9.2.10描繪出異常值的可視化9.4大數(shù)據(jù)可視分析253
展現(xiàn)2499.4.1可視分析的理論基礎(chǔ)254
9.3大數(shù)據(jù)可視化2499.4.2大數(shù)據(jù)可視分析技術(shù)257
9.3.1文本可視化2499.5數(shù)據(jù)可視化實(shí)現(xiàn)260
9.3.2網(wǎng)絡(luò)(圖)可視化250小結(jié)262
9.3.3時(shí)空數(shù)據(jù)可視化252
參考文獻(xiàn)263
9.3.4多維數(shù)據(jù)可視化252
文前(調(diào)版).indd62019-1-910:57:39
第1章概??述
主要內(nèi)容
數(shù)據(jù)科學(xué)數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展
數(shù)據(jù)科學(xué)的相關(guān)術(shù)語(yǔ)
數(shù)據(jù)科學(xué)的主要內(nèi)容
數(shù)據(jù)科學(xué)的研究過(guò)程與體系框架
數(shù)據(jù)科學(xué)、數(shù)據(jù)技術(shù)與數(shù)據(jù)工程
大數(shù)據(jù)問(wèn)題
大數(shù)據(jù)的生態(tài)環(huán)境互聯(lián)網(wǎng)世界
物理世界
大數(shù)據(jù)的概念數(shù)據(jù)容量
數(shù)據(jù)類型
價(jià)值密度
速度
真實(shí)性
大數(shù)據(jù)的性質(zhì)非結(jié)構(gòu)性
不完備性
時(shí)效性
安全性
可靠性
大數(shù)據(jù)處理周期大數(shù)據(jù)處理全過(guò)程
大數(shù)據(jù)技術(shù)的特征
大數(shù)據(jù)的一些熱點(diǎn)技術(shù)
科學(xué)研究范式科學(xué)研究范式的產(chǎn)生與發(fā)展
數(shù)據(jù)密集型科學(xué)研究第四范式
計(jì)算機(jī)科學(xué)是算法與算法變換的科學(xué),數(shù)據(jù)科學(xué)研究范圍更為廣泛。數(shù)據(jù)科學(xué)不僅可以推
動(dòng)數(shù)學(xué)、計(jì)算機(jī)科學(xué)、統(tǒng)計(jì)學(xué)、天體信息學(xué)、生物信息學(xué)、計(jì)算社會(huì)學(xué)等學(xué)科的發(fā)展,而且能
夠大力推動(dòng)產(chǎn)業(yè)發(fā)展與進(jìn)步。
01-04(調(diào)版).indd12019-1-910:57:45
2大數(shù)據(jù)技術(shù)概論
1.1數(shù)?據(jù)?科?學(xué)
數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué),基于數(shù)據(jù)的廣泛性和多樣性研究數(shù)據(jù)的共性。數(shù)據(jù)科學(xué)是研
究探索CYBER空間中數(shù)據(jù)界的理論、方法和技術(shù)。
1.1.1數(shù)據(jù)科學(xué)的產(chǎn)生與發(fā)展
掃一掃
數(shù)據(jù)科學(xué)產(chǎn)生于20世紀(jì)60年代。1974年,彼得·諾爾出版了《計(jì)算機(jī)方法的簡(jiǎn)明調(diào)查》,
其中將數(shù)據(jù)科學(xué)定義為“處理數(shù)據(jù)的科學(xué),一旦數(shù)據(jù)與其代表事物的關(guān)系被建立起來(lái),將為其
他領(lǐng)域與科學(xué)提供借鑒”。1996年在日本召開的“數(shù)據(jù)科學(xué)、分類和相關(guān)方法”會(huì)議上,將
數(shù)據(jù)科學(xué)作為會(huì)議的主題詞。2001年美國(guó)統(tǒng)計(jì)學(xué)教授威廉·S·克利夫蘭發(fā)表了《數(shù)據(jù)科學(xué):拓展統(tǒng)
數(shù)據(jù)分析計(jì)學(xué)的技術(shù)領(lǐng)域的行動(dòng)計(jì)劃》,首次將數(shù)據(jù)科學(xué)作為一個(gè)單獨(dú)的學(xué)科,并把數(shù)據(jù)科學(xué)定義從統(tǒng)計(jì)
應(yīng)運(yùn)而生
學(xué)領(lǐng)域擴(kuò)展到以數(shù)據(jù)作為計(jì)算對(duì)象,進(jìn)而奠定了數(shù)據(jù)科學(xué)的理論基礎(chǔ)。
1.1.2數(shù)據(jù)科學(xué)的相關(guān)術(shù)語(yǔ)
1.CYBER空間
CYBER空間意譯為異次元空間、多維信息空間、計(jì)算機(jī)空間、網(wǎng)絡(luò)空間等。其本意是指
以計(jì)算機(jī)技術(shù)、現(xiàn)代通信網(wǎng)絡(luò)技術(shù)、虛擬現(xiàn)實(shí)技術(shù)等信息技術(shù)的綜合運(yùn)用為基礎(chǔ),以知識(shí)和信
息為內(nèi)容的新型空間,是人類運(yùn)用知識(shí)創(chuàng)造的人工世界,是一種用于知識(shí)交流的虛擬空間。信
息化是一個(gè)數(shù)據(jù)生產(chǎn)的過(guò)程,是將現(xiàn)實(shí)世界中的事物和現(xiàn)象以數(shù)據(jù)的形式存儲(chǔ)到CYBER空間
中。數(shù)據(jù)記錄了人類的行為,包括工作、生活和社會(huì)的發(fā)展,是自然和生命的一種表示形式。
2.?dāng)?shù)據(jù)爆炸
數(shù)據(jù)快速大量地產(chǎn)生并存儲(chǔ)在CYBER空間中的現(xiàn)象稱為數(shù)據(jù)爆炸,數(shù)據(jù)爆炸在CYBER
空間中形成數(shù)據(jù)自然界。數(shù)據(jù)是CYBER空間中的唯一存在,需要研究和探索CYBER空間中
數(shù)據(jù)的規(guī)律和現(xiàn)象。探索CYBER空間中數(shù)據(jù)的規(guī)律和現(xiàn)象是探索宇宙規(guī)律、探索生命規(guī)律、
尋找人類行為規(guī)律、尋找社會(huì)發(fā)展規(guī)律的一種重要手段。
3.?dāng)?shù)據(jù)科學(xué)的定義
數(shù)據(jù)科學(xué)是關(guān)于數(shù)據(jù)的科學(xué)或者研究數(shù)據(jù)的科學(xué),是探索CYBER空間中數(shù)據(jù)界奧秘的理
論、方法和技術(shù),研究的對(duì)象是數(shù)據(jù)界中的數(shù)據(jù)。與自然科學(xué)和社會(huì)科學(xué)不同,數(shù)據(jù)科學(xué)的研
究對(duì)象是CYBER空間數(shù)據(jù)。數(shù)據(jù)科學(xué)主要包括兩方面:一是研究數(shù)據(jù)本身,以科學(xué)的方法研
究數(shù)據(jù)的各種類型、狀態(tài)、屬性及變化形式和變化規(guī)律;二是用數(shù)據(jù)的方法研究科學(xué),為自然
科學(xué)和社會(huì)科學(xué)研究提供一種新的方法,稱為科學(xué)研究的數(shù)據(jù)方法,其目的在于揭示自然界和
人類行為現(xiàn)象和規(guī)律。
4.?dāng)?shù)據(jù)科學(xué)的方法和技術(shù)
數(shù)據(jù)科學(xué)采用收集數(shù)據(jù)的形式,進(jìn)行開放式分析,不做預(yù)先假定。在許多數(shù)據(jù)科學(xué)項(xiàng)目中,
首先要瀏覽原始數(shù)據(jù),形成一個(gè)假定,然后基于假定進(jìn)行調(diào)查確認(rèn)。數(shù)據(jù)科學(xué)的關(guān)鍵概念是:
數(shù)據(jù)科學(xué)是一個(gè)經(jīng)驗(yàn)科學(xué),直接基于數(shù)據(jù)進(jìn)行科學(xué)處理。數(shù)據(jù)科學(xué)已經(jīng)有一些方法和技術(shù),例
如:數(shù)據(jù)獲取、數(shù)據(jù)存儲(chǔ)與管理、數(shù)據(jù)安全、數(shù)據(jù)分析、可視化等。
數(shù)據(jù)科學(xué)不僅完成分析,而且涉及整個(gè)端到端的生命周期,數(shù)據(jù)系統(tǒng)本質(zhì)上是用于研發(fā)真
實(shí)世界理解模型的科學(xué)設(shè)備。這就表明必須深刻理解數(shù)據(jù)的來(lái)源、數(shù)據(jù)轉(zhuǎn)換的適用性和準(zhǔn)確性、
01-04(調(diào)版).indd22019-1-910:57:45
第1章概??述3
轉(zhuǎn)換算法和過(guò)程之間的相互作用,以及數(shù)據(jù)存儲(chǔ)機(jī)制。這個(gè)端到端概覽的角色能夠確保所有事
物都能夠正確執(zhí)行,從而探索數(shù)據(jù)、創(chuàng)建并驗(yàn)證各項(xiàng)科學(xué)假設(shè)。
1.1.3數(shù)據(jù)科學(xué)的主要內(nèi)容
數(shù)據(jù)科學(xué)的主要內(nèi)容包括基礎(chǔ)理論和數(shù)據(jù)預(yù)處理、數(shù)據(jù)計(jì)算、數(shù)據(jù)管理等。其中,基礎(chǔ)理
論包括概念、理論、方法、技術(shù)和工具等。數(shù)據(jù)科學(xué)的理論基礎(chǔ)是統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、數(shù)據(jù)可
視化及領(lǐng)域?qū)崉?wù)知識(shí)與經(jīng)驗(yàn)等,如圖1-1所示。數(shù)據(jù)科學(xué)學(xué)科建立,需要完成知識(shí)結(jié)構(gòu)、課程
設(shè)置和專業(yè)設(shè)置等學(xué)科體系建設(shè),探討數(shù)據(jù)科學(xué)與自然科學(xué)和社會(huì)科學(xué)之間的關(guān)系,以及數(shù)據(jù)
科學(xué)與計(jì)算機(jī)科學(xué)和信息科學(xué)之間的關(guān)系等。
??乘???????????
?
?
??
??
???????????
?
?
??
??????д?????????乚???????偠
??
圖1-1數(shù)據(jù)科學(xué)的內(nèi)容
1.基礎(chǔ)理論
觀察和邏輯推理是科學(xué)的基礎(chǔ),數(shù)據(jù)科學(xué)中主要采用觀察方法與數(shù)據(jù)推理的理論和方法,
包括數(shù)據(jù)的存在性、數(shù)據(jù)測(cè)度、時(shí)間、數(shù)據(jù)代數(shù)、數(shù)據(jù)分類、數(shù)據(jù)相似性與簇論等。
2.實(shí)驗(yàn)方法與邏輯推理方法
需要建立數(shù)據(jù)科學(xué)的實(shí)驗(yàn)方法,需要提出科學(xué)假說(shuō)和建立理論體系,并通過(guò)這些實(shí)驗(yàn)方法
和理論體系進(jìn)行數(shù)據(jù)科學(xué)的研究,從而掌握數(shù)據(jù)的各種類型、狀態(tài)、屬性、變化形式和變化規(guī)
律,揭示自然界和人類行為現(xiàn)象和規(guī)律。
3.領(lǐng)域數(shù)據(jù)學(xué)
將數(shù)據(jù)科學(xué)的理論和方法廣泛應(yīng)用,開發(fā)出專門的理論、技術(shù)和方法,從而形成專門領(lǐng)域
的數(shù)據(jù)科學(xué),例如:腦數(shù)據(jù)學(xué)、行為數(shù)據(jù)學(xué)、生物數(shù)據(jù)學(xué)、氣象數(shù)據(jù)學(xué)、金融數(shù)據(jù)學(xué)和地理數(shù)
據(jù)學(xué)等。
4.?dāng)?shù)據(jù)資源的開發(fā)方法和技術(shù)
數(shù)據(jù)資源是重要的現(xiàn)代戰(zhàn)略資源,具有巨大的價(jià)值,越來(lái)越凸顯其重要性,是繼石油、煤炭、
礦產(chǎn)等傳統(tǒng)資源之后的最重要的資源之一。人類的社會(huì)、政治和經(jīng)濟(jì)都將依賴于數(shù)據(jù)資源,而
石油、煤炭、礦產(chǎn)等傳統(tǒng)資源的勘探、開采、運(yùn)輸、加工、產(chǎn)品銷售等也都依賴于數(shù)據(jù)資源,
離開了數(shù)據(jù)資源,將無(wú)法開展與完成這些工作。
其中,理論基礎(chǔ)是在數(shù)據(jù)科學(xué)的邊界之外。
01-04(調(diào)版).indd32019-1-910:57:46
4大數(shù)據(jù)技術(shù)概論
1.1.4數(shù)據(jù)科學(xué)的研究過(guò)程與體系框架
1.?dāng)?shù)據(jù)科學(xué)的研究過(guò)程
①數(shù)據(jù)集獲取與存儲(chǔ)。常用的數(shù)據(jù)類型有表格、點(diǎn)集、時(shí)間序列、圖像、視頻、網(wǎng)頁(yè)和
網(wǎng)絡(luò)數(shù)據(jù)等。獲取的數(shù)據(jù)存于數(shù)據(jù)庫(kù)系統(tǒng)中。
②數(shù)據(jù)的預(yù)處理。通過(guò)數(shù)據(jù)抽取、清洗、去噪與標(biāo)準(zhǔn)化、約簡(jiǎn)和集成,獲得達(dá)到一定質(zhì)
量要求的數(shù)據(jù)。
掃一掃
③數(shù)據(jù)分析與挖掘。以科學(xué)的方法進(jìn)行數(shù)據(jù)
?????
分析,進(jìn)而發(fā)現(xiàn)整體特性。數(shù)據(jù)分析的基本假設(shè)是?????
??ㄝ
觀察到的數(shù)據(jù)都是基于某個(gè)模型產(chǎn)生,通過(guò)數(shù)據(jù)分
???????
析找出這個(gè)模型。數(shù)據(jù)分析的主要困難是數(shù)據(jù)維數(shù)????
數(shù)據(jù)分析的高,為此,需要降低算法的復(fù)雜度和應(yīng)用分布式計(jì)
????
一些問(wèn)題???д????
算。通過(guò)數(shù)據(jù)分析與挖掘,發(fā)現(xiàn)數(shù)據(jù)規(guī)律。????
④感知化與可視化數(shù)據(jù)分析結(jié)果。
????
掃一掃2.?dāng)?shù)據(jù)科學(xué)的構(gòu)成????????
數(shù)據(jù)科學(xué)主要是計(jì)算機(jī)科學(xué)、數(shù)學(xué)與統(tǒng)計(jì)學(xué)知
???
識(shí)以及行業(yè)經(jīng)驗(yàn)的交集。乘????
???
將數(shù)據(jù)科學(xué)進(jìn)一步細(xì)化為如圖1-2所示12個(gè)
主要領(lǐng)域。
數(shù)據(jù)科學(xué)的圖1-2數(shù)據(jù)科學(xué)的主要領(lǐng)域
組成要素3.?dāng)?shù)據(jù)科學(xué)的體系框架
數(shù)據(jù)科學(xué)的體系框架如圖1-3所示。圖1-3的上部分描述了數(shù)據(jù)的內(nèi)容,下部分是數(shù)據(jù)科
學(xué)基礎(chǔ)描述。
??????
?
?????????
??????????????????
???????偠?????
?????????????
?????????к?????
?????????????
?????????????
圖1-3數(shù)據(jù)科學(xué)的體系框架
數(shù)據(jù)科學(xué)主要研究從數(shù)據(jù)中獲取信息與知識(shí)、認(rèn)識(shí)自然和行為,促進(jìn)了科學(xué)與產(chǎn)業(yè)之間關(guān)
01-04(調(diào)版).indd4
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老院入住老人突發(fā)疾病應(yīng)急處理制度
- 企業(yè)設(shè)備管理規(guī)范制度
- 供應(yīng)商管理制度
- 2026年電影史及影視理論專業(yè)考試題庫(kù)
- 2026年CFA特許金融分析師考前模擬題及答案解析
- 2026年電工技術(shù)專業(yè)知識(shí)題庫(kù)與解析
- 2026年工程設(shè)計(jì)師職業(yè)技能等級(jí)考試題庫(kù)及解答
- 2026年霧計(jì)算協(xié)議
- 2026年委托貼標(biāo)合同
- 2025年周口理工職業(yè)學(xué)院馬克思主義基本原理概論期末考試模擬題及答案解析(奪冠)
- 雷波縣糧油貿(mào)易總公司 2026年面向社會(huì)公開招聘筆試參考題庫(kù)及答案解析
- 2025年互聯(lián)網(wǎng)公司產(chǎn)品經(jīng)理面試實(shí)戰(zhàn)試題及答案
- 2026年上海市浦東新區(qū)初三上學(xué)期一模數(shù)學(xué)試卷和參考答案
- 內(nèi)蒙古包鋼1.18事故警示安全教育課件
- 公安局民警崗位培訓(xùn)制度
- (2025年)小學(xué)三視圖題題庫(kù)及答案
- (正式版)DB44∕T 2771-2025 《全域土地綜合整治技術(shù)導(dǎo)則》
- 春節(jié)前安全意識(shí)培訓(xùn)課件
- 江蘇省無(wú)錫市2025-2026學(xué)年七年級(jí)上學(xué)期期末數(shù)學(xué)模擬試卷【含答案詳解】
- 2.2 中國(guó)的氣候 第一課時(shí) 教學(xué)設(shè)計(jì)2025八年級(jí)地理上學(xué)期湘教版
- 2024冀少版八年級(jí)生物下冊(cè)全冊(cè)知識(shí)點(diǎn)考點(diǎn)清單
評(píng)論
0/150
提交評(píng)論