版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
第一單元測試題
1.(填空)大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為4個重要階段。它們分別是?
答案:萌芽期、突破期、成熟期和大規(guī)模應(yīng)用期
2.(填空)按數(shù)據(jù)結(jié)構(gòu)的不同,數(shù)據(jù)分為?
答案:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)
3.(填空)按照數(shù)據(jù)開發(fā)應(yīng)用深入程度不同,可將大數(shù)據(jù)應(yīng)用分為?
答案:描述性分析應(yīng)用、預(yù)測性分析應(yīng)用和指導(dǎo)性分析應(yīng)用
4.(填空)決策的5大特性包括?
答案:目的性、選擇性、滿意性、過程性、動
5.(填空)決策過程的4個階段為?
答案:情報、設(shè)計、選擇、執(zhí)行
6.(判斷)按決策影響范圍和重要程度不同,管理決策分為戰(zhàn)略決策、戰(zhàn)術(shù)決策
和業(yè)務(wù)決策
A.V
R.X
答案:A
7.(判斷)常見的定性決策方法有:頭腦風(fēng)暴法、專家會議法、后悔值決策法、
波士頓矩陣
A.J
B.X
答案:B
8.(判斷)大數(shù)據(jù)對決策思維的影響主要體現(xiàn)在:全樣而非抽樣、精確而非高效,
因果性而非相關(guān)性。
A7
B.X
答案:B
9.(判斷)大數(shù)據(jù)應(yīng)用已成熟,目前多應(yīng)用于決簧指導(dǎo)性分析。
A.J
B.X
答案:B
10.(判斷)從業(yè)務(wù)角度出發(fā),大數(shù)據(jù)的核心價值主要有:數(shù)據(jù)輔助決策、數(shù)據(jù)驅(qū)
動業(yè)務(wù)、數(shù)據(jù)對外變現(xiàn)。
A.V
B.X
答案:A
11.(多選)根據(jù)大數(shù)據(jù)從來源到應(yīng)用的流程,下列屬于大數(shù)據(jù)技術(shù)架構(gòu)的是:
A.數(shù)據(jù)采集層
B.數(shù)據(jù)抽取層
C.數(shù)據(jù)分析層
D.數(shù)據(jù)應(yīng)用層
答案:ACD
12.(多選)大數(shù)據(jù)時代,現(xiàn)代企業(yè)的管理和發(fā)展面臨哪些挑戰(zhàn)?
A.更多的數(shù)據(jù)被收集
B.數(shù)據(jù)更加復(fù)雜
C.決策自動化
D.實時決策需求突出
答案:ABCD
13.(多選)下列屬于大數(shù)據(jù)“5V”特征的是:
A.數(shù)據(jù)容量大
B.數(shù)據(jù)類型多樣
C.數(shù)據(jù)價值密度高
D.數(shù)據(jù)流轉(zhuǎn)速度快
答案:ABD
14.(多選)按照載體大同,下列不屬于文本數(shù)據(jù)的是:
A.txt文本
B.照片
C.excel電子表格
D.錄像
答案:BD
15.(多選)下列關(guān)于數(shù)據(jù)、信息、知識的描述正確的是:
A.信息是有意義、有用途的數(shù)據(jù)
B.數(shù)據(jù)源于信息,是信息的表現(xiàn)形式和載體
C.知識是更加系統(tǒng)化、理論化的信息
D.從信息到數(shù)據(jù)再到知識,是螺旋式上升的過程
答案:AC
16.(判斷)決策的基本流程包含發(fā)現(xiàn)并界定問題、確定決策目標(biāo)、擬定備選方案、
評價備選方案、選擇方案和回饋評估方案六大步。
A.V
B.X
答案:A
17.(多選)以下哪些方法屬于定性決策方法?
A.頭腦風(fēng)暴法
B.專家會議法
C.樂觀決策法
D.波士頓矩陣法
答案:ABD
18.(填空)大數(shù)據(jù)的五大特征包括?
答案:1.數(shù)據(jù)容量大;2.數(shù)據(jù)類型多樣;3.數(shù)據(jù)價值密度低;4.數(shù)據(jù)流轉(zhuǎn)速度快;
5.對數(shù)據(jù)真實性要求高
第二單元測試題
1.(單選)數(shù)據(jù)采集與處理工作不包括
A.數(shù)據(jù)治理
B數(shù)據(jù)獲取
C數(shù)據(jù)預(yù)處理
D數(shù)據(jù)存儲
答案:A
2.(單選)以下哪項不屬于大數(shù)據(jù)分析的范疇
A.描述性分析
B診斷分析
C預(yù)測分析
D聚類分析
答案:D
3.(單選)大數(shù)據(jù)建模的步驟為
A.模型建立-模型評估-模型訓(xùn)練-模型應(yīng)用
B模型建立?模型優(yōu)化-模型訓(xùn)練■模型應(yīng)用
C模型建立-模型訓(xùn)練-模型評估-模型應(yīng)用
D模型建立-模型訓(xùn)練-模型優(yōu)化-模型應(yīng)用
答案:C
4.(單選)決策數(shù)據(jù)可視化技術(shù)不包括
A.海量數(shù)據(jù)可視化
B文本數(shù)據(jù)可視化
C網(wǎng)絡(luò)可視化
D多維數(shù)據(jù)可視化
答案:A
5.(單選)大數(shù)據(jù)處理的核心環(huán)節(jié)是
A.數(shù)據(jù)分析與挖掘
B數(shù)據(jù)采集與處理
C結(jié)果展示
D數(shù)據(jù)應(yīng)用
答案:A
6.(判斷)大數(shù)據(jù)決策是以信息技術(shù)、云計算技術(shù)、大數(shù)據(jù)技術(shù)等為支撐,以海
量數(shù)據(jù)為主要驅(qū)動,通過大數(shù)據(jù)分析提出問題、確立目標(biāo)、設(shè)計和選擇方案的過
程。
A.V
B.X
答案:A
7.(判斷)在數(shù)據(jù)狀態(tài)上,大數(shù)據(jù)分析多使用存量數(shù)據(jù),而大數(shù)據(jù)挖掘多使用動
態(tài)增量數(shù)據(jù)或存量數(shù)據(jù)。
AZ
B.X
8.(判斷)常見的決策數(shù)據(jù)采集技術(shù)包括網(wǎng)絡(luò)數(shù)據(jù)采集、系統(tǒng)日志采集、感知設(shè)
備采集、數(shù)據(jù)庫采集四種。
A.V
B.X
答案:A
9.(判斷)針對結(jié)構(gòu)化和非結(jié)構(gòu)化混合數(shù)據(jù)一般采用數(shù)據(jù)庫集群的方式進(jìn)行存儲
A.V
B.X
答案:B
10.(判斷)Hadoop是一個分布式的、容錯的實時計算系統(tǒng),能夠?qū)崟r動態(tài)的
多源異構(gòu)數(shù)據(jù)進(jìn)行實時計算,獲得有價值的信息。
A.V
B.X
答案:B
11.(判斷)數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理的核心環(huán)節(jié),指通過數(shù)據(jù)標(biāo)簽服務(wù)、文
本處理和影像組學(xué)分析等應(yīng)用支撐,進(jìn)行大數(shù)據(jù)的探索分析、模型擬合、模型訓(xùn)
練及評估。
A.V
B.X
答案:A
第三單元測試題
1.(多選)M叩Reduce體系結(jié)構(gòu)主要由哪幾個部分組成
A.ClientB.JobTrackerC.TaskTrackerD.Task
答案:ABCD
2.(單選)以下名詞解釋不正確的是
A.HBase:提供高可靠性、高性能、分布式的行式數(shù)據(jù)庫,是谷歌BigTable的升
源實現(xiàn)
B.HDFS:分布式文件系統(tǒng),是Hadoop項目的兩大核心之一,是谷歌GFS的開
源實現(xiàn)
C.Zookeeper:針對谷歌Chubby的一個開源實現(xiàn),是高效可靠的協(xié)同工作系統(tǒng)
D.Hive:一個基于Hadoop的數(shù)據(jù)倉庫工具,用于對Hadoop文件中的數(shù)據(jù)集進(jìn)
行數(shù)據(jù)整理、特殊查詢和分析存儲
答案:A
3.(單選)HDFSFederation設(shè)計不能解決“單名稱節(jié)點(diǎn)”存在的哪個問題
A.單點(diǎn)故隙問題
B.良好的隔離性
C.性能更高效
D.HDFS集群擴(kuò)展性
答案:A
4.(單選)下列說法正確的是
A.第二名稱節(jié)點(diǎn)無法解決單點(diǎn)故障問題
B.HDFSHA提供高可用性,可以實現(xiàn)可擴(kuò)展性、系統(tǒng)性能和隔離性
C.第二名稱節(jié)點(diǎn)是熱備份
D.HDFSHA可用性不好
答案:A
5.(多選)對新一代資源管理調(diào)度框架YARN的理解正確的是
A.YARN的體系結(jié)構(gòu)包含三個組件:ResourceManager,NodeManager,
ApplicationMasterB.YARN可以實現(xiàn)“一個集群多個框架”,即在一個集群上部
署一個統(tǒng)一的資源調(diào)度管理框架
C.MapReduce2.0是運(yùn)行在YARN之上的計算框架,由YARN來為MapReduce
提供資源管理調(diào)度服務(wù)
D.YARN既是資源管理調(diào)度框架,也是一個計算框架
答案:ABC
6.(判斷)Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)寫。
A.V
B.X
答案:B
7.(判斷)Hadoop是Java開發(fā)的,所以Hadoop只支持Java語言編寫。
A.J
B.X
答案:B
8.(判斷)Hadoop1.()和2.()都具有完善的HDFSHA策略。
A.J
B.X
答案:B
9.(判斷)因為Hadoop有多個副本,所以NameNode不存在單點(diǎn)問題。
A.V
B.X
答案:B
10.(判斷)PIG是腳本語言,它與M叩Reduce無關(guān)。
A.J
B.X
答案:B
11.(單選)關(guān)于SecondaryNameNode哪項是正確的?
A.它的目的是幫助NameNode合并編輯日志,減少NameNode的啟動時間
B.它是NameNode的熱備份
C.它對內(nèi)存沒有要求
D.SecondaryNameNode應(yīng)與NameNode部署到一個節(jié)點(diǎn)
答案:A
12.(填空)YARN的體系結(jié)構(gòu)包括哪些組件?
答案:ResourceManager、ApplicationMaster^NodeManager
13.(單選)下面哪個程序負(fù)責(zé)HDFS數(shù)據(jù)存儲。
A.Datanode
B.NameNode
C.Jobtracker
D.SecondaryNameNode
答案:A
14.(單選)HBase是分布式列式存儲系統(tǒng),記錄按什么集中存放。
A.列族
B.歹U
C.行
D.不確定
答案:A
15.(填空)哪個進(jìn)程負(fù)責(zé)M叩Reduce任務(wù)調(diào)度.
答案:Jubliackci
第四單元測試題
1.(單選)分布式文件系統(tǒng)HDFS采用了主從結(jié)構(gòu)模型,由計算機(jī)集群中的多個
節(jié)點(diǎn)構(gòu)成的,這些節(jié)點(diǎn)分為兩類,一類存儲元數(shù)據(jù)叫(),另一類存儲具體數(shù)據(jù)
叫()
A.數(shù)據(jù)節(jié)點(diǎn),名稱節(jié)點(diǎn)
B.名稱節(jié)點(diǎn),主節(jié)點(diǎn)
C.從節(jié)點(diǎn),主節(jié)點(diǎn)
D.名稱節(jié)點(diǎn),數(shù)據(jù)節(jié)點(diǎn)
答案:D
2.(單選)下列Amazon的云數(shù)據(jù)庫屬于關(guān)系數(shù)據(jù)庫的是()
A.AmazonDynamoDB
B.AmazonRedshift
C.AmazonRDS
0.AmazonSimplcDB
答案:C
3.(單選)下列關(guān)于NoSQL數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫的比較,不正確的是(;
A.NoSQL數(shù)據(jù)庫缺乏統(tǒng)一的查詢語言,而關(guān)系型數(shù)據(jù)庫有標(biāo)準(zhǔn)化查詢語言
B.NoSQL數(shù)據(jù)庫很容易實現(xiàn)數(shù)據(jù)完整性,關(guān)系型數(shù)據(jù)庫很難實現(xiàn)數(shù)據(jù)完整性
C.NoSQL數(shù)據(jù)庫的可擴(kuò)展性比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫更好
D.NoSQL數(shù)據(jù)庫具有弱一致性,關(guān)系型數(shù)據(jù)庫具有強(qiáng)一致性
答案:B
4.(多選)下列對HBase的理解正確的是()
A.HBase是一個行式分布式數(shù)據(jù)庫,是Hadoop生態(tài)系統(tǒng)中的一個組件
B.HBase是針對谷歌BigTable的開源實現(xiàn)
C.HBase是一種關(guān)系型數(shù)據(jù)庫,現(xiàn)成功應(yīng)用于互聯(lián)網(wǎng)服務(wù)領(lǐng)域
D.HBase多用于存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)
答案:BD
5.(單選)HBase是一種()數(shù)據(jù)庫
A.行式數(shù)據(jù)庫
B.關(guān)系數(shù)據(jù)庫
C.文檔數(shù)據(jù)庫
D.列式數(shù)據(jù)庫
答案:D
6.(單選)下列數(shù)據(jù)庫屬于文檔數(shù)據(jù)庫的是
A.HBase
B.MongoDB
C.MySQL
D.MongoDB
答案:D
7.(單選)NoSQL數(shù)據(jù)庫的三大理論基石不包括
A.CAP
B.最終一致性
C.BASE
D.ACID
答案:D
8.(多選)HDFS只設(shè)置唯一一個名稱節(jié)點(diǎn)帶來的局限性包括。
A.命名空間的限制
B.集群的可用性
C.隔離問題
D.性能的瓶頸
答案:ABCD
9.(判斷)目前,NoSQL的含義是“NolonlySQL”,而不是“NoSQL”。
A.J
B.X
答案:B
10.(判斷)一個數(shù)據(jù)庫事務(wù)具有ACID是指:原子性,一致性,持久性,隔離性。
A.J
B.X
答案:A
第五單元測試題
1.(單選)下列哪些不是數(shù)據(jù)來源()
A.商業(yè)教據(jù)
B.互聯(lián)網(wǎng)教據(jù)
C.物聯(lián)網(wǎng)教據(jù)
D.人工收集教據(jù)
答案:D
2.(單選)下列不是數(shù)據(jù)采集的主要渠道是()
A.傳統(tǒng)信息系統(tǒng)
B.大數(shù)據(jù)系統(tǒng)
C.物聯(lián)網(wǎng)系統(tǒng)
D.Web系統(tǒng)
答案:B
3.(單選)下列數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn),不正確的是()
A.完整性
B.可替代性
C.一致性
D.及時性
答案:B
4.(多選)下列關(guān)于數(shù)據(jù)質(zhì)量的影響因素理解正確的是()
A.信息因素
B.人為因素
C.信息因素
D.流程因素
答案:ABD
5.(單選)下列不是大數(shù)據(jù)采集方法的是0
A.系統(tǒng)日志采集
B.網(wǎng)絡(luò)數(shù)據(jù)采集
C.數(shù)據(jù)庫采集
D.手動聚集
答案:D
6.(多選)下列屬于大數(shù)據(jù)預(yù)處理的方法的是()
A.數(shù)據(jù)清洗
B.數(shù)據(jù)集成
C.數(shù)據(jù)變換
D.數(shù)據(jù)歸約
答案:ABCD
7.(多選)處理噪聲數(shù)據(jù)的方法包括0
A.分箱
B.平滑處理
C.聚類
D.清洗
答案:ABC
8.(判斷)忽略元組的方法可以使用該元組的剩余屬性值
A.V
B.X
答案:B
9.(判斷)大數(shù)據(jù)預(yù)處理技術(shù)就是對己接收數(shù)據(jù)的辨析抽取和清洗
A7
B.X
答案:A
10.(判斷)大數(shù)據(jù)的數(shù)據(jù)采集是指通過傳感器、攝像頭、RFID射頻數(shù)據(jù)以及互
聯(lián)網(wǎng)等方式獲取的各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。
A.V
B.X
答案:A
第六單元測試題
一、單選
1.(單選)MapReduce的基本架構(gòu)不包括下列哪個部分()
AClient
BJobTracker
CTaskTracker
DSparkCore
答案:D
2.(單選)大型主機(jī)的特點(diǎn)不包括下列哪個()
A高可靠性
B高可用性
C高服務(wù)性
D高激活性
答案:D
3.(單選)下列哪項不是Storm的主要特點(diǎn)()
A可伸縮性高
B容錯性不好
C語言無關(guān)性
D適用場景廣泛
答案:B
4.(單選)下列哪項不是SAPHANA的特點(diǎn)()
A充分并行編程
B把數(shù)據(jù)全部放入內(nèi)存中存儲
C圖模型系統(tǒng)優(yōu)化
D最小化數(shù)據(jù)傳輸
答案:C
二、多選
1.(多選)MapReduce的主要特點(diǎn)有()
A易于編程
B良好的擴(kuò)展性
C高容錯性
D適合PB級以上海量數(shù)據(jù)的離線處理
答案:ABCD
2.(多選)Spark的主要特點(diǎn)有()
A快速高效
B快速高效
C全棧式數(shù)據(jù)處理
D兼容性高
答案:ABCD
3.(多選)超級計算機(jī)可應(yīng)用的領(lǐng)域有()
A氣象預(yù)報領(lǐng)域
B醫(yī)藥領(lǐng)域
C交通領(lǐng)域
D防震減災(zāi)領(lǐng)域
答案:ABCD
4.(多選)圖計算主要分為以下哪三類()
A基于分布式環(huán)境的大規(guī)模圖計算系統(tǒng)
B基丁軟件加速器的大規(guī)模圖計算系統(tǒng)
C基于單機(jī)的大規(guī)模圖計算系統(tǒng)
D基于硬件加速器的大規(guī)模圖計算系統(tǒng)
答案:ACD
5.(多選)流式計算系統(tǒng)的特征主要包括以下哪幾個方面()
A有序性
B實時性
C突發(fā)性
D易失性
答案:BCD
三、判斷
1.(判斷)M叩Reduce集群中使用了大量的低端服務(wù)器,因此,節(jié)點(diǎn)硬件失效和
軟件出錯是常態(tài)。
A.V
B.X
答案:A
2.(判斷)大型主機(jī)雖然在性能和穩(wěn)定性方面表現(xiàn)卓越,但并不代表其永遠(yuǎn)不會
出故障。
A.V
B.X
3.(判斷)分布式架構(gòu)中的計算機(jī)有明顯的主/從之分,所有計算機(jī)節(jié)點(diǎn)都是不對
等的。
A.V
B.X
答案:B
4.(判斷)集中式架構(gòu)設(shè)計,天然就有多個節(jié)點(diǎn),很容易通過主備、冗余、哈希
(Hash)等手段實現(xiàn)計算和存儲冗余備份,從而實現(xiàn)高可用。
A.J
B.X
答案:B
5.(判斷)批處理系統(tǒng)自動化程度比較高,系統(tǒng)吞吐量大,資源利用率高,系統(tǒng)
開銷小,但各作業(yè)周轉(zhuǎn)時間長,不提供用戶與系統(tǒng)的交互手段,適合大的成熟的
作業(yè)。
A.J
B.X
答案:B
四、填空
1.(填空)大數(shù)據(jù)處理從海量的原始數(shù)據(jù)中抽取出有價值的信息,將數(shù)據(jù)轉(zhuǎn)換成
信息,其中—是基礎(chǔ)、—是支撐、是核心、―是根本。
答案:數(shù)據(jù)資源處理平臺分析算法應(yīng)用效益
2.(填空)M叩Reduce框架把計算節(jié)點(diǎn)和存儲節(jié)點(diǎn)放在一起運(yùn)行,將復(fù)雜的、運(yùn)
行于大規(guī)模集群上的并行計算過程高度地抽象到兩個函數(shù):和,從而減
少了節(jié)點(diǎn)間的數(shù)據(jù)移動開銷。
答案:MappingReducing
3.(填空)Spark生態(tài)系統(tǒng)主要包含
了、、、
_>和等組件。
答案:SparkCore>SparkSQL>SparkStreaming>MLlib、GraphX
4.(填空)分布式架構(gòu)設(shè)計的核心理念是“",即按照一定維度將系
統(tǒng)進(jìn)行拆分,系統(tǒng)各部分松耦合并行運(yùn)行,并建立起較為完善的橫向擴(kuò)展與容錯
恢復(fù)機(jī)制。
答案;并行拆分與橫向擴(kuò)展
5.(填空)Prcgel是一種基于—模型實現(xiàn)的并行圖處理系統(tǒng),搭建了一套可擴(kuò)
展的、有容錯機(jī)制的平臺,提供了一套非常靈活的—,可以描述各種各樣的圖
計算,主要用于—、—、—等。
答案:BSPAPI圖遍歷最短路徑PageRank計算
第七單元測試題
1.(單選)大數(shù)據(jù)時代下企業(yè)管理的特點(diǎn)是()
A.企業(yè)用于分析的數(shù)據(jù)量十分龐大
B.數(shù)據(jù)的精確性要求有所降低提高
C.建立事物之間的相關(guān)性
D.處理能力提升
答案:A
2.(單選)下列不屬于大數(shù)據(jù)在企業(yè)管理中的作月及價值是()
A.大數(shù)據(jù)幫助企業(yè)優(yōu)化資源配置
B.大數(shù)據(jù)幫助企業(yè)推動產(chǎn)品創(chuàng)新
C.大數(shù)據(jù)幫助企業(yè)實現(xiàn)精準(zhǔn)營銷
D.大數(shù)據(jù)幫助企業(yè)改善外部管理
答案:D
3.(單選)下列屬于大數(shù)據(jù)分析流程有0
A.跨行'業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM
B.業(yè)務(wù)理解
C.模型部署
D.數(shù)據(jù)取樣
答案:A
4.(單選)SEMMA是由SAS公司提出的一套行之有效的數(shù)據(jù)挖掘方法論,下列
不屬于數(shù)據(jù)挖掘的核心過程有()
A.抽樣
B.探索
C.評估
D.部署
答案:D
5.(多選)大數(shù)據(jù)分析關(guān)鍵技術(shù)有()
A.可視化分析
B.數(shù)據(jù)挖掘算法
C.預(yù)測性分析
D.數(shù)據(jù)降噪
答案:ABC
6.(多選)大數(shù)據(jù)分析是利用數(shù)據(jù)獲得洞察力,幫助人們更好地做決策的學(xué)科集
合,下列屬于大數(shù)據(jù)分析有。
A.可視化分析
B基本數(shù)據(jù)分析
C.診斷型數(shù)據(jù)分析
D.描述型數(shù)據(jù)分析
答案:CD
7.(判斷)模型評估指從業(yè)務(wù)角度和統(tǒng)計角度進(jìn)行模型結(jié)論的評估,評估決定了
當(dāng)前模型的命運(yùn),沒通過評估只能面臨返工。
A.J
B.X
答案:A
8.(判斷)數(shù)據(jù)分析方法主要對機(jī)器學(xué)習(xí)算法進(jìn)行分類介紹,機(jī)器學(xué)習(xí)算法包括
監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)
A7
B.X
答案:A
9.(填空)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM(cross-industrystandardprocessfor
datamining)是一種業(yè)界認(rèn)可的用于指導(dǎo)數(shù)據(jù)挖掘工作的方法,為數(shù)據(jù)庫知識發(fā)現(xiàn)
工程(KnowledgeDiscoveryinDatabase,KDD)或數(shù)據(jù)挖掘項目提供了一個完整
的過程描述。CRISP-DM把這個過程劃分為六個階段,分別
是、、、、和O
答案:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型部署
10.(判斷)特征工程是機(jī)器學(xué)習(xí)應(yīng)用的基礎(chǔ),指的是利用領(lǐng)域知識從原始數(shù)據(jù)
中提取用于后續(xù)機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘應(yīng)用的特征(向量)的過程。整個過程并
不涉及諸如特征表示、特征提取、屬性約減、特征選擇等內(nèi)容。
A.V
B.X
答案:B
第八單元測試題
1.(單選)可視化基本類型不包括以下哪一項?
A.圖形可視化
B.科學(xué)可視化
C.信息可視化
D.可視分析學(xué)
答案:A
2.(單選)科學(xué)可視化主要關(guān)注的是()
A.三維現(xiàn)象的可視化
B.二維現(xiàn)象的可視化
C.多維現(xiàn)象的可視化
D.圖形的可視化
答案:A
3.(單選)GoogleChartAPI屬于那種可視化工具?
A.信息圖表工具
B.入門級工具
C.地圖工具
D.時間線工具
答案:A
4.(單選)下面那一項不屬于可視化工具中的高級分析工具
A.R語言
B.TimelineJS
C.Weka
D.Gephi
答案:B
5.(單選)下面哪一項不屬于視覺通道的內(nèi)容
A.飽和度
B.色調(diào)
C.色彩
D.面積
答案:c
6.(單選)以下不屬于時間線工具的是
A.TimelineJS
B.Timetoast
C.Xlimeline
DR語言
答案:D
7.(多選)以下屬于地圖工具的有
A.Leaflet
B.ModestMaps
C.GoogleFusionTables
D.excel
答案:ABC
8.(多選)可視化評估可以分為哪兩種類型
A.定性評估
B.定量評估
C.半定性評估
D.半定量評估
答案:AB
9.(判斷)數(shù)據(jù)中的離?群點(diǎn),即不同于數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)對象特征的數(shù)
據(jù)對象。
A.V
B.X
答案:A
10.(判斷)內(nèi)部數(shù)據(jù)收集的具體目的包括:獲取競品的數(shù)據(jù)、獲取官方機(jī)構(gòu)官
網(wǎng)公布的一些行業(yè)數(shù)據(jù)等。
A.V
B.X
答案:B
IL(填空)整群抽樣又稱O0是將總體中各單位歸并成若干個互不交叉、互
不重復(fù)的集合,稱之為群;然后以群為取樣單位抽取樣本的一種抽樣方式。
答案:聚類抽樣
12.(填空)典型的訪談包括()、()和半結(jié)構(gòu)型訪談等
答案:開放型訪談、結(jié)構(gòu)型訪談
13.(判斷)數(shù)據(jù)可視化的工具,主要有入門級工具、信息圖表工具、地圖工
具、時間線工具、高級分析工具。
A.V
B.X
答案:A
14.(判斷)開始創(chuàng)建一個可視化項目時,第一步是收集數(shù)據(jù)
A.V
B.X
答案:B
15.(多選)以下屬于主觀評估方法的有
A.專家評估
B.啟發(fā)式評估
C.抽樣問卷調(diào)查
D.焦點(diǎn)小組訪談
答案:ABCD
第九單元測試題
1.(多選)制約大數(shù)據(jù)治理的主要因素有:()
A.制度與規(guī)范缺失
B.數(shù)據(jù)防護(hù)意識薄弱
C.成本效益比較低
D.技術(shù)不成熟
答案:ABCD
2.(多選)下列屬于大數(shù)據(jù)治理的實施路徑的是:()
A.產(chǎn)生數(shù)據(jù)
B.數(shù)據(jù)資產(chǎn)梳理
C.構(gòu)建機(jī)構(gòu)內(nèi)部大數(shù)據(jù)治理體系
D.大數(shù)據(jù)治理評估與審計
答案:ABCD
3.(填空)數(shù)據(jù)資產(chǎn)包括:
答案:企業(yè)內(nèi)部數(shù)據(jù)、企業(yè)外部數(shù)據(jù)、企業(yè)購買數(shù)據(jù)
4.(填空)大數(shù)據(jù)治理的五個核心要素包括:
答案:明確數(shù)據(jù)治理責(zé)任,建立數(shù)據(jù)治理組織、管理出成效,制度是保障、確
保數(shù)據(jù)規(guī)范、數(shù)據(jù)治理要理論結(jié)合實踐、數(shù)據(jù)治理軟件
第十單元測試題
1.(多選)大數(shù)據(jù)技術(shù)的應(yīng)用為組織財務(wù)管理注入了新鮮血液的方式有()
A.拓寬籌資渠道
B.增強(qiáng)財務(wù)控制能力
C.提高投資回報率
D.數(shù)據(jù)資源整合共享
答案:ABCD
2.(單選)大數(shù)據(jù)平臺可為物流管理提供()
A.海量數(shù)據(jù)的收集
B.儲存數(shù)據(jù)
C.分析數(shù)據(jù)
D.整合數(shù)據(jù)
答案:A
3.(多選)大數(shù)據(jù)在零售決策中的應(yīng)用()
A.利用大數(shù)據(jù)分析關(guān)聯(lián)購買行為
B.智能推薦系統(tǒng)
C.大范圍營銷
D.主持產(chǎn)品定價
答案:AB
4.(單選)下列不屬于大數(shù)據(jù)在政府決策中的應(yīng)月()
A.智慧政府
B.社會治理
C.公共服務(wù)
D.調(diào)整組織結(jié)構(gòu)
答案:D
5.(多選)大數(shù)據(jù)在研發(fā)設(shè)計中的應(yīng)用()
A.產(chǎn)品協(xié)同設(shè)計
B.設(shè)計仿真
C.替代工藝流程
D.優(yōu)化工藝流程
答案:ABD
6.(多選)下列不屬于大數(shù)據(jù)在供應(yīng)鏈中的應(yīng)用()
A.供應(yīng)鏈管理戰(zhàn)略決策
B.供應(yīng)鏈管理風(fēng)險預(yù)測
C.供應(yīng)鏈管理敏捷性
D.供應(yīng)鏈協(xié)同管理
答案:ABCD
7.(判斷)大數(shù)據(jù)與智能制造之間的關(guān)系包括將制造中存在的問題轉(zhuǎn)換為定
性、定量的數(shù)據(jù)內(nèi)容,然后從中找到相應(yīng)的解決方法。
AZ
B.X
答案:A
8.(判斷)大數(shù)據(jù)技術(shù)在供應(yīng)鏈管理方面的應(yīng)用集中在供應(yīng)鏈管理戰(zhàn)略決策、
風(fēng)險預(yù)測、提升供應(yīng)鏈管理敏捷性及協(xié)同管理方面。
A.V
B.X
答案:A
9.(填空)大數(shù)據(jù)技術(shù)在生產(chǎn)制造環(huán)節(jié)的應(yīng)用有助于更快、更好地推進(jìn)智能制
造,其主要應(yīng)用包括、—和—制等
答案:智能生產(chǎn)、生產(chǎn)流程優(yōu)化、個性化定制
10.(填空)大數(shù)據(jù)在醫(yī)療衛(wèi)生管理與臨床服務(wù)中的應(yīng)用包
括:、、、
答案:醫(yī)療質(zhì)量管理、醫(yī)療績效管理、醫(yī)療設(shè)備管理、醫(yī)保管理
第十一單元測試題
1.(單選)下列說法正確的是()
A.當(dāng)今社會,互聯(lián)網(wǎng)以及各種智能設(shè)備的普遍應(yīng)用,人們活動的大量信息被廣
泛收集
B.大數(shù)據(jù)的應(yīng)用并不會引發(fā)了各種各樣的社會問題
C.技術(shù)的提升只有好處沒有壞處
D.世界進(jìn)入了大數(shù)據(jù)時代之后,總體會危害人們的安全
答案:A
2.(單選)下列說法錯誤的是()
A.組織可以比以往更大規(guī)模地收集或分析數(shù)據(jù)
B.網(wǎng)絡(luò)公司擁有海量用戶個人信息,有泄露的風(fēng)險
C.公司可從數(shù)據(jù)中獲利
D.組織可以不通過互聯(lián)網(wǎng)獲得數(shù)據(jù)
答案:D
3.(單選)下列說法錯誤的是()
A.大數(shù)據(jù)應(yīng)用引發(fā)的各種社會問題,歸納起來,既有倫理問題,又有法律問題
B.大數(shù)據(jù)時代,要獲得更好的個性化服務(wù),用戶就必須同意收集自己的個人信
息C.大數(shù)據(jù)應(yīng)用最常見的倫理問題就是個人信息遭泄露
D.殺熟現(xiàn)象不需要數(shù)據(jù)也會出現(xiàn)
答案:D
4.(判斷)在互聯(lián)網(wǎng)大數(shù)據(jù)時代,保護(hù)公民個人信息與隱私,強(qiáng)化技術(shù)防范措
施,是一種及時和有效的手段。()
A7
B.X
答案:A
5.(填空)除了和之外,及,也都是保護(hù)公民個人信息與
隱私安全的必然要求。
答案:技術(shù)防范和法律保護(hù);公民道德素質(zhì)的提高及國際治理環(huán)境的不斷改善
第十二單元測試題
1.(多選)下列屬于大數(shù)據(jù)管理決策面臨的挑戰(zhàn)的是:()
A.數(shù)據(jù)獲取與整合能力欠缺
B.企業(yè)管理觀念落后
C.企業(yè)決策環(huán)境復(fù)雜
D.大數(shù)據(jù)人才匱乏
答案:ABCD
2.(單選)下列不屬于大數(shù)據(jù)管理決策考慮的問題和技術(shù)選擇的是()
A.數(shù)據(jù)的數(shù)量和質(zhì)量
B.大數(shù)據(jù)與其他信息的結(jié)合
C.因果關(guān)系分析
D.公司的盈利情況
答案:D
3.(單選)下列不屬于大數(shù)據(jù)管理決策的未來趨勢是()
A.事務(wù)與分析融合
B.模塊融合
C.人智融合
D.云數(shù)融合
答案:C
4.(判斷)合適的數(shù)據(jù)分析工具其實能帶給企業(yè)的作用是非常巨大的,系統(tǒng)化
的可視化數(shù)據(jù)能夠更好、更準(zhǔn)確地幫助用戶進(jìn)行數(shù)據(jù)分析。
A.V
B.X
答案:A
5.(填空)數(shù)據(jù)能力集成的趨勢打破了企業(yè)內(nèi)原有的復(fù)雜數(shù)據(jù)結(jié)構(gòu),使數(shù)據(jù)和
業(yè)務(wù)更貼近,并能更快地使用數(shù)據(jù)驅(qū)動決策。主要針對性地解決三個問題:一
是提:二是;三是O
答案:提高數(shù)據(jù)獲取的效率;打通數(shù)據(jù)共享的通道;提供統(tǒng)一的數(shù)據(jù)開發(fā)能力
6.(填空)數(shù)據(jù)模型是數(shù)據(jù)特征的抽象,它從抽象層次上描述了系統(tǒng)
的、和,為數(shù)據(jù)庫系統(tǒng)的信息表示與操作提供一個
抽象的框架。
答案:靜態(tài)特征、動態(tài)行為和約束條件
1.科學(xué)決策為何遵循“滿意原則”而不是“最優(yōu)原則”?
信息、時間和確定性地局限使決策者難以做到最佳,通常情況下,決策者采
納尋求一定條件下實現(xiàn)目標(biāo)的較滿意方案,即在目前環(huán)境中足夠好的方案為決策
方案。滿意原則是針對“最優(yōu)化''原則提出來的,即最優(yōu)是不存在的,存在的只有
滿意?!白顑?yōu)化”的理論假設(shè)把決策者作為完全理性的人,以“絕對的理性”為指導(dǎo),
按最優(yōu)化準(zhǔn)則行事。但是,處于復(fù)雜多變環(huán)境中的企業(yè)和決策者,要對未來做出
,,絕對理性,,的判斷是不可能的。要使得決策達(dá)到最優(yōu),但是現(xiàn)實中上述條件往往
得不到滿足,具體來說:①組織內(nèi)外存在的一切,對組織的現(xiàn)在和未來都會直接
或間接地產(chǎn)生某種程度的影響,但決策者很難收集到反映這一切情況的信息。②
對于收集到的有限信息,決策者的利用能力也是有限的,決策者只能制定數(shù)量7T
限的方案。③決策所預(yù)測的未來狀況可能與實際的未來狀況有出入,人們對未來
的認(rèn)識是不全面的。區(qū)此,決策者不可能做出“最優(yōu)化''的決策,只能做到滿意決
策。從管理學(xué)的意義上講最優(yōu)就是最好的資源、最好的組合和利用,獲得最好的
效益,亳無疑問這是不可能的。所謂滿意,就是滿意的資源、通過滿意的組合和
利用、獲得滿意的效果,而這才是合理的,也是能實現(xiàn)的。
2.在大數(shù)據(jù)背景下,決策還有新的分類方法嗎?
在大數(shù)據(jù)背景下,決策的分類方法可以根據(jù)不同的維度和目的進(jìn)行劃分。以
下是一些常見的分類方法:
(1)基于數(shù)據(jù)類型的分類
①結(jié)構(gòu)化數(shù)據(jù)決策:對于具有明確定義格式和字段的數(shù)據(jù),可以使用傳統(tǒng)的
數(shù)據(jù)挖掘技術(shù)和統(tǒng)計方法進(jìn)行決策。②半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)決策:針對文本、
圖像、視頻等不同形式的非結(jié)構(gòu)化數(shù)據(jù),通常需要利用自然語言處理、圖像處理、
深度學(xué)習(xí)等技術(shù)進(jìn)行決策。
(2)基于決策模型的分類
①經(jīng)驗?zāi)P停夯谙惹暗慕?jīng)驗和規(guī)則進(jìn)行決策,如規(guī)則引擎、專家系統(tǒng)等。
②機(jī)器學(xué)習(xí)模型:通過訓(xùn)練模型來從數(shù)據(jù)中學(xué)習(xí)模式,例如決策樹、支持向量機(jī)、
神經(jīng)網(wǎng)絡(luò)等。③深度學(xué)習(xí)模型:利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的特征和模式,例如
卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。
(3)基于決策支持系統(tǒng)的分類
①基于規(guī)則的系統(tǒng):使用事先定義的規(guī)則來進(jìn)行決策,如專家系統(tǒng)。②基于
模型的系統(tǒng):使用數(shù)學(xué)模型和算法來輔助決策,如優(yōu)化模型、模擬模型等。
(4)基于決策環(huán)境的分類
①靜態(tài)環(huán)境決策:在固定的數(shù)據(jù)集上進(jìn)行決策,數(shù)據(jù)不斷累積但不會實時更
新。②動態(tài)環(huán)境決策:需要實時地處理和響應(yīng)不斷變化的數(shù)據(jù),例如金融交易、
網(wǎng)絡(luò)安全等。
(5)基于決策目標(biāo)的分類
①單目標(biāo)決策:優(yōu)化一個特定的目標(biāo),例如最大化利潤、最小化成本等。②
多目標(biāo)決策:同時考慮多個決策目標(biāo),可能存在相互沖突的情況,需要進(jìn)行權(quán)衡
和優(yōu)化。
(6)基于決策模型的分類
①經(jīng)驗?zāi)P停夯谙惹暗慕?jīng)驗和規(guī)則進(jìn)行決策,如規(guī)則引擎、專家系統(tǒng)等。
②機(jī)器學(xué)習(xí)模型:通過訓(xùn)練模型來從數(shù)據(jù)中學(xué)習(xí)模式,例如決策樹、支持向量機(jī)、
神經(jīng)網(wǎng)絡(luò)等。③深度學(xué)習(xí)模型:利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的特征和模式,例如
卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。
以上分類方法并非互斥,實際應(yīng)用中可能會結(jié)合多種方法來解決復(fù)雜的決策
問題。同時,隨著技術(shù)的不斷發(fā)展和大數(shù)據(jù)應(yīng)用場景的多樣化,決策方法也在不
斷演進(jìn)和創(chuàng)新。
3.除了本書中提到的大數(shù)據(jù)對于管理決策思維、手段和方式產(chǎn)生影響外,是否
還在其他方面對管理決策產(chǎn)生影響呢?
大數(shù)據(jù)在管理決策方面產(chǎn)生了廣泛的影響,不僅僅限于思維、手段和方式。
以下是一些其他方面,其中大數(shù)據(jù)對管理決策產(chǎn)生影響的示例:
①精細(xì)化決策:大數(shù)據(jù)允許管理者更細(xì)致地分析和理解組織內(nèi)部和外部的各
種因素。這有助于制定更精確、個性化的管理決黃,以滿足不同情境和利益相關(guān)
者的需求。
②實時決策:大數(shù)據(jù)技術(shù)使得管理者能夠獲取和分析實時數(shù)據(jù)。這有助于更
快地做出決策,以應(yīng)市緊急情況或迅速變化的市場條件。
③風(fēng)險管理.:通過大數(shù)據(jù)分析,管理者可以更好地識別和管理風(fēng)險。這包括
市場風(fēng)險、供應(yīng)鏈風(fēng)險、合規(guī)性風(fēng)險等。大數(shù)據(jù)幫助管理者更好地預(yù)測、減輕和
回應(yīng)潛在風(fēng)險。
④客戶體驗:大數(shù)據(jù)有助于了解客戶需求和行為,以優(yōu)化產(chǎn)品和服務(wù),提高
客戶滿意度,并制定更好的客戶關(guān)系管理策略。
⑤創(chuàng)新決策:大數(shù)據(jù)分析可以幫助管理者發(fā)現(xiàn)新的機(jī)會和趨勢,從而推動創(chuàng)
新決策。它有助于識別市場缺口,了解客戶反饋,以及監(jiān)測競爭者的動態(tài)。
⑥成本效益:通過大數(shù)據(jù)的分析,管理者可以更好地控制和降低成本。這包
括優(yōu)化供應(yīng)鏈、資源分配、生產(chǎn)流程等方面。
⑦人力資源管理:大數(shù)據(jù)可以用于招聘、績效評估、員工滿意度和離職率分
析,從而支持更智能的人力資源決策。
⑧社會責(zé)任和可持續(xù)發(fā)展:大數(shù)據(jù)分析有助于監(jiān)測和報告組織的社會責(zé)任,
包括可持續(xù)發(fā)展目標(biāo)、環(huán)保措施等,從而影響與可持續(xù)發(fā)展相關(guān)的決策。
⑨供應(yīng)鏈管理:大數(shù)據(jù)有助于實時跟蹤供應(yīng)鏈運(yùn)營,以應(yīng)對需求變化、庫存
管理和供應(yīng)鏈風(fēng)險。
總之,大數(shù)據(jù)對管理決策的影響不僅僅限于改進(jìn)思維和決策方式,它改變了
決策的全面方法,使管理者更具洞察力、反應(yīng)迅速,并更好地適應(yīng)不斷變化的商
業(yè)環(huán)境。這有助于提高效率、創(chuàng)造價值,并推動組織的成功。
1.大數(shù)據(jù)決策和傳統(tǒng)的決策方式有什么區(qū)別?
大數(shù)據(jù)決策和傳統(tǒng)的決策方式之間存在多個關(guān)鍵區(qū)別,這些區(qū)別涵蓋了決策
過程、數(shù)據(jù)使用、分析方法以及決策效果。以下是一些主要區(qū)別:
區(qū)別大數(shù)據(jù)決策傳統(tǒng)決策
大數(shù)據(jù)決策依賴于處理大規(guī)模、高維傳統(tǒng)決策通常依賴于有
數(shù)據(jù)量和多度、多種類型的數(shù)據(jù)。這包括結(jié)構(gòu)化限數(shù)量的數(shù)據(jù),通常是結(jié)
樣性數(shù)據(jù)(如數(shù)據(jù)庫記錄)和非結(jié)構(gòu)化數(shù)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)
據(jù)(如文本、圖像、視頻等)。據(jù)較少。
大數(shù)據(jù)決策通??梢詫崟r或接近實
傳統(tǒng)決策可能依賴于定
時地分析和應(yīng)對數(shù)據(jù)。這對于需要快
實時性期或批處理分析,不如大
速決策的情況非常重要,如金融交易
數(shù)據(jù)決策實時。
或社交媒體監(jiān)控。
通常依賴于內(nèi)部數(shù)據(jù)源,
數(shù)據(jù)可以來自多個渠道和來源,如:
數(shù)據(jù)來源如企業(yè)數(shù)據(jù)庫,或者一些
社交媒體、物聯(lián)網(wǎng)設(shè)備、傳感器、日
已知的外部數(shù)據(jù),但范圍
志文件等C
較窄。
通常需要使用高級數(shù)據(jù)處理工具和使用較為傳統(tǒng)的數(shù)據(jù)處
數(shù)據(jù)處理
技術(shù),如分布式計算、云計算和大數(shù)理方法,如SQL數(shù)據(jù)庫查
據(jù)平臺。詢和統(tǒng)計分析工具。
通常使用先進(jìn)的分析工具和技術(shù),包
可能更依賴于經(jīng)驗和專
決策支持工括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處
家判斷,也可能使用傳統(tǒng)
具理和數(shù)據(jù)挖掘等,以從大規(guī)模數(shù)據(jù)中
的統(tǒng)計方法。
提取洞察。
由于大數(shù)據(jù)提供了更多的信息和更
傳統(tǒng)決策可能受到數(shù)據(jù)
準(zhǔn)確的洞察,大數(shù)據(jù)決策通常更準(zhǔn)確
決策效果限制和有限的分析方法
和有效,尤其在預(yù)測、個性化推薦和
的限制,因此在應(yīng)對復(fù)雜
風(fēng)險管理方面。
問題時可能效果較弱。
總之,大數(shù)據(jù)決策與傳統(tǒng)決策方式之間的主要區(qū)別在于數(shù)據(jù)的規(guī)模、類型、
實時性、處理方法以及決策支持工具的使用。大數(shù)據(jù)決策在處理大規(guī)模和復(fù)雜數(shù)
據(jù)時具有明顯的優(yōu)勢,但也需要更高級的技術(shù)和資源支持。然而,傳統(tǒng)決策方式
仍然在某些情況下有其價值,特別是在數(shù)據(jù)有限或?qū)崟r性要求不高的情境中。
2.簡述大數(shù)據(jù)決策的基本流程,并舉例分析?
大數(shù)據(jù)在管理決策中的應(yīng)用流程包括:定義問題、建立大數(shù)據(jù)存儲庫、數(shù)據(jù)
探索、數(shù)據(jù)準(zhǔn)備、建立模型、評價模型和實施七大步驟。
(一)定義問題
定義問題通過對實際狀況和理想狀況進(jìn)行細(xì)致周密的分析?,對問題進(jìn)行綜合
定義,明確問題的性質(zhì)、類型和范圍,確定所要實現(xiàn)的目標(biāo)。定義問題是進(jìn)行決
策的第一步。面對決策的不同需求,最先且最重要的就是了解流程和業(yè)務(wù)問題,
制定清晰明確的任務(wù)目標(biāo),以問題為導(dǎo)向開展大數(shù)據(jù)管理決策的相關(guān)活動。
(二)建立大數(shù)據(jù)存儲庫
海量異構(gòu)數(shù)據(jù)存儲是大數(shù)據(jù)支撐組織決策的基礎(chǔ)。建立大數(shù)據(jù)存儲庫包括數(shù)
據(jù)收集、數(shù)據(jù)描述與選擇、數(shù)據(jù)質(zhì)量評估、處理與整合、構(gòu)建數(shù)據(jù)庫和維護(hù)數(shù)據(jù)
庫等工作。其中,數(shù)據(jù)庫是以一定方式儲存在一起、具有盡可能小的冗余度且允
許多用戶共享的數(shù)據(jù)集合。大數(shù)據(jù)存儲庫包括多種類型:如關(guān)系型數(shù)據(jù)庫、分布
式數(shù)據(jù)庫、數(shù)據(jù)倉庫Hive等。
(三)數(shù)據(jù)探索
數(shù)據(jù)探索通過繪圖和計算等手段分析數(shù)據(jù)的質(zhì)量、結(jié)構(gòu)、趨勢和關(guān)聯(lián),對數(shù)
據(jù)進(jìn)行解釋分析工作。數(shù)據(jù)探索的目的在于以問題為導(dǎo)向定義數(shù)據(jù)的本質(zhì)、描述
數(shù)據(jù)的形態(tài)特征并解釋數(shù)據(jù)的相關(guān)性。大數(shù)據(jù)的多樣性和大量性決定了從海量數(shù)
據(jù)中選擇符合決策需求的數(shù)據(jù)是十分重要的,因此這一步驟的重點(diǎn)在于解釋數(shù)據(jù)
的相關(guān)性,找到對決策影響最大的數(shù)據(jù)類型,建立數(shù)據(jù)關(guān)聯(lián)關(guān)系。數(shù)據(jù)探索有助
于更好的開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模等工作。
(四)數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備是指將來刊不同來源的原始數(shù)據(jù)整理或預(yù)處理為可以方便、準(zhǔn)確進(jìn)
行分析的數(shù)據(jù)形式,即將原始數(shù)據(jù)轉(zhuǎn)換成機(jī)器學(xué)習(xí)等算法可以使用的數(shù)據(jù)形式,
包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。
(1)數(shù)據(jù)清洗。數(shù)據(jù)清洗是數(shù)據(jù)準(zhǔn)備的第步,是指發(fā)現(xiàn)并糾正數(shù)據(jù)中可
識別錯誤的過程,包括處理噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)、冗余數(shù)據(jù)等。該步
驟可以有效減少初始數(shù)據(jù)出現(xiàn)相互矛盾情況的問題。
(2)數(shù)據(jù)集成。數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個數(shù)據(jù)存儲庫
中的過程。數(shù)據(jù)集成的核心任務(wù)是將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)集成到一起,使
用戶能夠以透明的方式訪問這些數(shù)據(jù)。數(shù)據(jù)集成能夠維護(hù)數(shù)據(jù)的整體性、一致性,
提高信息的共享和利用效率。
(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是采用數(shù)學(xué)變換等方法將數(shù)據(jù)從一種格式或結(jié)構(gòu)
轉(zhuǎn)換為另一種格式或結(jié)構(gòu)的過程,目的是將多維數(shù)據(jù)壓縮成低維數(shù)據(jù),消除數(shù)據(jù)
在空間、屬性、時間及精度等特征上的差異。
(4)數(shù)據(jù)歸約。數(shù)據(jù)歸約是指在對挖掘任務(wù)和數(shù)據(jù)理解的基礎(chǔ)上,對數(shù)據(jù)
的特征屬性進(jìn)行相應(yīng)處理,在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性,
獲得比原始數(shù)據(jù)小得多的數(shù)據(jù)。
(五)建立模型
建立模型是從大數(shù)據(jù)中尋找知識的過程,常用的方法有機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、
概率統(tǒng)計等。機(jī)器學(xué)習(xí)是一種數(shù)據(jù)分析技術(shù),主要是用數(shù)據(jù)或以往的經(jīng)驗優(yōu)化程
序,而不依賴既定方程模型,其目的是實現(xiàn)在經(jīng)驗學(xué)習(xí)中改善具體算法。數(shù)據(jù)挖
掘是指按既定目標(biāo),對大量數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的規(guī)律或驗
證已知的規(guī)律,并進(jìn)一步將其模型化。概率統(tǒng)計是利用統(tǒng)計學(xué)中的概率分布及數(shù)
學(xué)特征建立模型的方法。建立模型的最終目的是解決實踐問題。根據(jù)需要解決的
問題,數(shù)據(jù)模型可以分為預(yù)測模型(分類模型和回歸模型)、推薦模型、聚類模
型和降維模型等,建立模型是大數(shù)據(jù)決策的核心內(nèi)容。模型的建立是一個反復(fù)的
過程,需要準(zhǔn)備多個模型以判斷哪個模型對決策作用最大。在建立模型的過程中,
應(yīng)先用一部分?jǐn)?shù)據(jù)來訓(xùn)練模型,然后再用額外的數(shù)據(jù)測試和驗證該模型,以保證
模型的準(zhǔn)確性和泛化性。
(六)評價模型
在完成模型構(gòu)建后,應(yīng)對模型的效果進(jìn)行評估,并根據(jù)評估結(jié)果繼續(xù)調(diào)整模
型的參數(shù)、特征或算法,確保所構(gòu)建模型充分考慮了所有重要業(yè)務(wù),能夠?qū)崿F(xiàn)其
挖掘目標(biāo),達(dá)到滿意的結(jié)果??梢杂脤嶒灁?shù)據(jù)進(jìn)行模型評估,或直接在現(xiàn)實世界
中測試模型,觀察模型擬合程度和輸出結(jié)果,根據(jù)平均誤差率、判定系數(shù)、精度、
查全率、查準(zhǔn)率等一系列指標(biāo)評估模型效果,若各類指標(biāo)達(dá)到可接受范圍,則表
明模型可以被接受。
(七)實施
基于大數(shù)據(jù)的決策模型在經(jīng)過反復(fù)驗證后,即可投入到實際的組織運(yùn)營決策
中,輔助戰(zhàn)略制定、組織管理等相關(guān)人員進(jìn)行決策。
舉例:大數(shù)據(jù)在航班信息預(yù)測中的應(yīng)用
隨著航空業(yè)的發(fā)展壯大,航班量、空中交通流量不斷增加,空管系統(tǒng)的壓力
日益增加,航班的延誤率也有所上漲。航班延誤的因素包括空管原因、天氣原因、
航空公司原因、旅客原因等。航班延誤不僅對當(dāng)前航班旅客的行程造成影響,也
會波及后續(xù)航班,不利于我國航空業(yè)的長遠(yuǎn)發(fā)展。以卜.分別從定義問題、建立大
數(shù)據(jù)存儲庫、數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備、建立模型、評價模型和實施七個步驟展開分
析大數(shù)據(jù)的應(yīng)用。
(一)定義問題
隨著航班延誤現(xiàn)象口趨嚴(yán)重,航空公司在運(yùn)營管理等可控方面做出了一定的
努力以減少延誤,但由于流控和天氣等不可控因素,航班延誤整體現(xiàn)象并未得到
緩解。航空業(yè)各子系統(tǒng)間溝通不暢,信息壁壘,延誤預(yù)警能力不足成為造成航班
延誤的新內(nèi)因。航空系統(tǒng)每分鐘產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)來源繁雜、格式多樣。就航
班預(yù)測而言,對多種不可控因素的實時掌控和精確預(yù)測的關(guān)鍵在于各大信息系統(tǒng)
數(shù)據(jù)之間的互聯(lián)互通和及時處理。運(yùn)用大數(shù)據(jù)技術(shù)預(yù)測航班信息順應(yīng)了時代的要
求和科技的趨勢。
(二)建立大數(shù)據(jù)存儲庫
采用移動互聯(lián)網(wǎng)和網(wǎng)絡(luò)爬蟲等技術(shù)從航空運(yùn)輸系統(tǒng)、航空公司報告、機(jī)場準(zhǔn)
點(diǎn)報告、機(jī)場服務(wù)評價反饋和天氣預(yù)報網(wǎng)站等平臺收集國內(nèi)航空運(yùn)輸航班相關(guān)信
息,包括航班運(yùn)行信息表、機(jī)場航班量、準(zhǔn)點(diǎn)率、航空企業(yè)基地統(tǒng)計表、旅客評
價信息、機(jī)場服務(wù)評級和天氣情況等。收集到的數(shù)據(jù)來源不同,數(shù)據(jù)格式也不盡
相同。根據(jù)數(shù)據(jù)類型建立大數(shù)據(jù)存儲庫,將收集到的數(shù)據(jù)存儲在數(shù)據(jù)庫中。
由于以上數(shù)據(jù)結(jié)構(gòu)的多樣性,將數(shù)據(jù)資料存儲在HDFS文件系統(tǒng)中。HDFS
是一種分布式的數(shù)據(jù)存儲系統(tǒng),適合部署在廉價的機(jī)器上,能夠提供高吞吐量的
數(shù)據(jù)訪問,適合存儲大規(guī)模數(shù)據(jù)集。HDFS會對所存儲的數(shù)據(jù)進(jìn)行質(zhì)量評估,評
估數(shù)據(jù)的完整性、有效性、一致性和準(zhǔn)確性,直觀了解數(shù)據(jù)質(zhì)量和存在的問題。
并根據(jù)業(yè)務(wù)場景和航班延誤過程整合數(shù)據(jù),建立數(shù)據(jù)關(guān)聯(lián),如下圖所示。
航空延誤大數(shù)據(jù)存儲圖
(三)數(shù)據(jù)探索
航班延誤是受多方面因素影響的綜合結(jié)果。在進(jìn)行航班延誤預(yù)測前;盡可能
將所有相關(guān)因素都考慮在內(nèi),使未考慮的隨機(jī)因素盡可能小。根據(jù)現(xiàn)實背景和數(shù)
據(jù)來源,對數(shù)據(jù)進(jìn)行初步統(tǒng)計分析,了解數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從相關(guān)因素中篩
選對航班延誤影響效果較大的因素。
(四)數(shù)據(jù)準(zhǔn)備
在進(jìn)行大數(shù)據(jù)分析前,對所搜集的航班相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)準(zhǔn)備,如下圖所示。
航空延誤數(shù)據(jù)準(zhǔn)備圖
(1)進(jìn)行數(shù)據(jù)清洗,包括:①數(shù)據(jù)過淀:在所設(shè)定的時間或范圍內(nèi),從原
始數(shù)據(jù)庫中抽取部分?jǐn)?shù)據(jù)建立數(shù)據(jù)模型。②缺失值處理:對于未記錄數(shù)據(jù)或由于
數(shù)據(jù)收集和存儲過程出現(xiàn)軟硬件故障而丟失的數(shù)據(jù),過濾掉不完整的數(shù)據(jù)樣本,
或通過某種方式填充數(shù)據(jù)點(diǎn)。③異常值處理:錯誤或異常數(shù)據(jù)不利于模型的訓(xùn)練,
不適用于一般的學(xué)習(xí)規(guī)則,因此通過可視化的數(shù)據(jù)分布發(fā)現(xiàn)并過濾掉一些異常值。
(2)進(jìn)行數(shù)據(jù)集成,合并多個數(shù)據(jù)源。將不同數(shù)據(jù)源的數(shù)據(jù)合并成一個包
含所有訓(xùn)練相關(guān)字段的數(shù)據(jù)集,以便進(jìn)行模型訓(xùn)練,并對模型輸入數(shù)據(jù)進(jìn)行某種
形式上的匯總,如統(tǒng)計事件類型總數(shù)等。
(3)進(jìn)行數(shù)據(jù)轉(zhuǎn)奧,將處理后的數(shù)據(jù)轉(zhuǎn)換為一種適合機(jī)器學(xué)習(xí)模型的表示
形式,如數(shù)值向量、矩陣等。對于類別數(shù)據(jù),將其編碼為對應(yīng)的數(shù)值,如根據(jù)天
氣的惡劣程度分類打分;將數(shù)值數(shù)據(jù)轉(zhuǎn)化為類別數(shù)據(jù),減少變量可能值的數(shù)量;
提取非結(jié)構(gòu)化數(shù)據(jù)(如圖形、圖像、音頻等)的有用信息,進(jìn)行數(shù)值轉(zhuǎn)換,并對
特征進(jìn)行正則化、標(biāo)準(zhǔn)化處理。
(五)建立模型
(1)根據(jù)問題特征判斷問題類型,選定模型類別。就航班延誤預(yù)測問題而
言,預(yù)測某個航班具體延誤時間更有意義,即研究回歸問題。
(2)在回歸問題中尋找最適合本場景的個體模型建模,并尋找最佳參數(shù)組
合使個體模型盡可能最優(yōu)。采用試驗法,將多種模型訓(xùn)練至最佳參數(shù),并從中選
擇表現(xiàn)最好的模型。
(3)探索并評估多個模型組合(集成學(xué)習(xí))表現(xiàn)效果,以得到比單一模型
更好性能的模型,模型構(gòu)建流程如下圖所示。
航空延誤預(yù)測模型建立圖
上述模型主要采用批處理方法,即用離線存儲的所有數(shù)據(jù)或一部分?jǐn)?shù)據(jù)進(jìn)行
周期性訓(xùn)練。一般而言,根據(jù)比例將目標(biāo)數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測
試數(shù)據(jù)集。選取訓(xùn)練集進(jìn)行模型訓(xùn)練形成初始模型,借助驗證集驗證初始模型,
不斷調(diào)整參數(shù)使模型效果達(dá)到最優(yōu),通過測試集對模型評估決定模型的可用性。
由于批計算需要花費(fèi)一定時間,這就使得它難以在新數(shù)據(jù)到達(dá)時立即完成模型的
更新和計算,故采用流計算進(jìn)行模型實時更新,對新的信息和底層行為做出快速
的反應(yīng)和調(diào)整。
(六)評價模型
采用正確率、錯誤率、準(zhǔn)確率、召回率、ROC曲線(ReceiverOperating
characteristicCurve)和AUC(AreaUnderCunze)等指標(biāo)評價分類問題。采用均
方誤差(MeanSquareError,MSE)=2%保;),平方絕對誤差
(MeanAbsoluteError,MAE)=(匕和判定系數(shù)R?=1一二;%等指
標(biāo)評價回歸模型,判定模型擬合的精確程度和擬合優(yōu)度。其中,%是真實數(shù)據(jù),
%是真實數(shù)據(jù)的均值,區(qū)是擬合的數(shù)據(jù)。
(七)實施
大數(shù)據(jù)決策模型較傳統(tǒng)模型預(yù)測準(zhǔn)確度更高,預(yù)測行為實時可操作,經(jīng)反復(fù)
驗證后可進(jìn)行大規(guī)模實踐應(yīng)用。
3.大數(shù)據(jù)決策的基本方法包括哪些?
大數(shù)據(jù)決策涉及多種方法和技術(shù),以從大規(guī)模數(shù)據(jù)集中提取有價值的信息和
見解。以下是一些基本的大數(shù)據(jù)決策方法:
(1)數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是一種通過自動或半自動的方式探索大數(shù)據(jù)集,
以發(fā)現(xiàn)模式、趨勢和關(guān)聯(lián)的技術(shù)。常見的數(shù)據(jù)挖掘技術(shù)包括分類、聚類、關(guān)狹規(guī)
則挖掘、異常檢測等。
(2)機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)是一種人工智能技術(shù),它使用算法來訓(xùn)練計算機(jī)
從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測或決策。大數(shù)據(jù)決策中的機(jī)器學(xué)習(xí)方法包括監(jiān)督學(xué)習(xí)、
無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。
(3)深度學(xué)習(xí):深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,主要用于處理大規(guī)模、
高維度的數(shù)據(jù),如圖像、語音和自然語言文本。深度學(xué)習(xí)模型如神經(jīng)網(wǎng)絡(luò)已經(jīng)在
各種領(lǐng)域的大數(shù)據(jù)決策中取得了顯著的成功。
(4)統(tǒng)計分析:統(tǒng)計方法在大數(shù)據(jù)決策中仍然是非常重要的。它包括描述
統(tǒng)計、推斷統(tǒng)計和假設(shè)檢驗等技術(shù),用于分析數(shù)據(jù)的分布、可靠性和相關(guān)性。
(5)數(shù)據(jù)可視化:數(shù)據(jù)可視化是通過圖表、圖形和交互性界面來呈現(xiàn)大數(shù)
據(jù)的方法。它有助于理解數(shù)據(jù)、發(fā)現(xiàn)模式和溝通見解,從而支持決策過程。
(6)自然語言處理(NLP):NLP技術(shù)用于處理和分析文本數(shù)據(jù),包括從
社交媒體、新聞文章和客戶評論中提取信息,以支持決策制定。
(7)圖分析:當(dāng)數(shù)據(jù)以圖的形式存在時,圖分析方法可以用于發(fā)現(xiàn)網(wǎng)絡(luò)、
社交媒體關(guān)系、供應(yīng)鏈等方面的見解。
(8)時間序列分析:時間序列分析方法用于處理時間相關(guān)的數(shù)據(jù),如股票
價格、天氣預(yù)測等。它有助于預(yù)測趨勢和模式。
(9)集成方法:集成方法結(jié)合多種算法和技術(shù),以提高預(yù)測和決策的準(zhǔn)確
性。例如,隨機(jī)森林和梯度提升是常用的集成方法。
(10)實驗設(shè)計:在大數(shù)據(jù)決策中,實驗設(shè)計方法可用于制定實驗計劃和評
估不同策略或變量對結(jié)果的影響。
這些方法通常與大數(shù)據(jù)平臺和工具(如Hadoop.Spark、NoSQL數(shù)據(jù)庫等)
結(jié)合使用,以實現(xiàn)數(shù)據(jù)處理、存儲和分析的要求。在實際應(yīng)用中,選擇適當(dāng)?shù)姆?/p>
法取決于具體的問題和數(shù)據(jù)特征。
第三章
1.試述Hadoop和Google的MapReduce、GFS等技術(shù)之間的關(guān)系。
Hadoop是一個開源的分相式計算框架,其中包括MapReduce分布式計算模
型和HadoopDistributedFileSystem(HDFS)分布式文件系統(tǒng)。M叩Reduce是處
理大數(shù)據(jù)集的一種編程模型,它可以將大數(shù)據(jù)集分解成小的數(shù)據(jù)塊并在集群中進(jìn)
行處理,最終將結(jié)果合并起來。而HDFS則是一個分布式文件系統(tǒng),它將大文件
拆分成多個塊并存儲在不同的計算機(jī)上,從而實現(xiàn)大規(guī)模數(shù)據(jù)的存儲和訪問。
GFS(GoogleFileSystem)是Google公司開發(fā)的一種分布式文件系統(tǒng),它的
設(shè)計目標(biāo)是為大規(guī)模數(shù)據(jù)集的分布式訪問提供高可靠性、高性能和高可擴(kuò)展性。
GFS與HDFS的設(shè)計目標(biāo)類似,都是為了支持大規(guī)模數(shù)據(jù)的存儲和訪問。但是,
它們之間也存在一些差異,如文件塊的大小、數(shù)據(jù)的復(fù)制策略等。
總的來說,Hadoop的MapReduce模型和HDFS文件系統(tǒng)是一個整體,用于
處理和存儲大規(guī)模的數(shù)據(jù)集,而GFS則是Google公司開發(fā)的另一種分布式文件
系統(tǒng),用于支持其搜索引擎等大規(guī)模的數(shù)據(jù)處理應(yīng)用。
1.試述Hadoop和GoogIe的MapReduceGFS等技術(shù)之間的關(guān)系。
Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce,HDFS是谷歌文件系
統(tǒng)GFS的開源實現(xiàn),MapReduce是針對谷歌MapReduce的開源實現(xiàn)。
2.試述Hadoop具有哪些特性。
Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕
松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點(diǎn):
①高可靠性和容錯性。Hadoop能自動地維護(hù)數(shù)據(jù)的多份副本,并且在任務(wù)失敗
后能自動地重新部署(redeploy)計算任務(wù),體現(xiàn)出優(yōu)良的可靠性和容錯性,②
高效性。Hadoop利用分布式集群進(jìn)行運(yùn)算,可以把成百上千臺服務(wù)器集中起來,
進(jìn)行分布式并行處理。提高了PB級數(shù)據(jù)存儲和計算的效率。③可擴(kuò)展性。Hadoop
是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展
到數(shù)以千計的節(jié)點(diǎn)中。④成本低。Hadoop整個集群中可以使用很多低端機(jī),甚
至普通PC機(jī)也可以建立集群,成本非常低。⑤可跨平臺。Hadoop基于Java語
言進(jìn)行開發(fā),可以較好地運(yùn)行在Linux環(huán)境,具有跨平臺屬性。同時,Hadoop支
持多種語言進(jìn)行應(yīng)用程序開發(fā),如C++等。
3.試述Hadoop的項目結(jié)構(gòu)以及每個部分的具體功能。
Common是為Hadoop其他子項目提供支持的常用工具,主要包括文件系統(tǒng)、
RPC和串行化庫。
Avro是為Hadoop的子項目,用于數(shù)據(jù)序列化的系統(tǒng),提供了豐富的數(shù)據(jù)結(jié)
構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲持續(xù)性數(shù)據(jù)的文件集、遠(yuǎn)程調(diào)用的
功能和簡單的動態(tài)語言集成功能。
HDFS是Hadoop項目的兩個核心之一,它是針對谷歌文件系統(tǒng)的開源實現(xiàn)。
HBase是一個提高可靠性、高性能、可伸縮、實時讀寫、分布式的列式數(shù)據(jù)
庫,一般采用HDFS作為其底層數(shù)據(jù)存儲.
MapReduce是針對谷歌MapReduce的開源實現(xiàn),用于大規(guī)模數(shù)據(jù)集的并行
運(yùn)算.
Zookeeper是針對谷歌Chubby的一個開源實現(xiàn),是高效和可靠的協(xié)同工作
系統(tǒng),提供分布式鎖之類的基本服務(wù),用于構(gòu)建分布式應(yīng)用,減輕分布式應(yīng)用程
序所承擔(dān)的協(xié)調(diào)任務(wù)。
Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,可以用于對Hadoop文件中的數(shù)
據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分布存儲.
Pig是一種數(shù)據(jù)流語言和運(yùn)行環(huán)境,適合于使用Hadoop和MapReduce平臺
上查詢大型半結(jié)構(gòu)化數(shù)據(jù)集。
Sqoop可以改進(jìn)數(shù)據(jù)的互操作性,主要用來在Hadoop配合關(guān)系數(shù)據(jù)庫之間
交換數(shù)據(jù)。
Chukwa是一個開源的、用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),可以將
各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件,并保存在HDFS中供Hadoop
進(jìn)行各種MapReduce操作。
1.在Hadoop體系架構(gòu)中,試述HBase與其他組成部分的相互關(guān)系。
Hadoop的生態(tài)系統(tǒng)和項目組件已經(jīng)逐漸完善,除了分布式文件系統(tǒng)HDFS
和分布.式并行編程框架MapReduce之外,還包括分布式協(xié)作服務(wù)Zookeeper、分
布式數(shù)據(jù)庫HBase、數(shù)據(jù)倉庫Hive、數(shù)據(jù)流處理工具Pig、數(shù)據(jù)庫挖掘工具M(jìn)ahout、
數(shù)據(jù)庫ETL工具Sqoop、日志收集工具Flume和安裝部署配置管理工具Ambari,
HBase利用HadoopM叩Reduce來處理HBase中的海量數(shù)據(jù),實現(xiàn)高性能計
算;利用Zookeeper作為協(xié)同服務(wù),實現(xiàn)穩(wěn)定服務(wù)和失敗恢復(fù);使用HDFS作為高
可靠的底層存儲,利用廉價集群提供海量數(shù)據(jù)存儲能力;Sqoop為HBase的底層
數(shù)據(jù)導(dǎo)入功能,Pig和Hive為HBase提供了高層語言支持,HBase是BigTablc
的開源實現(xiàn)。
2.請以實例說明HBase數(shù)據(jù)模型。
HBase數(shù)據(jù)模型下圖所示,展示的是HBase中的學(xué)生信息表,有四行記錄和
兩個列族,行鍵分別為202208121、202208204、202208215>202207118,兩個列
族分別為Stulnfo和Grades,每個列族中含有若干列,如列族Stulnfo包括Name、
Class和MobilePhone三種列限定符,列族Grades包括Math^English、Computer
和BigData四種列限定符。包含數(shù)據(jù)的實體稱為單元格,行根據(jù)行鍵進(jìn)行排序。
數(shù)據(jù)寫到HBase的時候都會被記錄一個時間戳,這個時間戳被當(dāng)做一個版本,比
如說,我們修改或者刪除某一條的時候,本質(zhì)上是往里邊新增一條數(shù)據(jù),記錄的
版本也加一。
列族Stulnfo列族Grades
行鍵
NameClassMobilePhoneMathEnglishComputerBigData
202208121李明11311111111185888487
202208204王亮21311111111287848985
202208215孫天21311111111392899184
202207118T強(qiáng)11311111111487908789
3.試述HBase系統(tǒng)基本架構(gòu)以及每個組成部分的作用。
HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,它允許存儲和查詢大量的數(shù)
據(jù)。HBase系統(tǒng)基本構(gòu)架包括客戶端、Zookeeper服務(wù)器、Master主服務(wù)器、
Region服務(wù)器。
(1)客戶端是指與服務(wù)器相對應(yīng),為客戶提供本地服務(wù)的程序。包含訪問
HBase的接口,同時在緩存中維護(hù)著己經(jīng)訪問過的分區(qū)位置信息,用來加快后續(xù)
數(shù)據(jù)訪問過程。
(2)Zookeeper服務(wù)器是Hadoop和HBase的重要組件,它的作用包括:
實現(xiàn)集群管理的功能,如果有多臺服務(wù)器組成一個服務(wù)器集群,那么必須要
一個“總管”知道當(dāng)前集群中每臺機(jī)器的服務(wù)狀態(tài),一旦某臺機(jī)器不能提供服務(wù),
集群中其他機(jī)器必須知道,從而做出調(diào)整重新分配服務(wù)策略;
當(dāng)增加集群的服務(wù)器時,每個分區(qū)服務(wù)器都需要到Zookeeper中注冊,
Zookeeper實時監(jiān)控每個分區(qū)服務(wù)器的狀態(tài)并通知給Master主服務(wù)器,這樣主服
務(wù)器就可以通過Zookeeper隨時感知到各個分區(qū)服務(wù)器的狀態(tài)。
(3)Master主服務(wù)器
Master主服務(wù)器是HBase集群中的主服務(wù)器,負(fù)責(zé)監(jiān)控集群中的所有Region
服務(wù)器,并且是所有元數(shù)據(jù)更改的接口。Master主服務(wù)器的作用包括:
主服務(wù)器主要負(fù)責(zé)管理用戶對表的增加、刪除、修改及查詢等操作;
實現(xiàn)不同分區(qū)服務(wù)器之間的負(fù)載均衡;
在Region分裂或合并后,負(fù)責(zé)重新調(diào)整Region的分布;
對發(fā)生故障失效的分區(qū)服務(wù)潛上的分區(qū)進(jìn)行遷移。
(4)Region服務(wù)器
Region服務(wù)器是一套對Region中的數(shù)據(jù)進(jìn)行操作的程序,是HBase框架中
最為關(guān)鍵的一個模塊,它運(yùn)行在Hadoop集群中的數(shù)據(jù)節(jié)點(diǎn)上,負(fù)責(zé)數(shù)據(jù)的存儲
操作,是整個存儲機(jī)制的關(guān)鍵實現(xiàn)。Region服務(wù)器的作用包括:
每個Region服務(wù)器都維護(hù)著屬于自己的Region,接收和處理對Region的
訪問;
Region服務(wù)器還負(fù)責(zé)Region過大時的割裂以及數(shù)量過多時的合并操作。
4.試述鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫的適用場合和優(yōu)缺
點(diǎn)O
鍵值數(shù)據(jù)庫是一種使用鍵值對來存儲數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫,它會使用一個
哈希表,這個表中有一個特定的鍵和一個指針指向特定的值;列族數(shù)據(jù)庫是一種
可以存儲關(guān)鍵字及其映射值的非關(guān)系數(shù)據(jù)庫,一般采用列族數(shù)據(jù)模型;文檔數(shù)據(jù)
庫是一種旨在將數(shù)據(jù)作為類JSON文檔存儲和查詢的非關(guān)系數(shù)據(jù)庫;圖形數(shù)據(jù)
庫是指利用圖結(jié)構(gòu)進(jìn)行存儲和查詢數(shù)據(jù)的一種非關(guān)系型數(shù)據(jù)庫,使用圖作為數(shù)據(jù)
模型來存儲數(shù)據(jù)。這四種數(shù)據(jù)庫的適用場景和優(yōu)缺點(diǎn)如下表所示。
鍵
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 人情世故模擬題目及答案
- 快題高分分析題目及答案
- 養(yǎng)老院老年人文化活動組織制度
- 辦公室員工培訓(xùn)效果跟蹤報告制度
- 銀行資產(chǎn)保全制度
- 配電室雙人雙崗值班制度
- 通信管線遷改施工環(huán)保制度
- 車間晨會制度
- 財務(wù)流程制度
- 誠信報考制度
- 新課標(biāo)小學(xué)語文六年級下冊全冊核心素養(yǎng)教案(教學(xué)設(shè)計)
- 教科版九年級物理上冊專項突破提升檢測(四)電磁學(xué)實驗及作圖含答案
- 解決勞資糾紛與調(diào)解制度
- 護(hù)理個人先進(jìn)
- DB34-T 4877-2024 智慧檢驗檢測實驗室建設(shè)指南
- GB/T 32399-2024信息技術(shù)云計算參考架構(gòu)
- 高速公路收費(fèi)站QC小組成果如何降低入口發(fā)卡差錯率
- 食堂設(shè)備使用及保養(yǎng)培訓(xùn)
- 村莊異地搬遷安置點(diǎn)項目可行性研究報告
- 《正常人體形態(tài)學(xué)》考試復(fù)習(xí)題庫大全(含答案)
- 抗洪搶險先進(jìn)事跡2023
評論
0/150
提交評論