大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集

上傳人：飛*** IP屬地：河北上傳時間：2026-02-09 格式：PDF 頁數(shù)：63 大?。?6.32MB 積分：12 舉報 版權(quán)申訴

大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第2頁

大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第3頁

大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第4頁

大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第5頁

已閱讀5頁，還剩58頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一單元測試題

1.（填空）大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為4個重要階段。它們分別是？

答案：萌芽期、突破期、成熟期和大規(guī)模應(yīng)用期

2.（填空）按數(shù)據(jù)結(jié)構(gòu)的不同，數(shù)據(jù)分為？

答案：結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)

3.（填空）按照數(shù)據(jù)開發(fā)應(yīng)用深入程度不同，可將大數(shù)據(jù)應(yīng)用分為？

答案：描述性分析應(yīng)用、預(yù)測性分析應(yīng)用和指導(dǎo)性分析應(yīng)用

4.（填空）決策的5大特性包括？

答案：目的性、選擇性、滿意性、過程性、動

5.（填空）決策過程的4個階段為？

答案：情報、設(shè)計、選擇、執(zhí)行

6.（判斷）按決策影響范圍和重要程度不同，管理決策分為戰(zhàn)略決策、戰(zhàn)術(shù)決策

和業(yè)務(wù)決策

A.V

R.X

答案：A

7.（判斷）常見的定性決策方法有：頭腦風(fēng)暴法、專家會議法、后悔值決策法、

波士頓矩陣

A.J

B.X

答案：B

8.（判斷）大數(shù)據(jù)對決策思維的影響主要體現(xiàn)在：全樣而非抽樣、精確而非高效，

因果性而非相關(guān)性。

B.X

答案：B

9.（判斷）大數(shù)據(jù)應(yīng)用已成熟，目前多應(yīng)用于決簧指導(dǎo)性分析。

A.J

B.X

答案：B

10.（判斷）從業(yè)務(wù)角度出發(fā)，大數(shù)據(jù)的核心價值主要有：數(shù)據(jù)輔助決策、數(shù)據(jù)驅(qū)

動業(yè)務(wù)、數(shù)據(jù)對外變現(xiàn)。

A.V

B.X

答案：A

11.（多選）根據(jù)大數(shù)據(jù)從來源到應(yīng)用的流程，下列屬于大數(shù)據(jù)技術(shù)架構(gòu)的是：

A.數(shù)據(jù)采集層

B.數(shù)據(jù)抽取層

C.數(shù)據(jù)分析層

D.數(shù)據(jù)應(yīng)用層

答案：ACD

12.（多選）大數(shù)據(jù)時代，現(xiàn)代企業(yè)的管理和發(fā)展面臨哪些挑戰(zhàn)？

A.更多的數(shù)據(jù)被收集

B.數(shù)據(jù)更加復(fù)雜

C.決策自動化

D.實時決策需求突出

答案：ABCD

13.（多選）下列屬于大數(shù)據(jù)“5V”特征的是：

A.數(shù)據(jù)容量大

B.數(shù)據(jù)類型多樣

C.數(shù)據(jù)價值密度高

D.數(shù)據(jù)流轉(zhuǎn)速度快

答案：ABD

14.（多選）按照載體大同，下列不屬于文本數(shù)據(jù)的是：

A.txt文本

B.照片

C.excel電子表格

D.錄像

答案：BD

15.（多選）下列關(guān)于數(shù)據(jù)、信息、知識的描述正確的是：

A.信息是有意義、有用途的數(shù)據(jù)

B.數(shù)據(jù)源于信息，是信息的表現(xiàn)形式和載體

C.知識是更加系統(tǒng)化、理論化的信息

D.從信息到數(shù)據(jù)再到知識，是螺旋式上升的過程

答案：AC

16.（判斷）決策的基本流程包含發(fā)現(xiàn)并界定問題、確定決策目標(biāo)、擬定備選方案、

評價備選方案、選擇方案和回饋評估方案六大步。

A.V

B.X

答案：A

17.（多選）以下哪些方法屬于定性決策方法？

A.頭腦風(fēng)暴法

B.專家會議法

C.樂觀決策法

D.波士頓矩陣法

答案：ABD

18.（填空）大數(shù)據(jù)的五大特征包括？

答案：1.數(shù)據(jù)容量大；2.數(shù)據(jù)類型多樣；3.數(shù)據(jù)價值密度低；4.數(shù)據(jù)流轉(zhuǎn)速度快;

5.對數(shù)據(jù)真實性要求高

第二單元測試題

1.（單選）數(shù)據(jù)采集與處理工作不包括

A.數(shù)據(jù)治理

B數(shù)據(jù)獲取

C數(shù)據(jù)預(yù)處理

D數(shù)據(jù)存儲

答案：A

2.（單選）以下哪項不屬于大數(shù)據(jù)分析的范疇

A.描述性分析

B診斷分析

C預(yù)測分析

D聚類分析

答案：D

3.（單選）大數(shù)據(jù)建模的步驟為

A.模型建立-模型評估-模型訓(xùn)練-模型應(yīng)用

B模型建立?模型優(yōu)化-模型訓(xùn)練■模型應(yīng)用

C模型建立-模型訓(xùn)練-模型評估-模型應(yīng)用

D模型建立-模型訓(xùn)練-模型優(yōu)化-模型應(yīng)用

答案：C

4.（單選）決策數(shù)據(jù)可視化技術(shù)不包括

A.海量數(shù)據(jù)可視化

B文本數(shù)據(jù)可視化

C網(wǎng)絡(luò)可視化

D多維數(shù)據(jù)可視化

答案：A

5.（單選）大數(shù)據(jù)處理的核心環(huán)節(jié)是

A.數(shù)據(jù)分析與挖掘

B數(shù)據(jù)采集與處理

C結(jié)果展示

D數(shù)據(jù)應(yīng)用

答案：A

6.（判斷）大數(shù)據(jù)決策是以信息技術(shù)、云計算技術(shù)、大數(shù)據(jù)技術(shù)等為支撐，以海

量數(shù)據(jù)為主要驅(qū)動，通過大數(shù)據(jù)分析提出問題、確立目標(biāo)、設(shè)計和選擇方案的過

程。

A.V

B.X

答案：A

7.（判斷）在數(shù)據(jù)狀態(tài)上，大數(shù)據(jù)分析多使用存量數(shù)據(jù)，而大數(shù)據(jù)挖掘多使用動

態(tài)增量數(shù)據(jù)或存量數(shù)據(jù)。

B.X

8.（判斷）常見的決策數(shù)據(jù)采集技術(shù)包括網(wǎng)絡(luò)數(shù)據(jù)采集、系統(tǒng)日志采集、感知設(shè)

備采集、數(shù)據(jù)庫采集四種。

A.V

B.X

答案：A

9.（判斷）針對結(jié)構(gòu)化和非結(jié)構(gòu)化混合數(shù)據(jù)一般采用數(shù)據(jù)庫集群的方式進(jìn)行存儲

A.V

B.X

答案：B

10.（判斷）Hadoop是一個分布式的、容錯的實時計算系統(tǒng)，能夠?qū)崟r動態(tài)的

多源異構(gòu)數(shù)據(jù)進(jìn)行實時計算，獲得有價值的信息。

A.V

B.X

答案：B

11.（判斷）數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理的核心環(huán)節(jié)，指通過數(shù)據(jù)標(biāo)簽服務(wù)、文

本處理和影像組學(xué)分析等應(yīng)用支撐，進(jìn)行大數(shù)據(jù)的探索分析、模型擬合、模型訓(xùn)

練及評估。

A.V

B.X

答案：A

第三單元測試題

1.（多選）M叩Reduce體系結(jié)構(gòu)主要由哪幾個部分組成

A.ClientB.JobTrackerC.TaskTrackerD.Task

答案：ABCD

2.（單選）以下名詞解釋不正確的是

A.HBase：提供高可靠性、高性能、分布式的行式數(shù)據(jù)庫，是谷歌BigTable的升

源實現(xiàn)

B.HDFS：分布式文件系統(tǒng)，是Hadoop項目的兩大核心之一，是谷歌GFS的開

源實現(xiàn)

C.Zookeeper：針對谷歌Chubby的一個開源實現(xiàn)，是高效可靠的協(xié)同工作系統(tǒng)

D.Hive：一個基于Hadoop的數(shù)據(jù)倉庫工具，用于對Hadoop文件中的數(shù)據(jù)集進(jìn)

行數(shù)據(jù)整理、特殊查詢和分析存儲

答案：A

3.（單選）HDFSFederation設(shè)計不能解決“單名稱節(jié)點(diǎn)”存在的哪個問題

A.單點(diǎn)故隙問題

B.良好的隔離性

C.性能更高效

D.HDFS集群擴(kuò)展性

答案：A

4.（單選）下列說法正確的是

A.第二名稱節(jié)點(diǎn)無法解決單點(diǎn)故障問題

B.HDFSHA提供高可用性，可以實現(xiàn)可擴(kuò)展性、系統(tǒng)性能和隔離性

C.第二名稱節(jié)點(diǎn)是熱備份

D.HDFSHA可用性不好

答案：A

5.（多選）對新一代資源管理調(diào)度框架YARN的理解正確的是

A.YARN的體系結(jié)構(gòu)包含三個組件：ResourceManager,NodeManager,

ApplicationMasterB.YARN可以實現(xiàn)“一個集群多個框架”，即在一個集群上部

署一個統(tǒng)一的資源調(diào)度管理框架

C.MapReduce2.0是運(yùn)行在YARN之上的計算框架，由YARN來為MapReduce

提供資源管理調(diào)度服務(wù)

D.YARN既是資源管理調(diào)度框架，也是一個計算框架

答案：ABC

6.（判斷）Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)寫。

A.V

B.X

答案：B

7.（判斷）Hadoop是Java開發(fā)的，所以Hadoop只支持Java語言編寫。

A.J

B.X

答案：B

8.（判斷）Hadoop1.（）和2.（）都具有完善的HDFSHA策略。

A.J

B.X

答案：B

9.（判斷）因為Hadoop有多個副本，所以NameNode不存在單點(diǎn)問題。

A.V

B.X

答案：B

10.（判斷）PIG是腳本語言,它與M叩Reduce無關(guān)。

A.J

B.X

答案：B

11.（單選）關(guān)于SecondaryNameNode哪項是正確的？

A.它的目的是幫助NameNode合并編輯日志，減少NameNode的啟動時間

B.它是NameNode的熱備份

C.它對內(nèi)存沒有要求

D.SecondaryNameNode應(yīng)與NameNode部署到一個節(jié)點(diǎn)

答案：A

12.（填空）YARN的體系結(jié)構(gòu)包括哪些組件？

答案：ResourceManager、ApplicationMaster^NodeManager

13.（單選）下面哪個程序負(fù)責(zé)HDFS數(shù)據(jù)存儲。

A.Datanode

B.NameNode

C.Jobtracker

D.SecondaryNameNode

答案：A

14.（單選）HBase是分布式列式存儲系統(tǒng)，記錄按什么集中存放。

A.列族

B.歹U

C.行

D.不確定

答案：A

15.（填空）哪個進(jìn)程負(fù)責(zé)M叩Reduce任務(wù)調(diào)度.

答案：Jubliackci

第四單元測試題

1.（單選）分布式文件系統(tǒng)HDFS采用了主從結(jié)構(gòu)模型，由計算機(jī)集群中的多個

節(jié)點(diǎn)構(gòu)成的，這些節(jié)點(diǎn)分為兩類，一類存儲元數(shù)據(jù)叫（），另一類存儲具體數(shù)據(jù)

叫（）

A.數(shù)據(jù)節(jié)點(diǎn)，名稱節(jié)點(diǎn)

B.名稱節(jié)點(diǎn)，主節(jié)點(diǎn)

C.從節(jié)點(diǎn)，主節(jié)點(diǎn)

D.名稱節(jié)點(diǎn)，數(shù)據(jù)節(jié)點(diǎn)

答案：D

2.（單選）下列Amazon的云數(shù)據(jù)庫屬于關(guān)系數(shù)據(jù)庫的是（）

A.AmazonDynamoDB

B.AmazonRedshift

C.AmazonRDS

0.AmazonSimplcDB

答案：C

3.（單選）下列關(guān)于NoSQL數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫的比較，不正確的是（；

A.NoSQL數(shù)據(jù)庫缺乏統(tǒng)一的查詢語言，而關(guān)系型數(shù)據(jù)庫有標(biāo)準(zhǔn)化查詢語言

B.NoSQL數(shù)據(jù)庫很容易實現(xiàn)數(shù)據(jù)完整性，關(guān)系型數(shù)據(jù)庫很難實現(xiàn)數(shù)據(jù)完整性

C.NoSQL數(shù)據(jù)庫的可擴(kuò)展性比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫更好

D.NoSQL數(shù)據(jù)庫具有弱一致性，關(guān)系型數(shù)據(jù)庫具有強(qiáng)一致性

答案：B

4.（多選）下列對HBase的理解正確的是（）

A.HBase是一個行式分布式數(shù)據(jù)庫，是Hadoop生態(tài)系統(tǒng)中的一個組件

B.HBase是針對谷歌BigTable的開源實現(xiàn)

C.HBase是一種關(guān)系型數(shù)據(jù)庫，現(xiàn)成功應(yīng)用于互聯(lián)網(wǎng)服務(wù)領(lǐng)域

D.HBase多用于存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)

答案：BD

5.（單選）HBase是一種（）數(shù)據(jù)庫

A.行式數(shù)據(jù)庫

B.關(guān)系數(shù)據(jù)庫

C.文檔數(shù)據(jù)庫

D.列式數(shù)據(jù)庫

答案：D

6.（單選）下列數(shù)據(jù)庫屬于文檔數(shù)據(jù)庫的是

A.HBase

B.MongoDB

C.MySQL

D.MongoDB

答案：D

7.（單選）NoSQL數(shù)據(jù)庫的三大理論基石不包括

A.CAP

B.最終一致性

C.BASE

D.ACID

答案：D

8.（多選）HDFS只設(shè)置唯一一個名稱節(jié)點(diǎn)帶來的局限性包括。

A.命名空間的限制

B.集群的可用性

C.隔離問題

D.性能的瓶頸

答案：ABCD

9.（判斷）目前，NoSQL的含義是“NolonlySQL”，而不是“NoSQL”。

A.J

B.X

答案：B

10.（判斷）一個數(shù)據(jù)庫事務(wù)具有ACID是指：原子性，一致性，持久性，隔離性。

A.J

B.X

答案：A

第五單元測試題

1.（單選）下列哪些不是數(shù)據(jù)來源（）

A.商業(yè)教據(jù)

B.互聯(lián)網(wǎng)教據(jù)

C.物聯(lián)網(wǎng)教據(jù)

D.人工收集教據(jù)

答案：D

2.（單選）下列不是數(shù)據(jù)采集的主要渠道是（）

A.傳統(tǒng)信息系統(tǒng)

B.大數(shù)據(jù)系統(tǒng)

C.物聯(lián)網(wǎng)系統(tǒng)

D.Web系統(tǒng)

答案：B

3.（單選）下列數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn)，不正確的是（）

A.完整性

B.可替代性

C.一致性

D.及時性

答案：B

4.（多選）下列關(guān)于數(shù)據(jù)質(zhì)量的影響因素理解正確的是（）

A.信息因素

B.人為因素

C.信息因素

D.流程因素

答案：ABD

5.（單選）下列不是大數(shù)據(jù)采集方法的是0

A.系統(tǒng)日志采集

B.網(wǎng)絡(luò)數(shù)據(jù)采集

C.數(shù)據(jù)庫采集

D.手動聚集

答案：D

6.（多選）下列屬于大數(shù)據(jù)預(yù)處理的方法的是（）

A.數(shù)據(jù)清洗

B.數(shù)據(jù)集成

C.數(shù)據(jù)變換

D.數(shù)據(jù)歸約

答案：ABCD

7.（多選）處理噪聲數(shù)據(jù)的方法包括0

A.分箱

B.平滑處理

C.聚類

D.清洗

答案：ABC

8.（判斷）忽略元組的方法可以使用該元組的剩余屬性值

A.V

B.X

答案：B

9.（判斷）大數(shù)據(jù)預(yù)處理技術(shù)就是對己接收數(shù)據(jù)的辨析抽取和清洗

B.X

答案：A

10.（判斷）大數(shù)據(jù)的數(shù)據(jù)采集是指通過傳感器、攝像頭、RFID射頻數(shù)據(jù)以及互

聯(lián)網(wǎng)等方式獲取的各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。

A.V

B.X

答案：A

第六單元測試題

一、單選

1.（單選）MapReduce的基本架構(gòu)不包括下列哪個部分（）

AClient

BJobTracker

CTaskTracker

DSparkCore

答案：D

2.（單選）大型主機(jī)的特點(diǎn)不包括下列哪個（）

A高可靠性

B高可用性

C高服務(wù)性

D高激活性

答案：D

3.（單選）下列哪項不是Storm的主要特點(diǎn)（）

A可伸縮性高

B容錯性不好

C語言無關(guān)性

D適用場景廣泛

答案：B

4.（單選）下列哪項不是SAPHANA的特點(diǎn)（）

A充分并行編程

B把數(shù)據(jù)全部放入內(nèi)存中存儲

C圖模型系統(tǒng)優(yōu)化

D最小化數(shù)據(jù)傳輸

答案：C

二、多選

1.（多選）MapReduce的主要特點(diǎn)有（）

A易于編程

B良好的擴(kuò)展性

C高容錯性

D適合PB級以上海量數(shù)據(jù)的離線處理

答案：ABCD

2.（多選）Spark的主要特點(diǎn)有（）

A快速高效

B快速高效

C全棧式數(shù)據(jù)處理

D兼容性高

答案：ABCD

3.（多選）超級計算機(jī)可應(yīng)用的領(lǐng)域有（）

A氣象預(yù)報領(lǐng)域

B醫(yī)藥領(lǐng)域

C交通領(lǐng)域

D防震減災(zāi)領(lǐng)域

答案：ABCD

4.（多選）圖計算主要分為以下哪三類（）

A基于分布式環(huán)境的大規(guī)模圖計算系統(tǒng)

B基丁軟件加速器的大規(guī)模圖計算系統(tǒng)

C基于單機(jī)的大規(guī)模圖計算系統(tǒng)

D基于硬件加速器的大規(guī)模圖計算系統(tǒng)

答案：ACD

5.（多選）流式計算系統(tǒng)的特征主要包括以下哪幾個方面（）

A有序性

B實時性

C突發(fā)性

D易失性

答案：BCD

三、判斷

1.（判斷）M叩Reduce集群中使用了大量的低端服務(wù)器，因此，節(jié)點(diǎn)硬件失效和

軟件出錯是常態(tài)。

A.V

B.X

答案：A

2.（判斷）大型主機(jī)雖然在性能和穩(wěn)定性方面表現(xiàn)卓越，但并不代表其永遠(yuǎn)不會

出故障。

A.V

B.X

3.（判斷）分布式架構(gòu)中的計算機(jī)有明顯的主/從之分，所有計算機(jī)節(jié)點(diǎn)都是不對

等的。

A.V

B.X

答案：B

4.（判斷）集中式架構(gòu)設(shè)計，天然就有多個節(jié)點(diǎn)，很容易通過主備、冗余、哈希

（Hash）等手段實現(xiàn)計算和存儲冗余備份，從而實現(xiàn)高可用。

A.J

B.X

答案：B

5.（判斷）批處理系統(tǒng)自動化程度比較高，系統(tǒng)吞吐量大，資源利用率高，系統(tǒng)

開銷小，但各作業(yè)周轉(zhuǎn)時間長，不提供用戶與系統(tǒng)的交互手段，適合大的成熟的

作業(yè)。

A.J

B.X

答案：B

四、填空

1.（填空）大數(shù)據(jù)處理從海量的原始數(shù)據(jù)中抽取出有價值的信息，將數(shù)據(jù)轉(zhuǎn)換成

信息，其中—是基礎(chǔ)、—是支撐、是核心、―是根本。

答案：數(shù)據(jù)資源處理平臺分析算法應(yīng)用效益

2.（填空）M叩Reduce框架把計算節(jié)點(diǎn)和存儲節(jié)點(diǎn)放在一起運(yùn)行，將復(fù)雜的、運(yùn)

行于大規(guī)模集群上的并行計算過程高度地抽象到兩個函數(shù):和,從而減

少了節(jié)點(diǎn)間的數(shù)據(jù)移動開銷。

答案：MappingReducing

3.（填空）Spark生態(tài)系統(tǒng)主要包含

了、、、

_>和等組件。

答案：SparkCore>SparkSQL>SparkStreaming>MLlib、GraphX

4.（填空）分布式架構(gòu)設(shè)計的核心理念是“"，即按照一定維度將系

統(tǒng)進(jìn)行拆分，系統(tǒng)各部分松耦合并行運(yùn)行，并建立起較為完善的橫向擴(kuò)展與容錯

恢復(fù)機(jī)制。

答案；并行拆分與橫向擴(kuò)展

5.（填空）Prcgel是一種基于—模型實現(xiàn)的并行圖處理系統(tǒng)，搭建了一套可擴(kuò)

展的、有容錯機(jī)制的平臺，提供了一套非常靈活的—，可以描述各種各樣的圖

計算，主要用于—、—、—等。

答案：BSPAPI圖遍歷最短路徑PageRank計算

第七單元測試題

1.（單選）大數(shù)據(jù)時代下企業(yè)管理的特點(diǎn)是（）

A.企業(yè)用于分析的數(shù)據(jù)量十分龐大

B.數(shù)據(jù)的精確性要求有所降低提高

C.建立事物之間的相關(guān)性

D.處理能力提升

答案：A

2.（單選）下列不屬于大數(shù)據(jù)在企業(yè)管理中的作月及價值是（）

A.大數(shù)據(jù)幫助企業(yè)優(yōu)化資源配置

B.大數(shù)據(jù)幫助企業(yè)推動產(chǎn)品創(chuàng)新

C.大數(shù)據(jù)幫助企業(yè)實現(xiàn)精準(zhǔn)營銷

D.大數(shù)據(jù)幫助企業(yè)改善外部管理

答案：D

3.（單選）下列屬于大數(shù)據(jù)分析流程有0

A.跨行'業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM

B.業(yè)務(wù)理解

C.模型部署

D.數(shù)據(jù)取樣

答案：A

4.（單選）SEMMA是由SAS公司提出的一套行之有效的數(shù)據(jù)挖掘方法論，下列

不屬于數(shù)據(jù)挖掘的核心過程有（）

A.抽樣

B.探索

C.評估

D.部署

答案：D

5.（多選）大數(shù)據(jù)分析關(guān)鍵技術(shù)有（）

A.可視化分析

B.數(shù)據(jù)挖掘算法

C.預(yù)測性分析

D.數(shù)據(jù)降噪

答案：ABC

6.（多選）大數(shù)據(jù)分析是利用數(shù)據(jù)獲得洞察力，幫助人們更好地做決策的學(xué)科集

合，下列屬于大數(shù)據(jù)分析有。

A.可視化分析

B基本數(shù)據(jù)分析

C.診斷型數(shù)據(jù)分析

D.描述型數(shù)據(jù)分析

答案：CD

7.（判斷）模型評估指從業(yè)務(wù)角度和統(tǒng)計角度進(jìn)行模型結(jié)論的評估，評估決定了

當(dāng)前模型的命運(yùn)，沒通過評估只能面臨返工。

A.J

B.X

答案：A

8.（判斷）數(shù)據(jù)分析方法主要對機(jī)器學(xué)習(xí)算法進(jìn)行分類介紹，機(jī)器學(xué)習(xí)算法包括

監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)

B.X

答案：A

9.（填空）跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM（cross-industrystandardprocessfor

datamining）是一種業(yè)界認(rèn)可的用于指導(dǎo)數(shù)據(jù)挖掘工作的方法，為數(shù)據(jù)庫知識發(fā)現(xiàn)

工程（KnowledgeDiscoveryinDatabase,KDD）或數(shù)據(jù)挖掘項目提供了一個完整

的過程描述。CRISP-DM把這個過程劃分為六個階段，分別

是、、、、和O

答案：業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型部署

10.（判斷）特征工程是機(jī)器學(xué)習(xí)應(yīng)用的基礎(chǔ)，指的是利用領(lǐng)域知識從原始數(shù)據(jù)

中提取用于后續(xù)機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘應(yīng)用的特征（向量）的過程。整個過程并

不涉及諸如特征表示、特征提取、屬性約減、特征選擇等內(nèi)容。

A.V

B.X

答案：B

第八單元測試題

1.（單選）可視化基本類型不包括以下哪一項？

A.圖形可視化

B.科學(xué)可視化

C.信息可視化

D.可視分析學(xué)

答案：A

2.（單選）科學(xué)可視化主要關(guān)注的是（）

A.三維現(xiàn)象的可視化

B.二維現(xiàn)象的可視化

C.多維現(xiàn)象的可視化

D.圖形的可視化

答案：A

3.（單選）GoogleChartAPI屬于那種可視化工具？

A.信息圖表工具

B.入門級工具

C.地圖工具

D.時間線工具

答案：A

4.（單選）下面那一項不屬于可視化工具中的高級分析工具

A.R語言

B.TimelineJS

C.Weka

D.Gephi

答案：B

5.（單選）下面哪一項不屬于視覺通道的內(nèi)容

A.飽和度

B.色調(diào)

C.色彩

D.面積

答案：c

6.（單選）以下不屬于時間線工具的是

A.TimelineJS

B.Timetoast

C.Xlimeline

DR語言

答案：D

7.（多選）以下屬于地圖工具的有

A.Leaflet

B.ModestMaps

C.GoogleFusionTables

D.excel

答案：ABC

8.（多選）可視化評估可以分為哪兩種類型

A.定性評估

B.定量評估

C.半定性評估

D.半定量評估

答案：AB

9.（判斷）數(shù)據(jù)中的離?群點(diǎn)，即不同于數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)對象特征的數(shù)

據(jù)對象。

A.V

B.X

答案：A

10.（判斷）內(nèi)部數(shù)據(jù)收集的具體目的包括：獲取競品的數(shù)據(jù)、獲取官方機(jī)構(gòu)官

網(wǎng)公布的一些行業(yè)數(shù)據(jù)等。

A.V

B.X

答案：B

IL（填空）整群抽樣又稱O0是將總體中各單位歸并成若干個互不交叉、互

不重復(fù)的集合，稱之為群；然后以群為取樣單位抽取樣本的一種抽樣方式。

答案：聚類抽樣

12.（填空）典型的訪談包括（）、（）和半結(jié)構(gòu)型訪談等

答案：開放型訪談、結(jié)構(gòu)型訪談

13.（判斷）數(shù)據(jù)可視化的工具，主要有入門級工具、信息圖表工具、地圖工

具、時間線工具、高級分析工具。

A.V

B.X

答案：A

14.（判斷）開始創(chuàng)建一個可視化項目時，第一步是收集數(shù)據(jù)

A.V

B.X

答案：B

15.（多選）以下屬于主觀評估方法的有

A.專家評估

B.啟發(fā)式評估

C.抽樣問卷調(diào)查

D.焦點(diǎn)小組訪談

答案：ABCD

第九單元測試題

1.（多選）制約大數(shù)據(jù)治理的主要因素有：（）

A.制度與規(guī)范缺失

B.數(shù)據(jù)防護(hù)意識薄弱

C.成本效益比較低

D.技術(shù)不成熟

答案：ABCD

2.（多選）下列屬于大數(shù)據(jù)治理的實施路徑的是：（）

A.產(chǎn)生數(shù)據(jù)

B.數(shù)據(jù)資產(chǎn)梳理

C.構(gòu)建機(jī)構(gòu)內(nèi)部大數(shù)據(jù)治理體系

D.大數(shù)據(jù)治理評估與審計

答案：ABCD

3.（填空）數(shù)據(jù)資產(chǎn)包括：

答案：企業(yè)內(nèi)部數(shù)據(jù)、企業(yè)外部數(shù)據(jù)、企業(yè)購買數(shù)據(jù)

4.（填空）大數(shù)據(jù)治理的五個核心要素包括：

答案：明確數(shù)據(jù)治理責(zé)任，建立數(shù)據(jù)治理組織、管理出成效，制度是保障、確

保數(shù)據(jù)規(guī)范、數(shù)據(jù)治理要理論結(jié)合實踐、數(shù)據(jù)治理軟件

第十單元測試題

1.（多選）大數(shù)據(jù)技術(shù)的應(yīng)用為組織財務(wù)管理注入了新鮮血液的方式有（）

A.拓寬籌資渠道

B.增強(qiáng)財務(wù)控制能力

C.提高投資回報率

D.數(shù)據(jù)資源整合共享

答案：ABCD

2.（單選）大數(shù)據(jù)平臺可為物流管理提供（）

A.海量數(shù)據(jù)的收集

B.儲存數(shù)據(jù)

C.分析數(shù)據(jù)

D.整合數(shù)據(jù)

答案：A

3.（多選）大數(shù)據(jù)在零售決策中的應(yīng)用（）

A.利用大數(shù)據(jù)分析關(guān)聯(lián)購買行為

B.智能推薦系統(tǒng)

C.大范圍營銷

D.主持產(chǎn)品定價

答案：AB

4.（單選）下列不屬于大數(shù)據(jù)在政府決策中的應(yīng)月（）

A.智慧政府

B.社會治理

C.公共服務(wù)

D.調(diào)整組織結(jié)構(gòu)

答案：D

5.（多選）大數(shù)據(jù)在研發(fā)設(shè)計中的應(yīng)用（）

A.產(chǎn)品協(xié)同設(shè)計

B.設(shè)計仿真

C.替代工藝流程

D.優(yōu)化工藝流程

答案：ABD

6.（多選）下列不屬于大數(shù)據(jù)在供應(yīng)鏈中的應(yīng)用（）

A.供應(yīng)鏈管理戰(zhàn)略決策

B.供應(yīng)鏈管理風(fēng)險預(yù)測

C.供應(yīng)鏈管理敏捷性

D.供應(yīng)鏈協(xié)同管理

答案：ABCD

7.（判斷）大數(shù)據(jù)與智能制造之間的關(guān)系包括將制造中存在的問題轉(zhuǎn)換為定

性、定量的數(shù)據(jù)內(nèi)容，然后從中找到相應(yīng)的解決方法。

B.X

答案：A

8.（判斷）大數(shù)據(jù)技術(shù)在供應(yīng)鏈管理方面的應(yīng)用集中在供應(yīng)鏈管理戰(zhàn)略決策、

風(fēng)險預(yù)測、提升供應(yīng)鏈管理敏捷性及協(xié)同管理方面。

A.V

B.X

答案：A

9.（填空）大數(shù)據(jù)技術(shù)在生產(chǎn)制造環(huán)節(jié)的應(yīng)用有助于更快、更好地推進(jìn)智能制

造，其主要應(yīng)用包括、—和—制等

答案：智能生產(chǎn)、生產(chǎn)流程優(yōu)化、個性化定制

10.（填空）大數(shù)據(jù)在醫(yī)療衛(wèi)生管理與臨床服務(wù)中的應(yīng)用包

括：、、、

答案：醫(yī)療質(zhì)量管理、醫(yī)療績效管理、醫(yī)療設(shè)備管理、醫(yī)保管理

第十一單元測試題

1.（單選）下列說法正確的是（）

A.當(dāng)今社會，互聯(lián)網(wǎng)以及各種智能設(shè)備的普遍應(yīng)用，人們活動的大量信息被廣

泛收集

B.大數(shù)據(jù)的應(yīng)用并不會引發(fā)了各種各樣的社會問題

C.技術(shù)的提升只有好處沒有壞處

D.世界進(jìn)入了大數(shù)據(jù)時代之后，總體會危害人們的安全

答案：A

2.（單選）下列說法錯誤的是（）

A.組織可以比以往更大規(guī)模地收集或分析數(shù)據(jù)

B.網(wǎng)絡(luò)公司擁有海量用戶個人信息，有泄露的風(fēng)險

C.公司可從數(shù)據(jù)中獲利

D.組織可以不通過互聯(lián)網(wǎng)獲得數(shù)據(jù)

答案：D

3.（單選）下列說法錯誤的是（）

A.大數(shù)據(jù)應(yīng)用引發(fā)的各種社會問題，歸納起來，既有倫理問題，又有法律問題

B.大數(shù)據(jù)時代，要獲得更好的個性化服務(wù)，用戶就必須同意收集自己的個人信

息C.大數(shù)據(jù)應(yīng)用最常見的倫理問題就是個人信息遭泄露

D.殺熟現(xiàn)象不需要數(shù)據(jù)也會出現(xiàn)

答案：D

4.（判斷）在互聯(lián)網(wǎng)大數(shù)據(jù)時代，保護(hù)公民個人信息與隱私，強(qiáng)化技術(shù)防范措

施，是一種及時和有效的手段。（）

B.X

答案：A

5.（填空）除了和之外，及,也都是保護(hù)公民個人信息與

隱私安全的必然要求。

答案：技術(shù)防范和法律保護(hù)；公民道德素質(zhì)的提高及國際治理環(huán)境的不斷改善

第十二單元測試題

1.（多選）下列屬于大數(shù)據(jù)管理決策面臨的挑戰(zhàn)的是：（）

A.數(shù)據(jù)獲取與整合能力欠缺

B.企業(yè)管理觀念落后

C.企業(yè)決策環(huán)境復(fù)雜

D.大數(shù)據(jù)人才匱乏

答案：ABCD

2.（單選）下列不屬于大數(shù)據(jù)管理決策考慮的問題和技術(shù)選擇的是（）

A.數(shù)據(jù)的數(shù)量和質(zhì)量

B.大數(shù)據(jù)與其他信息的結(jié)合

C.因果關(guān)系分析

D.公司的盈利情況

答案：D

3.（單選）下列不屬于大數(shù)據(jù)管理決策的未來趨勢是（）

A.事務(wù)與分析融合

B.模塊融合

C.人智融合

D.云數(shù)融合

答案：C

4.（判斷）合適的數(shù)據(jù)分析工具其實能帶給企業(yè)的作用是非常巨大的，系統(tǒng)化

的可視化數(shù)據(jù)能夠更好、更準(zhǔn)確地幫助用戶進(jìn)行數(shù)據(jù)分析。

A.V

B.X

答案：A

5.（填空）數(shù)據(jù)能力集成的趨勢打破了企業(yè)內(nèi)原有的復(fù)雜數(shù)據(jù)結(jié)構(gòu)，使數(shù)據(jù)和

業(yè)務(wù)更貼近，并能更快地使用數(shù)據(jù)驅(qū)動決策。主要針對性地解決三個問題：一

是提：二是；三是O

答案:提高數(shù)據(jù)獲取的效率；打通數(shù)據(jù)共享的通道；提供統(tǒng)一的數(shù)據(jù)開發(fā)能力

6.（填空）數(shù)據(jù)模型是數(shù)據(jù)特征的抽象，它從抽象層次上描述了系統(tǒng)

的、和,為數(shù)據(jù)庫系統(tǒng)的信息表示與操作提供一個

抽象的框架。

答案：靜態(tài)特征、動態(tài)行為和約束條件

1.科學(xué)決策為何遵循“滿意原則”而不是“最優(yōu)原則”？

信息、時間和確定性地局限使決策者難以做到最佳，通常情況下，決策者采

納尋求一定條件下實現(xiàn)目標(biāo)的較滿意方案，即在目前環(huán)境中足夠好的方案為決策

方案。滿意原則是針對“最優(yōu)化''原則提出來的，即最優(yōu)是不存在的，存在的只有

滿意?！白顑?yōu)化”的理論假設(shè)把決策者作為完全理性的人，以“絕對的理性”為指導(dǎo),

按最優(yōu)化準(zhǔn)則行事。但是，處于復(fù)雜多變環(huán)境中的企業(yè)和決策者，要對未來做出

，，絕對理性，，的判斷是不可能的。要使得決策達(dá)到最優(yōu)，但是現(xiàn)實中上述條件往往

得不到滿足，具體來說：①組織內(nèi)外存在的一切，對組織的現(xiàn)在和未來都會直接

或間接地產(chǎn)生某種程度的影響，但決策者很難收集到反映這一切情況的信息。②

對于收集到的有限信息，決策者的利用能力也是有限的，決策者只能制定數(shù)量7T

限的方案。③決策所預(yù)測的未來狀況可能與實際的未來狀況有出入，人們對未來

的認(rèn)識是不全面的。區(qū)此，決策者不可能做出“最優(yōu)化''的決策，只能做到滿意決

策。從管理學(xué)的意義上講最優(yōu)就是最好的資源、最好的組合和利用，獲得最好的

效益，亳無疑問這是不可能的。所謂滿意，就是滿意的資源、通過滿意的組合和

利用、獲得滿意的效果，而這才是合理的，也是能實現(xiàn)的。

2.在大數(shù)據(jù)背景下，決策還有新的分類方法嗎？

在大數(shù)據(jù)背景下，決策的分類方法可以根據(jù)不同的維度和目的進(jìn)行劃分。以

下是一些常見的分類方法：

（1）基于數(shù)據(jù)類型的分類

①結(jié)構(gòu)化數(shù)據(jù)決策：對于具有明確定義格式和字段的數(shù)據(jù)，可以使用傳統(tǒng)的

數(shù)據(jù)挖掘技術(shù)和統(tǒng)計方法進(jìn)行決策。②半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)決策:針對文本、

圖像、視頻等不同形式的非結(jié)構(gòu)化數(shù)據(jù)，通常需要利用自然語言處理、圖像處理、

深度學(xué)習(xí)等技術(shù)進(jìn)行決策。

（2）基于決策模型的分類

①經(jīng)驗?zāi)Ｐ停夯谙惹暗慕?jīng)驗和規(guī)則進(jìn)行決策，如規(guī)則引擎、專家系統(tǒng)等。

②機(jī)器學(xué)習(xí)模型：通過訓(xùn)練模型來從數(shù)據(jù)中學(xué)習(xí)模式，例如決策樹、支持向量機(jī)、

神經(jīng)網(wǎng)絡(luò)等。③深度學(xué)習(xí)模型：利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的特征和模式，例如

卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。

（3）基于決策支持系統(tǒng)的分類

①基于規(guī)則的系統(tǒng)：使用事先定義的規(guī)則來進(jìn)行決策，如專家系統(tǒng)。②基于

模型的系統(tǒng)：使用數(shù)學(xué)模型和算法來輔助決策，如優(yōu)化模型、模擬模型等。

（4）基于決策環(huán)境的分類

①靜態(tài)環(huán)境決策：在固定的數(shù)據(jù)集上進(jìn)行決策，數(shù)據(jù)不斷累積但不會實時更

新。②動態(tài)環(huán)境決策：需要實時地處理和響應(yīng)不斷變化的數(shù)據(jù)，例如金融交易、

網(wǎng)絡(luò)安全等。

（5）基于決策目標(biāo)的分類

①單目標(biāo)決策：優(yōu)化一個特定的目標(biāo)，例如最大化利潤、最小化成本等。②

多目標(biāo)決策：同時考慮多個決策目標(biāo)，可能存在相互沖突的情況，需要進(jìn)行權(quán)衡

和優(yōu)化。

（6）基于決策模型的分類

①經(jīng)驗?zāi)Ｐ停夯谙惹暗慕?jīng)驗和規(guī)則進(jìn)行決策，如規(guī)則引擎、專家系統(tǒng)等。

②機(jī)器學(xué)習(xí)模型:通過訓(xùn)練模型來從數(shù)據(jù)中學(xué)習(xí)模式，例如決策樹、支持向量機(jī)、

神經(jīng)網(wǎng)絡(luò)等。③深度學(xué)習(xí)模型：利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的特征和模式，例如

卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。

以上分類方法并非互斥，實際應(yīng)用中可能會結(jié)合多種方法來解決復(fù)雜的決策

問題。同時，隨著技術(shù)的不斷發(fā)展和大數(shù)據(jù)應(yīng)用場景的多樣化，決策方法也在不

斷演進(jìn)和創(chuàng)新。

3.除了本書中提到的大數(shù)據(jù)對于管理決策思維、手段和方式產(chǎn)生影響外，是否

還在其他方面對管理決策產(chǎn)生影響呢？

大數(shù)據(jù)在管理決策方面產(chǎn)生了廣泛的影響，不僅僅限于思維、手段和方式。

以下是一些其他方面，其中大數(shù)據(jù)對管理決策產(chǎn)生影響的示例：

①精細(xì)化決策：大數(shù)據(jù)允許管理者更細(xì)致地分析和理解組織內(nèi)部和外部的各

種因素。這有助于制定更精確、個性化的管理決黃，以滿足不同情境和利益相關(guān)

者的需求。

②實時決策：大數(shù)據(jù)技術(shù)使得管理者能夠獲取和分析實時數(shù)據(jù)。這有助于更

快地做出決策，以應(yīng)市緊急情況或迅速變化的市場條件。

③風(fēng)險管理.：通過大數(shù)據(jù)分析，管理者可以更好地識別和管理風(fēng)險。這包括

市場風(fēng)險、供應(yīng)鏈風(fēng)險、合規(guī)性風(fēng)險等。大數(shù)據(jù)幫助管理者更好地預(yù)測、減輕和

回應(yīng)潛在風(fēng)險。

④客戶體驗：大數(shù)據(jù)有助于了解客戶需求和行為，以優(yōu)化產(chǎn)品和服務(wù)，提高

客戶滿意度，并制定更好的客戶關(guān)系管理策略。

⑤創(chuàng)新決策：大數(shù)據(jù)分析可以幫助管理者發(fā)現(xiàn)新的機(jī)會和趨勢，從而推動創(chuàng)

新決策。它有助于識別市場缺口，了解客戶反饋，以及監(jiān)測競爭者的動態(tài)。

⑥成本效益：通過大數(shù)據(jù)的分析，管理者可以更好地控制和降低成本。這包

括優(yōu)化供應(yīng)鏈、資源分配、生產(chǎn)流程等方面。

⑦人力資源管理：大數(shù)據(jù)可以用于招聘、績效評估、員工滿意度和離職率分

析，從而支持更智能的人力資源決策。

⑧社會責(zé)任和可持續(xù)發(fā)展：大數(shù)據(jù)分析有助于監(jiān)測和報告組織的社會責(zé)任,

包括可持續(xù)發(fā)展目標(biāo)、環(huán)保措施等，從而影響與可持續(xù)發(fā)展相關(guān)的決策。

⑨供應(yīng)鏈管理：大數(shù)據(jù)有助于實時跟蹤供應(yīng)鏈運(yùn)營，以應(yīng)對需求變化、庫存

管理和供應(yīng)鏈風(fēng)險。

總之，大數(shù)據(jù)對管理決策的影響不僅僅限于改進(jìn)思維和決策方式，它改變了

決策的全面方法，使管理者更具洞察力、反應(yīng)迅速，并更好地適應(yīng)不斷變化的商

業(yè)環(huán)境。這有助于提高效率、創(chuàng)造價值，并推動組織的成功。

1.大數(shù)據(jù)決策和傳統(tǒng)的決策方式有什么區(qū)別？

大數(shù)據(jù)決策和傳統(tǒng)的決策方式之間存在多個關(guān)鍵區(qū)別，這些區(qū)別涵蓋了決策

過程、數(shù)據(jù)使用、分析方法以及決策效果。以下是一些主要區(qū)別：

區(qū)別大數(shù)據(jù)決策傳統(tǒng)決策

大數(shù)據(jù)決策依賴于處理大規(guī)模、高維傳統(tǒng)決策通常依賴于有

數(shù)據(jù)量和多度、多種類型的數(shù)據(jù)。這包括結(jié)構(gòu)化限數(shù)量的數(shù)據(jù)，通常是結(jié)

樣性數(shù)據(jù)（如數(shù)據(jù)庫記錄）和非結(jié)構(gòu)化數(shù)構(gòu)化數(shù)據(jù)，而非結(jié)構(gòu)化數(shù)

據(jù)（如文本、圖像、視頻等）。據(jù)較少。

大數(shù)據(jù)決策通?？梢詫崟r或接近實

傳統(tǒng)決策可能依賴于定

時地分析和應(yīng)對數(shù)據(jù)。這對于需要快

實時性期或批處理分析，不如大

速決策的情況非常重要，如金融交易

數(shù)據(jù)決策實時。

或社交媒體監(jiān)控。

通常依賴于內(nèi)部數(shù)據(jù)源，

數(shù)據(jù)可以來自多個渠道和來源，如：

數(shù)據(jù)來源如企業(yè)數(shù)據(jù)庫，或者一些

社交媒體、物聯(lián)網(wǎng)設(shè)備、傳感器、日

已知的外部數(shù)據(jù)，但范圍

志文件等C

較窄。

通常需要使用高級數(shù)據(jù)處理工具和使用較為傳統(tǒng)的數(shù)據(jù)處

數(shù)據(jù)處理

技術(shù)，如分布式計算、云計算和大數(shù)理方法，如SQL數(shù)據(jù)庫查

據(jù)平臺。詢和統(tǒng)計分析工具。

通常使用先進(jìn)的分析工具和技術(shù)，包

可能更依賴于經(jīng)驗和專

決策支持工括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處

家判斷，也可能使用傳統(tǒng)

具理和數(shù)據(jù)挖掘等，以從大規(guī)模數(shù)據(jù)中

的統(tǒng)計方法。

提取洞察。

由于大數(shù)據(jù)提供了更多的信息和更

傳統(tǒng)決策可能受到數(shù)據(jù)

準(zhǔn)確的洞察，大數(shù)據(jù)決策通常更準(zhǔn)確

決策效果限制和有限的分析方法

和有效，尤其在預(yù)測、個性化推薦和

的限制，因此在應(yīng)對復(fù)雜

風(fēng)險管理方面。

問題時可能效果較弱。

總之，大數(shù)據(jù)決策與傳統(tǒng)決策方式之間的主要區(qū)別在于數(shù)據(jù)的規(guī)模、類型、

實時性、處理方法以及決策支持工具的使用。大數(shù)據(jù)決策在處理大規(guī)模和復(fù)雜數(shù)

據(jù)時具有明顯的優(yōu)勢，但也需要更高級的技術(shù)和資源支持。然而，傳統(tǒng)決策方式

仍然在某些情況下有其價值，特別是在數(shù)據(jù)有限或?qū)崟r性要求不高的情境中。

2.簡述大數(shù)據(jù)決策的基本流程，并舉例分析？

大數(shù)據(jù)在管理決策中的應(yīng)用流程包括：定義問題、建立大數(shù)據(jù)存儲庫、數(shù)據(jù)

探索、數(shù)據(jù)準(zhǔn)備、建立模型、評價模型和實施七大步驟。

（一）定義問題

定義問題通過對實際狀況和理想狀況進(jìn)行細(xì)致周密的分析?，對問題進(jìn)行綜合

定義，明確問題的性質(zhì)、類型和范圍，確定所要實現(xiàn)的目標(biāo)。定義問題是進(jìn)行決

策的第一步。面對決策的不同需求，最先且最重要的就是了解流程和業(yè)務(wù)問題，

制定清晰明確的任務(wù)目標(biāo)，以問題為導(dǎo)向開展大數(shù)據(jù)管理決策的相關(guān)活動。

（二）建立大數(shù)據(jù)存儲庫

海量異構(gòu)數(shù)據(jù)存儲是大數(shù)據(jù)支撐組織決策的基礎(chǔ)。建立大數(shù)據(jù)存儲庫包括數(shù)

據(jù)收集、數(shù)據(jù)描述與選擇、數(shù)據(jù)質(zhì)量評估、處理與整合、構(gòu)建數(shù)據(jù)庫和維護(hù)數(shù)據(jù)

庫等工作。其中，數(shù)據(jù)庫是以一定方式儲存在一起、具有盡可能小的冗余度且允

許多用戶共享的數(shù)據(jù)集合。大數(shù)據(jù)存儲庫包括多種類型：如關(guān)系型數(shù)據(jù)庫、分布

式數(shù)據(jù)庫、數(shù)據(jù)倉庫Hive等。

（三）數(shù)據(jù)探索

數(shù)據(jù)探索通過繪圖和計算等手段分析數(shù)據(jù)的質(zhì)量、結(jié)構(gòu)、趨勢和關(guān)聯(lián)，對數(shù)

據(jù)進(jìn)行解釋分析工作。數(shù)據(jù)探索的目的在于以問題為導(dǎo)向定義數(shù)據(jù)的本質(zhì)、描述

數(shù)據(jù)的形態(tài)特征并解釋數(shù)據(jù)的相關(guān)性。大數(shù)據(jù)的多樣性和大量性決定了從海量數(shù)

據(jù)中選擇符合決策需求的數(shù)據(jù)是十分重要的，因此這一步驟的重點(diǎn)在于解釋數(shù)據(jù)

的相關(guān)性，找到對決策影響最大的數(shù)據(jù)類型，建立數(shù)據(jù)關(guān)聯(lián)關(guān)系。數(shù)據(jù)探索有助

于更好的開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模等工作。

（四）數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備是指將來刊不同來源的原始數(shù)據(jù)整理或預(yù)處理為可以方便、準(zhǔn)確進(jìn)

行分析的數(shù)據(jù)形式，即將原始數(shù)據(jù)轉(zhuǎn)換成機(jī)器學(xué)習(xí)等算法可以使用的數(shù)據(jù)形式，

包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。

（1）數(shù)據(jù)清洗。數(shù)據(jù)清洗是數(shù)據(jù)準(zhǔn)備的第步，是指發(fā)現(xiàn)并糾正數(shù)據(jù)中可

識別錯誤的過程，包括處理噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)、冗余數(shù)據(jù)等。該步

驟可以有效減少初始數(shù)據(jù)出現(xiàn)相互矛盾情況的問題。

（2）數(shù)據(jù)集成。數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個數(shù)據(jù)存儲庫

中的過程。數(shù)據(jù)集成的核心任務(wù)是將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)集成到一起，使

用戶能夠以透明的方式訪問這些數(shù)據(jù)。數(shù)據(jù)集成能夠維護(hù)數(shù)據(jù)的整體性、一致性，

提高信息的共享和利用效率。

（3）數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是采用數(shù)學(xué)變換等方法將數(shù)據(jù)從一種格式或結(jié)構(gòu)

轉(zhuǎn)換為另一種格式或結(jié)構(gòu)的過程，目的是將多維數(shù)據(jù)壓縮成低維數(shù)據(jù)，消除數(shù)據(jù)

在空間、屬性、時間及精度等特征上的差異。

（4）數(shù)據(jù)歸約。數(shù)據(jù)歸約是指在對挖掘任務(wù)和數(shù)據(jù)理解的基礎(chǔ)上，對數(shù)據(jù)

的特征屬性進(jìn)行相應(yīng)處理，在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性,

獲得比原始數(shù)據(jù)小得多的數(shù)據(jù)。

（五）建立模型

建立模型是從大數(shù)據(jù)中尋找知識的過程，常用的方法有機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、

概率統(tǒng)計等。機(jī)器學(xué)習(xí)是一種數(shù)據(jù)分析技術(shù)，主要是用數(shù)據(jù)或以往的經(jīng)驗優(yōu)化程

序，而不依賴既定方程模型，其目的是實現(xiàn)在經(jīng)驗學(xué)習(xí)中改善具體算法。數(shù)據(jù)挖

掘是指按既定目標(biāo)，對大量數(shù)據(jù)進(jìn)行探索和分析，揭示隱藏的、未知的規(guī)律或驗

證已知的規(guī)律，并進(jìn)一步將其模型化。概率統(tǒng)計是利用統(tǒng)計學(xué)中的概率分布及數(shù)

學(xué)特征建立模型的方法。建立模型的最終目的是解決實踐問題。根據(jù)需要解決的

問題，數(shù)據(jù)模型可以分為預(yù)測模型（分類模型和回歸模型）、推薦模型、聚類模

型和降維模型等，建立模型是大數(shù)據(jù)決策的核心內(nèi)容。模型的建立是一個反復(fù)的

過程，需要準(zhǔn)備多個模型以判斷哪個模型對決策作用最大。在建立模型的過程中，

應(yīng)先用一部分?jǐn)?shù)據(jù)來訓(xùn)練模型，然后再用額外的數(shù)據(jù)測試和驗證該模型，以保證

模型的準(zhǔn)確性和泛化性。

（六）評價模型

在完成模型構(gòu)建后，應(yīng)對模型的效果進(jìn)行評估，并根據(jù)評估結(jié)果繼續(xù)調(diào)整模

型的參數(shù)、特征或算法，確保所構(gòu)建模型充分考慮了所有重要業(yè)務(wù)，能夠?qū)崿F(xiàn)其

挖掘目標(biāo)，達(dá)到滿意的結(jié)果?？梢杂脤嶒灁?shù)據(jù)進(jìn)行模型評估，或直接在現(xiàn)實世界

中測試模型，觀察模型擬合程度和輸出結(jié)果，根據(jù)平均誤差率、判定系數(shù)、精度、

查全率、查準(zhǔn)率等一系列指標(biāo)評估模型效果，若各類指標(biāo)達(dá)到可接受范圍，則表

明模型可以被接受。

（七）實施

基于大數(shù)據(jù)的決策模型在經(jīng)過反復(fù)驗證后，即可投入到實際的組織運(yùn)營決策

中，輔助戰(zhàn)略制定、組織管理等相關(guān)人員進(jìn)行決策。

舉例：大數(shù)據(jù)在航班信息預(yù)測中的應(yīng)用

隨著航空業(yè)的發(fā)展壯大，航班量、空中交通流量不斷增加，空管系統(tǒng)的壓力

日益增加，航班的延誤率也有所上漲。航班延誤的因素包括空管原因、天氣原因、

航空公司原因、旅客原因等。航班延誤不僅對當(dāng)前航班旅客的行程造成影響，也

會波及后續(xù)航班，不利于我國航空業(yè)的長遠(yuǎn)發(fā)展。以卜.分別從定義問題、建立大

數(shù)據(jù)存儲庫、數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備、建立模型、評價模型和實施七個步驟展開分

析大數(shù)據(jù)的應(yīng)用。

（一）定義問題

隨著航班延誤現(xiàn)象口趨嚴(yán)重，航空公司在運(yùn)營管理等可控方面做出了一定的

努力以減少延誤，但由于流控和天氣等不可控因素，航班延誤整體現(xiàn)象并未得到

緩解。航空業(yè)各子系統(tǒng)間溝通不暢，信息壁壘，延誤預(yù)警能力不足成為造成航班

延誤的新內(nèi)因。航空系統(tǒng)每分鐘產(chǎn)生大量數(shù)據(jù)，數(shù)據(jù)來源繁雜、格式多樣。就航

班預(yù)測而言，對多種不可控因素的實時掌控和精確預(yù)測的關(guān)鍵在于各大信息系統(tǒng)

數(shù)據(jù)之間的互聯(lián)互通和及時處理。運(yùn)用大數(shù)據(jù)技術(shù)預(yù)測航班信息順應(yīng)了時代的要

求和科技的趨勢。

（二）建立大數(shù)據(jù)存儲庫

采用移動互聯(lián)網(wǎng)和網(wǎng)絡(luò)爬蟲等技術(shù)從航空運(yùn)輸系統(tǒng)、航空公司報告、機(jī)場準(zhǔn)

點(diǎn)報告、機(jī)場服務(wù)評價反饋和天氣預(yù)報網(wǎng)站等平臺收集國內(nèi)航空運(yùn)輸航班相關(guān)信

息，包括航班運(yùn)行信息表、機(jī)場航班量、準(zhǔn)點(diǎn)率、航空企業(yè)基地統(tǒng)計表、旅客評

價信息、機(jī)場服務(wù)評級和天氣情況等。收集到的數(shù)據(jù)來源不同，數(shù)據(jù)格式也不盡

相同。根據(jù)數(shù)據(jù)類型建立大數(shù)據(jù)存儲庫，將收集到的數(shù)據(jù)存儲在數(shù)據(jù)庫中。

由于以上數(shù)據(jù)結(jié)構(gòu)的多樣性，將數(shù)據(jù)資料存儲在HDFS文件系統(tǒng)中。HDFS

是一種分布式的數(shù)據(jù)存儲系統(tǒng)，適合部署在廉價的機(jī)器上，能夠提供高吞吐量的

數(shù)據(jù)訪問，適合存儲大規(guī)模數(shù)據(jù)集。HDFS會對所存儲的數(shù)據(jù)進(jìn)行質(zhì)量評估，評

估數(shù)據(jù)的完整性、有效性、一致性和準(zhǔn)確性，直觀了解數(shù)據(jù)質(zhì)量和存在的問題。

并根據(jù)業(yè)務(wù)場景和航班延誤過程整合數(shù)據(jù)，建立數(shù)據(jù)關(guān)聯(lián)，如下圖所示。

航空延誤大數(shù)據(jù)存儲圖

（三）數(shù)據(jù)探索

航班延誤是受多方面因素影響的綜合結(jié)果。在進(jìn)行航班延誤預(yù)測前;盡可能

將所有相關(guān)因素都考慮在內(nèi)，使未考慮的隨機(jī)因素盡可能小。根據(jù)現(xiàn)實背景和數(shù)

據(jù)來源，對數(shù)據(jù)進(jìn)行初步統(tǒng)計分析，了解數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系，從相關(guān)因素中篩

選對航班延誤影響效果較大的因素。

（四）數(shù)據(jù)準(zhǔn)備

在進(jìn)行大數(shù)據(jù)分析前，對所搜集的航班相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)準(zhǔn)備，如下圖所示。

航空延誤數(shù)據(jù)準(zhǔn)備圖

（1）進(jìn)行數(shù)據(jù)清洗，包括：①數(shù)據(jù)過淀：在所設(shè)定的時間或范圍內(nèi)，從原

始數(shù)據(jù)庫中抽取部分?jǐn)?shù)據(jù)建立數(shù)據(jù)模型。②缺失值處理：對于未記錄數(shù)據(jù)或由于

數(shù)據(jù)收集和存儲過程出現(xiàn)軟硬件故障而丟失的數(shù)據(jù)，過濾掉不完整的數(shù)據(jù)樣本，

或通過某種方式填充數(shù)據(jù)點(diǎn)。③異常值處理:錯誤或異常數(shù)據(jù)不利于模型的訓(xùn)練，

不適用于一般的學(xué)習(xí)規(guī)則，因此通過可視化的數(shù)據(jù)分布發(fā)現(xiàn)并過濾掉一些異常值。

（2）進(jìn)行數(shù)據(jù)集成，合并多個數(shù)據(jù)源。將不同數(shù)據(jù)源的數(shù)據(jù)合并成一個包

含所有訓(xùn)練相關(guān)字段的數(shù)據(jù)集，以便進(jìn)行模型訓(xùn)練，并對模型輸入數(shù)據(jù)進(jìn)行某種

形式上的匯總，如統(tǒng)計事件類型總數(shù)等。

（3）進(jìn)行數(shù)據(jù)轉(zhuǎn)奧，將處理后的數(shù)據(jù)轉(zhuǎn)換為一種適合機(jī)器學(xué)習(xí)模型的表示

形式，如數(shù)值向量、矩陣等。對于類別數(shù)據(jù)，將其編碼為對應(yīng)的數(shù)值，如根據(jù)天

氣的惡劣程度分類打分；將數(shù)值數(shù)據(jù)轉(zhuǎn)化為類別數(shù)據(jù)，減少變量可能值的數(shù)量；

提取非結(jié)構(gòu)化數(shù)據(jù)（如圖形、圖像、音頻等）的有用信息，進(jìn)行數(shù)值轉(zhuǎn)換，并對

特征進(jìn)行正則化、標(biāo)準(zhǔn)化處理。

（五）建立模型

（1）根據(jù)問題特征判斷問題類型，選定模型類別。就航班延誤預(yù)測問題而

言，預(yù)測某個航班具體延誤時間更有意義，即研究回歸問題。

（2）在回歸問題中尋找最適合本場景的個體模型建模，并尋找最佳參數(shù)組

合使個體模型盡可能最優(yōu)。采用試驗法，將多種模型訓(xùn)練至最佳參數(shù)，并從中選

擇表現(xiàn)最好的模型。

（3）探索并評估多個模型組合（集成學(xué)習(xí)）表現(xiàn)效果，以得到比單一模型

更好性能的模型，模型構(gòu)建流程如下圖所示。

航空延誤預(yù)測模型建立圖

上述模型主要采用批處理方法，即用離線存儲的所有數(shù)據(jù)或一部分?jǐn)?shù)據(jù)進(jìn)行

周期性訓(xùn)練。一般而言，根據(jù)比例將目標(biāo)數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測

試數(shù)據(jù)集。選取訓(xùn)練集進(jìn)行模型訓(xùn)練形成初始模型，借助驗證集驗證初始模型，

不斷調(diào)整參數(shù)使模型效果達(dá)到最優(yōu)，通過測試集對模型評估決定模型的可用性。

由于批計算需要花費(fèi)一定時間，這就使得它難以在新數(shù)據(jù)到達(dá)時立即完成模型的

更新和計算，故采用流計算進(jìn)行模型實時更新，對新的信息和底層行為做出快速

的反應(yīng)和調(diào)整。

（六）評價模型

采用正確率、錯誤率、準(zhǔn)確率、召回率、ROC曲線（ReceiverOperating

characteristicCurve）和AUC（AreaUnderCunze）等指標(biāo)評價分類問題。采用均

方誤差（MeanSquareError,MSE）=2%保;），平方絕對誤差

（MeanAbsoluteError,MAE）=（匕和判定系數(shù)R?=1一二;%等指

標(biāo)評價回歸模型，判定模型擬合的精確程度和擬合優(yōu)度。其中，%是真實數(shù)據(jù)，

%是真實數(shù)據(jù)的均值，區(qū)是擬合的數(shù)據(jù)。

（七）實施

大數(shù)據(jù)決策模型較傳統(tǒng)模型預(yù)測準(zhǔn)確度更高，預(yù)測行為實時可操作，經(jīng)反復(fù)

驗證后可進(jìn)行大規(guī)模實踐應(yīng)用。

3.大數(shù)據(jù)決策的基本方法包括哪些？

大數(shù)據(jù)決策涉及多種方法和技術(shù)，以從大規(guī)模數(shù)據(jù)集中提取有價值的信息和

見解。以下是一些基本的大數(shù)據(jù)決策方法：

（1）數(shù)據(jù)挖掘：數(shù)據(jù)挖掘是一種通過自動或半自動的方式探索大數(shù)據(jù)集，

以發(fā)現(xiàn)模式、趨勢和關(guān)聯(lián)的技術(shù)。常見的數(shù)據(jù)挖掘技術(shù)包括分類、聚類、關(guān)狹規(guī)

則挖掘、異常檢測等。

（2）機(jī)器學(xué)習(xí)：機(jī)器學(xué)習(xí)是一種人工智能技術(shù)，它使用算法來訓(xùn)練計算機(jī)

從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測或決策。大數(shù)據(jù)決策中的機(jī)器學(xué)習(xí)方法包括監(jiān)督學(xué)習(xí)、

無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

（3）深度學(xué)習(xí)：深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支，主要用于處理大規(guī)模、

高維度的數(shù)據(jù)，如圖像、語音和自然語言文本。深度學(xué)習(xí)模型如神經(jīng)網(wǎng)絡(luò)已經(jīng)在

各種領(lǐng)域的大數(shù)據(jù)決策中取得了顯著的成功。

（4）統(tǒng)計分析：統(tǒng)計方法在大數(shù)據(jù)決策中仍然是非常重要的。它包括描述

統(tǒng)計、推斷統(tǒng)計和假設(shè)檢驗等技術(shù)，用于分析數(shù)據(jù)的分布、可靠性和相關(guān)性。

（5）數(shù)據(jù)可視化：數(shù)據(jù)可視化是通過圖表、圖形和交互性界面來呈現(xiàn)大數(shù)

據(jù)的方法。它有助于理解數(shù)據(jù)、發(fā)現(xiàn)模式和溝通見解，從而支持決策過程。

（6）自然語言處理（NLP）：NLP技術(shù)用于處理和分析文本數(shù)據(jù)，包括從

社交媒體、新聞文章和客戶評論中提取信息，以支持決策制定。

（7）圖分析：當(dāng)數(shù)據(jù)以圖的形式存在時，圖分析方法可以用于發(fā)現(xiàn)網(wǎng)絡(luò)、

社交媒體關(guān)系、供應(yīng)鏈等方面的見解。

（8）時間序列分析：時間序列分析方法用于處理時間相關(guān)的數(shù)據(jù)，如股票

價格、天氣預(yù)測等。它有助于預(yù)測趨勢和模式。

（9）集成方法：集成方法結(jié)合多種算法和技術(shù)，以提高預(yù)測和決策的準(zhǔn)確

性。例如，隨機(jī)森林和梯度提升是常用的集成方法。

（10）實驗設(shè)計：在大數(shù)據(jù)決策中，實驗設(shè)計方法可用于制定實驗計劃和評

估不同策略或變量對結(jié)果的影響。

這些方法通常與大數(shù)據(jù)平臺和工具（如Hadoop.Spark、NoSQL數(shù)據(jù)庫等）

結(jié)合使用，以實現(xiàn)數(shù)據(jù)處理、存儲和分析的要求。在實際應(yīng)用中，選擇適當(dāng)?shù)姆?/p>

法取決于具體的問題和數(shù)據(jù)特征。

第三章

1.試述Hadoop和Google的MapReduce、GFS等技術(shù)之間的關(guān)系。

Hadoop是一個開源的分相式計算框架，其中包括MapReduce分布式計算模

型和HadoopDistributedFileSystem（HDFS）分布式文件系統(tǒng)。M叩Reduce是處

理大數(shù)據(jù)集的一種編程模型，它可以將大數(shù)據(jù)集分解成小的數(shù)據(jù)塊并在集群中進(jìn)

行處理，最終將結(jié)果合并起來。而HDFS則是一個分布式文件系統(tǒng)，它將大文件

拆分成多個塊并存儲在不同的計算機(jī)上，從而實現(xiàn)大規(guī)模數(shù)據(jù)的存儲和訪問。

GFS（GoogleFileSystem）是Google公司開發(fā)的一種分布式文件系統(tǒng)，它的

設(shè)計目標(biāo)是為大規(guī)模數(shù)據(jù)集的分布式訪問提供高可靠性、高性能和高可擴(kuò)展性。

GFS與HDFS的設(shè)計目標(biāo)類似，都是為了支持大規(guī)模數(shù)據(jù)的存儲和訪問。但是，

它們之間也存在一些差異，如文件塊的大小、數(shù)據(jù)的復(fù)制策略等。

總的來說，Hadoop的MapReduce模型和HDFS文件系統(tǒng)是一個整體，用于

處理和存儲大規(guī)模的數(shù)據(jù)集，而GFS則是Google公司開發(fā)的另一種分布式文件

系統(tǒng)，用于支持其搜索引擎等大規(guī)模的數(shù)據(jù)處理應(yīng)用。

1.試述Hadoop和GoogIe的MapReduceGFS等技術(shù)之間的關(guān)系。

Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce,HDFS是谷歌文件系

統(tǒng)GFS的開源實現(xiàn)，MapReduce是針對谷歌MapReduce的開源實現(xiàn)。

2.試述Hadoop具有哪些特性。

Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕

松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點(diǎn)：

①高可靠性和容錯性。Hadoop能自動地維護(hù)數(shù)據(jù)的多份副本，并且在任務(wù)失敗

后能自動地重新部署(redeploy)計算任務(wù)，體現(xiàn)出優(yōu)良的可靠性和容錯性，②

高效性。Hadoop利用分布式集群進(jìn)行運(yùn)算，可以把成百上千臺服務(wù)器集中起來，

進(jìn)行分布式并行處理。提高了PB級數(shù)據(jù)存儲和計算的效率。③可擴(kuò)展性。Hadoop

是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的，這些集簇可以方便地擴(kuò)展

到數(shù)以千計的節(jié)點(diǎn)中。④成本低。Hadoop整個集群中可以使用很多低端機(jī)，甚

至普通PC機(jī)也可以建立集群，成本非常低。⑤可跨平臺。Hadoop基于Java語

言進(jìn)行開發(fā)，可以較好地運(yùn)行在Linux環(huán)境，具有跨平臺屬性。同時，Hadoop支

持多種語言進(jìn)行應(yīng)用程序開發(fā)，如C++等。

3.試述Hadoop的項目結(jié)構(gòu)以及每個部分的具體功能。

Common是為Hadoop其他子項目提供支持的常用工具,主要包括文件系統(tǒng)、

RPC和串行化庫。

Avro是為Hadoop的子項目，用于數(shù)據(jù)序列化的系統(tǒng)，提供了豐富的數(shù)據(jù)結(jié)

構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲持續(xù)性數(shù)據(jù)的文件集、遠(yuǎn)程調(diào)用的

功能和簡單的動態(tài)語言集成功能。

HDFS是Hadoop項目的兩個核心之一，它是針對谷歌文件系統(tǒng)的開源實現(xiàn)。

HBase是一個提高可靠性、高性能、可伸縮、實時讀寫、分布式的列式數(shù)據(jù)

庫，一般采用HDFS作為其底層數(shù)據(jù)存儲.

MapReduce是針對谷歌MapReduce的開源實現(xiàn)，用于大規(guī)模數(shù)據(jù)集的并行

運(yùn)算.

Zookeeper是針對谷歌Chubby的一個開源實現(xiàn)，是高效和可靠的協(xié)同工作

系統(tǒng)，提供分布式鎖之類的基本服務(wù)，用于構(gòu)建分布式應(yīng)用，減輕分布式應(yīng)用程

序所承擔(dān)的協(xié)調(diào)任務(wù)。

Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具，可以用于對Hadoop文件中的數(shù)

據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分布存儲.

Pig是一種數(shù)據(jù)流語言和運(yùn)行環(huán)境，適合于使用Hadoop和MapReduce平臺

上查詢大型半結(jié)構(gòu)化數(shù)據(jù)集。

Sqoop可以改進(jìn)數(shù)據(jù)的互操作性，主要用來在Hadoop配合關(guān)系數(shù)據(jù)庫之間

交換數(shù)據(jù)。

Chukwa是一個開源的、用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng)，可以將

各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件，并保存在HDFS中供Hadoop

進(jìn)行各種MapReduce操作。

1.在Hadoop體系架構(gòu)中，試述HBase與其他組成部分的相互關(guān)系。

Hadoop的生態(tài)系統(tǒng)和項目組件已經(jīng)逐漸完善，除了分布式文件系統(tǒng)HDFS

和分布.式并行編程框架MapReduce之外，還包括分布式協(xié)作服務(wù)Zookeeper、分

布式數(shù)據(jù)庫HBase、數(shù)據(jù)倉庫Hive、數(shù)據(jù)流處理工具Pig、數(shù)據(jù)庫挖掘工具M(jìn)ahout、

數(shù)據(jù)庫ETL工具Sqoop、日志收集工具Flume和安裝部署配置管理工具Ambari,

HBase利用HadoopM叩Reduce來處理HBase中的海量數(shù)據(jù)，實現(xiàn)高性能計

算;利用Zookeeper作為協(xié)同服務(wù)，實現(xiàn)穩(wěn)定服務(wù)和失敗恢復(fù);使用HDFS作為高

可靠的底層存儲，利用廉價集群提供海量數(shù)據(jù)存儲能力；Sqoop為HBase的底層

數(shù)據(jù)導(dǎo)入功能，Pig和Hive為HBase提供了高層語言支持，HBase是BigTablc

的開源實現(xiàn)。

2.請以實例說明HBase數(shù)據(jù)模型。

HBase數(shù)據(jù)模型下圖所示，展示的是HBase中的學(xué)生信息表，有四行記錄和

兩個列族，行鍵分別為202208121、202208204、202208215>202207118,兩個列

族分別為Stulnfo和Grades,每個列族中含有若干列，如列族Stulnfo包括Name、

Class和MobilePhone三種列限定符，列族Grades包括Math^English、Computer

和BigData四種列限定符。包含數(shù)據(jù)的實體稱為單元格，行根據(jù)行鍵進(jìn)行排序。

數(shù)據(jù)寫到HBase的時候都會被記錄一個時間戳，這個時間戳被當(dāng)做一個版本，比

如說，我們修改或者刪除某一條的時候，本質(zhì)上是往里邊新增一條數(shù)據(jù)，記錄的

版本也加一。

列族Stulnfo列族Grades

行鍵

NameClassMobilePhoneMathEnglishComputerBigData

202208121李明11311111111185888487

202208204王亮21311111111287848985

202208215孫天21311111111392899184

202207118T強(qiáng)11311111111487908789

3.試述HBase系統(tǒng)基本架構(gòu)以及每個組成部分的作用。

HBase是一個分布式的、面向列的開源數(shù)據(jù)庫，它允許存儲和查詢大量的數(shù)

據(jù)。HBase系統(tǒng)基本構(gòu)架包括客戶端、Zookeeper服務(wù)器、Master主服務(wù)器、

Region服務(wù)器。

（1）客戶端是指與服務(wù)器相對應(yīng)，為客戶提供本地服務(wù)的程序。包含訪問

HBase的接口，同時在緩存中維護(hù)著己經(jīng)訪問過的分區(qū)位置信息，用來加快后續(xù)

數(shù)據(jù)訪問過程。

(2)Zookeeper服務(wù)器是Hadoop和HBase的重要組件，它的作用包括：

實現(xiàn)集群管理的功能，如果有多臺服務(wù)器組成一個服務(wù)器集群，那么必須要

一個“總管”知道當(dāng)前集群中每臺機(jī)器的服務(wù)狀態(tài)，一旦某臺機(jī)器不能提供服務(wù)，

集群中其他機(jī)器必須知道，從而做出調(diào)整重新分配服務(wù)策略；

當(dāng)增加集群的服務(wù)器時，每個分區(qū)服務(wù)器都需要到Zookeeper中注冊，

Zookeeper實時監(jiān)控每個分區(qū)服務(wù)器的狀態(tài)并通知給Master主服務(wù)器，這樣主服

務(wù)器就可以通過Zookeeper隨時感知到各個分區(qū)服務(wù)器的狀態(tài)。

(3)Master主服務(wù)器

Master主服務(wù)器是HBase集群中的主服務(wù)器,負(fù)責(zé)監(jiān)控集群中的所有Region

服務(wù)器，并且是所有元數(shù)據(jù)更改的接口。Master主服務(wù)器的作用包括：

主服務(wù)器主要負(fù)責(zé)管理用戶對表的增加、刪除、修改及查詢等操作；

實現(xiàn)不同分區(qū)服務(wù)器之間的負(fù)載均衡；

在Region分裂或合并后，負(fù)責(zé)重新調(diào)整Region的分布；

對發(fā)生故障失效的分區(qū)服務(wù)潛上的分區(qū)進(jìn)行遷移。

(4)Region服務(wù)器

Region服務(wù)器是一套對Region中的數(shù)據(jù)進(jìn)行操作的程序，是HBase框架中

最為關(guān)鍵的一個模塊，它運(yùn)行在Hadoop集群中的數(shù)據(jù)節(jié)點(diǎn)上，負(fù)責(zé)數(shù)據(jù)的存儲

操作，是整個存儲機(jī)制的關(guān)鍵實現(xiàn)。Region服務(wù)器的作用包括：

每個Region服務(wù)器都維護(hù)著屬于自己的Region,接收和處理對Region的

訪問；

Region服務(wù)器還負(fù)責(zé)Region過大時的割裂以及數(shù)量過多時的合并操作。

4.試述鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫的適用場合和優(yōu)缺

點(diǎn)O

鍵值數(shù)據(jù)庫是一種使用鍵值對來存儲數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫，它會使用一個

哈希表，這個表中有一個特定的鍵和一個指針指向特定的值；列族數(shù)據(jù)庫是一種

可以存儲關(guān)鍵字及其映射值的非關(guān)系數(shù)據(jù)庫，一般采用列族數(shù)據(jù)模型；文檔數(shù)據(jù)

庫是一種旨在將數(shù)據(jù)作為類JSON文檔存儲和查詢的非關(guān)系數(shù)據(jù)庫；圖形數(shù)據(jù)

庫是指利用圖結(jié)構(gòu)進(jìn)行存儲和查詢數(shù)據(jù)的一種非關(guān)系型數(shù)據(jù)庫，使用圖作為數(shù)據(jù)

模型來存儲數(shù)據(jù)。這四種數(shù)據(jù)庫的適用場景和優(yōu)缺點(diǎn)如下表所示。

鍵

人人文庫> 全部分類> 教育資料 > 輔導(dǎo)培訓(xùn)

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔