大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第1頁
大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第2頁
大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第3頁
大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第4頁
大數(shù)據(jù)技術(shù)與管理決策練習(xí)題及答案合集_第5頁
已閱讀5頁,還剩58頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第一單元測試題

1.(填空)大數(shù)據(jù)的發(fā)展歷程總體上可以劃分為4個重要階段。它們分別是?

答案:萌芽期、突破期、成熟期和大規(guī)模應(yīng)用期

2.(填空)按數(shù)據(jù)結(jié)構(gòu)的不同,數(shù)據(jù)分為?

答案:結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)

3.(填空)按照數(shù)據(jù)開發(fā)應(yīng)用深入程度不同,可將大數(shù)據(jù)應(yīng)用分為?

答案:描述性分析應(yīng)用、預(yù)測性分析應(yīng)用和指導(dǎo)性分析應(yīng)用

4.(填空)決策的5大特性包括?

答案:目的性、選擇性、滿意性、過程性、動

5.(填空)決策過程的4個階段為?

答案:情報、設(shè)計、選擇、執(zhí)行

6.(判斷)按決策影響范圍和重要程度不同,管理決策分為戰(zhàn)略決策、戰(zhàn)術(shù)決策

和業(yè)務(wù)決策

A.V

R.X

答案:A

7.(判斷)常見的定性決策方法有:頭腦風(fēng)暴法、專家會議法、后悔值決策法、

波士頓矩陣

A.J

B.X

答案:B

8.(判斷)大數(shù)據(jù)對決策思維的影響主要體現(xiàn)在:全樣而非抽樣、精確而非高效,

因果性而非相關(guān)性。

A7

B.X

答案:B

9.(判斷)大數(shù)據(jù)應(yīng)用已成熟,目前多應(yīng)用于決簧指導(dǎo)性分析。

A.J

B.X

答案:B

10.(判斷)從業(yè)務(wù)角度出發(fā),大數(shù)據(jù)的核心價值主要有:數(shù)據(jù)輔助決策、數(shù)據(jù)驅(qū)

動業(yè)務(wù)、數(shù)據(jù)對外變現(xiàn)。

A.V

B.X

答案:A

11.(多選)根據(jù)大數(shù)據(jù)從來源到應(yīng)用的流程,下列屬于大數(shù)據(jù)技術(shù)架構(gòu)的是:

A.數(shù)據(jù)采集層

B.數(shù)據(jù)抽取層

C.數(shù)據(jù)分析層

D.數(shù)據(jù)應(yīng)用層

答案:ACD

12.(多選)大數(shù)據(jù)時代,現(xiàn)代企業(yè)的管理和發(fā)展面臨哪些挑戰(zhàn)?

A.更多的數(shù)據(jù)被收集

B.數(shù)據(jù)更加復(fù)雜

C.決策自動化

D.實時決策需求突出

答案:ABCD

13.(多選)下列屬于大數(shù)據(jù)“5V”特征的是:

A.數(shù)據(jù)容量大

B.數(shù)據(jù)類型多樣

C.數(shù)據(jù)價值密度高

D.數(shù)據(jù)流轉(zhuǎn)速度快

答案:ABD

14.(多選)按照載體大同,下列不屬于文本數(shù)據(jù)的是:

A.txt文本

B.照片

C.excel電子表格

D.錄像

答案:BD

15.(多選)下列關(guān)于數(shù)據(jù)、信息、知識的描述正確的是:

A.信息是有意義、有用途的數(shù)據(jù)

B.數(shù)據(jù)源于信息,是信息的表現(xiàn)形式和載體

C.知識是更加系統(tǒng)化、理論化的信息

D.從信息到數(shù)據(jù)再到知識,是螺旋式上升的過程

答案:AC

16.(判斷)決策的基本流程包含發(fā)現(xiàn)并界定問題、確定決策目標(biāo)、擬定備選方案、

評價備選方案、選擇方案和回饋評估方案六大步。

A.V

B.X

答案:A

17.(多選)以下哪些方法屬于定性決策方法?

A.頭腦風(fēng)暴法

B.專家會議法

C.樂觀決策法

D.波士頓矩陣法

答案:ABD

18.(填空)大數(shù)據(jù)的五大特征包括?

答案:1.數(shù)據(jù)容量大;2.數(shù)據(jù)類型多樣;3.數(shù)據(jù)價值密度低;4.數(shù)據(jù)流轉(zhuǎn)速度快;

5.對數(shù)據(jù)真實性要求高

第二單元測試題

1.(單選)數(shù)據(jù)采集與處理工作不包括

A.數(shù)據(jù)治理

B數(shù)據(jù)獲取

C數(shù)據(jù)預(yù)處理

D數(shù)據(jù)存儲

答案:A

2.(單選)以下哪項不屬于大數(shù)據(jù)分析的范疇

A.描述性分析

B診斷分析

C預(yù)測分析

D聚類分析

答案:D

3.(單選)大數(shù)據(jù)建模的步驟為

A.模型建立-模型評估-模型訓(xùn)練-模型應(yīng)用

B模型建立?模型優(yōu)化-模型訓(xùn)練■模型應(yīng)用

C模型建立-模型訓(xùn)練-模型評估-模型應(yīng)用

D模型建立-模型訓(xùn)練-模型優(yōu)化-模型應(yīng)用

答案:C

4.(單選)決策數(shù)據(jù)可視化技術(shù)不包括

A.海量數(shù)據(jù)可視化

B文本數(shù)據(jù)可視化

C網(wǎng)絡(luò)可視化

D多維數(shù)據(jù)可視化

答案:A

5.(單選)大數(shù)據(jù)處理的核心環(huán)節(jié)是

A.數(shù)據(jù)分析與挖掘

B數(shù)據(jù)采集與處理

C結(jié)果展示

D數(shù)據(jù)應(yīng)用

答案:A

6.(判斷)大數(shù)據(jù)決策是以信息技術(shù)、云計算技術(shù)、大數(shù)據(jù)技術(shù)等為支撐,以海

量數(shù)據(jù)為主要驅(qū)動,通過大數(shù)據(jù)分析提出問題、確立目標(biāo)、設(shè)計和選擇方案的過

程。

A.V

B.X

答案:A

7.(判斷)在數(shù)據(jù)狀態(tài)上,大數(shù)據(jù)分析多使用存量數(shù)據(jù),而大數(shù)據(jù)挖掘多使用動

態(tài)增量數(shù)據(jù)或存量數(shù)據(jù)。

AZ

B.X

8.(判斷)常見的決策數(shù)據(jù)采集技術(shù)包括網(wǎng)絡(luò)數(shù)據(jù)采集、系統(tǒng)日志采集、感知設(shè)

備采集、數(shù)據(jù)庫采集四種。

A.V

B.X

答案:A

9.(判斷)針對結(jié)構(gòu)化和非結(jié)構(gòu)化混合數(shù)據(jù)一般采用數(shù)據(jù)庫集群的方式進(jìn)行存儲

A.V

B.X

答案:B

10.(判斷)Hadoop是一個分布式的、容錯的實時計算系統(tǒng),能夠?qū)崟r動態(tài)的

多源異構(gòu)數(shù)據(jù)進(jìn)行實時計算,獲得有價值的信息。

A.V

B.X

答案:B

11.(判斷)數(shù)據(jù)分析與挖掘是大數(shù)據(jù)處理的核心環(huán)節(jié),指通過數(shù)據(jù)標(biāo)簽服務(wù)、文

本處理和影像組學(xué)分析等應(yīng)用支撐,進(jìn)行大數(shù)據(jù)的探索分析、模型擬合、模型訓(xùn)

練及評估。

A.V

B.X

答案:A

第三單元測試題

1.(多選)M叩Reduce體系結(jié)構(gòu)主要由哪幾個部分組成

A.ClientB.JobTrackerC.TaskTrackerD.Task

答案:ABCD

2.(單選)以下名詞解釋不正確的是

A.HBase:提供高可靠性、高性能、分布式的行式數(shù)據(jù)庫,是谷歌BigTable的升

源實現(xiàn)

B.HDFS:分布式文件系統(tǒng),是Hadoop項目的兩大核心之一,是谷歌GFS的開

源實現(xiàn)

C.Zookeeper:針對谷歌Chubby的一個開源實現(xiàn),是高效可靠的協(xié)同工作系統(tǒng)

D.Hive:一個基于Hadoop的數(shù)據(jù)倉庫工具,用于對Hadoop文件中的數(shù)據(jù)集進(jìn)

行數(shù)據(jù)整理、特殊查詢和分析存儲

答案:A

3.(單選)HDFSFederation設(shè)計不能解決“單名稱節(jié)點(diǎn)”存在的哪個問題

A.單點(diǎn)故隙問題

B.良好的隔離性

C.性能更高效

D.HDFS集群擴(kuò)展性

答案:A

4.(單選)下列說法正確的是

A.第二名稱節(jié)點(diǎn)無法解決單點(diǎn)故障問題

B.HDFSHA提供高可用性,可以實現(xiàn)可擴(kuò)展性、系統(tǒng)性能和隔離性

C.第二名稱節(jié)點(diǎn)是熱備份

D.HDFSHA可用性不好

答案:A

5.(多選)對新一代資源管理調(diào)度框架YARN的理解正確的是

A.YARN的體系結(jié)構(gòu)包含三個組件:ResourceManager,NodeManager,

ApplicationMasterB.YARN可以實現(xiàn)“一個集群多個框架”,即在一個集群上部

署一個統(tǒng)一的資源調(diào)度管理框架

C.MapReduce2.0是運(yùn)行在YARN之上的計算框架,由YARN來為MapReduce

提供資源管理調(diào)度服務(wù)

D.YARN既是資源管理調(diào)度框架,也是一個計算框架

答案:ABC

6.(判斷)Hadoop支持?jǐn)?shù)據(jù)的隨機(jī)寫。

A.V

B.X

答案:B

7.(判斷)Hadoop是Java開發(fā)的,所以Hadoop只支持Java語言編寫。

A.J

B.X

答案:B

8.(判斷)Hadoop1.()和2.()都具有完善的HDFSHA策略。

A.J

B.X

答案:B

9.(判斷)因為Hadoop有多個副本,所以NameNode不存在單點(diǎn)問題。

A.V

B.X

答案:B

10.(判斷)PIG是腳本語言,它與M叩Reduce無關(guān)。

A.J

B.X

答案:B

11.(單選)關(guān)于SecondaryNameNode哪項是正確的?

A.它的目的是幫助NameNode合并編輯日志,減少NameNode的啟動時間

B.它是NameNode的熱備份

C.它對內(nèi)存沒有要求

D.SecondaryNameNode應(yīng)與NameNode部署到一個節(jié)點(diǎn)

答案:A

12.(填空)YARN的體系結(jié)構(gòu)包括哪些組件?

答案:ResourceManager、ApplicationMaster^NodeManager

13.(單選)下面哪個程序負(fù)責(zé)HDFS數(shù)據(jù)存儲。

A.Datanode

B.NameNode

C.Jobtracker

D.SecondaryNameNode

答案:A

14.(單選)HBase是分布式列式存儲系統(tǒng),記錄按什么集中存放。

A.列族

B.歹U

C.行

D.不確定

答案:A

15.(填空)哪個進(jìn)程負(fù)責(zé)M叩Reduce任務(wù)調(diào)度.

答案:Jubliackci

第四單元測試題

1.(單選)分布式文件系統(tǒng)HDFS采用了主從結(jié)構(gòu)模型,由計算機(jī)集群中的多個

節(jié)點(diǎn)構(gòu)成的,這些節(jié)點(diǎn)分為兩類,一類存儲元數(shù)據(jù)叫(),另一類存儲具體數(shù)據(jù)

叫()

A.數(shù)據(jù)節(jié)點(diǎn),名稱節(jié)點(diǎn)

B.名稱節(jié)點(diǎn),主節(jié)點(diǎn)

C.從節(jié)點(diǎn),主節(jié)點(diǎn)

D.名稱節(jié)點(diǎn),數(shù)據(jù)節(jié)點(diǎn)

答案:D

2.(單選)下列Amazon的云數(shù)據(jù)庫屬于關(guān)系數(shù)據(jù)庫的是()

A.AmazonDynamoDB

B.AmazonRedshift

C.AmazonRDS

0.AmazonSimplcDB

答案:C

3.(單選)下列關(guān)于NoSQL數(shù)據(jù)庫和關(guān)系型數(shù)據(jù)庫的比較,不正確的是(;

A.NoSQL數(shù)據(jù)庫缺乏統(tǒng)一的查詢語言,而關(guān)系型數(shù)據(jù)庫有標(biāo)準(zhǔn)化查詢語言

B.NoSQL數(shù)據(jù)庫很容易實現(xiàn)數(shù)據(jù)完整性,關(guān)系型數(shù)據(jù)庫很難實現(xiàn)數(shù)據(jù)完整性

C.NoSQL數(shù)據(jù)庫的可擴(kuò)展性比傳統(tǒng)的關(guān)系型數(shù)據(jù)庫更好

D.NoSQL數(shù)據(jù)庫具有弱一致性,關(guān)系型數(shù)據(jù)庫具有強(qiáng)一致性

答案:B

4.(多選)下列對HBase的理解正確的是()

A.HBase是一個行式分布式數(shù)據(jù)庫,是Hadoop生態(tài)系統(tǒng)中的一個組件

B.HBase是針對谷歌BigTable的開源實現(xiàn)

C.HBase是一種關(guān)系型數(shù)據(jù)庫,現(xiàn)成功應(yīng)用于互聯(lián)網(wǎng)服務(wù)領(lǐng)域

D.HBase多用于存儲非結(jié)構(gòu)化和半結(jié)構(gòu)化的松散數(shù)據(jù)

答案:BD

5.(單選)HBase是一種()數(shù)據(jù)庫

A.行式數(shù)據(jù)庫

B.關(guān)系數(shù)據(jù)庫

C.文檔數(shù)據(jù)庫

D.列式數(shù)據(jù)庫

答案:D

6.(單選)下列數(shù)據(jù)庫屬于文檔數(shù)據(jù)庫的是

A.HBase

B.MongoDB

C.MySQL

D.MongoDB

答案:D

7.(單選)NoSQL數(shù)據(jù)庫的三大理論基石不包括

A.CAP

B.最終一致性

C.BASE

D.ACID

答案:D

8.(多選)HDFS只設(shè)置唯一一個名稱節(jié)點(diǎn)帶來的局限性包括。

A.命名空間的限制

B.集群的可用性

C.隔離問題

D.性能的瓶頸

答案:ABCD

9.(判斷)目前,NoSQL的含義是“NolonlySQL”,而不是“NoSQL”。

A.J

B.X

答案:B

10.(判斷)一個數(shù)據(jù)庫事務(wù)具有ACID是指:原子性,一致性,持久性,隔離性。

A.J

B.X

答案:A

第五單元測試題

1.(單選)下列哪些不是數(shù)據(jù)來源()

A.商業(yè)教據(jù)

B.互聯(lián)網(wǎng)教據(jù)

C.物聯(lián)網(wǎng)教據(jù)

D.人工收集教據(jù)

答案:D

2.(單選)下列不是數(shù)據(jù)采集的主要渠道是()

A.傳統(tǒng)信息系統(tǒng)

B.大數(shù)據(jù)系統(tǒng)

C.物聯(lián)網(wǎng)系統(tǒng)

D.Web系統(tǒng)

答案:B

3.(單選)下列數(shù)據(jù)質(zhì)量的評估標(biāo)準(zhǔn),不正確的是()

A.完整性

B.可替代性

C.一致性

D.及時性

答案:B

4.(多選)下列關(guān)于數(shù)據(jù)質(zhì)量的影響因素理解正確的是()

A.信息因素

B.人為因素

C.信息因素

D.流程因素

答案:ABD

5.(單選)下列不是大數(shù)據(jù)采集方法的是0

A.系統(tǒng)日志采集

B.網(wǎng)絡(luò)數(shù)據(jù)采集

C.數(shù)據(jù)庫采集

D.手動聚集

答案:D

6.(多選)下列屬于大數(shù)據(jù)預(yù)處理的方法的是()

A.數(shù)據(jù)清洗

B.數(shù)據(jù)集成

C.數(shù)據(jù)變換

D.數(shù)據(jù)歸約

答案:ABCD

7.(多選)處理噪聲數(shù)據(jù)的方法包括0

A.分箱

B.平滑處理

C.聚類

D.清洗

答案:ABC

8.(判斷)忽略元組的方法可以使用該元組的剩余屬性值

A.V

B.X

答案:B

9.(判斷)大數(shù)據(jù)預(yù)處理技術(shù)就是對己接收數(shù)據(jù)的辨析抽取和清洗

A7

B.X

答案:A

10.(判斷)大數(shù)據(jù)的數(shù)據(jù)采集是指通過傳感器、攝像頭、RFID射頻數(shù)據(jù)以及互

聯(lián)網(wǎng)等方式獲取的各種結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)。

A.V

B.X

答案:A

第六單元測試題

一、單選

1.(單選)MapReduce的基本架構(gòu)不包括下列哪個部分()

AClient

BJobTracker

CTaskTracker

DSparkCore

答案:D

2.(單選)大型主機(jī)的特點(diǎn)不包括下列哪個()

A高可靠性

B高可用性

C高服務(wù)性

D高激活性

答案:D

3.(單選)下列哪項不是Storm的主要特點(diǎn)()

A可伸縮性高

B容錯性不好

C語言無關(guān)性

D適用場景廣泛

答案:B

4.(單選)下列哪項不是SAPHANA的特點(diǎn)()

A充分并行編程

B把數(shù)據(jù)全部放入內(nèi)存中存儲

C圖模型系統(tǒng)優(yōu)化

D最小化數(shù)據(jù)傳輸

答案:C

二、多選

1.(多選)MapReduce的主要特點(diǎn)有()

A易于編程

B良好的擴(kuò)展性

C高容錯性

D適合PB級以上海量數(shù)據(jù)的離線處理

答案:ABCD

2.(多選)Spark的主要特點(diǎn)有()

A快速高效

B快速高效

C全棧式數(shù)據(jù)處理

D兼容性高

答案:ABCD

3.(多選)超級計算機(jī)可應(yīng)用的領(lǐng)域有()

A氣象預(yù)報領(lǐng)域

B醫(yī)藥領(lǐng)域

C交通領(lǐng)域

D防震減災(zāi)領(lǐng)域

答案:ABCD

4.(多選)圖計算主要分為以下哪三類()

A基于分布式環(huán)境的大規(guī)模圖計算系統(tǒng)

B基丁軟件加速器的大規(guī)模圖計算系統(tǒng)

C基于單機(jī)的大規(guī)模圖計算系統(tǒng)

D基于硬件加速器的大規(guī)模圖計算系統(tǒng)

答案:ACD

5.(多選)流式計算系統(tǒng)的特征主要包括以下哪幾個方面()

A有序性

B實時性

C突發(fā)性

D易失性

答案:BCD

三、判斷

1.(判斷)M叩Reduce集群中使用了大量的低端服務(wù)器,因此,節(jié)點(diǎn)硬件失效和

軟件出錯是常態(tài)。

A.V

B.X

答案:A

2.(判斷)大型主機(jī)雖然在性能和穩(wěn)定性方面表現(xiàn)卓越,但并不代表其永遠(yuǎn)不會

出故障。

A.V

B.X

3.(判斷)分布式架構(gòu)中的計算機(jī)有明顯的主/從之分,所有計算機(jī)節(jié)點(diǎn)都是不對

等的。

A.V

B.X

答案:B

4.(判斷)集中式架構(gòu)設(shè)計,天然就有多個節(jié)點(diǎn),很容易通過主備、冗余、哈希

(Hash)等手段實現(xiàn)計算和存儲冗余備份,從而實現(xiàn)高可用。

A.J

B.X

答案:B

5.(判斷)批處理系統(tǒng)自動化程度比較高,系統(tǒng)吞吐量大,資源利用率高,系統(tǒng)

開銷小,但各作業(yè)周轉(zhuǎn)時間長,不提供用戶與系統(tǒng)的交互手段,適合大的成熟的

作業(yè)。

A.J

B.X

答案:B

四、填空

1.(填空)大數(shù)據(jù)處理從海量的原始數(shù)據(jù)中抽取出有價值的信息,將數(shù)據(jù)轉(zhuǎn)換成

信息,其中—是基礎(chǔ)、—是支撐、是核心、―是根本。

答案:數(shù)據(jù)資源處理平臺分析算法應(yīng)用效益

2.(填空)M叩Reduce框架把計算節(jié)點(diǎn)和存儲節(jié)點(diǎn)放在一起運(yùn)行,將復(fù)雜的、運(yùn)

行于大規(guī)模集群上的并行計算過程高度地抽象到兩個函數(shù):和,從而減

少了節(jié)點(diǎn)間的數(shù)據(jù)移動開銷。

答案:MappingReducing

3.(填空)Spark生態(tài)系統(tǒng)主要包含

了、、、

_>和等組件。

答案:SparkCore>SparkSQL>SparkStreaming>MLlib、GraphX

4.(填空)分布式架構(gòu)設(shè)計的核心理念是“",即按照一定維度將系

統(tǒng)進(jìn)行拆分,系統(tǒng)各部分松耦合并行運(yùn)行,并建立起較為完善的橫向擴(kuò)展與容錯

恢復(fù)機(jī)制。

答案;并行拆分與橫向擴(kuò)展

5.(填空)Prcgel是一種基于—模型實現(xiàn)的并行圖處理系統(tǒng),搭建了一套可擴(kuò)

展的、有容錯機(jī)制的平臺,提供了一套非常靈活的—,可以描述各種各樣的圖

計算,主要用于—、—、—等。

答案:BSPAPI圖遍歷最短路徑PageRank計算

第七單元測試題

1.(單選)大數(shù)據(jù)時代下企業(yè)管理的特點(diǎn)是()

A.企業(yè)用于分析的數(shù)據(jù)量十分龐大

B.數(shù)據(jù)的精確性要求有所降低提高

C.建立事物之間的相關(guān)性

D.處理能力提升

答案:A

2.(單選)下列不屬于大數(shù)據(jù)在企業(yè)管理中的作月及價值是()

A.大數(shù)據(jù)幫助企業(yè)優(yōu)化資源配置

B.大數(shù)據(jù)幫助企業(yè)推動產(chǎn)品創(chuàng)新

C.大數(shù)據(jù)幫助企業(yè)實現(xiàn)精準(zhǔn)營銷

D.大數(shù)據(jù)幫助企業(yè)改善外部管理

答案:D

3.(單選)下列屬于大數(shù)據(jù)分析流程有0

A.跨行'業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM

B.業(yè)務(wù)理解

C.模型部署

D.數(shù)據(jù)取樣

答案:A

4.(單選)SEMMA是由SAS公司提出的一套行之有效的數(shù)據(jù)挖掘方法論,下列

不屬于數(shù)據(jù)挖掘的核心過程有()

A.抽樣

B.探索

C.評估

D.部署

答案:D

5.(多選)大數(shù)據(jù)分析關(guān)鍵技術(shù)有()

A.可視化分析

B.數(shù)據(jù)挖掘算法

C.預(yù)測性分析

D.數(shù)據(jù)降噪

答案:ABC

6.(多選)大數(shù)據(jù)分析是利用數(shù)據(jù)獲得洞察力,幫助人們更好地做決策的學(xué)科集

合,下列屬于大數(shù)據(jù)分析有。

A.可視化分析

B基本數(shù)據(jù)分析

C.診斷型數(shù)據(jù)分析

D.描述型數(shù)據(jù)分析

答案:CD

7.(判斷)模型評估指從業(yè)務(wù)角度和統(tǒng)計角度進(jìn)行模型結(jié)論的評估,評估決定了

當(dāng)前模型的命運(yùn),沒通過評估只能面臨返工。

A.J

B.X

答案:A

8.(判斷)數(shù)據(jù)分析方法主要對機(jī)器學(xué)習(xí)算法進(jìn)行分類介紹,機(jī)器學(xué)習(xí)算法包括

監(jiān)督式學(xué)習(xí)和非監(jiān)督式學(xué)習(xí)

A7

B.X

答案:A

9.(填空)跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程CRISP-DM(cross-industrystandardprocessfor

datamining)是一種業(yè)界認(rèn)可的用于指導(dǎo)數(shù)據(jù)挖掘工作的方法,為數(shù)據(jù)庫知識發(fā)現(xiàn)

工程(KnowledgeDiscoveryinDatabase,KDD)或數(shù)據(jù)挖掘項目提供了一個完整

的過程描述。CRISP-DM把這個過程劃分為六個階段,分別

是、、、、和O

答案:業(yè)務(wù)理解、數(shù)據(jù)理解、數(shù)據(jù)準(zhǔn)備、建立模型、模型評估、模型部署

10.(判斷)特征工程是機(jī)器學(xué)習(xí)應(yīng)用的基礎(chǔ),指的是利用領(lǐng)域知識從原始數(shù)據(jù)

中提取用于后續(xù)機(jī)器學(xué)習(xí)及數(shù)據(jù)挖掘應(yīng)用的特征(向量)的過程。整個過程并

不涉及諸如特征表示、特征提取、屬性約減、特征選擇等內(nèi)容。

A.V

B.X

答案:B

第八單元測試題

1.(單選)可視化基本類型不包括以下哪一項?

A.圖形可視化

B.科學(xué)可視化

C.信息可視化

D.可視分析學(xué)

答案:A

2.(單選)科學(xué)可視化主要關(guān)注的是()

A.三維現(xiàn)象的可視化

B.二維現(xiàn)象的可視化

C.多維現(xiàn)象的可視化

D.圖形的可視化

答案:A

3.(單選)GoogleChartAPI屬于那種可視化工具?

A.信息圖表工具

B.入門級工具

C.地圖工具

D.時間線工具

答案:A

4.(單選)下面那一項不屬于可視化工具中的高級分析工具

A.R語言

B.TimelineJS

C.Weka

D.Gephi

答案:B

5.(單選)下面哪一項不屬于視覺通道的內(nèi)容

A.飽和度

B.色調(diào)

C.色彩

D.面積

答案:c

6.(單選)以下不屬于時間線工具的是

A.TimelineJS

B.Timetoast

C.Xlimeline

DR語言

答案:D

7.(多選)以下屬于地圖工具的有

A.Leaflet

B.ModestMaps

C.GoogleFusionTables

D.excel

答案:ABC

8.(多選)可視化評估可以分為哪兩種類型

A.定性評估

B.定量評估

C.半定性評估

D.半定量評估

答案:AB

9.(判斷)數(shù)據(jù)中的離?群點(diǎn),即不同于數(shù)據(jù)集中其他大部分?jǐn)?shù)據(jù)對象特征的數(shù)

據(jù)對象。

A.V

B.X

答案:A

10.(判斷)內(nèi)部數(shù)據(jù)收集的具體目的包括:獲取競品的數(shù)據(jù)、獲取官方機(jī)構(gòu)官

網(wǎng)公布的一些行業(yè)數(shù)據(jù)等。

A.V

B.X

答案:B

IL(填空)整群抽樣又稱O0是將總體中各單位歸并成若干個互不交叉、互

不重復(fù)的集合,稱之為群;然后以群為取樣單位抽取樣本的一種抽樣方式。

答案:聚類抽樣

12.(填空)典型的訪談包括()、()和半結(jié)構(gòu)型訪談等

答案:開放型訪談、結(jié)構(gòu)型訪談

13.(判斷)數(shù)據(jù)可視化的工具,主要有入門級工具、信息圖表工具、地圖工

具、時間線工具、高級分析工具。

A.V

B.X

答案:A

14.(判斷)開始創(chuàng)建一個可視化項目時,第一步是收集數(shù)據(jù)

A.V

B.X

答案:B

15.(多選)以下屬于主觀評估方法的有

A.專家評估

B.啟發(fā)式評估

C.抽樣問卷調(diào)查

D.焦點(diǎn)小組訪談

答案:ABCD

第九單元測試題

1.(多選)制約大數(shù)據(jù)治理的主要因素有:()

A.制度與規(guī)范缺失

B.數(shù)據(jù)防護(hù)意識薄弱

C.成本效益比較低

D.技術(shù)不成熟

答案:ABCD

2.(多選)下列屬于大數(shù)據(jù)治理的實施路徑的是:()

A.產(chǎn)生數(shù)據(jù)

B.數(shù)據(jù)資產(chǎn)梳理

C.構(gòu)建機(jī)構(gòu)內(nèi)部大數(shù)據(jù)治理體系

D.大數(shù)據(jù)治理評估與審計

答案:ABCD

3.(填空)數(shù)據(jù)資產(chǎn)包括:

答案:企業(yè)內(nèi)部數(shù)據(jù)、企業(yè)外部數(shù)據(jù)、企業(yè)購買數(shù)據(jù)

4.(填空)大數(shù)據(jù)治理的五個核心要素包括:

答案:明確數(shù)據(jù)治理責(zé)任,建立數(shù)據(jù)治理組織、管理出成效,制度是保障、確

保數(shù)據(jù)規(guī)范、數(shù)據(jù)治理要理論結(jié)合實踐、數(shù)據(jù)治理軟件

第十單元測試題

1.(多選)大數(shù)據(jù)技術(shù)的應(yīng)用為組織財務(wù)管理注入了新鮮血液的方式有()

A.拓寬籌資渠道

B.增強(qiáng)財務(wù)控制能力

C.提高投資回報率

D.數(shù)據(jù)資源整合共享

答案:ABCD

2.(單選)大數(shù)據(jù)平臺可為物流管理提供()

A.海量數(shù)據(jù)的收集

B.儲存數(shù)據(jù)

C.分析數(shù)據(jù)

D.整合數(shù)據(jù)

答案:A

3.(多選)大數(shù)據(jù)在零售決策中的應(yīng)用()

A.利用大數(shù)據(jù)分析關(guān)聯(lián)購買行為

B.智能推薦系統(tǒng)

C.大范圍營銷

D.主持產(chǎn)品定價

答案:AB

4.(單選)下列不屬于大數(shù)據(jù)在政府決策中的應(yīng)月()

A.智慧政府

B.社會治理

C.公共服務(wù)

D.調(diào)整組織結(jié)構(gòu)

答案:D

5.(多選)大數(shù)據(jù)在研發(fā)設(shè)計中的應(yīng)用()

A.產(chǎn)品協(xié)同設(shè)計

B.設(shè)計仿真

C.替代工藝流程

D.優(yōu)化工藝流程

答案:ABD

6.(多選)下列不屬于大數(shù)據(jù)在供應(yīng)鏈中的應(yīng)用()

A.供應(yīng)鏈管理戰(zhàn)略決策

B.供應(yīng)鏈管理風(fēng)險預(yù)測

C.供應(yīng)鏈管理敏捷性

D.供應(yīng)鏈協(xié)同管理

答案:ABCD

7.(判斷)大數(shù)據(jù)與智能制造之間的關(guān)系包括將制造中存在的問題轉(zhuǎn)換為定

性、定量的數(shù)據(jù)內(nèi)容,然后從中找到相應(yīng)的解決方法。

AZ

B.X

答案:A

8.(判斷)大數(shù)據(jù)技術(shù)在供應(yīng)鏈管理方面的應(yīng)用集中在供應(yīng)鏈管理戰(zhàn)略決策、

風(fēng)險預(yù)測、提升供應(yīng)鏈管理敏捷性及協(xié)同管理方面。

A.V

B.X

答案:A

9.(填空)大數(shù)據(jù)技術(shù)在生產(chǎn)制造環(huán)節(jié)的應(yīng)用有助于更快、更好地推進(jìn)智能制

造,其主要應(yīng)用包括、—和—制等

答案:智能生產(chǎn)、生產(chǎn)流程優(yōu)化、個性化定制

10.(填空)大數(shù)據(jù)在醫(yī)療衛(wèi)生管理與臨床服務(wù)中的應(yīng)用包

括:、、、

答案:醫(yī)療質(zhì)量管理、醫(yī)療績效管理、醫(yī)療設(shè)備管理、醫(yī)保管理

第十一單元測試題

1.(單選)下列說法正確的是()

A.當(dāng)今社會,互聯(lián)網(wǎng)以及各種智能設(shè)備的普遍應(yīng)用,人們活動的大量信息被廣

泛收集

B.大數(shù)據(jù)的應(yīng)用并不會引發(fā)了各種各樣的社會問題

C.技術(shù)的提升只有好處沒有壞處

D.世界進(jìn)入了大數(shù)據(jù)時代之后,總體會危害人們的安全

答案:A

2.(單選)下列說法錯誤的是()

A.組織可以比以往更大規(guī)模地收集或分析數(shù)據(jù)

B.網(wǎng)絡(luò)公司擁有海量用戶個人信息,有泄露的風(fēng)險

C.公司可從數(shù)據(jù)中獲利

D.組織可以不通過互聯(lián)網(wǎng)獲得數(shù)據(jù)

答案:D

3.(單選)下列說法錯誤的是()

A.大數(shù)據(jù)應(yīng)用引發(fā)的各種社會問題,歸納起來,既有倫理問題,又有法律問題

B.大數(shù)據(jù)時代,要獲得更好的個性化服務(wù),用戶就必須同意收集自己的個人信

息C.大數(shù)據(jù)應(yīng)用最常見的倫理問題就是個人信息遭泄露

D.殺熟現(xiàn)象不需要數(shù)據(jù)也會出現(xiàn)

答案:D

4.(判斷)在互聯(lián)網(wǎng)大數(shù)據(jù)時代,保護(hù)公民個人信息與隱私,強(qiáng)化技術(shù)防范措

施,是一種及時和有效的手段。()

A7

B.X

答案:A

5.(填空)除了和之外,及,也都是保護(hù)公民個人信息與

隱私安全的必然要求。

答案:技術(shù)防范和法律保護(hù);公民道德素質(zhì)的提高及國際治理環(huán)境的不斷改善

第十二單元測試題

1.(多選)下列屬于大數(shù)據(jù)管理決策面臨的挑戰(zhàn)的是:()

A.數(shù)據(jù)獲取與整合能力欠缺

B.企業(yè)管理觀念落后

C.企業(yè)決策環(huán)境復(fù)雜

D.大數(shù)據(jù)人才匱乏

答案:ABCD

2.(單選)下列不屬于大數(shù)據(jù)管理決策考慮的問題和技術(shù)選擇的是()

A.數(shù)據(jù)的數(shù)量和質(zhì)量

B.大數(shù)據(jù)與其他信息的結(jié)合

C.因果關(guān)系分析

D.公司的盈利情況

答案:D

3.(單選)下列不屬于大數(shù)據(jù)管理決策的未來趨勢是()

A.事務(wù)與分析融合

B.模塊融合

C.人智融合

D.云數(shù)融合

答案:C

4.(判斷)合適的數(shù)據(jù)分析工具其實能帶給企業(yè)的作用是非常巨大的,系統(tǒng)化

的可視化數(shù)據(jù)能夠更好、更準(zhǔn)確地幫助用戶進(jìn)行數(shù)據(jù)分析。

A.V

B.X

答案:A

5.(填空)數(shù)據(jù)能力集成的趨勢打破了企業(yè)內(nèi)原有的復(fù)雜數(shù)據(jù)結(jié)構(gòu),使數(shù)據(jù)和

業(yè)務(wù)更貼近,并能更快地使用數(shù)據(jù)驅(qū)動決策。主要針對性地解決三個問題:一

是提:二是;三是O

答案:提高數(shù)據(jù)獲取的效率;打通數(shù)據(jù)共享的通道;提供統(tǒng)一的數(shù)據(jù)開發(fā)能力

6.(填空)數(shù)據(jù)模型是數(shù)據(jù)特征的抽象,它從抽象層次上描述了系統(tǒng)

的、和,為數(shù)據(jù)庫系統(tǒng)的信息表示與操作提供一個

抽象的框架。

答案:靜態(tài)特征、動態(tài)行為和約束條件

1.科學(xué)決策為何遵循“滿意原則”而不是“最優(yōu)原則”?

信息、時間和確定性地局限使決策者難以做到最佳,通常情況下,決策者采

納尋求一定條件下實現(xiàn)目標(biāo)的較滿意方案,即在目前環(huán)境中足夠好的方案為決策

方案。滿意原則是針對“最優(yōu)化''原則提出來的,即最優(yōu)是不存在的,存在的只有

滿意?!白顑?yōu)化”的理論假設(shè)把決策者作為完全理性的人,以“絕對的理性”為指導(dǎo),

按最優(yōu)化準(zhǔn)則行事。但是,處于復(fù)雜多變環(huán)境中的企業(yè)和決策者,要對未來做出

,,絕對理性,,的判斷是不可能的。要使得決策達(dá)到最優(yōu),但是現(xiàn)實中上述條件往往

得不到滿足,具體來說:①組織內(nèi)外存在的一切,對組織的現(xiàn)在和未來都會直接

或間接地產(chǎn)生某種程度的影響,但決策者很難收集到反映這一切情況的信息。②

對于收集到的有限信息,決策者的利用能力也是有限的,決策者只能制定數(shù)量7T

限的方案。③決策所預(yù)測的未來狀況可能與實際的未來狀況有出入,人們對未來

的認(rèn)識是不全面的。區(qū)此,決策者不可能做出“最優(yōu)化''的決策,只能做到滿意決

策。從管理學(xué)的意義上講最優(yōu)就是最好的資源、最好的組合和利用,獲得最好的

效益,亳無疑問這是不可能的。所謂滿意,就是滿意的資源、通過滿意的組合和

利用、獲得滿意的效果,而這才是合理的,也是能實現(xiàn)的。

2.在大數(shù)據(jù)背景下,決策還有新的分類方法嗎?

在大數(shù)據(jù)背景下,決策的分類方法可以根據(jù)不同的維度和目的進(jìn)行劃分。以

下是一些常見的分類方法:

(1)基于數(shù)據(jù)類型的分類

①結(jié)構(gòu)化數(shù)據(jù)決策:對于具有明確定義格式和字段的數(shù)據(jù),可以使用傳統(tǒng)的

數(shù)據(jù)挖掘技術(shù)和統(tǒng)計方法進(jìn)行決策。②半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)決策:針對文本、

圖像、視頻等不同形式的非結(jié)構(gòu)化數(shù)據(jù),通常需要利用自然語言處理、圖像處理、

深度學(xué)習(xí)等技術(shù)進(jìn)行決策。

(2)基于決策模型的分類

①經(jīng)驗?zāi)P停夯谙惹暗慕?jīng)驗和規(guī)則進(jìn)行決策,如規(guī)則引擎、專家系統(tǒng)等。

②機(jī)器學(xué)習(xí)模型:通過訓(xùn)練模型來從數(shù)據(jù)中學(xué)習(xí)模式,例如決策樹、支持向量機(jī)、

神經(jīng)網(wǎng)絡(luò)等。③深度學(xué)習(xí)模型:利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的特征和模式,例如

卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。

(3)基于決策支持系統(tǒng)的分類

①基于規(guī)則的系統(tǒng):使用事先定義的規(guī)則來進(jìn)行決策,如專家系統(tǒng)。②基于

模型的系統(tǒng):使用數(shù)學(xué)模型和算法來輔助決策,如優(yōu)化模型、模擬模型等。

(4)基于決策環(huán)境的分類

①靜態(tài)環(huán)境決策:在固定的數(shù)據(jù)集上進(jìn)行決策,數(shù)據(jù)不斷累積但不會實時更

新。②動態(tài)環(huán)境決策:需要實時地處理和響應(yīng)不斷變化的數(shù)據(jù),例如金融交易、

網(wǎng)絡(luò)安全等。

(5)基于決策目標(biāo)的分類

①單目標(biāo)決策:優(yōu)化一個特定的目標(biāo),例如最大化利潤、最小化成本等。②

多目標(biāo)決策:同時考慮多個決策目標(biāo),可能存在相互沖突的情況,需要進(jìn)行權(quán)衡

和優(yōu)化。

(6)基于決策模型的分類

①經(jīng)驗?zāi)P停夯谙惹暗慕?jīng)驗和規(guī)則進(jìn)行決策,如規(guī)則引擎、專家系統(tǒng)等。

②機(jī)器學(xué)習(xí)模型:通過訓(xùn)練模型來從數(shù)據(jù)中學(xué)習(xí)模式,例如決策樹、支持向量機(jī)、

神經(jīng)網(wǎng)絡(luò)等。③深度學(xué)習(xí)模型:利用深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)復(fù)雜的特征和模式,例如

卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等。

以上分類方法并非互斥,實際應(yīng)用中可能會結(jié)合多種方法來解決復(fù)雜的決策

問題。同時,隨著技術(shù)的不斷發(fā)展和大數(shù)據(jù)應(yīng)用場景的多樣化,決策方法也在不

斷演進(jìn)和創(chuàng)新。

3.除了本書中提到的大數(shù)據(jù)對于管理決策思維、手段和方式產(chǎn)生影響外,是否

還在其他方面對管理決策產(chǎn)生影響呢?

大數(shù)據(jù)在管理決策方面產(chǎn)生了廣泛的影響,不僅僅限于思維、手段和方式。

以下是一些其他方面,其中大數(shù)據(jù)對管理決策產(chǎn)生影響的示例:

①精細(xì)化決策:大數(shù)據(jù)允許管理者更細(xì)致地分析和理解組織內(nèi)部和外部的各

種因素。這有助于制定更精確、個性化的管理決黃,以滿足不同情境和利益相關(guān)

者的需求。

②實時決策:大數(shù)據(jù)技術(shù)使得管理者能夠獲取和分析實時數(shù)據(jù)。這有助于更

快地做出決策,以應(yīng)市緊急情況或迅速變化的市場條件。

③風(fēng)險管理.:通過大數(shù)據(jù)分析,管理者可以更好地識別和管理風(fēng)險。這包括

市場風(fēng)險、供應(yīng)鏈風(fēng)險、合規(guī)性風(fēng)險等。大數(shù)據(jù)幫助管理者更好地預(yù)測、減輕和

回應(yīng)潛在風(fēng)險。

④客戶體驗:大數(shù)據(jù)有助于了解客戶需求和行為,以優(yōu)化產(chǎn)品和服務(wù),提高

客戶滿意度,并制定更好的客戶關(guān)系管理策略。

⑤創(chuàng)新決策:大數(shù)據(jù)分析可以幫助管理者發(fā)現(xiàn)新的機(jī)會和趨勢,從而推動創(chuàng)

新決策。它有助于識別市場缺口,了解客戶反饋,以及監(jiān)測競爭者的動態(tài)。

⑥成本效益:通過大數(shù)據(jù)的分析,管理者可以更好地控制和降低成本。這包

括優(yōu)化供應(yīng)鏈、資源分配、生產(chǎn)流程等方面。

⑦人力資源管理:大數(shù)據(jù)可以用于招聘、績效評估、員工滿意度和離職率分

析,從而支持更智能的人力資源決策。

⑧社會責(zé)任和可持續(xù)發(fā)展:大數(shù)據(jù)分析有助于監(jiān)測和報告組織的社會責(zé)任,

包括可持續(xù)發(fā)展目標(biāo)、環(huán)保措施等,從而影響與可持續(xù)發(fā)展相關(guān)的決策。

⑨供應(yīng)鏈管理:大數(shù)據(jù)有助于實時跟蹤供應(yīng)鏈運(yùn)營,以應(yīng)對需求變化、庫存

管理和供應(yīng)鏈風(fēng)險。

總之,大數(shù)據(jù)對管理決策的影響不僅僅限于改進(jìn)思維和決策方式,它改變了

決策的全面方法,使管理者更具洞察力、反應(yīng)迅速,并更好地適應(yīng)不斷變化的商

業(yè)環(huán)境。這有助于提高效率、創(chuàng)造價值,并推動組織的成功。

1.大數(shù)據(jù)決策和傳統(tǒng)的決策方式有什么區(qū)別?

大數(shù)據(jù)決策和傳統(tǒng)的決策方式之間存在多個關(guān)鍵區(qū)別,這些區(qū)別涵蓋了決策

過程、數(shù)據(jù)使用、分析方法以及決策效果。以下是一些主要區(qū)別:

區(qū)別大數(shù)據(jù)決策傳統(tǒng)決策

大數(shù)據(jù)決策依賴于處理大規(guī)模、高維傳統(tǒng)決策通常依賴于有

數(shù)據(jù)量和多度、多種類型的數(shù)據(jù)。這包括結(jié)構(gòu)化限數(shù)量的數(shù)據(jù),通常是結(jié)

樣性數(shù)據(jù)(如數(shù)據(jù)庫記錄)和非結(jié)構(gòu)化數(shù)構(gòu)化數(shù)據(jù),而非結(jié)構(gòu)化數(shù)

據(jù)(如文本、圖像、視頻等)。據(jù)較少。

大數(shù)據(jù)決策通??梢詫崟r或接近實

傳統(tǒng)決策可能依賴于定

時地分析和應(yīng)對數(shù)據(jù)。這對于需要快

實時性期或批處理分析,不如大

速決策的情況非常重要,如金融交易

數(shù)據(jù)決策實時。

或社交媒體監(jiān)控。

通常依賴于內(nèi)部數(shù)據(jù)源,

數(shù)據(jù)可以來自多個渠道和來源,如:

數(shù)據(jù)來源如企業(yè)數(shù)據(jù)庫,或者一些

社交媒體、物聯(lián)網(wǎng)設(shè)備、傳感器、日

已知的外部數(shù)據(jù),但范圍

志文件等C

較窄。

通常需要使用高級數(shù)據(jù)處理工具和使用較為傳統(tǒng)的數(shù)據(jù)處

數(shù)據(jù)處理

技術(shù),如分布式計算、云計算和大數(shù)理方法,如SQL數(shù)據(jù)庫查

據(jù)平臺。詢和統(tǒng)計分析工具。

通常使用先進(jìn)的分析工具和技術(shù),包

可能更依賴于經(jīng)驗和專

決策支持工括機(jī)器學(xué)習(xí)、深度學(xué)習(xí)、自然語言處

家判斷,也可能使用傳統(tǒng)

具理和數(shù)據(jù)挖掘等,以從大規(guī)模數(shù)據(jù)中

的統(tǒng)計方法。

提取洞察。

由于大數(shù)據(jù)提供了更多的信息和更

傳統(tǒng)決策可能受到數(shù)據(jù)

準(zhǔn)確的洞察,大數(shù)據(jù)決策通常更準(zhǔn)確

決策效果限制和有限的分析方法

和有效,尤其在預(yù)測、個性化推薦和

的限制,因此在應(yīng)對復(fù)雜

風(fēng)險管理方面。

問題時可能效果較弱。

總之,大數(shù)據(jù)決策與傳統(tǒng)決策方式之間的主要區(qū)別在于數(shù)據(jù)的規(guī)模、類型、

實時性、處理方法以及決策支持工具的使用。大數(shù)據(jù)決策在處理大規(guī)模和復(fù)雜數(shù)

據(jù)時具有明顯的優(yōu)勢,但也需要更高級的技術(shù)和資源支持。然而,傳統(tǒng)決策方式

仍然在某些情況下有其價值,特別是在數(shù)據(jù)有限或?qū)崟r性要求不高的情境中。

2.簡述大數(shù)據(jù)決策的基本流程,并舉例分析?

大數(shù)據(jù)在管理決策中的應(yīng)用流程包括:定義問題、建立大數(shù)據(jù)存儲庫、數(shù)據(jù)

探索、數(shù)據(jù)準(zhǔn)備、建立模型、評價模型和實施七大步驟。

(一)定義問題

定義問題通過對實際狀況和理想狀況進(jìn)行細(xì)致周密的分析?,對問題進(jìn)行綜合

定義,明確問題的性質(zhì)、類型和范圍,確定所要實現(xiàn)的目標(biāo)。定義問題是進(jìn)行決

策的第一步。面對決策的不同需求,最先且最重要的就是了解流程和業(yè)務(wù)問題,

制定清晰明確的任務(wù)目標(biāo),以問題為導(dǎo)向開展大數(shù)據(jù)管理決策的相關(guān)活動。

(二)建立大數(shù)據(jù)存儲庫

海量異構(gòu)數(shù)據(jù)存儲是大數(shù)據(jù)支撐組織決策的基礎(chǔ)。建立大數(shù)據(jù)存儲庫包括數(shù)

據(jù)收集、數(shù)據(jù)描述與選擇、數(shù)據(jù)質(zhì)量評估、處理與整合、構(gòu)建數(shù)據(jù)庫和維護(hù)數(shù)據(jù)

庫等工作。其中,數(shù)據(jù)庫是以一定方式儲存在一起、具有盡可能小的冗余度且允

許多用戶共享的數(shù)據(jù)集合。大數(shù)據(jù)存儲庫包括多種類型:如關(guān)系型數(shù)據(jù)庫、分布

式數(shù)據(jù)庫、數(shù)據(jù)倉庫Hive等。

(三)數(shù)據(jù)探索

數(shù)據(jù)探索通過繪圖和計算等手段分析數(shù)據(jù)的質(zhì)量、結(jié)構(gòu)、趨勢和關(guān)聯(lián),對數(shù)

據(jù)進(jìn)行解釋分析工作。數(shù)據(jù)探索的目的在于以問題為導(dǎo)向定義數(shù)據(jù)的本質(zhì)、描述

數(shù)據(jù)的形態(tài)特征并解釋數(shù)據(jù)的相關(guān)性。大數(shù)據(jù)的多樣性和大量性決定了從海量數(shù)

據(jù)中選擇符合決策需求的數(shù)據(jù)是十分重要的,因此這一步驟的重點(diǎn)在于解釋數(shù)據(jù)

的相關(guān)性,找到對決策影響最大的數(shù)據(jù)類型,建立數(shù)據(jù)關(guān)聯(lián)關(guān)系。數(shù)據(jù)探索有助

于更好的開展后續(xù)的數(shù)據(jù)挖掘與數(shù)據(jù)建模等工作。

(四)數(shù)據(jù)準(zhǔn)備

數(shù)據(jù)準(zhǔn)備是指將來刊不同來源的原始數(shù)據(jù)整理或預(yù)處理為可以方便、準(zhǔn)確進(jìn)

行分析的數(shù)據(jù)形式,即將原始數(shù)據(jù)轉(zhuǎn)換成機(jī)器學(xué)習(xí)等算法可以使用的數(shù)據(jù)形式,

包括數(shù)據(jù)清洗、數(shù)據(jù)集成、數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)歸約。

(1)數(shù)據(jù)清洗。數(shù)據(jù)清洗是數(shù)據(jù)準(zhǔn)備的第步,是指發(fā)現(xiàn)并糾正數(shù)據(jù)中可

識別錯誤的過程,包括處理噪聲數(shù)據(jù)、錯誤數(shù)據(jù)、缺失數(shù)據(jù)、冗余數(shù)據(jù)等。該步

驟可以有效減少初始數(shù)據(jù)出現(xiàn)相互矛盾情況的問題。

(2)數(shù)據(jù)集成。數(shù)據(jù)集成是將多個數(shù)據(jù)源中的數(shù)據(jù)整合到一個數(shù)據(jù)存儲庫

中的過程。數(shù)據(jù)集成的核心任務(wù)是將互相關(guān)聯(lián)的分布式異構(gòu)數(shù)據(jù)集成到一起,使

用戶能夠以透明的方式訪問這些數(shù)據(jù)。數(shù)據(jù)集成能夠維護(hù)數(shù)據(jù)的整體性、一致性,

提高信息的共享和利用效率。

(3)數(shù)據(jù)轉(zhuǎn)換。數(shù)據(jù)轉(zhuǎn)換是采用數(shù)學(xué)變換等方法將數(shù)據(jù)從一種格式或結(jié)構(gòu)

轉(zhuǎn)換為另一種格式或結(jié)構(gòu)的過程,目的是將多維數(shù)據(jù)壓縮成低維數(shù)據(jù),消除數(shù)據(jù)

在空間、屬性、時間及精度等特征上的差異。

(4)數(shù)據(jù)歸約。數(shù)據(jù)歸約是指在對挖掘任務(wù)和數(shù)據(jù)理解的基礎(chǔ)上,對數(shù)據(jù)

的特征屬性進(jìn)行相應(yīng)處理,在減少數(shù)據(jù)存儲空間的同時盡可能保證數(shù)據(jù)的完整性,

獲得比原始數(shù)據(jù)小得多的數(shù)據(jù)。

(五)建立模型

建立模型是從大數(shù)據(jù)中尋找知識的過程,常用的方法有機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、

概率統(tǒng)計等。機(jī)器學(xué)習(xí)是一種數(shù)據(jù)分析技術(shù),主要是用數(shù)據(jù)或以往的經(jīng)驗優(yōu)化程

序,而不依賴既定方程模型,其目的是實現(xiàn)在經(jīng)驗學(xué)習(xí)中改善具體算法。數(shù)據(jù)挖

掘是指按既定目標(biāo),對大量數(shù)據(jù)進(jìn)行探索和分析,揭示隱藏的、未知的規(guī)律或驗

證已知的規(guī)律,并進(jìn)一步將其模型化。概率統(tǒng)計是利用統(tǒng)計學(xué)中的概率分布及數(shù)

學(xué)特征建立模型的方法。建立模型的最終目的是解決實踐問題。根據(jù)需要解決的

問題,數(shù)據(jù)模型可以分為預(yù)測模型(分類模型和回歸模型)、推薦模型、聚類模

型和降維模型等,建立模型是大數(shù)據(jù)決策的核心內(nèi)容。模型的建立是一個反復(fù)的

過程,需要準(zhǔn)備多個模型以判斷哪個模型對決策作用最大。在建立模型的過程中,

應(yīng)先用一部分?jǐn)?shù)據(jù)來訓(xùn)練模型,然后再用額外的數(shù)據(jù)測試和驗證該模型,以保證

模型的準(zhǔn)確性和泛化性。

(六)評價模型

在完成模型構(gòu)建后,應(yīng)對模型的效果進(jìn)行評估,并根據(jù)評估結(jié)果繼續(xù)調(diào)整模

型的參數(shù)、特征或算法,確保所構(gòu)建模型充分考慮了所有重要業(yè)務(wù),能夠?qū)崿F(xiàn)其

挖掘目標(biāo),達(dá)到滿意的結(jié)果??梢杂脤嶒灁?shù)據(jù)進(jìn)行模型評估,或直接在現(xiàn)實世界

中測試模型,觀察模型擬合程度和輸出結(jié)果,根據(jù)平均誤差率、判定系數(shù)、精度、

查全率、查準(zhǔn)率等一系列指標(biāo)評估模型效果,若各類指標(biāo)達(dá)到可接受范圍,則表

明模型可以被接受。

(七)實施

基于大數(shù)據(jù)的決策模型在經(jīng)過反復(fù)驗證后,即可投入到實際的組織運(yùn)營決策

中,輔助戰(zhàn)略制定、組織管理等相關(guān)人員進(jìn)行決策。

舉例:大數(shù)據(jù)在航班信息預(yù)測中的應(yīng)用

隨著航空業(yè)的發(fā)展壯大,航班量、空中交通流量不斷增加,空管系統(tǒng)的壓力

日益增加,航班的延誤率也有所上漲。航班延誤的因素包括空管原因、天氣原因、

航空公司原因、旅客原因等。航班延誤不僅對當(dāng)前航班旅客的行程造成影響,也

會波及后續(xù)航班,不利于我國航空業(yè)的長遠(yuǎn)發(fā)展。以卜.分別從定義問題、建立大

數(shù)據(jù)存儲庫、數(shù)據(jù)探索、數(shù)據(jù)準(zhǔn)備、建立模型、評價模型和實施七個步驟展開分

析大數(shù)據(jù)的應(yīng)用。

(一)定義問題

隨著航班延誤現(xiàn)象口趨嚴(yán)重,航空公司在運(yùn)營管理等可控方面做出了一定的

努力以減少延誤,但由于流控和天氣等不可控因素,航班延誤整體現(xiàn)象并未得到

緩解。航空業(yè)各子系統(tǒng)間溝通不暢,信息壁壘,延誤預(yù)警能力不足成為造成航班

延誤的新內(nèi)因。航空系統(tǒng)每分鐘產(chǎn)生大量數(shù)據(jù),數(shù)據(jù)來源繁雜、格式多樣。就航

班預(yù)測而言,對多種不可控因素的實時掌控和精確預(yù)測的關(guān)鍵在于各大信息系統(tǒng)

數(shù)據(jù)之間的互聯(lián)互通和及時處理。運(yùn)用大數(shù)據(jù)技術(shù)預(yù)測航班信息順應(yīng)了時代的要

求和科技的趨勢。

(二)建立大數(shù)據(jù)存儲庫

采用移動互聯(lián)網(wǎng)和網(wǎng)絡(luò)爬蟲等技術(shù)從航空運(yùn)輸系統(tǒng)、航空公司報告、機(jī)場準(zhǔn)

點(diǎn)報告、機(jī)場服務(wù)評價反饋和天氣預(yù)報網(wǎng)站等平臺收集國內(nèi)航空運(yùn)輸航班相關(guān)信

息,包括航班運(yùn)行信息表、機(jī)場航班量、準(zhǔn)點(diǎn)率、航空企業(yè)基地統(tǒng)計表、旅客評

價信息、機(jī)場服務(wù)評級和天氣情況等。收集到的數(shù)據(jù)來源不同,數(shù)據(jù)格式也不盡

相同。根據(jù)數(shù)據(jù)類型建立大數(shù)據(jù)存儲庫,將收集到的數(shù)據(jù)存儲在數(shù)據(jù)庫中。

由于以上數(shù)據(jù)結(jié)構(gòu)的多樣性,將數(shù)據(jù)資料存儲在HDFS文件系統(tǒng)中。HDFS

是一種分布式的數(shù)據(jù)存儲系統(tǒng),適合部署在廉價的機(jī)器上,能夠提供高吞吐量的

數(shù)據(jù)訪問,適合存儲大規(guī)模數(shù)據(jù)集。HDFS會對所存儲的數(shù)據(jù)進(jìn)行質(zhì)量評估,評

估數(shù)據(jù)的完整性、有效性、一致性和準(zhǔn)確性,直觀了解數(shù)據(jù)質(zhì)量和存在的問題。

并根據(jù)業(yè)務(wù)場景和航班延誤過程整合數(shù)據(jù),建立數(shù)據(jù)關(guān)聯(lián),如下圖所示。

航空延誤大數(shù)據(jù)存儲圖

(三)數(shù)據(jù)探索

航班延誤是受多方面因素影響的綜合結(jié)果。在進(jìn)行航班延誤預(yù)測前;盡可能

將所有相關(guān)因素都考慮在內(nèi),使未考慮的隨機(jī)因素盡可能小。根據(jù)現(xiàn)實背景和數(shù)

據(jù)來源,對數(shù)據(jù)進(jìn)行初步統(tǒng)計分析,了解數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,從相關(guān)因素中篩

選對航班延誤影響效果較大的因素。

(四)數(shù)據(jù)準(zhǔn)備

在進(jìn)行大數(shù)據(jù)分析前,對所搜集的航班相關(guān)數(shù)據(jù)進(jìn)行數(shù)據(jù)準(zhǔn)備,如下圖所示。

航空延誤數(shù)據(jù)準(zhǔn)備圖

(1)進(jìn)行數(shù)據(jù)清洗,包括:①數(shù)據(jù)過淀:在所設(shè)定的時間或范圍內(nèi),從原

始數(shù)據(jù)庫中抽取部分?jǐn)?shù)據(jù)建立數(shù)據(jù)模型。②缺失值處理:對于未記錄數(shù)據(jù)或由于

數(shù)據(jù)收集和存儲過程出現(xiàn)軟硬件故障而丟失的數(shù)據(jù),過濾掉不完整的數(shù)據(jù)樣本,

或通過某種方式填充數(shù)據(jù)點(diǎn)。③異常值處理:錯誤或異常數(shù)據(jù)不利于模型的訓(xùn)練,

不適用于一般的學(xué)習(xí)規(guī)則,因此通過可視化的數(shù)據(jù)分布發(fā)現(xiàn)并過濾掉一些異常值。

(2)進(jìn)行數(shù)據(jù)集成,合并多個數(shù)據(jù)源。將不同數(shù)據(jù)源的數(shù)據(jù)合并成一個包

含所有訓(xùn)練相關(guān)字段的數(shù)據(jù)集,以便進(jìn)行模型訓(xùn)練,并對模型輸入數(shù)據(jù)進(jìn)行某種

形式上的匯總,如統(tǒng)計事件類型總數(shù)等。

(3)進(jìn)行數(shù)據(jù)轉(zhuǎn)奧,將處理后的數(shù)據(jù)轉(zhuǎn)換為一種適合機(jī)器學(xué)習(xí)模型的表示

形式,如數(shù)值向量、矩陣等。對于類別數(shù)據(jù),將其編碼為對應(yīng)的數(shù)值,如根據(jù)天

氣的惡劣程度分類打分;將數(shù)值數(shù)據(jù)轉(zhuǎn)化為類別數(shù)據(jù),減少變量可能值的數(shù)量;

提取非結(jié)構(gòu)化數(shù)據(jù)(如圖形、圖像、音頻等)的有用信息,進(jìn)行數(shù)值轉(zhuǎn)換,并對

特征進(jìn)行正則化、標(biāo)準(zhǔn)化處理。

(五)建立模型

(1)根據(jù)問題特征判斷問題類型,選定模型類別。就航班延誤預(yù)測問題而

言,預(yù)測某個航班具體延誤時間更有意義,即研究回歸問題。

(2)在回歸問題中尋找最適合本場景的個體模型建模,并尋找最佳參數(shù)組

合使個體模型盡可能最優(yōu)。采用試驗法,將多種模型訓(xùn)練至最佳參數(shù),并從中選

擇表現(xiàn)最好的模型。

(3)探索并評估多個模型組合(集成學(xué)習(xí))表現(xiàn)效果,以得到比單一模型

更好性能的模型,模型構(gòu)建流程如下圖所示。

航空延誤預(yù)測模型建立圖

上述模型主要采用批處理方法,即用離線存儲的所有數(shù)據(jù)或一部分?jǐn)?shù)據(jù)進(jìn)行

周期性訓(xùn)練。一般而言,根據(jù)比例將目標(biāo)數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)集、驗證數(shù)據(jù)集和測

試數(shù)據(jù)集。選取訓(xùn)練集進(jìn)行模型訓(xùn)練形成初始模型,借助驗證集驗證初始模型,

不斷調(diào)整參數(shù)使模型效果達(dá)到最優(yōu),通過測試集對模型評估決定模型的可用性。

由于批計算需要花費(fèi)一定時間,這就使得它難以在新數(shù)據(jù)到達(dá)時立即完成模型的

更新和計算,故采用流計算進(jìn)行模型實時更新,對新的信息和底層行為做出快速

的反應(yīng)和調(diào)整。

(六)評價模型

采用正確率、錯誤率、準(zhǔn)確率、召回率、ROC曲線(ReceiverOperating

characteristicCurve)和AUC(AreaUnderCunze)等指標(biāo)評價分類問題。采用均

方誤差(MeanSquareError,MSE)=2%保;),平方絕對誤差

(MeanAbsoluteError,MAE)=(匕和判定系數(shù)R?=1一二;%等指

標(biāo)評價回歸模型,判定模型擬合的精確程度和擬合優(yōu)度。其中,%是真實數(shù)據(jù),

%是真實數(shù)據(jù)的均值,區(qū)是擬合的數(shù)據(jù)。

(七)實施

大數(shù)據(jù)決策模型較傳統(tǒng)模型預(yù)測準(zhǔn)確度更高,預(yù)測行為實時可操作,經(jīng)反復(fù)

驗證后可進(jìn)行大規(guī)模實踐應(yīng)用。

3.大數(shù)據(jù)決策的基本方法包括哪些?

大數(shù)據(jù)決策涉及多種方法和技術(shù),以從大規(guī)模數(shù)據(jù)集中提取有價值的信息和

見解。以下是一些基本的大數(shù)據(jù)決策方法:

(1)數(shù)據(jù)挖掘:數(shù)據(jù)挖掘是一種通過自動或半自動的方式探索大數(shù)據(jù)集,

以發(fā)現(xiàn)模式、趨勢和關(guān)聯(lián)的技術(shù)。常見的數(shù)據(jù)挖掘技術(shù)包括分類、聚類、關(guān)狹規(guī)

則挖掘、異常檢測等。

(2)機(jī)器學(xué)習(xí):機(jī)器學(xué)習(xí)是一種人工智能技術(shù),它使用算法來訓(xùn)練計算機(jī)

從數(shù)據(jù)中學(xué)習(xí)并做出預(yù)測或決策。大數(shù)據(jù)決策中的機(jī)器學(xué)習(xí)方法包括監(jiān)督學(xué)習(xí)、

無監(jiān)督學(xué)習(xí)和強(qiáng)化學(xué)習(xí)。

(3)深度學(xué)習(xí):深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的一個分支,主要用于處理大規(guī)模、

高維度的數(shù)據(jù),如圖像、語音和自然語言文本。深度學(xué)習(xí)模型如神經(jīng)網(wǎng)絡(luò)已經(jīng)在

各種領(lǐng)域的大數(shù)據(jù)決策中取得了顯著的成功。

(4)統(tǒng)計分析:統(tǒng)計方法在大數(shù)據(jù)決策中仍然是非常重要的。它包括描述

統(tǒng)計、推斷統(tǒng)計和假設(shè)檢驗等技術(shù),用于分析數(shù)據(jù)的分布、可靠性和相關(guān)性。

(5)數(shù)據(jù)可視化:數(shù)據(jù)可視化是通過圖表、圖形和交互性界面來呈現(xiàn)大數(shù)

據(jù)的方法。它有助于理解數(shù)據(jù)、發(fā)現(xiàn)模式和溝通見解,從而支持決策過程。

(6)自然語言處理(NLP):NLP技術(shù)用于處理和分析文本數(shù)據(jù),包括從

社交媒體、新聞文章和客戶評論中提取信息,以支持決策制定。

(7)圖分析:當(dāng)數(shù)據(jù)以圖的形式存在時,圖分析方法可以用于發(fā)現(xiàn)網(wǎng)絡(luò)、

社交媒體關(guān)系、供應(yīng)鏈等方面的見解。

(8)時間序列分析:時間序列分析方法用于處理時間相關(guān)的數(shù)據(jù),如股票

價格、天氣預(yù)測等。它有助于預(yù)測趨勢和模式。

(9)集成方法:集成方法結(jié)合多種算法和技術(shù),以提高預(yù)測和決策的準(zhǔn)確

性。例如,隨機(jī)森林和梯度提升是常用的集成方法。

(10)實驗設(shè)計:在大數(shù)據(jù)決策中,實驗設(shè)計方法可用于制定實驗計劃和評

估不同策略或變量對結(jié)果的影響。

這些方法通常與大數(shù)據(jù)平臺和工具(如Hadoop.Spark、NoSQL數(shù)據(jù)庫等)

結(jié)合使用,以實現(xiàn)數(shù)據(jù)處理、存儲和分析的要求。在實際應(yīng)用中,選擇適當(dāng)?shù)姆?/p>

法取決于具體的問題和數(shù)據(jù)特征。

第三章

1.試述Hadoop和Google的MapReduce、GFS等技術(shù)之間的關(guān)系。

Hadoop是一個開源的分相式計算框架,其中包括MapReduce分布式計算模

型和HadoopDistributedFileSystem(HDFS)分布式文件系統(tǒng)。M叩Reduce是處

理大數(shù)據(jù)集的一種編程模型,它可以將大數(shù)據(jù)集分解成小的數(shù)據(jù)塊并在集群中進(jìn)

行處理,最終將結(jié)果合并起來。而HDFS則是一個分布式文件系統(tǒng),它將大文件

拆分成多個塊并存儲在不同的計算機(jī)上,從而實現(xiàn)大規(guī)模數(shù)據(jù)的存儲和訪問。

GFS(GoogleFileSystem)是Google公司開發(fā)的一種分布式文件系統(tǒng),它的

設(shè)計目標(biāo)是為大規(guī)模數(shù)據(jù)集的分布式訪問提供高可靠性、高性能和高可擴(kuò)展性。

GFS與HDFS的設(shè)計目標(biāo)類似,都是為了支持大規(guī)模數(shù)據(jù)的存儲和訪問。但是,

它們之間也存在一些差異,如文件塊的大小、數(shù)據(jù)的復(fù)制策略等。

總的來說,Hadoop的MapReduce模型和HDFS文件系統(tǒng)是一個整體,用于

處理和存儲大規(guī)模的數(shù)據(jù)集,而GFS則是Google公司開發(fā)的另一種分布式文件

系統(tǒng),用于支持其搜索引擎等大規(guī)模的數(shù)據(jù)處理應(yīng)用。

1.試述Hadoop和GoogIe的MapReduceGFS等技術(shù)之間的關(guān)系。

Hadoop的核心是分布式文件系統(tǒng)HDFS和MapReduce,HDFS是谷歌文件系

統(tǒng)GFS的開源實現(xiàn),MapReduce是針對谷歌MapReduce的開源實現(xiàn)。

2.試述Hadoop具有哪些特性。

Hadoop是一個能夠讓用戶輕松架構(gòu)和使用的分布式計算平臺。用戶可以輕

松地在Hadoop上開發(fā)和運(yùn)行處理海量數(shù)據(jù)的應(yīng)用程序。它主要有以下幾個優(yōu)點(diǎn):

①高可靠性和容錯性。Hadoop能自動地維護(hù)數(shù)據(jù)的多份副本,并且在任務(wù)失敗

后能自動地重新部署(redeploy)計算任務(wù),體現(xiàn)出優(yōu)良的可靠性和容錯性,②

高效性。Hadoop利用分布式集群進(jìn)行運(yùn)算,可以把成百上千臺服務(wù)器集中起來,

進(jìn)行分布式并行處理。提高了PB級數(shù)據(jù)存儲和計算的效率。③可擴(kuò)展性。Hadoop

是在可用的計算機(jī)集簇間分配數(shù)據(jù)并完成計算任務(wù)的,這些集簇可以方便地擴(kuò)展

到數(shù)以千計的節(jié)點(diǎn)中。④成本低。Hadoop整個集群中可以使用很多低端機(jī),甚

至普通PC機(jī)也可以建立集群,成本非常低。⑤可跨平臺。Hadoop基于Java語

言進(jìn)行開發(fā),可以較好地運(yùn)行在Linux環(huán)境,具有跨平臺屬性。同時,Hadoop支

持多種語言進(jìn)行應(yīng)用程序開發(fā),如C++等。

3.試述Hadoop的項目結(jié)構(gòu)以及每個部分的具體功能。

Common是為Hadoop其他子項目提供支持的常用工具,主要包括文件系統(tǒng)、

RPC和串行化庫。

Avro是為Hadoop的子項目,用于數(shù)據(jù)序列化的系統(tǒng),提供了豐富的數(shù)據(jù)結(jié)

構(gòu)類型、快速可壓縮的二進(jìn)制數(shù)據(jù)格式、存儲持續(xù)性數(shù)據(jù)的文件集、遠(yuǎn)程調(diào)用的

功能和簡單的動態(tài)語言集成功能。

HDFS是Hadoop項目的兩個核心之一,它是針對谷歌文件系統(tǒng)的開源實現(xiàn)。

HBase是一個提高可靠性、高性能、可伸縮、實時讀寫、分布式的列式數(shù)據(jù)

庫,一般采用HDFS作為其底層數(shù)據(jù)存儲.

MapReduce是針對谷歌MapReduce的開源實現(xiàn),用于大規(guī)模數(shù)據(jù)集的并行

運(yùn)算.

Zookeeper是針對谷歌Chubby的一個開源實現(xiàn),是高效和可靠的協(xié)同工作

系統(tǒng),提供分布式鎖之類的基本服務(wù),用于構(gòu)建分布式應(yīng)用,減輕分布式應(yīng)用程

序所承擔(dān)的協(xié)調(diào)任務(wù)。

Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,可以用于對Hadoop文件中的數(shù)

據(jù)集進(jìn)行數(shù)據(jù)整理、特殊查詢和分布存儲.

Pig是一種數(shù)據(jù)流語言和運(yùn)行環(huán)境,適合于使用Hadoop和MapReduce平臺

上查詢大型半結(jié)構(gòu)化數(shù)據(jù)集。

Sqoop可以改進(jìn)數(shù)據(jù)的互操作性,主要用來在Hadoop配合關(guān)系數(shù)據(jù)庫之間

交換數(shù)據(jù)。

Chukwa是一個開源的、用于監(jiān)控大型分布式系統(tǒng)的數(shù)據(jù)收集系統(tǒng),可以將

各種類型的數(shù)據(jù)收集成適合Hadoop處理的文件,并保存在HDFS中供Hadoop

進(jìn)行各種MapReduce操作。

1.在Hadoop體系架構(gòu)中,試述HBase與其他組成部分的相互關(guān)系。

Hadoop的生態(tài)系統(tǒng)和項目組件已經(jīng)逐漸完善,除了分布式文件系統(tǒng)HDFS

和分布.式并行編程框架MapReduce之外,還包括分布式協(xié)作服務(wù)Zookeeper、分

布式數(shù)據(jù)庫HBase、數(shù)據(jù)倉庫Hive、數(shù)據(jù)流處理工具Pig、數(shù)據(jù)庫挖掘工具M(jìn)ahout、

數(shù)據(jù)庫ETL工具Sqoop、日志收集工具Flume和安裝部署配置管理工具Ambari,

HBase利用HadoopM叩Reduce來處理HBase中的海量數(shù)據(jù),實現(xiàn)高性能計

算;利用Zookeeper作為協(xié)同服務(wù),實現(xiàn)穩(wěn)定服務(wù)和失敗恢復(fù);使用HDFS作為高

可靠的底層存儲,利用廉價集群提供海量數(shù)據(jù)存儲能力;Sqoop為HBase的底層

數(shù)據(jù)導(dǎo)入功能,Pig和Hive為HBase提供了高層語言支持,HBase是BigTablc

的開源實現(xiàn)。

2.請以實例說明HBase數(shù)據(jù)模型。

HBase數(shù)據(jù)模型下圖所示,展示的是HBase中的學(xué)生信息表,有四行記錄和

兩個列族,行鍵分別為202208121、202208204、202208215>202207118,兩個列

族分別為Stulnfo和Grades,每個列族中含有若干列,如列族Stulnfo包括Name、

Class和MobilePhone三種列限定符,列族Grades包括Math^English、Computer

和BigData四種列限定符。包含數(shù)據(jù)的實體稱為單元格,行根據(jù)行鍵進(jìn)行排序。

數(shù)據(jù)寫到HBase的時候都會被記錄一個時間戳,這個時間戳被當(dāng)做一個版本,比

如說,我們修改或者刪除某一條的時候,本質(zhì)上是往里邊新增一條數(shù)據(jù),記錄的

版本也加一。

列族Stulnfo列族Grades

行鍵

NameClassMobilePhoneMathEnglishComputerBigData

202208121李明11311111111185888487

202208204王亮21311111111287848985

202208215孫天21311111111392899184

202207118T強(qiáng)11311111111487908789

3.試述HBase系統(tǒng)基本架構(gòu)以及每個組成部分的作用。

HBase是一個分布式的、面向列的開源數(shù)據(jù)庫,它允許存儲和查詢大量的數(shù)

據(jù)。HBase系統(tǒng)基本構(gòu)架包括客戶端、Zookeeper服務(wù)器、Master主服務(wù)器、

Region服務(wù)器。

(1)客戶端是指與服務(wù)器相對應(yīng),為客戶提供本地服務(wù)的程序。包含訪問

HBase的接口,同時在緩存中維護(hù)著己經(jīng)訪問過的分區(qū)位置信息,用來加快后續(xù)

數(shù)據(jù)訪問過程。

(2)Zookeeper服務(wù)器是Hadoop和HBase的重要組件,它的作用包括:

實現(xiàn)集群管理的功能,如果有多臺服務(wù)器組成一個服務(wù)器集群,那么必須要

一個“總管”知道當(dāng)前集群中每臺機(jī)器的服務(wù)狀態(tài),一旦某臺機(jī)器不能提供服務(wù),

集群中其他機(jī)器必須知道,從而做出調(diào)整重新分配服務(wù)策略;

當(dāng)增加集群的服務(wù)器時,每個分區(qū)服務(wù)器都需要到Zookeeper中注冊,

Zookeeper實時監(jiān)控每個分區(qū)服務(wù)器的狀態(tài)并通知給Master主服務(wù)器,這樣主服

務(wù)器就可以通過Zookeeper隨時感知到各個分區(qū)服務(wù)器的狀態(tài)。

(3)Master主服務(wù)器

Master主服務(wù)器是HBase集群中的主服務(wù)器,負(fù)責(zé)監(jiān)控集群中的所有Region

服務(wù)器,并且是所有元數(shù)據(jù)更改的接口。Master主服務(wù)器的作用包括:

主服務(wù)器主要負(fù)責(zé)管理用戶對表的增加、刪除、修改及查詢等操作;

實現(xiàn)不同分區(qū)服務(wù)器之間的負(fù)載均衡;

在Region分裂或合并后,負(fù)責(zé)重新調(diào)整Region的分布;

對發(fā)生故障失效的分區(qū)服務(wù)潛上的分區(qū)進(jìn)行遷移。

(4)Region服務(wù)器

Region服務(wù)器是一套對Region中的數(shù)據(jù)進(jìn)行操作的程序,是HBase框架中

最為關(guān)鍵的一個模塊,它運(yùn)行在Hadoop集群中的數(shù)據(jù)節(jié)點(diǎn)上,負(fù)責(zé)數(shù)據(jù)的存儲

操作,是整個存儲機(jī)制的關(guān)鍵實現(xiàn)。Region服務(wù)器的作用包括:

每個Region服務(wù)器都維護(hù)著屬于自己的Region,接收和處理對Region的

訪問;

Region服務(wù)器還負(fù)責(zé)Region過大時的割裂以及數(shù)量過多時的合并操作。

4.試述鍵值數(shù)據(jù)庫、列族數(shù)據(jù)庫、文檔數(shù)據(jù)庫和圖形數(shù)據(jù)庫的適用場合和優(yōu)缺

點(diǎn)O

鍵值數(shù)據(jù)庫是一種使用鍵值對來存儲數(shù)據(jù)的非關(guān)系型數(shù)據(jù)庫,它會使用一個

哈希表,這個表中有一個特定的鍵和一個指針指向特定的值;列族數(shù)據(jù)庫是一種

可以存儲關(guān)鍵字及其映射值的非關(guān)系數(shù)據(jù)庫,一般采用列族數(shù)據(jù)模型;文檔數(shù)據(jù)

庫是一種旨在將數(shù)據(jù)作為類JSON文檔存儲和查詢的非關(guān)系數(shù)據(jù)庫;圖形數(shù)據(jù)

庫是指利用圖結(jié)構(gòu)進(jìn)行存儲和查詢數(shù)據(jù)的一種非關(guān)系型數(shù)據(jù)庫,使用圖作為數(shù)據(jù)

模型來存儲數(shù)據(jù)。這四種數(shù)據(jù)庫的適用場景和優(yōu)缺點(diǎn)如下表所示。

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論