大數(shù)據(jù)HCIE試題題庫(kù)_第1頁(yè)
大數(shù)據(jù)HCIE試題題庫(kù)_第2頁(yè)
大數(shù)據(jù)HCIE試題題庫(kù)_第3頁(yè)
大數(shù)據(jù)HCIE試題題庫(kù)_第4頁(yè)
大數(shù)據(jù)HCIE試題題庫(kù)_第5頁(yè)
已閱讀5頁(yè),還剩48頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

[單選題]

1.以下關(guān)于Python中函數(shù)定義的描述不正確的是哪一項(xiàng)?

A.函數(shù)內(nèi)容以目號(hào)起始.并且縮進(jìn).

B.在python中只能用關(guān)鍵字def創(chuàng)建函數(shù).

C.Return用于返回?個(gè)函數(shù)執(zhí)行的結(jié)果,

D,用del聲明函數(shù),后面跟函數(shù)名和小括號(hào),括號(hào)內(nèi)可以放置所需參數(shù),

答案:B

2.HDFS的副本放置策略中,同一機(jī)架不同服務(wù)器之間的距離是?

B.2

C.3

D.4

冬案,B

3.在數(shù)據(jù)抽取、轉(zhuǎn)換和加載過程中,以下哪種不是數(shù)據(jù)抽取的方式?

A,全量抽取

B.更新抽取

「不:抽取

D.倒置抽取

普案:I)

4.?股而言,若數(shù)據(jù)類別比例超過。,即認(rèn)為數(shù)據(jù)集中存在不均衡數(shù)據(jù)的現(xiàn)象.

A.3

B.4

C.2

答案:B

5.以下哪個(gè)選項(xiàng)是異常值處理的方法?

A.刪除界常值

B,將異常fff視為缺失依,按照缺失ff(處理方法來處理異常ff(

C估算異常值

D.以上全都正確

答案:D

5.以下關(guān)于有監(jiān)督連續(xù)變量的離散化分析錯(cuò)誤的是哪一項(xiàng)?

A.IR方法貼分箱法的有監(jiān)帑版本,每個(gè)區(qū)間至少包含6個(gè)變戢(最后一個(gè)區(qū)間除外)

B.基于卡方檢監(jiān)的方法,運(yùn)用卡方檢黑的策略,自頂向下合并數(shù)值進(jìn)行有監(jiān)督/故化,核心掾作是Herge.

C有監(jiān)督的連續(xù)變收的離放化相對(duì)T無監(jiān)督的方法來說,可以戲少在離放化的過程中異常值的影響,

D,蔚丁信息蟒的方法運(yùn)用了決算樹的理念進(jìn)行變最離散化,是一種白頂向卜的分裂技術(shù),

答案:B

7.以下關(guān)于特征選擇方法中哪個(gè)不屬于特征減少的方法?

A.wrapper伸力

B.Filtei?(過法)

C.Embedded()

D.交叉驍證方法

答案:D

3.下列哪個(gè)不屬于常用的文本分類的特征選擇算法?

A.主成分分析

B.信息增益

C.互侑息法

D.卡方檢驗(yàn)

答案:A

J.以卜哪種方法不屬于Embedded(嵌入法)?

A.特征獷增

B,基于1.1的正則化方法

C,平均不純煽減少0kMDtfuxuobvImpuiily)

D.平均精度下降(MeanDecreaseAccuracy)

笆案,A

10.以下哪些方法不可以用來做分類?

A.卜Means

B.支持向量機(jī)

C.KNN

D.決策樹

答案:A

11.決策樹是一種樹形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)。上的測(cè)試,每個(gè)分支代表?個(gè)測(cè)試0,每個(gè)葉節(jié)點(diǎn)代表一

種0

A.類別、輸出、屬性

B.屬性、輸出、類別

C.輸出、類別、屬性

D.展性、類別、輸出

答案:B

12.以下哪一項(xiàng)不是KN算法的三要素?

A.距離度址的方式

B.特征的順序

C.分類決策規(guī)則

D.K值的選取

答案:B

13.樸素貝葉斯分類方法(NaiveBayes)是一種特殊的Bayes分類器,特征變量是x,類別標(biāo)簽是c,它的一個(gè)假定是

下列選項(xiàng)中的腿一項(xiàng)?

A.特征變破X的各個(gè)屈性之間互相獨(dú)立

B.以。為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布

C.p(xc)是向斯分布

D,各類別的先概率P(C)是相等的

答案rA

14.在LogisticRegression中,如果同時(shí)加入L1和L2范數(shù),不會(huì)產(chǎn)生什么效果?

A.以做特征選擇,并在一定程度上防止過擬合

B.可以獲得更準(zhǔn)確的結(jié)果

C.能解.決維度災(zāi)雄問避

D,能加快計(jì)算速度

答案:D

15.對(duì)于隨機(jī)森林和GradientBoostingTrees,下面說法正確的是哪一項(xiàng)?

A.GradienlBoostingTreesi11練模型的表現(xiàn)總是比隨機(jī)森林好

B.在隨機(jī)您林的單個(gè)處中,樹和樹之間是釘依敕的,而GradientBoostingTrees中的單個(gè)樹之間是沒有依賴的

C.這兩個(gè)模型都使用隨機(jī)特征子集.來生成許多單個(gè)的樹

D.可以并行地生成GradientHonstingTrees弟個(gè)樹,囚為它們之間是沒有依轍的

答案:C

16.下列哪個(gè)選項(xiàng)不是常用的聚類比法?

A.SVM

B.DBSCAN算法

C.Hierarchicalclustering算法、BIRCH算法

D.K-means算法

咨案:A

17.在有監(jiān)督學(xué)習(xí)中,我們?nèi)绾问褂镁垲惙椒ǎ?.我們可以先創(chuàng)建聚類類別,然后在卷個(gè)類別上用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)

習(xí)2,我們可以使用聚類“類別id”作為一個(gè)新的特征項(xiàng),然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)3.在進(jìn)行監(jiān)督學(xué)習(xí)之前,

我們不能新建聚類類別4,我們不可以使用聚類“類別id”作為一個(gè)新的特征項(xiàng),然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)下

列選型中正確的是哪一項(xiàng)?

1H13

A.

1M12

B.C

1M14

甘J4

D.濘3

.B1

jK.

18.以下哪一項(xiàng)不屬于抽樣的類別?

A.系統(tǒng)抽樣

B.整群抽樣

C.分層抽樣

D.循環(huán)抽樣

E.簡(jiǎn)單隨機(jī)抽樣

答案:D

19.以下關(guān)于模型超參數(shù)的特征描述不正確的是哪?項(xiàng)?

A.模里的超卷數(shù)可以通過數(shù)據(jù)II接得到,也可以通過人的羥驗(yàn)來設(shè)定

B,模型超參數(shù)通??梢允褂脝l(fā)式方法來設(shè)置

C,模型總參數(shù)通常由實(shí)踐者口接指定

D.模型超參數(shù),用應(yīng)用于估計(jì)模型參數(shù)的過程中

£?模型超參數(shù)通常根據(jù)給定的預(yù)測(cè)建模問時(shí)而調(diào)整

答案:A

20.以卜.關(guān)于邏輯回歸算法的損失函數(shù)描述不正確的是哪一項(xiàng)?

A.在邏犧回歸的報(bào)號(hào)中,它假設(shè)樣本版從俏努利I0-D分布,然后求得滿足該分布的似然困散,孩有用對(duì)敵求極低。

B.龍卷網(wǎng)“I算法一定要計(jì)算G大似然函數(shù)

C.造輯回歸算法的損失函數(shù)可以使用對(duì)數(shù)函數(shù).

D.邏輯回獷并沒有求對(duì)數(shù)W然函數(shù)的最大值.而是把極大化當(dāng)儂一個(gè)思想.進(jìn)而推導(dǎo)出它的風(fēng)險(xiǎn)函數(shù)為以小D化的似然函數(shù).

答案:B

21.在Python中,關(guān)于Pandas模塊中的數(shù)據(jù)讀取函數(shù)read-csv與read-table.以下說法不正確的是哪一項(xiàng)?

A.seq/delimiter:用來制定數(shù)據(jù)之間的分隔符,readtahle默認(rèn)為逗號(hào),read_csv默認(rèn)為制表符.

B.usecols:通過usecols參數(shù)來設(shè)河需要使用於列,

C.indexcol:可以將數(shù)據(jù)集中的某一列(某幾列)設(shè)置為行索引,通過indexcol來進(jìn)行指定,

D.header:用來制定標(biāo)題行,如果數(shù)據(jù)集中沒有標(biāo)題行,則制定為None.

E.names:讀1R數(shù)據(jù)時(shí),可以通過names儂件設(shè)為列索引.

答案:A

22.關(guān)于實(shí)時(shí)流處理整體架構(gòu)中數(shù)據(jù)緩存和消息中間件描述錯(cuò)誤的是0.

A.Redis:提供高速kev/value存儲(chǔ)查詢能力,比于流處理結(jié)果數(shù)據(jù)的高速緩存.

B.Kafka:消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布。

CHBase:用于行鍵性詢(Key-Ya】ue)檢索,爽詢條件熨雜且多樣。

D.Kufka:分布式消息系統(tǒng),支持消息的生產(chǎn)和發(fā)布,以及多構(gòu)形式的消電腹存,滿足高效可綁的消息生產(chǎn)和消費(fèi).

答案:C

23.SparkMLlib匯總統(tǒng)計(jì)主要是對(duì)RDD數(shù)據(jù)集進(jìn)行整體的統(tǒng)計(jì)性描述,主要通過調(diào)用colStats函數(shù),該函數(shù)中獲取

數(shù)據(jù)每列的L1范數(shù)的參數(shù)是下列選項(xiàng)中的哪一項(xiàng)?

A.nornll.l

B.numNonzeros

C.nornl.2

D.variance

答案:A

24.關(guān)于FusionlnsighiMiner的功能描述不準(zhǔn)確的是哪一項(xiàng)?

A.業(yè)務(wù)場(chǎng)景包括極大團(tuán)分析.

B.工作枇落不支/自定義妹法.

C.支持R語(yǔ)言.

D.支持Python2和Pyihon3語(yǔ)言.

答案;B

25.建設(shè)一個(gè)完整的數(shù)據(jù)治理平臺(tái),作為數(shù)據(jù)平臺(tái)的管控系統(tǒng),從制度、標(biāo)準(zhǔn)、()、流程幾個(gè)方面提升數(shù)據(jù)信息管理

能力,解決目前所面臨的數(shù)據(jù)標(biāo)準(zhǔn)問題.數(shù)據(jù)質(zhì)量問題、元數(shù)據(jù)管理問題和數(shù)據(jù)服務(wù)問題.

實(shí)時(shí)

A,化

B.C管

監(jiān)

D.控

26.以下關(guān)于數(shù)據(jù)挖掘描述不準(zhǔn)確的是哪一項(xiàng)?

A.大數(shù)據(jù)的挖掘是從海依、不完全的、有噪聲的、模相的、曲機(jī)的大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)陷含在K中有價(jià)值的、潛在有用的信息和知識(shí)的過程,

H.大的據(jù)沙擁*呼基于人T智能.機(jī)器學(xué)習(xí).林H學(xué)習(xí).統(tǒng)計(jì)學(xué)等.通過就大的據(jù)總網(wǎng)口動(dòng)化地分析.做由R歸幽性的推理.從中沙棚出潸在

的模式,

C.日前.在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如很行、電信、電商等,數(shù)據(jù)沱址可以解次很多問題,包括市場(chǎng)昔優(yōu)策略制定、背景分析、企業(yè)風(fēng)險(xiǎn)規(guī)

能等.

D.通.數(shù)據(jù)論摘可以建立起企業(yè)整體而不是某個(gè)業(yè)務(wù)過程局部的不同類型的模型.

答案:D

27.關(guān)于模型部署的描述不正確的是哪一項(xiàng)?

A.模型一經(jīng)部罟,就可以永久的固化下來.

B.蟆型部為可以借助的工具越來越多,

。在生產(chǎn)環(huán)境下部署模型也存在許多挑戰(zhàn),如:S何進(jìn)行性能調(diào)優(yōu),安全性,如何支持AB測(cè)試等,

D.模型部署就是把訓(xùn)練好的機(jī)器學(xué)習(xí)的模型都罟到生產(chǎn)環(huán)境.

答案:A

28.Streaming主要通過ZooKeeper提供的以下哪項(xiàng)服務(wù)實(shí)現(xiàn)事件偵聽?

A.ACK

B.watcher

C.checkpoint

D.分布式鎖機(jī)惻

答案:D

29.設(shè)X、XI、X2、Y是四個(gè)隨機(jī)變量,a,b是常數(shù),以下關(guān)于協(xié)方差的性質(zhì)描述錯(cuò)誤的是哪一項(xiàng)?

A.如果Cov(X,¥)=0.則隨機(jī)變貴X,Y相互獨(dú)立

B.CovfaX,bY)=abCov(X.V)

C.Cov(Xl+X2,Y)=COY(X1,¥)+€OV(X2,Y)

D.如果的機(jī)變fitX,Y相互獨(dú)立,則CoNX,Y)=0

答案;A

30.以下哪個(gè)選項(xiàng)不是矩陣乘法對(duì)向最的變換?

A,形

B,C仲

D.轉(zhuǎn)

基A

31.以卜哪個(gè)選項(xiàng)是求解等式約束最優(yōu)化的常用方法?

A.牛頓法

B.梯度下降法

C.KKT條件

D.拉格明日戀法子

答案:D

32.“點(diǎn)擊率問題”是這樣一個(gè)預(yù)測(cè)問題.9洲的人不會(huì)點(diǎn)擊,而1%的人會(huì)點(diǎn)擊,所以這是一個(gè)非常不平衡的數(shù)據(jù)集。

假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來分類,而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們彳以下的結(jié)論是哪一選項(xiàng)?

A.模中預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不能要做什么了.

B.模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模里。

。無法下結(jié)論

D.以上都不對(duì)

答案:C

33.下列方法中,不可以用于特征降維的方法包括哪一選項(xiàng)?

A.同部線性嵌入1.I.E

B.主成分分析PCA

C.嫌小二乘法I.eastSquares

D.戰(zhàn)性判別分析LDA

E.矩陣奇異值分解SYD

答案:C

34.以下關(guān)于特征選擇定義的理解說法錯(cuò)誤的是哪一項(xiàng)?

A.特征選擇是指從原始特征中挑選出一組最有代表性、分類性能好的特征.

B.特征選擇不像算法和模理是確定的步歌,更多處工程上的羥驗(yàn)和權(quán)衡,一般備要耗費(fèi)較多的時(shí)間和精力.

C.對(duì)于不同的數(shù)據(jù)挖掘任務(wù),所需要的特征組合那是相同的.

D.特征選擇(featureselection)也被稱為受累迭界、同性遺杼或變盤子集選擇.它是為了構(gòu)建槿型而選擇相關(guān)特征子集的過程。

答案:C

35.下列哪些方法不適合用來對(duì)高維數(shù)摳進(jìn)行降維?

A.線性判別分析LUA

B.小波分析法

C.聚類分析

D.主成分分析法

答案:C

36.當(dāng)決策樹出現(xiàn)過擬合后,需要使用()技術(shù)來縮小樹的結(jié)構(gòu)和規(guī)模。

調(diào)

A.歸

|>>]

B.剪

C枝

D.案

答:C

37.以下關(guān)于Apriori算法的描述不正確的是哪一項(xiàng)?

A.Apriori算法是一個(gè)非常經(jīng)典的頻能項(xiàng)集的物序?法.很多算法都是基于Apriori算法而產(chǎn)生的.包括FP-Tree.GSP.CBA等.

B.Apriori第法適用于菸重復(fù)頂集數(shù)元素較多的案例.

C.python的工具麻mlxtend目前提供實(shí)踐Apriori究法的方法.

D,使用先皖原理,大大提尚J-頻索項(xiàng)架逐層產(chǎn)生的效率.

答案:B

38.以下哪一項(xiàng)不是最優(yōu)化問題的三個(gè)基本要素?

A.目標(biāo)函數(shù):用來衡量結(jié)果的好壞。

B.參數(shù)值:未知的因子且需要通過數(shù)據(jù)耒確定.

C.數(shù)據(jù)規(guī)模.

D.約束條件:布要滿足的限制條件,

答案;C

39.以下哪種場(chǎng)毋比較適用于在保證召I可率的前提下,盡量提升精確率的情況?

A.金融欺詐

B.搜索

C.地露檢測(cè)

D.癌癥檢測(cè)

答案:B

10.以?關(guān)于SparkMLlib中FP-Growth的超以下描述不正確的是哪一項(xiàng)?

A.minConfidence:生成關(guān)聯(lián)規(guī)期的最小議悟度,罰信度表明關(guān)聯(lián)規(guī)則被發(fā)現(xiàn)的出賣程度。

B.numPartitions:用于分發(fā)工作的分區(qū)數(shù),

C.minSupporI:對(duì)項(xiàng)H集的最小支持被識(shí)別為頻繁.

D.transform:以高于minConfidence的置倍度生成的關(guān)聯(lián)規(guī)則.

答案:D

11.在LLS中,“決策樹分類”節(jié)點(diǎn)的參數(shù)設(shè)置描述不準(zhǔn)確的是哪一項(xiàng)?

A.城大分箱數(shù):對(duì)連續(xù)的值進(jìn)行范圍劃分,不能小于各分類特征的最大取值數(shù)目,

B.燃大樹深度:模型訓(xùn)練的最大迭代次數(shù)。取值區(qū)間為【1,30].

。處理異常假選項(xiàng)中可以選擇:"null值代替”。

D.不純度:樹。點(diǎn)標(biāo)簽的混雜度計(jì)算標(biāo)準(zhǔn),選值僅有‘Gini".

答案:D

42.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇下列哪個(gè)工具實(shí)現(xiàn)該功能?

A.I.ucene

B.ElasticSearch

C.HBase

D.GES

答案:D

43.Gremlin中查詢單個(gè)點(diǎn)的信息該用什么命令?

A.gV().hasLabel(*test*).values(*age*)

B.g\'().hasLabel(,1631*).vnluelap(*String_list*,"age")

C.gV(13464736).valueHap(?

D.gV().hasl.abel("tesl")

答案:C

44.在案例“銀行客戶精準(zhǔn)畫像”中,美于其數(shù)據(jù)挖掘不同階段的操作描述,屬于數(shù)據(jù)建模階段的是哪一項(xiàng)?

A.對(duì)呆近三個(gè)月的原始交易數(shù)據(jù)進(jìn)行說算獲得變量,并整合在客戶的實(shí)際交易情況上定義客戶的行為,鋁個(gè)客戶作為一條觀測(cè),從中隨機(jī)抽取

2B67個(gè)客戶作為研究實(shí)例的代表性樣本

B.結(jié)果分析,并提供參看策略

C,在客戶分類問題中采用的士支是數(shù)糊花幅中分類和錄類的算法,儒變結(jié)令需求規(guī)劃出適用模型。

D.將來自數(shù)捌倉(cāng)庫(kù)中多個(gè)數(shù)據(jù)表.經(jīng)過了數(shù)據(jù)采桀、清理和集成,生成一個(gè)針對(duì)數(shù)據(jù)物榭H標(biāo)確定與交易行為有關(guān)的數(shù)據(jù)項(xiàng)集合.

答案:A

45.SparkVLlib中的BasicStatistic是專門用于進(jìn)行大數(shù)據(jù)集群上的統(tǒng)計(jì)分圻工具,以下哪個(gè)不屬于Basic

Slalislis發(fā)持的功能?

A.假設(shè)檢臉

B.特征抽取

C.匯總統(tǒng)計(jì)

D.生成隨機(jī)數(shù)

答案:B

16.(單選)購(gòu)買與登錄專屬版MS的描述不正確的有?

A.確認(rèn)集群信息無誤后.依次單擊”立即購(gòu)買二"提交二

B.在購(gòu)買專屬版S實(shí)例之前需要先購(gòu)買"MapReduce服務(wù)

C.在購(gòu)買界面上,依次配置所#;參數(shù),其中,Kerberos認(rèn)證:關(guān)閉或者開啟均可

D.一旦提交,集群會(huì)立刻創(chuàng)建完成.

答案;D

17.(單選)假設(shè)A,B.C是三個(gè)矩陣,A是2X2,B是2X2階,(:是3x2階,以下哪一個(gè)矩陣的運(yùn)算是有意義的?

A.A+B

B.AC

C.AB+AC

D.B+C

冬案:A

18.(單選)如一個(gè)原始數(shù)據(jù)為3行4列的數(shù)據(jù)框需要降維至兩維,利用SparkLIb的實(shí)現(xiàn)思路卜述不正確的是?。

A.在PCA中,可以選取偽/小的2個(gè)待征值對(duì)應(yīng)的特征向量,并由該兩個(gè)特征向量組成矩陣C

B.求矯方差矩陣B的方特征向量

C.求取矩陣R的協(xié)方差矩B

D.將像始3行4列的數(shù)據(jù)轉(zhuǎn)換得到一個(gè)3乘4的矩陣R

答案,B

19.(的選)若隨機(jī)變量X服從正態(tài)分布N(u,o-2),則隨機(jī)變量Y=aX+b股從以下哪個(gè)正態(tài)分布?

A.N(a>2u+h,a*2o2)

B.N(au+b,a*2o*2)

C.N(au+b,a*2o-2+b)

D.N(au,a'2o'2)

答案,B

50.(單選)我們可以使用Python中scikilTearn庫(kù)的()函數(shù),來對(duì)樣本集進(jìn)featureselection(特征選擇)和

dimensionalilyreduction(降維)?

A.sk1earn,neighbors

B.skiearn,featureselection

C.skiearn,linearmodel

D.sklearn.cluster

答案:B

51.(單選)現(xiàn)實(shí)中大數(shù)據(jù)挖掘任務(wù)往社特征屬性過多,而一個(gè)普遍存在的事實(shí)是,大數(shù)據(jù)集帶來的關(guān)鍵信息只聚集在

部分甚至少數(shù)特征上,因此我們需要進(jìn)廳以下哪種操作?

A.特征標(biāo)準(zhǔn)化

氏特征選擇

C.特征歸一化

D.特征清洗

答案;B

52.(單選)-?個(gè)典型的大數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu)不包括以下哪個(gè)層次?

A,數(shù)據(jù)平臺(tái)層

B.數(shù)據(jù)服務(wù)層

C.數(shù)據(jù)應(yīng)用層

D.數(shù)據(jù)可視化層

冬案:D

33.(單選)以下關(guān)于PCA算法(主成分分析)說法不正確的是。W)

A,必須在使用PC*前規(guī)范他數(shù)宗

B,使數(shù)據(jù)降低到低維度上做數(shù)據(jù)可視化

C應(yīng)該選擇使得模型有最小variance的主成分

I).應(yīng)該選擇使得模型有域大variance的主成分

答案:C

5((單選)以下關(guān)于Python正則表達(dá)式描述不正確的是?

A.rei正則表達(dá)式可以處理字符申數(shù)據(jù),也能處理數(shù)值數(shù)據(jù),

B.reiF則表達(dá)式模塊使Python語(yǔ)擁有部分正則表是式功能。

C.rei正則表達(dá)式站用于處理字符串的強(qiáng)大工其

答案:A

55.(單選)以下關(guān)于Trapper(包裝法)和FiLler(過濾法)的描述不正確的是?

A.)Wrapper方法由于每次對(duì)子集的評(píng)價(jià)都要進(jìn)行分類器的調(diào)練和測(cè)試.所以算法計(jì)經(jīng)狂雜度很高.

B.Trapper方法選出的特征通用性較強(qiáng).當(dāng)改變學(xué)習(xí)算法時(shí).也不得要針對(duì)該學(xué)習(xí)完法乘新進(jìn)行特征選擇.

C.相對(duì)于Filter(過消法),Wrapper方法找到的特征了集分類性能通常更

好。

D,對(duì)「大規(guī)模數(shù)據(jù)集來說,Wrapper律法的執(zhí)行時(shí)間很長(zhǎng)。

答案:B

56.(單選)以下關(guān)于聚類算法的理華確的是?

A.簇內(nèi)的相似性越大.族間的差別越小,聚類的牧果就越好.

B.簇內(nèi)的相似性越大?簇間的差別越小,聚類的效果就越差.

C.簌內(nèi)的相似性越大.族間的差別越大,聚類的效果就越好,

D.簇內(nèi)的相似性越大,族間的差別越大,聚類的效果就越差,

答案:C

57.(單選)以下關(guān)「模型評(píng)估描述不止房的是?

A.在分類何甥中,AUC越小,分類的質(zhì)量越好。

B.在聚類何題中,常用的性能度量參數(shù)包括Silh)nette輪救系數(shù)、蘭德系數(shù)(AdjustedRandindex).

C.在回歸問題中,最常用的性能度量參數(shù)是均方誤差(Mse)、均方根誤差(f?se)、平均絕對(duì)誤差(Mae)),

D.在分類問題中,常見的評(píng)估指標(biāo)包括混清矩陣(ConfusionMatrix)、精確率(Precision)、召回本(Recall)、Fl值((Fl-Measure)、AUC.KOC

由由(ReceiveroperatingCharacteristic),PR曲戲(PrecisionandRecall)

答案:A

58.(單選)以下哪個(gè)措施屈于反爬措施?

A.字體

B.滑塊驗(yàn)證眄

C.數(shù)據(jù)收費(fèi)

D.以上全部正確

答案:D

59.(單選)以卜哪個(gè)選項(xiàng)不屬于直接刪除包含缺失值的元組(或記錄)產(chǎn)生的影響?

A,降低模型準(zhǔn)確性

B,可能會(huì)引入噪音節(jié)點(diǎn)

C.數(shù)據(jù)缺失占比較多時(shí).直接州除可能會(huì)改變?cè)紨?shù)據(jù)的分布情況

D.破壞數(shù)據(jù)的歷史完整性

50.(單選)以下哪項(xiàng)不是KNN算法的三要素?

A.Kfft的選取

B,分類決策規(guī)則

C,距離度量的方式

D.特征的順序

答案:D

51.(單選)以下哪些選項(xiàng)不屬于數(shù)值特征離散化的必要性?

A.數(shù)值高儂化實(shí)際是一個(gè)數(shù)據(jù)簡(jiǎn)化機(jī)制,通過數(shù)也恩故化過程,一個(gè)完整的數(shù)據(jù)埃變成一個(gè)個(gè)按照某種規(guī)則分類的了噪.增強(qiáng)了模型的和定性.

B.離故化數(shù)值在提高建帙速度和提島模型精度上可顯著作用,

C自敢化過程并沒有帶來信息丟失

D.離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的鈴棒性,能減少噪音節(jié)點(diǎn)對(duì)數(shù)據(jù)的影響,

答案,C

32.(單選)在案例"銀行客戶將在畫像”中,數(shù)據(jù)階段可以做的質(zhì)量核杳不包括?

A..數(shù)據(jù)的有效性校驗(yàn)

B..數(shù)據(jù)的可杼換性校吩

c..數(shù)據(jù)的塊失性校的

D.數(shù)據(jù)的連續(xù)性校船

答案:B

53."ab"+"c"*2結(jié)果是

A.ab<2

B.abcabc

C.abcc

D.ababcc

答窠KC

54.ALCRISPDM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)模型中的數(shù)據(jù)準(zhǔn)備環(huán)節(jié)除了包括數(shù)據(jù)選擇,數(shù)據(jù)清潔,數(shù)據(jù)創(chuàng)建,數(shù)據(jù)

合并外,還包含以下哪個(gè)步驟?

A.確定業(yè)務(wù)目標(biāo)

B.選擇隹模技術(shù)

C.數(shù)據(jù)變換

D.模型結(jié)果評(píng)估

答案;C

55.df.tail。這個(gè)函數(shù)是用來

A.用來創(chuàng)建數(shù)據(jù)

B.用來展現(xiàn)數(shù)據(jù)

C.用來分析數(shù)據(jù)

D.用來測(cè)試數(shù)據(jù)

答案;B

66.ElasticSearch進(jìn)行全文檢索?般需要哪幾個(gè)步驟?

A.清洗、分詞、建立素?引

B.清洗、分詞

C.清洗、建立索引

D.清洗.建立索引.分詞

答案:A

57.Flink的窗口,按窗口行為劃分不包含以卜哪種?

A.容量曲口

B,滑動(dòng)窗

C滾動(dòng)窗口

D.會(huì)話窗口

答案:A

58.Flume的高級(jí)組件不包含以下哪個(gè)?

A.SinkProcessor

B.ChannelInterceptor

C.ChannelSelector

D.SourceInterceptor

答案:B

59.Flume中一個(gè)ChannelSelector的作用是什么?

A.設(shè)置多個(gè)channel發(fā)往多個(gè)sink的策略

B.設(shè)置一個(gè)source發(fā)往多個(gè)channel的策略

C.設(shè)國(guó)名個(gè)source發(fā)往多個(gè)channel的第略

D,設(shè)附一個(gè)channel發(fā)往多個(gè)sink的策略由

答案:B

70.GaussDB200支持什么格式的數(shù)據(jù)存儲(chǔ)?

A.行存儲(chǔ)

B.列存他

C.行列混存

D.以上都對(duì)

答案:D

71.Numpy中創(chuàng)建全為0的矩陣使用

A.ones

B.empty

C.2CF03

D.arange

答案:c

72.Numpy中向量轉(zhuǎn)換成矩陣使用

A.reshape

B.reval

C.arange

D.random

答案rA

73.Pandas中的DataFrame的df.iloc[l:3j

A.查詢的是1,2行

B.查詢的是2,3列

C.gf詢的是2,3行

D.住詢的是1,2列

答案;C

74.Python中列表數(shù)據(jù)類型元素的切片非常強(qiáng)大,對(duì)于列表mylist=[l,2,3,4,5,67,8.9],下面操作正確的是

A.mylistd:9:0]

B.mylist[l:9:2]

C.mylist(6:9:2)

D.mylist[10:]

答案:B

75.Rcdis不適用于以卜哪個(gè)應(yīng)用場(chǎng)景?

A.獲取PB級(jí)Value數(shù)據(jù)

B,獲取TORN操作

C.獲取手機(jī)臉證碼

D.獲取最新、個(gè)數(shù)據(jù)的操作

答案:A

76.從數(shù)據(jù)庫(kù)架構(gòu)校計(jì)來看,土要有以下哪些設(shè)計(jì)思路?

A.Shared-Disk

B.Shared-Everying

C.Shared-Nothing

D.以上全正確

答案:D

77.打開文件的不正確寫法為

A.f=open(#test.txt*r*)

B.withopen(*test,txt*,*r')asf

C.f=open。C:\Apps\tesl.ixl''r')

D.f=open(r*C:\Apps\test.txt*r9)

答案KC

78.大數(shù)據(jù)的4M不包含哪一個(gè)?

A.數(shù)據(jù)膿人

B.種類多

C.價(jià)值密度低

D.分布式

E.處理速度快

答案:D

79.大數(shù)據(jù)計(jì)克任務(wù)中,關(guān)于10密集型任務(wù)的描述不正確的是哪一項(xiàng)?

A.10密集型任務(wù)執(zhí)行期間,大部分時(shí)間都花在1(,處里上

B.通過提升網(wǎng)絡(luò)傳輸效率和讀寫效率可大幗度提升性能

C.CPV消能制

D.任務(wù)越多,CPI,效率越高

答案;C

S0.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使相似的數(shù)據(jù)與其他不相似的數(shù)據(jù)相分高?0

A.分類

B.關(guān)聯(lián)分析

C.聚類

D.哈馬爾科夫過科

答案:C

31.關(guān)于GaussDB200的數(shù)據(jù)導(dǎo)入導(dǎo)出下列說法正確的是(?

A.使用gsql元命令和COPY命令在使用和用法I:是一樣的.

B.COS在數(shù)據(jù)導(dǎo)入時(shí)可以做預(yù)處理,比如非法字符替換、容錯(cuò)處理、依據(jù)聚合:?,

C.COPY方式使用簡(jiǎn)通,一般用在大垃數(shù)據(jù)的導(dǎo)入導(dǎo)出中.

D.INSERT數(shù)據(jù)寫入近令數(shù)據(jù)量不大,并發(fā)度不昌的場(chǎng)景.

答案:B

32.關(guān)于GaussDB200的發(fā)展史,下列說法錯(cuò)誤的是(?

A.GaussDB200已經(jīng)在華為云發(fā)布了云化產(chǎn)品.

B.GuussDB200專注國(guó)內(nèi)業(yè)務(wù).不涉及海外.

C.GaussDB200從一開始就支持ARM架構(gòu)的部署.

D.GaussDB200前身閭GaussDB,是GaussDB的子項(xiàng)目.

答案:B

33.關(guān)于GaussDB200的邏輯架構(gòu),卜列說法正確的是

A.DN是實(shí)際數(shù)據(jù)節(jié)點(diǎn),所以只負(fù)費(fèi)存儲(chǔ)數(shù)據(jù)。

B.C\是物調(diào)節(jié)點(diǎn),例助CM管理整個(gè)集群。

C.CM是集群的管理梗塊,那么負(fù)責(zé)集群的日常管理和運(yùn)維,

D.GTM是全局事務(wù)控制器,負(fù)責(zé)生成和維護(hù)全局用務(wù)ID等全局唯一侑息.

答案:D

M.關(guān)于各種分類算法的特點(diǎn),以下說法正確的是?

A.給定n個(gè)數(shù)據(jù)點(diǎn),如果其中?半用于訓(xùn)練,?車用戶測(cè)試,則訓(xùn)練誤差和測(cè)試誤差之間的差別會(huì)隨潦n的增加而M少

B.bazging改進(jìn)了預(yù)測(cè)腐確率,但損失了解新性

C,在adaboosi算法中,所有被分錯(cuò)樣本的權(quán)重更新比例相同

答案:B

35.機(jī)器學(xué)習(xí)中做特征選擇時(shí),以下哪種技術(shù)屬于Filler(過渡法)

A方差選擇法

B.互伯息法

C.卡方檢驗(yàn)

D.相關(guān)系數(shù)法

E,以上全都正確

答案:E

36.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇下列哪個(gè)工具實(shí)現(xiàn)該功能?

A.Lucent?

B.Illiase

C.ElasticSearch

D.GraphBase

答案:D

S7.決策樹中不包含以下哪種節(jié)點(diǎn)?。

A.內(nèi)部節(jié)點(diǎn)(internalnode)

B.外部,點(diǎn)(externalnode

C.根節(jié)點(diǎn)(rootnode)

D.葉節(jié)點(diǎn)

答案:B

38.離線批處理方案的應(yīng)用場(chǎng)景不包括?

A,占用計(jì)算存儲(chǔ)資源多

B.快速高效,實(shí)時(shí)的數(shù)據(jù)處理

C.數(shù)據(jù)處理格式多樣

D.處理大配模數(shù)據(jù)

冬案:B

39.某開發(fā)小組計(jì)劃利用GraphBase實(shí)現(xiàn)一些功能,以下哪些功能可以實(shí)現(xiàn)?

A.物流最優(yōu)跖徑規(guī)劃

B.社交分析

C.金融反欺詐

D.以卜.全都正確

答案:D

30.企業(yè)數(shù)據(jù)分析平臺(tái)在根據(jù)不同的業(yè)務(wù)場(chǎng)景需求,搭建不同的大數(shù)據(jù)分析平臺(tái),如適應(yīng)離線批處理的IkHkMjp平臺(tái),

適應(yīng)實(shí)時(shí)處理的流計(jì)算等,這種架構(gòu)屬子哪種類型的架構(gòu)?

A.融合架構(gòu)

B.分離架構(gòu)

C.單一架構(gòu)

D.多維架構(gòu)

答案;A

31.設(shè)x、Y是兩個(gè)隨機(jī)變量,C是常數(shù),以下關(guān)于數(shù)學(xué)期望的性質(zhì)描述正確的是?

A.E(X*Y)=E(X>+(Y)

B.E(CX)=CE(X>

C.E(C)=€

答案:A

32.設(shè)XY是兩個(gè)隨機(jī)變貸,C是常數(shù),以下關(guān)于方差的性質(zhì)描述錯(cuò)誤的是?0

A.D(C)=0

B.D(0}=0的充要條件是X以軟率取常數(shù)E(X3即P{X=E(X?=1

C.D(X+Y)=D(X)+D(Y)

D.D(CX)=CD(X)

答案:D

33.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時(shí)間,我們可以0

A.M少樹的數(shù)量

B.增加樹的深度

C,減少樹的深度

D.增加學(xué)習(xí)率(learningrate)

答案:C

94.下列關(guān)于存儲(chǔ)過程的特點(diǎn)說法正確的是0

A.編寫的SQL存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此執(zhí)行速度快.

B.創(chuàng)建時(shí)編譯,執(zhí)行時(shí)調(diào)用,因此開發(fā)效率高。

C.用戶創(chuàng)隹的存儲(chǔ)過程或自定義函數(shù)可以,Rli調(diào)用,因此數(shù)據(jù)傳輸做少。

D.通過指定存儲(chǔ)過程的訪問權(quán)限,因此安全系數(shù)高。

答案:D

35.下面這條GaussDB200語(yǔ)句"calldbmsjob.interval(1,'sysdate+1.0/24');"的意思是

A.修改Jobl的Interva為每》j24小時(shí)執(zhí)行一次.

B.修改Jobl的Interval為待隔1小時(shí)執(zhí)行一次.

C.修改Jobl的Interval為每隔1/24小時(shí)執(zhí)行次,

D.修改Jobl的Interval為保扁24分鐘執(zhí)行一次.

答案:B

36.協(xié)同過濾推薦莫法,是最經(jīng)典,展常用的推薦算法。要實(shí)現(xiàn)協(xié)同過泄,以下哪個(gè)步驟不需要?

A,計(jì)算推薦

B.找到楣似的用戶和物品

C收集用戶偏好

D.收娛用戶來淅

答案:D

".一般情況下,若要提高ElasticScarch檢索效率,可以采取什么操作?

A.調(diào)整索引分片數(shù)

B,使用Hive做底層存儲(chǔ)

C.壓縮素引

D.正價(jià)EsMaster節(jié)點(diǎn)

冬案:A

28.以下關(guān)于DataNode的描述不正確的走?

A..DataNode管理數(shù)據(jù)塊元數(shù)據(jù)

B..DataNode執(zhí)行數(shù)據(jù)塊的讀/寫操作.

C.DuluMde的數(shù)量受數(shù)據(jù)規(guī)模影響.

D..DataNode是用來存儲(chǔ)數(shù)據(jù)庫(kù).

答案:B

39.以下關(guān)于Python函數(shù)的描述中,錯(cuò)諛的是

A,函數(shù)是一段"JtR用的語(yǔ)句組

B,每次使用函數(shù)需要提供相同的參數(shù)作為輸入

C..函數(shù)通過函數(shù)Z進(jìn)行調(diào)用

D..函數(shù)是一段具有特定功能的譜句組

答案:B

100.以下關(guān)于Python全局變量和局部變量的描述中,錯(cuò)誤的是

A.局部變量在函數(shù)內(nèi)部創(chuàng)建和使用,函數(shù)退出精變量被鋒放

B,全局變量一般指定義在函數(shù)之外的變疑

C.使用global保用字聲明后,變地可以作為全局變量使用

D.當(dāng)函數(shù)退出時(shí),局部變量依然存在,下次南物調(diào)用可以維續(xù)使用

隹案:D

101.以下關(guān)于SparkMLlib中決策樹模型超參數(shù)描述不正確的是?()

A.impurity:用于在候選分割之間進(jìn)行選擇的雜財(cái)度星

B-subsamplingRater用于學(xué)習(xí)決策樹的訓(xùn)練數(shù)據(jù)的分?jǐn)?shù),但對(duì)于訓(xùn)絳決策樹,該參數(shù)不太有用

CmaxBins:樹的ftt大深女。

D.maxMemoryInMB用于收集足弱統(tǒng)計(jì)信息的內(nèi)存

答案:C

102.以下關(guān)于SparkNLlib中K-Means優(yōu)化參數(shù)描述不正確的是?(0

A..initializationMode指定隨機(jī)初始化.

B.Runs:運(yùn)行Kmeans算法的次數(shù).

C.maxiterations:要運(yùn)行的被大迭代次數(shù).

D.Epsilon:確定K-Means收斂的距離閱值

答案:A

103.以下關(guān)于Spark的說法不正確的是?0

A.可以擴(kuò)展MapReduce計(jì)算模型,高效支持多種計(jì)算模式,包括交互式兗詢和流處理.

B.擅長(zhǎng)處理大規(guī)模數(shù)據(jù)集.速度快。

C.Spark貼實(shí)現(xiàn)快速而通用的集群計(jì)。的平臺(tái).

D.Spark的shuffle過程必須要寫破盤.

答案;D

104.以下關(guān)于數(shù)據(jù)分析與數(shù)據(jù)挖掘的描述錯(cuò)誤的是?()

A,數(shù)據(jù)分析更例小丁?統(tǒng)計(jì)學(xué)上面的一些方法,姓過人的推理演評(píng)得到結(jié)論。數(shù)據(jù)挖掘更側(cè)成于他日由機(jī)器進(jìn)行自學(xué)習(xí),直換得到結(jié)論.

B.數(shù)據(jù)挖搦是從大盤的數(shù)據(jù)中,挖掘出未知的、月有價(jià)值的信息和知識(shí)的過程,重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)“知識(shí)規(guī)則”

C.數(shù)據(jù)分析和數(shù)據(jù)挖掘的界限是非常清晰的.

0.數(shù)據(jù)分析會(huì)用到成熟的分析工具,比如EXCEL.S^SS.SAS等,數(shù)據(jù)拘把則需空有編程基的

密案:C

105.?以卜關(guān)王特征縮放的外理方法,最小值一最大值歸?化和標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)署描述錯(cuò)誤的是?

A.在實(shí)際應(yīng)用中,特征縮放的標(biāo)準(zhǔn)化悚作更常用

B,標(biāo)準(zhǔn)化方法在分、聚類算法中需要使用PCA技術(shù)進(jìn)行降維

C.最小值一報(bào)人值歸一化的數(shù)據(jù)不符合正態(tài)分布,

D.最小值最大值歸?化和標(biāo)準(zhǔn)化都需要使用即高來度量相似性.

隹案:D

106.銀行進(jìn)行客戶購(gòu)買力分析,首先獲取客戶歷史賬單,確定其中各項(xiàng)商品的計(jì)算權(quán)重,得出每位客戶的購(gòu)買力評(píng)分

并存儲(chǔ)記錄。最后將結(jié)圖表顯示,請(qǐng)的該討程對(duì)應(yīng)于以下哪個(gè)項(xiàng)目數(shù)據(jù)流程設(shè)計(jì)。

A.數(shù)據(jù)源->數(shù)據(jù)處理->數(shù)據(jù)落地->數(shù)據(jù)可視化

B.數(shù)據(jù)可視化-〉數(shù)據(jù)海->數(shù)據(jù)落地-〉數(shù)據(jù)處理

C.數(shù)據(jù)可視化-〉數(shù)據(jù)源->數(shù)據(jù)處理-〉數(shù)據(jù)落地

D.數(shù)據(jù)源-〉數(shù)據(jù)落地->數(shù)據(jù)處理-〉數(shù)據(jù)可視化

答案:A

107.在DGC平臺(tái)架構(gòu)下提供提供企業(yè)級(jí)的元數(shù)據(jù)管理。數(shù)據(jù)資產(chǎn)管理可視支持估取、溯源等。通過數(shù)據(jù)地圖,實(shí)現(xiàn)數(shù)

據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視,提供數(shù)據(jù)利能搜索和運(yùn)營(yíng)監(jiān)控的模塊是哪個(gè)?

A.數(shù)據(jù)開發(fā)

B.數(shù)據(jù)資產(chǎn)管理

C.短池設(shè)計(jì)

D.數(shù)據(jù)集成

答本:B

108.在華為MLS中,“線性回歸”節(jié)點(diǎn)的參數(shù)設(shè)置描述錯(cuò)誤的是?0

A.增大迭代次數(shù),模型訓(xùn)練的以大送代次數(shù).

B,正則化函數(shù).正則化方法,可選參數(shù)僅包括Aut。、None,LkL2

C.正則化參數(shù):用于調(diào)節(jié)正則化項(xiàng)的權(quán)重

D.彈性網(wǎng)絡(luò)參數(shù),L1和1.2正則化的分配權(quán)重

答案:B

109.在“提升信用卡安全案例”中,其商業(yè)理解的階段可以選擇建立各類信用評(píng)分模型,其中不包括哪個(gè)類型?0

A.行為信用評(píng)分卡

B.模式信用評(píng)分卡

C.申請(qǐng)信用卡評(píng)分K

D.催收信用評(píng)分卡

隹案:B

llO.DUGP(UniliedDataGovernancePlatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺(tái),為運(yùn)營(yíng)商提供全面高效的數(shù)據(jù)資產(chǎn)管控

環(huán)境,實(shí)現(xiàn)了數(shù)據(jù)集中,統(tǒng)一和其享,包括統(tǒng)的數(shù)據(jù)采集和整合,統(tǒng)一的安全、標(biāo)準(zhǔn)、生命周期和質(zhì)量管理.以及多維

變數(shù)提云圖功能。提供開箱即用的可以實(shí)現(xiàn)全生命周期的主數(shù)據(jù)管理.包括主數(shù)據(jù)的集中存儲(chǔ)、0、主數(shù)據(jù)清洗、主數(shù)

據(jù)監(jiān)管和主數(shù)據(jù)的共享滿足集團(tuán)對(duì)于企業(yè)級(jí)別主數(shù)據(jù)的管埋平臺(tái)的要求。0

A.主數(shù)據(jù)合并

B.主數(shù)據(jù)關(guān)聯(lián)

C主數(shù)據(jù)標(biāo)記

D,主數(shù)據(jù)遷移

答案:A

111,下列代碼的作用是?Stxingvertexld=

GetVertex1dByProperty(api,graphName,“person","name","mark。");api.queryVertex(vertexId,graphName);

A.查詢點(diǎn)

B.查詢屬性

C.杳詢邊

D.以上全不正確

答案:B

”2.癌癥檢杏數(shù)據(jù)樣本有1000個(gè),其中10個(gè)數(shù)據(jù)樣本是有癌癥,其它是無痛癥。假設(shè)分類模型在無疫癥數(shù)據(jù)9990

中預(yù)測(cè)正確了9980個(gè),在10個(gè)癌癥數(shù)據(jù)中預(yù)測(cè)正確了9個(gè),此時(shí)真陽(yáng)=9,真陰=9980,假陽(yáng)=10,假陰=1.則該預(yù)測(cè)

饃型的召回率為多少?

A.m

B.76.27%

C.47.36%

D.99.89%

答案:A

113.Oracle?數(shù)據(jù)治理產(chǎn)品包括0raclcDatabascl2c、0、Oracle大數(shù)據(jù)SOL、和大數(shù)據(jù)連接器開始入手。

A,oracle大數(shù)據(jù)共享系統(tǒng)

B.Oracle大數(shù)據(jù)清洗系統(tǒng)

C.Oracle大數(shù)據(jù)存儲(chǔ)系統(tǒng)

D.Oracle大數(shù)據(jù)管理系統(tǒng)

答案:D

114.在其它條件不變的前提下,以下哪一方法容易引起模型的過擬合問題?

A.增加訓(xùn)練集數(shù)吊

B.減少神姓網(wǎng)絡(luò)的藏層節(jié)點(diǎn)數(shù)

。刪除稀疏的特征

D.SYM算法中使用高斯核/RBF核樣代

答案:A

115.以下關(guān)于Pylhon函數(shù)的描述中,錯(cuò)誤的是

A.函數(shù)是一段可兔:用的譜句組

B.每次使用函數(shù)需要提供相同的參數(shù)作為輸入

C函數(shù)通過函數(shù)名進(jìn)行調(diào)用

D.函數(shù)是一段具有特定功能的語(yǔ)句緞

答案:B

116.以下哪個(gè)選項(xiàng)不屬于數(shù)據(jù)清洗的范疇?

A?跳失值處理

B.不均衡數(shù)據(jù)處理

C,異常值處理

D.數(shù)據(jù)加載處理

答案:D

117.以下哪一個(gè)架構(gòu)是數(shù)據(jù)全程以流的形式處理,適用于偵警、監(jiān)控,對(duì)數(shù)據(jù)有實(shí)時(shí)處理要求的?

A.大數(shù)據(jù)流式架構(gòu)

B.大數(shù)據(jù)Kappa架構(gòu)

C.大數(shù)據(jù)統(tǒng)?架構(gòu)

D.大數(shù)據(jù)菸礎(chǔ)架構(gòu)

答窠:A

118.屬丁?聚類問題常用的評(píng)估方法是哪一項(xiàng)?

A.均方誤差

B.Silhonette輪席系數(shù)

C.F-score

D.ROC曲稅

否案;B

119.可以通過以下哪個(gè)命令創(chuàng)建節(jié)點(diǎn)數(shù)據(jù)?

A.Is/nodc

B.get./node

C.set/nodedata

D.create/node

答案:I)

120.請(qǐng)問以卜關(guān)于ID3算法中說法錯(cuò)誤的是哪一項(xiàng)?

A.選取信息增益公大的特征,作為樹的根節(jié)點(diǎn)

B.節(jié)點(diǎn)分裂依據(jù)為信息墻益

C,以信息增益度貴屬性選擇,選擇分裂后信息增荏最小的屬性進(jìn)行分裂

D.以法是建立在奧卡姆剃刀的基礎(chǔ)I:

答案:C

121.請(qǐng)問在Pandas中,DataFrame刈象可以使用以下哪個(gè)力法直看的n條數(shù)據(jù)?

A.read

B.tail

C.describe

D.head

答案:D

122.在DGC平臺(tái)架構(gòu)下提供企業(yè)級(jí)的元數(shù)據(jù)管理。數(shù)據(jù)資產(chǎn)管理可視支持鉆取、溯源等。通過數(shù)據(jù)地圖實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)

的數(shù)據(jù)血緣和數(shù)據(jù)全景可視提供數(shù)據(jù)智能搜索和運(yùn)營(yíng)監(jiān)控的模塊是哪個(gè)?

A.數(shù)據(jù)開發(fā)

B.數(shù)據(jù)交產(chǎn)管理

C規(guī)范設(shè)計(jì)

D.數(shù)據(jù)集成

答案:B

123.以下關(guān)于SparkMLlib中k-Means優(yōu)化參數(shù)描述不正確的是?

A.initinlizationXode指定的機(jī)初始化.

B.runs:運(yùn)行Kacans算法的次數(shù).

C.maxHeraticns:要運(yùn)行的最大迭代次數(shù).

D.Epsilon:確定k-Means收斂的距離閾(ft,

答案;A

124.通過聚類的簇是否緊密相連來判斷樣本點(diǎn)是否屈f?一個(gè)簌的聚類算法是以二哪一項(xiàng)?

A.層次聚類

B.原型聚類

C.原點(diǎn)聚類

D.密度聚類

答案:I)

125.以卜關(guān)于離散特征編碼的表述錯(cuò)誤的是哪一項(xiàng)?單

A.禹放特征的取俏之間沒有大小的意義,使用on『hol編碼,

B,因?yàn)闄C(jī)器學(xué)習(xí)算法接收的足數(shù)字型變量.所以需要對(duì)屬性進(jìn)行編碼.

C.離散特征的取值有大小的直義,直接使用映射,

D.恐要方法pundua.xvldummic?()的作用等同于onchot涮碼的效果,只需要設(shè)置其參數(shù)dropfir?t_Truv

答案:D

126.請(qǐng)問對(duì)FCRISP-DM模型基本步驟的描述以下哪項(xiàng)是正確的?

A.1商業(yè)理解2數(shù)據(jù)理解3數(shù)據(jù)準(zhǔn)備4建立模型5模型評(píng)估6模型實(shí)施

B.1數(shù)據(jù)理解2商業(yè)理解3數(shù)據(jù)準(zhǔn)備4建立模型:模M評(píng)估6模型實(shí)施

C.I數(shù)掘理解2商業(yè)理解3數(shù)據(jù)準(zhǔn)備,I建立模型5模型實(shí)族6模型評(píng)估

D.I商業(yè)理解2數(shù)據(jù)理解3數(shù)據(jù)準(zhǔn)備.I建立模型5模型實(shí)族6模型評(píng)估

答案:A

127.我們可以使用Python中scikit-learn庫(kù)的()函數(shù),來對(duì)樣本集進(jìn)行featureselection(特征選擇)和

dimensionalityReduction(降維)?

A.sklearn,neighbors

B.sklearn.featureselection

C.sklearn.1inearmodel

D.skiearn,cluster

答案:B

128.以卜關(guān)于SparkMLlib中降維算法的相關(guān)描述,表述錯(cuò)誤的是哪一-項(xiàng)?

A.奇異值分解(SVD)通常不需要完全因式分解,只需要頂部奇異位及其相關(guān)的奇異向量,這可以節(jié)省存的,降噪并恢發(fā)矩陣的低秩結(jié)囪。

B.spark?1ib為RowMaIrix類的降維提供支持。

C.奇異值分耨(SYD)將矩陣分解為三個(gè)矩陣,分別是左奇異矩陣.對(duì)角矩陣和一個(gè)右奇異上三角豐正交矩陣.

D.PCA通常用于高維數(shù)據(jù)集的探索與可視化還可以用于數(shù)據(jù)壓絡(luò).

答案:C

129.以下關(guān)于K-折交叉驗(yàn)證法描述錯(cuò)誤的是?

A.K折交叉驗(yàn)證取K:k處常用的取的是10,此時(shí)稱為10折交叉驗(yàn)證。其他常用的Kfft還有5、20等。

B.交叉裟證的思想是,姆次用k個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測(cè)試集,這樣就有K種訓(xùn)練集/測(cè)試集劃分的情況,從而可進(jìn)

行K次訓(xùn)練和測(cè)試,最終返回k次測(cè)試結(jié)果的均假。

C.如果訓(xùn)練票相對(duì)較小,則如果K值.

D.如果訓(xùn)練集相對(duì)較大.則減小K值.

答案,B

130.請(qǐng)問主成分分析PCA對(duì)數(shù)據(jù)進(jìn)行中心化后,使得每一維度上的均值是多少?

B.0

C.1

D,以上都不正確

答案:B

131.訪間最小值最大值歸一化的結(jié)果不會(huì)受到以下哪種數(shù)據(jù)點(diǎn)影響?

離群

點(diǎn)

點(diǎn)

A.值

B.升

C點(diǎn)

點(diǎn)

D.均

案D

132.關(guān)于SparkMLlib中SVD算法的使用說法錯(cuò)誤的是?

A.必須先通過已有數(shù)據(jù)創(chuàng)建出相應(yīng)矩即類型的對(duì)歌.然后調(diào)用該類的成員方法來進(jìn)行SVD分解.

B.如果需要獲得U成員,可以在進(jìn)行SYD分解時(shí).指定computeU參數(shù).令其等于False即可在分解后的svd對(duì)象中拿到U成員.

C.SparkMLlib中SVD方法位于org.apache,spark,mllib.Linalg包卜,的KowMatrix和IndexedRovUatrix類中

D.將數(shù)班轉(zhuǎn)換成RowMatrix后,可調(diào)用RowMatrix自帶的compuleSVD方法計(jì)算分解結(jié)果,

答案:B

133.我們可以使用Python中skiearn庫(kù)的0函數(shù),來解決無序分類變量的離散化問題?

A.cut。兩數(shù)

B.map()FfiiS

C.OnellotEncoderO函數(shù)

D.KMeansO函數(shù)

答案:C

134.設(shè)XY是兩個(gè)隨機(jī)變量,C是常數(shù),以卜.關(guān)于方差的性質(zhì)描述錯(cuò)誤的是?

A.D(C)=O

B.D(0>=0的充要條件如X以概率1取常數(shù)E00,即P(X=E(X))=I

C.DOX^'=D*DO

D.D<CX-€2D

冬案;C

135.以下關(guān)于SparkMLlib中集成算法的相關(guān)描述表述錯(cuò)誤的是哪一項(xiàng)?

A.,va1boostingStrategy=BoostingStrategy.defaultParams

(Classification*)boostingStrategy.numiterations

ASlxiostingStrategy.treeStrategy.numc1asses=2boostingStratfigy.treeStrategy.maxl)epth=5valiiodel=GradientBoostedlrees.train(trai

nng%ta,poostingStrategy)衣示訓(xùn)練悌度提升分類樹模型設(shè)置類別數(shù)緬度為2,樹的最大深度為5,

B..SparkMLlib包含兩種算法RandomForesi和GradieniBoosiEDecisionlree&BDT),二者都是用決策樹算法作為她學(xué)習(xí)器。

C..valnodcI=RandonForcst.trainRcKressor(trfeiningData,catCRoricalFcaturcsInfo,numlrecs=2,"auto",'variance*,naxDepth=4,32)該語(yǔ)

句梟用隨機(jī)森林算法進(jìn)行分類模型訓(xùn)練并且指定屬性選擇的方式為基尼系數(shù)度矍,

D..valBodel=newLogisticRegressionWithl^FGS0.setlumClassesUO).run(training)表示創(chuàng)建邏輯回打l.BFGS的模型進(jìn)行分類問膽的求解.

同時(shí)采用訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè).樣本類別數(shù)是10.

答案:C

136.請(qǐng)問在Python中以F哪項(xiàng)描述是正確的?

A,定義一個(gè)空集合的命令為:x=R?

B.t=(42,)4111=(42)都可以用于定義tuple.

C.aninuils.removelfish')可以把a(bǔ)nimals這個(gè)丸表中所有,fish,元素都刮除。

D.unimals.inserl(l.fish)是往animals:這個(gè)列衣中索引為1.也就是第二個(gè)位置添加fish'元點(diǎn).

答案:D

137.請(qǐng)問以下關(guān)于隨機(jī)森林說法錯(cuò)誤的是哪一項(xiàng)?

A.劫機(jī)森林是bagging框架下的方法.

B.子學(xué)習(xí)器一般是單顆決策樹。

C隨機(jī)森林引入一次隨機(jī)性。

D.隨機(jī)森林支持并行操作。

答案:C

138.Flume中一個(gè)ChannelSeleclorl的作用是什么?

A.設(shè)過多個(gè)channel發(fā)往多個(gè)sink的策略

B.設(shè)置一個(gè)source發(fā)往算個(gè)channell的旅略

C.設(shè)置笫個(gè)source.發(fā)往多個(gè)channell的策珞

D.設(shè)置一個(gè)channel發(fā)往多個(gè)sink的策略

答案:B

139.以下選項(xiàng)中屈于需要模型通過訓(xùn)練荻得的參數(shù)是哪些?

A.隨機(jī)森林中的樹的個(gè)數(shù).

B.神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)速率.

C.線性網(wǎng)歸或邏輯網(wǎng)歸中的系數(shù).

D..SYM算法中的核函數(shù).

答案;C

140.以下對(duì)聚類算法KMeans的缺點(diǎn)描述正確的是哪些項(xiàng)?

A.該算法對(duì)噪音和異常點(diǎn)比較的敏感.

B.如果各隱含類別的數(shù)據(jù)不平衡,比如各圖含類別的數(shù)據(jù)量嚴(yán)重失衡,或者各隱含類別的方差不同.則聚類效果不佳.

C.聚類結(jié)果可能具有一定的隨機(jī)性.

D.慎足超參數(shù),它的選取不好把握.

答案:D

141.請(qǐng)問在Python中以卜哪個(gè)選項(xiàng)正確?

A..Python中的類對(duì)象無法實(shí)現(xiàn)多成堆承,

B..Python面向?qū)︻}編程的封裝性只體現(xiàn)在不允許私有化變量被訪間,

C.變量是對(duì)象,但函數(shù)不是對(duì)象,

D..Python的多態(tài)性表現(xiàn)在「類可以置盅父類的屬性或方法.

答案:D

142.以下關(guān)于KMeans對(duì)比K-Mediods的描述,表述錯(cuò)誤的是哪一項(xiàng)?

A..K-Mediods質(zhì)心可能是計(jì)算產(chǎn)生的,不屬于數(shù)甥集中的點(diǎn).

B..如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用K-Mediods替代K-Means.

C..K-Mcdiods比K-Mcans效果更秘定。

D..K-Mediods律法對(duì)比K-Means算法.質(zhì)心的計(jì)尊更雜度更高。

答案:A

143.請(qǐng)問以下關(guān)于特征選擇方法的一些表述,不正確的是哪一項(xiàng)?

A,,f:?方值描述了自變量與因變量之間的相大程段,£?方位越小,相關(guān)程度也越大,所以很自然的可以刊用f:?方值來做特征選杼,保留相關(guān)程

度大的變量,

B..遞歸消除特征法使用一個(gè)基模型來進(jìn)行多輪訓(xùn)煉,每輪訓(xùn)練后,移除若干權(quán)值系數(shù)的特征,目基于新的特征集進(jìn)行下一輪訓(xùn)練。它解決思

路沒有過謔法直接,它是在確認(rèn)后埃的算法模型后,把模型本身的性能作為評(píng)價(jià)準(zhǔn)則:選擇一個(gè)目標(biāo)函數(shù)來一步步的篩選特征.

C.基于樹的嵌入方法能夠用來計(jì)算特征的更要程度?因此能用來去就小機(jī)關(guān)的特征.

D..保留大的方差的實(shí)際意義,就是該列特征的始據(jù)分散情況比較大,對(duì)結(jié)果的劃分的影響力度就大,反過來,如果方差很小,比如?列數(shù)據(jù)

侑值全部?樣,方差為。,確實(shí)對(duì)結(jié)果的分類來說意義不大,有沒有這列特征都不能影響分類目市產(chǎn)生不同的姑果,這個(gè)也是方差選擇法的原

理。

答案:A

144.若要修改HBase表,下列API哪個(gè)最先被調(diào)用?

A..createConnectionO

B..getTableO

C..getConnectO

D..getAd?in()

答案:A

145.以下關(guān)于特征縮放的處理方法,最小值-最大值歸一化和標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)景描述錯(cuò)誤的是?

A..在實(shí)際應(yīng)用中,特征縮放的標(biāo)準(zhǔn)化操作更常用.

B..標(biāo)準(zhǔn)化方法在分、求類算法中需要使用PCA技術(shù)進(jìn)行降維

C..最小位-以大值婦-化的數(shù)據(jù)不符合正態(tài)分布.

D..最小伯最大(ft歸一化和標(biāo)準(zhǔn)化都需要使用距出來度小相似性.

答案:D

146.以下哪個(gè)選項(xiàng)不是連續(xù)變量的數(shù)值特征離散化方法?

A..OneR

B..獨(dú)熱編碼

C.分箱

D..基于信息燒的方法

答案:B

147.以下關(guān)于大數(shù)據(jù)Lambda架構(gòu)描述不正確的是哪一選項(xiàng)?

A..Lambda架構(gòu)是大數(shù)據(jù)系統(tǒng)里面舉足輕田的架構(gòu),大多數(shù)架構(gòu)戰(zhàn)本都是Lambda架構(gòu)或者提于其變種的架構(gòu)。

B..Lambda架構(gòu)很好的流頤了實(shí)時(shí)處理和陽(yáng)線處理,幾乎覆蔽了大多數(shù)的數(shù)據(jù)分析對(duì)需求處理,W以很好地滿足同時(shí)存在實(shí)時(shí)和底戰(zhàn)需求的場(chǎng)

C.lumbdH架構(gòu)將數(shù)據(jù)通道分為兩個(gè)分支:實(shí)時(shí)沆和離線,實(shí)時(shí)流類似流式架構(gòu).保障了其實(shí)時(shí)4.而離線則以批處理方式為主.保障了最終

一致性.

D..Lambda架構(gòu)的映點(diǎn):離線層與實(shí)時(shí)流內(nèi)部處理的邏輯是不相同的,因此有大量冗余和重復(fù)的芟塊存在.

答案:D

148.現(xiàn)實(shí)中大數(shù)據(jù)挖掘任務(wù)往往特征屬性過多,而個(gè)普遍存在的事實(shí)是,大數(shù)據(jù)集帶來的關(guān)鍵信息只聚集在部分甚

至少數(shù)特征上,因此我們需要進(jìn)行以下哪種操作?

A..特征標(biāo)準(zhǔn)化

B..特征選擇

C..特征歸一化

D..特征清洗

答案;B

149.請(qǐng)問在機(jī)器學(xué)習(xí)中,我們通常將原始數(shù)據(jù)按照比例分割為“測(cè)試集”和“訓(xùn)練集”,從

Sklearn.modelselection中調(diào)用traintestsplit函數(shù),以卜哪項(xiàng)對(duì)該函數(shù)的描述不正確?

A..參數(shù)random_state:是隨機(jī)數(shù)的種子.使用不同的附機(jī)數(shù)也可以保證每次拆分的數(shù)據(jù)集?致.

B..對(duì)數(shù)據(jù)%進(jìn)行切分:訓(xùn)練集和測(cè)試集的語(yǔ)句可以是:Xtrain.X_test,y_train,y_test=train_test_split<X,y,test_size=O.3)

C.該函數(shù)的一般寫法是:traintestsplit(traindata,traintarget.lestsize=0-1,raulomstate=O.stratify=ytrain).其中

test_size參數(shù)表示樣本占比。

D..導(dǎo)入該函數(shù)所在模塊的譜句是:fromsk1earn.mode1selectionittporttrain_test_spliI

答案:C

150.請(qǐng)問以下哪些算法最適合配合線性判別分析LDA使用?

A..聚類匏法

B..非戰(zhàn)性回歸算法

C..多元線性回歸算法

D..一元線性回歸算法

答窠:B

151,以下不屬于大數(shù)據(jù)治理的目的的是哪一項(xiàng)?

A,.保障企業(yè)或組織用■以明確定位到共楨心數(shù)據(jù)伍總,加客戶、供應(yīng)商、產(chǎn)品等信息格逑。

B..梢助企業(yè)等組織建立其現(xiàn)有數(shù)據(jù)的清單,就修建立物理資產(chǎn)的清單一樣。

C..兼顧開放性,如多分析引擎統(tǒng)一管理,滿足多樣化的數(shù)據(jù)分析場(chǎng)景和物掘能力。

[).?防御其財(cái)務(wù)、企業(yè)資源規(guī)劃和人力資源應(yīng)用杵序中的關(guān)雄業(yè)務(wù)數(shù)據(jù)受到未授權(quán)更改.

答案:C

152.以下關(guān)于SparkMLlib中協(xié)同過濾算法參數(shù)描述不正確的是哪一項(xiàng)?

A..Iterations:模型中潛在因子的數(shù)量。

B..nunBlocks:用于并行計(jì)算的塊數(shù),如設(shè)置為T則為自動(dòng)配行。

C..Lambda:ALS

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論