版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
[單選題]
1.以下關(guān)于Python中函數(shù)定義的描述不正確的是哪一項(xiàng)?
A.函數(shù)內(nèi)容以目號(hào)起始.并且縮進(jìn).
B.在python中只能用關(guān)鍵字def創(chuàng)建函數(shù).
C.Return用于返回?個(gè)函數(shù)執(zhí)行的結(jié)果,
D,用del聲明函數(shù),后面跟函數(shù)名和小括號(hào),括號(hào)內(nèi)可以放置所需參數(shù),
答案:B
2.HDFS的副本放置策略中,同一機(jī)架不同服務(wù)器之間的距離是?
B.2
C.3
D.4
冬案,B
3.在數(shù)據(jù)抽取、轉(zhuǎn)換和加載過程中,以下哪種不是數(shù)據(jù)抽取的方式?
A,全量抽取
B.更新抽取
「不:抽取
D.倒置抽取
普案:I)
4.?股而言,若數(shù)據(jù)類別比例超過。,即認(rèn)為數(shù)據(jù)集中存在不均衡數(shù)據(jù)的現(xiàn)象.
A.3
B.4
C.2
答案:B
5.以下哪個(gè)選項(xiàng)是異常值處理的方法?
A.刪除界常值
B,將異常fff視為缺失依,按照缺失ff(處理方法來處理異常ff(
C估算異常值
D.以上全都正確
答案:D
5.以下關(guān)于有監(jiān)督連續(xù)變量的離散化分析錯(cuò)誤的是哪一項(xiàng)?
A.IR方法貼分箱法的有監(jiān)帑版本,每個(gè)區(qū)間至少包含6個(gè)變戢(最后一個(gè)區(qū)間除外)
B.基于卡方檢監(jiān)的方法,運(yùn)用卡方檢黑的策略,自頂向下合并數(shù)值進(jìn)行有監(jiān)督/故化,核心掾作是Herge.
C有監(jiān)督的連續(xù)變收的離放化相對(duì)T無監(jiān)督的方法來說,可以戲少在離放化的過程中異常值的影響,
D,蔚丁信息蟒的方法運(yùn)用了決算樹的理念進(jìn)行變最離散化,是一種白頂向卜的分裂技術(shù),
答案:B
7.以下關(guān)于特征選擇方法中哪個(gè)不屬于特征減少的方法?
A.wrapper伸力
B.Filtei?(過法)
C.Embedded()
D.交叉驍證方法
答案:D
3.下列哪個(gè)不屬于常用的文本分類的特征選擇算法?
A.主成分分析
B.信息增益
C.互侑息法
D.卡方檢驗(yàn)
答案:A
J.以卜哪種方法不屬于Embedded(嵌入法)?
A.特征獷增
B,基于1.1的正則化方法
C,平均不純煽減少0kMDtfuxuobvImpuiily)
D.平均精度下降(MeanDecreaseAccuracy)
笆案,A
10.以下哪些方法不可以用來做分類?
A.卜Means
B.支持向量機(jī)
C.KNN
D.決策樹
答案:A
11.決策樹是一種樹形結(jié)構(gòu),其中每個(gè)內(nèi)部節(jié)點(diǎn)表示一個(gè)。上的測(cè)試,每個(gè)分支代表?個(gè)測(cè)試0,每個(gè)葉節(jié)點(diǎn)代表一
種0
A.類別、輸出、屬性
B.屬性、輸出、類別
C.輸出、類別、屬性
D.展性、類別、輸出
答案:B
12.以下哪一項(xiàng)不是KN算法的三要素?
A.距離度址的方式
B.特征的順序
C.分類決策規(guī)則
D.K值的選取
答案:B
13.樸素貝葉斯分類方法(NaiveBayes)是一種特殊的Bayes分類器,特征變量是x,類別標(biāo)簽是c,它的一個(gè)假定是
下列選項(xiàng)中的腿一項(xiàng)?
A.特征變破X的各個(gè)屈性之間互相獨(dú)立
B.以。為均值,sqr(2)/2為標(biāo)準(zhǔn)差的正態(tài)分布
C.p(xc)是向斯分布
D,各類別的先概率P(C)是相等的
答案rA
14.在LogisticRegression中,如果同時(shí)加入L1和L2范數(shù),不會(huì)產(chǎn)生什么效果?
A.以做特征選擇,并在一定程度上防止過擬合
B.可以獲得更準(zhǔn)確的結(jié)果
C.能解.決維度災(zāi)雄問避
D,能加快計(jì)算速度
答案:D
15.對(duì)于隨機(jī)森林和GradientBoostingTrees,下面說法正確的是哪一項(xiàng)?
A.GradienlBoostingTreesi11練模型的表現(xiàn)總是比隨機(jī)森林好
B.在隨機(jī)您林的單個(gè)處中,樹和樹之間是釘依敕的,而GradientBoostingTrees中的單個(gè)樹之間是沒有依賴的
C.這兩個(gè)模型都使用隨機(jī)特征子集.來生成許多單個(gè)的樹
D.可以并行地生成GradientHonstingTrees弟個(gè)樹,囚為它們之間是沒有依轍的
答案:C
16.下列哪個(gè)選項(xiàng)不是常用的聚類比法?
A.SVM
B.DBSCAN算法
C.Hierarchicalclustering算法、BIRCH算法
D.K-means算法
咨案:A
17.在有監(jiān)督學(xué)習(xí)中,我們?nèi)绾问褂镁垲惙椒ǎ?.我們可以先創(chuàng)建聚類類別,然后在卷個(gè)類別上用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)
習(xí)2,我們可以使用聚類“類別id”作為一個(gè)新的特征項(xiàng),然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)3.在進(jìn)行監(jiān)督學(xué)習(xí)之前,
我們不能新建聚類類別4,我們不可以使用聚類“類別id”作為一個(gè)新的特征項(xiàng),然后再用監(jiān)督學(xué)習(xí)分別進(jìn)行學(xué)習(xí)下
列選型中正確的是哪一項(xiàng)?
1H13
A.
1M12
B.C
1M14
甘J4
D.濘3
.B1
jK.
18.以下哪一項(xiàng)不屬于抽樣的類別?
A.系統(tǒng)抽樣
B.整群抽樣
C.分層抽樣
D.循環(huán)抽樣
E.簡(jiǎn)單隨機(jī)抽樣
答案:D
19.以下關(guān)于模型超參數(shù)的特征描述不正確的是哪?項(xiàng)?
A.模里的超卷數(shù)可以通過數(shù)據(jù)II接得到,也可以通過人的羥驗(yàn)來設(shè)定
B,模型超參數(shù)通??梢允褂脝l(fā)式方法來設(shè)置
C,模型總參數(shù)通常由實(shí)踐者口接指定
D.模型超參數(shù),用應(yīng)用于估計(jì)模型參數(shù)的過程中
£?模型超參數(shù)通常根據(jù)給定的預(yù)測(cè)建模問時(shí)而調(diào)整
答案:A
20.以卜.關(guān)于邏輯回歸算法的損失函數(shù)描述不正確的是哪一項(xiàng)?
A.在邏犧回歸的報(bào)號(hào)中,它假設(shè)樣本版從俏努利I0-D分布,然后求得滿足該分布的似然困散,孩有用對(duì)敵求極低。
B.龍卷網(wǎng)“I算法一定要計(jì)算G大似然函數(shù)
C.造輯回歸算法的損失函數(shù)可以使用對(duì)數(shù)函數(shù).
D.邏輯回獷并沒有求對(duì)數(shù)W然函數(shù)的最大值.而是把極大化當(dāng)儂一個(gè)思想.進(jìn)而推導(dǎo)出它的風(fēng)險(xiǎn)函數(shù)為以小D化的似然函數(shù).
答案:B
21.在Python中,關(guān)于Pandas模塊中的數(shù)據(jù)讀取函數(shù)read-csv與read-table.以下說法不正確的是哪一項(xiàng)?
A.seq/delimiter:用來制定數(shù)據(jù)之間的分隔符,readtahle默認(rèn)為逗號(hào),read_csv默認(rèn)為制表符.
B.usecols:通過usecols參數(shù)來設(shè)河需要使用於列,
C.indexcol:可以將數(shù)據(jù)集中的某一列(某幾列)設(shè)置為行索引,通過indexcol來進(jìn)行指定,
D.header:用來制定標(biāo)題行,如果數(shù)據(jù)集中沒有標(biāo)題行,則制定為None.
E.names:讀1R數(shù)據(jù)時(shí),可以通過names儂件設(shè)為列索引.
答案:A
22.關(guān)于實(shí)時(shí)流處理整體架構(gòu)中數(shù)據(jù)緩存和消息中間件描述錯(cuò)誤的是0.
A.Redis:提供高速kev/value存儲(chǔ)查詢能力,比于流處理結(jié)果數(shù)據(jù)的高速緩存.
B.Kafka:消息中間件可對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行緩存,支持高吞吐量的消息訂閱和發(fā)布。
CHBase:用于行鍵性詢(Key-Ya】ue)檢索,爽詢條件熨雜且多樣。
D.Kufka:分布式消息系統(tǒng),支持消息的生產(chǎn)和發(fā)布,以及多構(gòu)形式的消電腹存,滿足高效可綁的消息生產(chǎn)和消費(fèi).
答案:C
23.SparkMLlib匯總統(tǒng)計(jì)主要是對(duì)RDD數(shù)據(jù)集進(jìn)行整體的統(tǒng)計(jì)性描述,主要通過調(diào)用colStats函數(shù),該函數(shù)中獲取
數(shù)據(jù)每列的L1范數(shù)的參數(shù)是下列選項(xiàng)中的哪一項(xiàng)?
A.nornll.l
B.numNonzeros
C.nornl.2
D.variance
答案:A
24.關(guān)于FusionlnsighiMiner的功能描述不準(zhǔn)確的是哪一項(xiàng)?
A.業(yè)務(wù)場(chǎng)景包括極大團(tuán)分析.
B.工作枇落不支/自定義妹法.
C.支持R語(yǔ)言.
D.支持Python2和Pyihon3語(yǔ)言.
答案;B
25.建設(shè)一個(gè)完整的數(shù)據(jù)治理平臺(tái),作為數(shù)據(jù)平臺(tái)的管控系統(tǒng),從制度、標(biāo)準(zhǔn)、()、流程幾個(gè)方面提升數(shù)據(jù)信息管理
能力,解決目前所面臨的數(shù)據(jù)標(biāo)準(zhǔn)問題.數(shù)據(jù)質(zhì)量問題、元數(shù)據(jù)管理問題和數(shù)據(jù)服務(wù)問題.
實(shí)時(shí)
分
A,化
B.C管
理
監(jiān)
D.控
冬
案
:
26.以下關(guān)于數(shù)據(jù)挖掘描述不準(zhǔn)確的是哪一項(xiàng)?
A.大數(shù)據(jù)的挖掘是從海依、不完全的、有噪聲的、模相的、曲機(jī)的大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)陷含在K中有價(jià)值的、潛在有用的信息和知識(shí)的過程,
H.大的據(jù)沙擁*呼基于人T智能.機(jī)器學(xué)習(xí).林H學(xué)習(xí).統(tǒng)計(jì)學(xué)等.通過就大的據(jù)總網(wǎng)口動(dòng)化地分析.做由R歸幽性的推理.從中沙棚出潸在
的模式,
C.日前.在很多領(lǐng)域尤其是在商業(yè)領(lǐng)域如很行、電信、電商等,數(shù)據(jù)沱址可以解次很多問題,包括市場(chǎng)昔優(yōu)策略制定、背景分析、企業(yè)風(fēng)險(xiǎn)規(guī)
能等.
D.通.數(shù)據(jù)論摘可以建立起企業(yè)整體而不是某個(gè)業(yè)務(wù)過程局部的不同類型的模型.
答案:D
27.關(guān)于模型部署的描述不正確的是哪一項(xiàng)?
A.模型一經(jīng)部罟,就可以永久的固化下來.
B.蟆型部為可以借助的工具越來越多,
。在生產(chǎn)環(huán)境下部署模型也存在許多挑戰(zhàn),如:S何進(jìn)行性能調(diào)優(yōu),安全性,如何支持AB測(cè)試等,
D.模型部署就是把訓(xùn)練好的機(jī)器學(xué)習(xí)的模型都罟到生產(chǎn)環(huán)境.
答案:A
28.Streaming主要通過ZooKeeper提供的以下哪項(xiàng)服務(wù)實(shí)現(xiàn)事件偵聽?
A.ACK
B.watcher
C.checkpoint
D.分布式鎖機(jī)惻
答案:D
29.設(shè)X、XI、X2、Y是四個(gè)隨機(jī)變量,a,b是常數(shù),以下關(guān)于協(xié)方差的性質(zhì)描述錯(cuò)誤的是哪一項(xiàng)?
A.如果Cov(X,¥)=0.則隨機(jī)變貴X,Y相互獨(dú)立
B.CovfaX,bY)=abCov(X.V)
C.Cov(Xl+X2,Y)=COY(X1,¥)+€OV(X2,Y)
D.如果的機(jī)變fitX,Y相互獨(dú)立,則CoNX,Y)=0
答案;A
30.以下哪個(gè)選項(xiàng)不是矩陣乘法對(duì)向最的變換?
曲
化
線
授
A,形
B,C仲
縮
旋
D.轉(zhuǎn)
冬
基A
:
31.以卜哪個(gè)選項(xiàng)是求解等式約束最優(yōu)化的常用方法?
A.牛頓法
B.梯度下降法
C.KKT條件
D.拉格明日戀法子
答案:D
32.“點(diǎn)擊率問題”是這樣一個(gè)預(yù)測(cè)問題.9洲的人不會(huì)點(diǎn)擊,而1%的人會(huì)點(diǎn)擊,所以這是一個(gè)非常不平衡的數(shù)據(jù)集。
假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來分類,而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們彳以下的結(jié)論是哪一選項(xiàng)?
A.模中預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不能要做什么了.
B.模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模里。
。無法下結(jié)論
D.以上都不對(duì)
答案:C
33.下列方法中,不可以用于特征降維的方法包括哪一選項(xiàng)?
A.同部線性嵌入1.I.E
B.主成分分析PCA
C.嫌小二乘法I.eastSquares
D.戰(zhàn)性判別分析LDA
E.矩陣奇異值分解SYD
答案:C
34.以下關(guān)于特征選擇定義的理解說法錯(cuò)誤的是哪一項(xiàng)?
A.特征選擇是指從原始特征中挑選出一組最有代表性、分類性能好的特征.
B.特征選擇不像算法和模理是確定的步歌,更多處工程上的羥驗(yàn)和權(quán)衡,一般備要耗費(fèi)較多的時(shí)間和精力.
C.對(duì)于不同的數(shù)據(jù)挖掘任務(wù),所需要的特征組合那是相同的.
D.特征選擇(featureselection)也被稱為受累迭界、同性遺杼或變盤子集選擇.它是為了構(gòu)建槿型而選擇相關(guān)特征子集的過程。
答案:C
35.下列哪些方法不適合用來對(duì)高維數(shù)摳進(jìn)行降維?
A.線性判別分析LUA
B.小波分析法
C.聚類分析
D.主成分分析法
答案:C
36.當(dāng)決策樹出現(xiàn)過擬合后,需要使用()技術(shù)來縮小樹的結(jié)構(gòu)和規(guī)模。
和
調(diào)
A.歸
|>>]
B.剪
C枝
小
波
D.案
答:C
37.以下關(guān)于Apriori算法的描述不正確的是哪一項(xiàng)?
A.Apriori算法是一個(gè)非常經(jīng)典的頻能項(xiàng)集的物序?法.很多算法都是基于Apriori算法而產(chǎn)生的.包括FP-Tree.GSP.CBA等.
B.Apriori第法適用于菸重復(fù)頂集數(shù)元素較多的案例.
C.python的工具麻mlxtend目前提供實(shí)踐Apriori究法的方法.
D,使用先皖原理,大大提尚J-頻索項(xiàng)架逐層產(chǎn)生的效率.
答案:B
38.以下哪一項(xiàng)不是最優(yōu)化問題的三個(gè)基本要素?
A.目標(biāo)函數(shù):用來衡量結(jié)果的好壞。
B.參數(shù)值:未知的因子且需要通過數(shù)據(jù)耒確定.
C.數(shù)據(jù)規(guī)模.
D.約束條件:布要滿足的限制條件,
答案;C
39.以下哪種場(chǎng)毋比較適用于在保證召I可率的前提下,盡量提升精確率的情況?
A.金融欺詐
B.搜索
C.地露檢測(cè)
D.癌癥檢測(cè)
答案:B
10.以?關(guān)于SparkMLlib中FP-Growth的超以下描述不正確的是哪一項(xiàng)?
A.minConfidence:生成關(guān)聯(lián)規(guī)期的最小議悟度,罰信度表明關(guān)聯(lián)規(guī)則被發(fā)現(xiàn)的出賣程度。
B.numPartitions:用于分發(fā)工作的分區(qū)數(shù),
C.minSupporI:對(duì)項(xiàng)H集的最小支持被識(shí)別為頻繁.
D.transform:以高于minConfidence的置倍度生成的關(guān)聯(lián)規(guī)則.
答案:D
11.在LLS中,“決策樹分類”節(jié)點(diǎn)的參數(shù)設(shè)置描述不準(zhǔn)確的是哪一項(xiàng)?
A.城大分箱數(shù):對(duì)連續(xù)的值進(jìn)行范圍劃分,不能小于各分類特征的最大取值數(shù)目,
B.燃大樹深度:模型訓(xùn)練的最大迭代次數(shù)。取值區(qū)間為【1,30].
。處理異常假選項(xiàng)中可以選擇:"null值代替”。
D.不純度:樹。點(diǎn)標(biāo)簽的混雜度計(jì)算標(biāo)準(zhǔn),選值僅有‘Gini".
答案:D
42.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇下列哪個(gè)工具實(shí)現(xiàn)該功能?
A.I.ucene
B.ElasticSearch
C.HBase
D.GES
答案:D
43.Gremlin中查詢單個(gè)點(diǎn)的信息該用什么命令?
A.gV().hasLabel(*test*).values(*age*)
B.g\'().hasLabel(,1631*).vnluelap(*String_list*,"age")
C.gV(13464736).valueHap(?
D.gV().hasl.abel("tesl")
答案:C
44.在案例“銀行客戶精準(zhǔn)畫像”中,美于其數(shù)據(jù)挖掘不同階段的操作描述,屬于數(shù)據(jù)建模階段的是哪一項(xiàng)?
A.對(duì)呆近三個(gè)月的原始交易數(shù)據(jù)進(jìn)行說算獲得變量,并整合在客戶的實(shí)際交易情況上定義客戶的行為,鋁個(gè)客戶作為一條觀測(cè),從中隨機(jī)抽取
2B67個(gè)客戶作為研究實(shí)例的代表性樣本
B.結(jié)果分析,并提供參看策略
C,在客戶分類問題中采用的士支是數(shù)糊花幅中分類和錄類的算法,儒變結(jié)令需求規(guī)劃出適用模型。
D.將來自數(shù)捌倉(cāng)庫(kù)中多個(gè)數(shù)據(jù)表.經(jīng)過了數(shù)據(jù)采桀、清理和集成,生成一個(gè)針對(duì)數(shù)據(jù)物榭H標(biāo)確定與交易行為有關(guān)的數(shù)據(jù)項(xiàng)集合.
答案:A
45.SparkVLlib中的BasicStatistic是專門用于進(jìn)行大數(shù)據(jù)集群上的統(tǒng)計(jì)分圻工具,以下哪個(gè)不屬于Basic
Slalislis發(fā)持的功能?
A.假設(shè)檢臉
B.特征抽取
C.匯總統(tǒng)計(jì)
D.生成隨機(jī)數(shù)
答案:B
16.(單選)購(gòu)買與登錄專屬版MS的描述不正確的有?
A.確認(rèn)集群信息無誤后.依次單擊”立即購(gòu)買二"提交二
B.在購(gòu)買專屬版S實(shí)例之前需要先購(gòu)買"MapReduce服務(wù)
C.在購(gòu)買界面上,依次配置所#;參數(shù),其中,Kerberos認(rèn)證:關(guān)閉或者開啟均可
D.一旦提交,集群會(huì)立刻創(chuàng)建完成.
答案;D
17.(單選)假設(shè)A,B.C是三個(gè)矩陣,A是2X2,B是2X2階,(:是3x2階,以下哪一個(gè)矩陣的運(yùn)算是有意義的?
A.A+B
B.AC
C.AB+AC
D.B+C
冬案:A
18.(單選)如一個(gè)原始數(shù)據(jù)為3行4列的數(shù)據(jù)框需要降維至兩維,利用SparkLIb的實(shí)現(xiàn)思路卜述不正確的是?。
A.在PCA中,可以選取偽/小的2個(gè)待征值對(duì)應(yīng)的特征向量,并由該兩個(gè)特征向量組成矩陣C
B.求矯方差矩陣B的方特征向量
C.求取矩陣R的協(xié)方差矩B
D.將像始3行4列的數(shù)據(jù)轉(zhuǎn)換得到一個(gè)3乘4的矩陣R
答案,B
19.(的選)若隨機(jī)變量X服從正態(tài)分布N(u,o-2),則隨機(jī)變量Y=aX+b股從以下哪個(gè)正態(tài)分布?
A.N(a>2u+h,a*2o2)
B.N(au+b,a*2o*2)
C.N(au+b,a*2o-2+b)
D.N(au,a'2o'2)
答案,B
50.(單選)我們可以使用Python中scikilTearn庫(kù)的()函數(shù),來對(duì)樣本集進(jìn)featureselection(特征選擇)和
dimensionalilyreduction(降維)?
A.sk1earn,neighbors
B.skiearn,featureselection
C.skiearn,linearmodel
D.sklearn.cluster
答案:B
51.(單選)現(xiàn)實(shí)中大數(shù)據(jù)挖掘任務(wù)往社特征屬性過多,而一個(gè)普遍存在的事實(shí)是,大數(shù)據(jù)集帶來的關(guān)鍵信息只聚集在
部分甚至少數(shù)特征上,因此我們需要進(jìn)廳以下哪種操作?
A.特征標(biāo)準(zhǔn)化
氏特征選擇
C.特征歸一化
D.特征清洗
答案;B
52.(單選)-?個(gè)典型的大數(shù)據(jù)平臺(tái)系統(tǒng)架構(gòu)不包括以下哪個(gè)層次?
A,數(shù)據(jù)平臺(tái)層
B.數(shù)據(jù)服務(wù)層
C.數(shù)據(jù)應(yīng)用層
D.數(shù)據(jù)可視化層
冬案:D
33.(單選)以下關(guān)于PCA算法(主成分分析)說法不正確的是。W)
A,必須在使用PC*前規(guī)范他數(shù)宗
B,使數(shù)據(jù)降低到低維度上做數(shù)據(jù)可視化
C應(yīng)該選擇使得模型有最小variance的主成分
I).應(yīng)該選擇使得模型有域大variance的主成分
答案:C
5((單選)以下關(guān)于Python正則表達(dá)式描述不正確的是?
A.rei正則表達(dá)式可以處理字符申數(shù)據(jù),也能處理數(shù)值數(shù)據(jù),
B.reiF則表達(dá)式模塊使Python語(yǔ)擁有部分正則表是式功能。
C.rei正則表達(dá)式站用于處理字符串的強(qiáng)大工其
答案:A
55.(單選)以下關(guān)于Trapper(包裝法)和FiLler(過濾法)的描述不正確的是?
A.)Wrapper方法由于每次對(duì)子集的評(píng)價(jià)都要進(jìn)行分類器的調(diào)練和測(cè)試.所以算法計(jì)經(jīng)狂雜度很高.
B.Trapper方法選出的特征通用性較強(qiáng).當(dāng)改變學(xué)習(xí)算法時(shí).也不得要針對(duì)該學(xué)習(xí)完法乘新進(jìn)行特征選擇.
C.相對(duì)于Filter(過消法),Wrapper方法找到的特征了集分類性能通常更
好。
D,對(duì)「大規(guī)模數(shù)據(jù)集來說,Wrapper律法的執(zhí)行時(shí)間很長(zhǎng)。
答案:B
56.(單選)以下關(guān)于聚類算法的理華確的是?
A.簇內(nèi)的相似性越大.族間的差別越小,聚類的牧果就越好.
B.簇內(nèi)的相似性越大?簇間的差別越小,聚類的效果就越差.
C.簌內(nèi)的相似性越大.族間的差別越大,聚類的效果就越好,
D.簇內(nèi)的相似性越大,族間的差別越大,聚類的效果就越差,
答案:C
57.(單選)以下關(guān)「模型評(píng)估描述不止房的是?
A.在分類何甥中,AUC越小,分類的質(zhì)量越好。
B.在聚類何題中,常用的性能度量參數(shù)包括Silh)nette輪救系數(shù)、蘭德系數(shù)(AdjustedRandindex).
C.在回歸問題中,最常用的性能度量參數(shù)是均方誤差(Mse)、均方根誤差(f?se)、平均絕對(duì)誤差(Mae)),
D.在分類問題中,常見的評(píng)估指標(biāo)包括混清矩陣(ConfusionMatrix)、精確率(Precision)、召回本(Recall)、Fl值((Fl-Measure)、AUC.KOC
由由(ReceiveroperatingCharacteristic),PR曲戲(PrecisionandRecall)
答案:A
58.(單選)以下哪個(gè)措施屈于反爬措施?
A.字體
B.滑塊驗(yàn)證眄
C.數(shù)據(jù)收費(fèi)
D.以上全部正確
答案:D
59.(單選)以卜哪個(gè)選項(xiàng)不屬于直接刪除包含缺失值的元組(或記錄)產(chǎn)生的影響?
A,降低模型準(zhǔn)確性
B,可能會(huì)引入噪音節(jié)點(diǎn)
C.數(shù)據(jù)缺失占比較多時(shí).直接州除可能會(huì)改變?cè)紨?shù)據(jù)的分布情況
D.破壞數(shù)據(jù)的歷史完整性
50.(單選)以下哪項(xiàng)不是KNN算法的三要素?
A.Kfft的選取
B,分類決策規(guī)則
C,距離度量的方式
D.特征的順序
答案:D
51.(單選)以下哪些選項(xiàng)不屬于數(shù)值特征離散化的必要性?
A.數(shù)值高儂化實(shí)際是一個(gè)數(shù)據(jù)簡(jiǎn)化機(jī)制,通過數(shù)也恩故化過程,一個(gè)完整的數(shù)據(jù)埃變成一個(gè)個(gè)按照某種規(guī)則分類的了噪.增強(qiáng)了模型的和定性.
B.離故化數(shù)值在提高建帙速度和提島模型精度上可顯著作用,
C自敢化過程并沒有帶來信息丟失
D.離散化后的特征對(duì)異常數(shù)據(jù)有很強(qiáng)的鈴棒性,能減少噪音節(jié)點(diǎn)對(duì)數(shù)據(jù)的影響,
答案,C
32.(單選)在案例"銀行客戶將在畫像”中,數(shù)據(jù)階段可以做的質(zhì)量核杳不包括?
A..數(shù)據(jù)的有效性校驗(yàn)
B..數(shù)據(jù)的可杼換性校吩
c..數(shù)據(jù)的塊失性校的
D.數(shù)據(jù)的連續(xù)性校船
答案:B
53."ab"+"c"*2結(jié)果是
A.ab<2
B.abcabc
C.abcc
D.ababcc
答窠KC
54.ALCRISPDM(跨行業(yè)數(shù)據(jù)挖掘標(biāo)準(zhǔn)流程)模型中的數(shù)據(jù)準(zhǔn)備環(huán)節(jié)除了包括數(shù)據(jù)選擇,數(shù)據(jù)清潔,數(shù)據(jù)創(chuàng)建,數(shù)據(jù)
合并外,還包含以下哪個(gè)步驟?
A.確定業(yè)務(wù)目標(biāo)
B.選擇隹模技術(shù)
C.數(shù)據(jù)變換
D.模型結(jié)果評(píng)估
答案;C
55.df.tail。這個(gè)函數(shù)是用來
A.用來創(chuàng)建數(shù)據(jù)
B.用來展現(xiàn)數(shù)據(jù)
C.用來分析數(shù)據(jù)
D.用來測(cè)試數(shù)據(jù)
答案;B
66.ElasticSearch進(jìn)行全文檢索?般需要哪幾個(gè)步驟?
A.清洗、分詞、建立素?引
B.清洗、分詞
C.清洗、建立索引
D.清洗.建立索引.分詞
答案:A
57.Flink的窗口,按窗口行為劃分不包含以卜哪種?
A.容量曲口
B,滑動(dòng)窗
C滾動(dòng)窗口
D.會(huì)話窗口
答案:A
58.Flume的高級(jí)組件不包含以下哪個(gè)?
A.SinkProcessor
B.ChannelInterceptor
C.ChannelSelector
D.SourceInterceptor
答案:B
59.Flume中一個(gè)ChannelSelector的作用是什么?
A.設(shè)置多個(gè)channel發(fā)往多個(gè)sink的策略
B.設(shè)置一個(gè)source發(fā)往多個(gè)channel的策略
C.設(shè)國(guó)名個(gè)source發(fā)往多個(gè)channel的第略
D,設(shè)附一個(gè)channel發(fā)往多個(gè)sink的策略由
答案:B
70.GaussDB200支持什么格式的數(shù)據(jù)存儲(chǔ)?
A.行存儲(chǔ)
B.列存他
C.行列混存
D.以上都對(duì)
答案:D
71.Numpy中創(chuàng)建全為0的矩陣使用
A.ones
B.empty
C.2CF03
D.arange
答案:c
72.Numpy中向量轉(zhuǎn)換成矩陣使用
A.reshape
B.reval
C.arange
D.random
答案rA
73.Pandas中的DataFrame的df.iloc[l:3j
A.查詢的是1,2行
B.查詢的是2,3列
C.gf詢的是2,3行
D.住詢的是1,2列
答案;C
74.Python中列表數(shù)據(jù)類型元素的切片非常強(qiáng)大,對(duì)于列表mylist=[l,2,3,4,5,67,8.9],下面操作正確的是
A.mylistd:9:0]
B.mylist[l:9:2]
C.mylist(6:9:2)
D.mylist[10:]
答案:B
75.Rcdis不適用于以卜哪個(gè)應(yīng)用場(chǎng)景?
A.獲取PB級(jí)Value數(shù)據(jù)
B,獲取TORN操作
C.獲取手機(jī)臉證碼
D.獲取最新、個(gè)數(shù)據(jù)的操作
答案:A
76.從數(shù)據(jù)庫(kù)架構(gòu)校計(jì)來看,土要有以下哪些設(shè)計(jì)思路?
A.Shared-Disk
B.Shared-Everying
C.Shared-Nothing
D.以上全正確
答案:D
77.打開文件的不正確寫法為
A.f=open(#test.txt*r*)
B.withopen(*test,txt*,*r')asf
C.f=open。C:\Apps\tesl.ixl''r')
D.f=open(r*C:\Apps\test.txt*r9)
答案KC
78.大數(shù)據(jù)的4M不包含哪一個(gè)?
A.數(shù)據(jù)膿人
B.種類多
C.價(jià)值密度低
D.分布式
E.處理速度快
答案:D
79.大數(shù)據(jù)計(jì)克任務(wù)中,關(guān)于10密集型任務(wù)的描述不正確的是哪一項(xiàng)?
A.10密集型任務(wù)執(zhí)行期間,大部分時(shí)間都花在1(,處里上
B.通過提升網(wǎng)絡(luò)傳輸效率和讀寫效率可大幗度提升性能
C.CPV消能制
D.任務(wù)越多,CPI,效率越高
答案;C
S0.當(dāng)不知道數(shù)據(jù)所帶標(biāo)簽時(shí),可以使用哪種技術(shù)促使相似的數(shù)據(jù)與其他不相似的數(shù)據(jù)相分高?0
A.分類
B.關(guān)聯(lián)分析
C.聚類
D.哈馬爾科夫過科
答案:C
31.關(guān)于GaussDB200的數(shù)據(jù)導(dǎo)入導(dǎo)出下列說法正確的是(?
A.使用gsql元命令和COPY命令在使用和用法I:是一樣的.
B.COS在數(shù)據(jù)導(dǎo)入時(shí)可以做預(yù)處理,比如非法字符替換、容錯(cuò)處理、依據(jù)聚合:?,
C.COPY方式使用簡(jiǎn)通,一般用在大垃數(shù)據(jù)的導(dǎo)入導(dǎo)出中.
D.INSERT數(shù)據(jù)寫入近令數(shù)據(jù)量不大,并發(fā)度不昌的場(chǎng)景.
答案:B
32.關(guān)于GaussDB200的發(fā)展史,下列說法錯(cuò)誤的是(?
A.GaussDB200已經(jīng)在華為云發(fā)布了云化產(chǎn)品.
B.GuussDB200專注國(guó)內(nèi)業(yè)務(wù).不涉及海外.
C.GaussDB200從一開始就支持ARM架構(gòu)的部署.
D.GaussDB200前身閭GaussDB,是GaussDB的子項(xiàng)目.
答案:B
33.關(guān)于GaussDB200的邏輯架構(gòu),卜列說法正確的是
A.DN是實(shí)際數(shù)據(jù)節(jié)點(diǎn),所以只負(fù)費(fèi)存儲(chǔ)數(shù)據(jù)。
B.C\是物調(diào)節(jié)點(diǎn),例助CM管理整個(gè)集群。
C.CM是集群的管理梗塊,那么負(fù)責(zé)集群的日常管理和運(yùn)維,
D.GTM是全局事務(wù)控制器,負(fù)責(zé)生成和維護(hù)全局用務(wù)ID等全局唯一侑息.
答案:D
M.關(guān)于各種分類算法的特點(diǎn),以下說法正確的是?
A.給定n個(gè)數(shù)據(jù)點(diǎn),如果其中?半用于訓(xùn)練,?車用戶測(cè)試,則訓(xùn)練誤差和測(cè)試誤差之間的差別會(huì)隨潦n的增加而M少
B.bazging改進(jìn)了預(yù)測(cè)腐確率,但損失了解新性
C,在adaboosi算法中,所有被分錯(cuò)樣本的權(quán)重更新比例相同
答案:B
35.機(jī)器學(xué)習(xí)中做特征選擇時(shí),以下哪種技術(shù)屬于Filler(過渡法)
A方差選擇法
B.互伯息法
C.卡方檢驗(yàn)
D.相關(guān)系數(shù)法
E,以上全都正確
答案:E
36.假設(shè)現(xiàn)在要做一個(gè)可以根據(jù)線索指導(dǎo)運(yùn)維人員進(jìn)行排障的功能,你建議選擇下列哪個(gè)工具實(shí)現(xiàn)該功能?
A.Lucent?
B.Illiase
C.ElasticSearch
D.GraphBase
答案:D
S7.決策樹中不包含以下哪種節(jié)點(diǎn)?。
A.內(nèi)部節(jié)點(diǎn)(internalnode)
B.外部,點(diǎn)(externalnode
C.根節(jié)點(diǎn)(rootnode)
D.葉節(jié)點(diǎn)
答案:B
38.離線批處理方案的應(yīng)用場(chǎng)景不包括?
A,占用計(jì)算存儲(chǔ)資源多
B.快速高效,實(shí)時(shí)的數(shù)據(jù)處理
C.數(shù)據(jù)處理格式多樣
D.處理大配模數(shù)據(jù)
冬案:B
39.某開發(fā)小組計(jì)劃利用GraphBase實(shí)現(xiàn)一些功能,以下哪些功能可以實(shí)現(xiàn)?
A.物流最優(yōu)跖徑規(guī)劃
B.社交分析
C.金融反欺詐
D.以卜.全都正確
答案:D
30.企業(yè)數(shù)據(jù)分析平臺(tái)在根據(jù)不同的業(yè)務(wù)場(chǎng)景需求,搭建不同的大數(shù)據(jù)分析平臺(tái),如適應(yīng)離線批處理的IkHkMjp平臺(tái),
適應(yīng)實(shí)時(shí)處理的流計(jì)算等,這種架構(gòu)屬子哪種類型的架構(gòu)?
A.融合架構(gòu)
B.分離架構(gòu)
C.單一架構(gòu)
D.多維架構(gòu)
答案;A
31.設(shè)x、Y是兩個(gè)隨機(jī)變量,C是常數(shù),以下關(guān)于數(shù)學(xué)期望的性質(zhì)描述正確的是?
A.E(X*Y)=E(X>+(Y)
B.E(CX)=CE(X>
C.E(C)=€
答案:A
32.設(shè)XY是兩個(gè)隨機(jī)變貸,C是常數(shù),以下關(guān)于方差的性質(zhì)描述錯(cuò)誤的是?0
A.D(C)=0
B.D(0}=0的充要條件是X以軟率取常數(shù)E(X3即P{X=E(X?=1
C.D(X+Y)=D(X)+D(Y)
D.D(CX)=CD(X)
答案:D
33.我們想在大數(shù)據(jù)集上訓(xùn)練決策樹,為了使用較少時(shí)間,我們可以0
A.M少樹的數(shù)量
B.增加樹的深度
C,減少樹的深度
D.增加學(xué)習(xí)率(learningrate)
答案:C
94.下列關(guān)于存儲(chǔ)過程的特點(diǎn)說法正確的是0
A.編寫的SQL存儲(chǔ)在數(shù)據(jù)庫(kù)中,因此執(zhí)行速度快.
B.創(chuàng)建時(shí)編譯,執(zhí)行時(shí)調(diào)用,因此開發(fā)效率高。
C.用戶創(chuàng)隹的存儲(chǔ)過程或自定義函數(shù)可以,Rli調(diào)用,因此數(shù)據(jù)傳輸做少。
D.通過指定存儲(chǔ)過程的訪問權(quán)限,因此安全系數(shù)高。
答案:D
35.下面這條GaussDB200語(yǔ)句"calldbmsjob.interval(1,'sysdate+1.0/24');"的意思是
A.修改Jobl的Interva為每》j24小時(shí)執(zhí)行一次.
B.修改Jobl的Interval為待隔1小時(shí)執(zhí)行一次.
C.修改Jobl的Interval為每隔1/24小時(shí)執(zhí)行次,
D.修改Jobl的Interval為保扁24分鐘執(zhí)行一次.
答案:B
36.協(xié)同過濾推薦莫法,是最經(jīng)典,展常用的推薦算法。要實(shí)現(xiàn)協(xié)同過泄,以下哪個(gè)步驟不需要?
A,計(jì)算推薦
B.找到楣似的用戶和物品
C收集用戶偏好
D.收娛用戶來淅
答案:D
".一般情況下,若要提高ElasticScarch檢索效率,可以采取什么操作?
A.調(diào)整索引分片數(shù)
B,使用Hive做底層存儲(chǔ)
C.壓縮素引
D.正價(jià)EsMaster節(jié)點(diǎn)
冬案:A
28.以下關(guān)于DataNode的描述不正確的走?
A..DataNode管理數(shù)據(jù)塊元數(shù)據(jù)
B..DataNode執(zhí)行數(shù)據(jù)塊的讀/寫操作.
C.DuluMde的數(shù)量受數(shù)據(jù)規(guī)模影響.
D..DataNode是用來存儲(chǔ)數(shù)據(jù)庫(kù).
答案:B
39.以下關(guān)于Python函數(shù)的描述中,錯(cuò)諛的是
A,函數(shù)是一段"JtR用的語(yǔ)句組
B,每次使用函數(shù)需要提供相同的參數(shù)作為輸入
C..函數(shù)通過函數(shù)Z進(jìn)行調(diào)用
D..函數(shù)是一段具有特定功能的譜句組
答案:B
100.以下關(guān)于Python全局變量和局部變量的描述中,錯(cuò)誤的是
A.局部變量在函數(shù)內(nèi)部創(chuàng)建和使用,函數(shù)退出精變量被鋒放
B,全局變量一般指定義在函數(shù)之外的變疑
C.使用global保用字聲明后,變地可以作為全局變量使用
D.當(dāng)函數(shù)退出時(shí),局部變量依然存在,下次南物調(diào)用可以維續(xù)使用
隹案:D
101.以下關(guān)于SparkMLlib中決策樹模型超參數(shù)描述不正確的是?()
A.impurity:用于在候選分割之間進(jìn)行選擇的雜財(cái)度星
B-subsamplingRater用于學(xué)習(xí)決策樹的訓(xùn)練數(shù)據(jù)的分?jǐn)?shù),但對(duì)于訓(xùn)絳決策樹,該參數(shù)不太有用
CmaxBins:樹的ftt大深女。
D.maxMemoryInMB用于收集足弱統(tǒng)計(jì)信息的內(nèi)存
答案:C
102.以下關(guān)于SparkNLlib中K-Means優(yōu)化參數(shù)描述不正確的是?(0
A..initializationMode指定隨機(jī)初始化.
B.Runs:運(yùn)行Kmeans算法的次數(shù).
C.maxiterations:要運(yùn)行的被大迭代次數(shù).
D.Epsilon:確定K-Means收斂的距離閱值
答案:A
103.以下關(guān)于Spark的說法不正確的是?0
A.可以擴(kuò)展MapReduce計(jì)算模型,高效支持多種計(jì)算模式,包括交互式兗詢和流處理.
B.擅長(zhǎng)處理大規(guī)模數(shù)據(jù)集.速度快。
C.Spark貼實(shí)現(xiàn)快速而通用的集群計(jì)。的平臺(tái).
D.Spark的shuffle過程必須要寫破盤.
答案;D
104.以下關(guān)于數(shù)據(jù)分析與數(shù)據(jù)挖掘的描述錯(cuò)誤的是?()
A,數(shù)據(jù)分析更例小丁?統(tǒng)計(jì)學(xué)上面的一些方法,姓過人的推理演評(píng)得到結(jié)論。數(shù)據(jù)挖掘更側(cè)成于他日由機(jī)器進(jìn)行自學(xué)習(xí),直換得到結(jié)論.
B.數(shù)據(jù)挖搦是從大盤的數(shù)據(jù)中,挖掘出未知的、月有價(jià)值的信息和知識(shí)的過程,重點(diǎn)是從數(shù)據(jù)中發(fā)現(xiàn)“知識(shí)規(guī)則”
C.數(shù)據(jù)分析和數(shù)據(jù)挖掘的界限是非常清晰的.
0.數(shù)據(jù)分析會(huì)用到成熟的分析工具,比如EXCEL.S^SS.SAS等,數(shù)據(jù)拘把則需空有編程基的
密案:C
105.?以卜關(guān)王特征縮放的外理方法,最小值一最大值歸?化和標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)署描述錯(cuò)誤的是?
A.在實(shí)際應(yīng)用中,特征縮放的標(biāo)準(zhǔn)化悚作更常用
B,標(biāo)準(zhǔn)化方法在分、聚類算法中需要使用PCA技術(shù)進(jìn)行降維
C.最小值一報(bào)人值歸一化的數(shù)據(jù)不符合正態(tài)分布,
D.最小值最大值歸?化和標(biāo)準(zhǔn)化都需要使用即高來度量相似性.
隹案:D
106.銀行進(jìn)行客戶購(gòu)買力分析,首先獲取客戶歷史賬單,確定其中各項(xiàng)商品的計(jì)算權(quán)重,得出每位客戶的購(gòu)買力評(píng)分
并存儲(chǔ)記錄。最后將結(jié)圖表顯示,請(qǐng)的該討程對(duì)應(yīng)于以下哪個(gè)項(xiàng)目數(shù)據(jù)流程設(shè)計(jì)。
A.數(shù)據(jù)源->數(shù)據(jù)處理->數(shù)據(jù)落地->數(shù)據(jù)可視化
B.數(shù)據(jù)可視化-〉數(shù)據(jù)海->數(shù)據(jù)落地-〉數(shù)據(jù)處理
C.數(shù)據(jù)可視化-〉數(shù)據(jù)源->數(shù)據(jù)處理-〉數(shù)據(jù)落地
D.數(shù)據(jù)源-〉數(shù)據(jù)落地->數(shù)據(jù)處理-〉數(shù)據(jù)可視化
答案:A
107.在DGC平臺(tái)架構(gòu)下提供提供企業(yè)級(jí)的元數(shù)據(jù)管理。數(shù)據(jù)資產(chǎn)管理可視支持估取、溯源等。通過數(shù)據(jù)地圖,實(shí)現(xiàn)數(shù)
據(jù)資產(chǎn)的數(shù)據(jù)血緣和數(shù)據(jù)全景可視,提供數(shù)據(jù)利能搜索和運(yùn)營(yíng)監(jiān)控的模塊是哪個(gè)?
A.數(shù)據(jù)開發(fā)
B.數(shù)據(jù)資產(chǎn)管理
C.短池設(shè)計(jì)
D.數(shù)據(jù)集成
答本:B
108.在華為MLS中,“線性回歸”節(jié)點(diǎn)的參數(shù)設(shè)置描述錯(cuò)誤的是?0
A.增大迭代次數(shù),模型訓(xùn)練的以大送代次數(shù).
B,正則化函數(shù).正則化方法,可選參數(shù)僅包括Aut。、None,LkL2
C.正則化參數(shù):用于調(diào)節(jié)正則化項(xiàng)的權(quán)重
D.彈性網(wǎng)絡(luò)參數(shù),L1和1.2正則化的分配權(quán)重
答案:B
109.在“提升信用卡安全案例”中,其商業(yè)理解的階段可以選擇建立各類信用評(píng)分模型,其中不包括哪個(gè)類型?0
A.行為信用評(píng)分卡
B.模式信用評(píng)分卡
C.申請(qǐng)信用卡評(píng)分K
D.催收信用評(píng)分卡
隹案:B
llO.DUGP(UniliedDataGovernancePlatform)華為大數(shù)據(jù)統(tǒng)一數(shù)據(jù)治理平臺(tái),為運(yùn)營(yíng)商提供全面高效的數(shù)據(jù)資產(chǎn)管控
環(huán)境,實(shí)現(xiàn)了數(shù)據(jù)集中,統(tǒng)一和其享,包括統(tǒng)的數(shù)據(jù)采集和整合,統(tǒng)一的安全、標(biāo)準(zhǔn)、生命周期和質(zhì)量管理.以及多維
變數(shù)提云圖功能。提供開箱即用的可以實(shí)現(xiàn)全生命周期的主數(shù)據(jù)管理.包括主數(shù)據(jù)的集中存儲(chǔ)、0、主數(shù)據(jù)清洗、主數(shù)
據(jù)監(jiān)管和主數(shù)據(jù)的共享滿足集團(tuán)對(duì)于企業(yè)級(jí)別主數(shù)據(jù)的管埋平臺(tái)的要求。0
A.主數(shù)據(jù)合并
B.主數(shù)據(jù)關(guān)聯(lián)
C主數(shù)據(jù)標(biāo)記
D,主數(shù)據(jù)遷移
答案:A
111,下列代碼的作用是?Stxingvertexld=
GetVertex1dByProperty(api,graphName,“person","name","mark。");api.queryVertex(vertexId,graphName);
A.查詢點(diǎn)
B.查詢屬性
C.杳詢邊
D.以上全不正確
答案:B
”2.癌癥檢杏數(shù)據(jù)樣本有1000個(gè),其中10個(gè)數(shù)據(jù)樣本是有癌癥,其它是無痛癥。假設(shè)分類模型在無疫癥數(shù)據(jù)9990
中預(yù)測(cè)正確了9980個(gè),在10個(gè)癌癥數(shù)據(jù)中預(yù)測(cè)正確了9個(gè),此時(shí)真陽(yáng)=9,真陰=9980,假陽(yáng)=10,假陰=1.則該預(yù)測(cè)
饃型的召回率為多少?
A.m
B.76.27%
C.47.36%
D.99.89%
答案:A
113.Oracle?數(shù)據(jù)治理產(chǎn)品包括0raclcDatabascl2c、0、Oracle大數(shù)據(jù)SOL、和大數(shù)據(jù)連接器開始入手。
A,oracle大數(shù)據(jù)共享系統(tǒng)
B.Oracle大數(shù)據(jù)清洗系統(tǒng)
C.Oracle大數(shù)據(jù)存儲(chǔ)系統(tǒng)
D.Oracle大數(shù)據(jù)管理系統(tǒng)
答案:D
114.在其它條件不變的前提下,以下哪一方法容易引起模型的過擬合問題?
A.增加訓(xùn)練集數(shù)吊
B.減少神姓網(wǎng)絡(luò)的藏層節(jié)點(diǎn)數(shù)
。刪除稀疏的特征
D.SYM算法中使用高斯核/RBF核樣代
答案:A
115.以下關(guān)于Pylhon函數(shù)的描述中,錯(cuò)誤的是
A.函數(shù)是一段可兔:用的譜句組
B.每次使用函數(shù)需要提供相同的參數(shù)作為輸入
C函數(shù)通過函數(shù)名進(jìn)行調(diào)用
D.函數(shù)是一段具有特定功能的語(yǔ)句緞
答案:B
116.以下哪個(gè)選項(xiàng)不屬于數(shù)據(jù)清洗的范疇?
A?跳失值處理
B.不均衡數(shù)據(jù)處理
C,異常值處理
D.數(shù)據(jù)加載處理
答案:D
117.以下哪一個(gè)架構(gòu)是數(shù)據(jù)全程以流的形式處理,適用于偵警、監(jiān)控,對(duì)數(shù)據(jù)有實(shí)時(shí)處理要求的?
A.大數(shù)據(jù)流式架構(gòu)
B.大數(shù)據(jù)Kappa架構(gòu)
C.大數(shù)據(jù)統(tǒng)?架構(gòu)
D.大數(shù)據(jù)菸礎(chǔ)架構(gòu)
答窠:A
118.屬丁?聚類問題常用的評(píng)估方法是哪一項(xiàng)?
A.均方誤差
B.Silhonette輪席系數(shù)
C.F-score
D.ROC曲稅
否案;B
119.可以通過以下哪個(gè)命令創(chuàng)建節(jié)點(diǎn)數(shù)據(jù)?
A.Is/nodc
B.get./node
C.set/nodedata
D.create/node
答案:I)
120.請(qǐng)問以卜關(guān)于ID3算法中說法錯(cuò)誤的是哪一項(xiàng)?
A.選取信息增益公大的特征,作為樹的根節(jié)點(diǎn)
B.節(jié)點(diǎn)分裂依據(jù)為信息墻益
C,以信息增益度貴屬性選擇,選擇分裂后信息增荏最小的屬性進(jìn)行分裂
D.以法是建立在奧卡姆剃刀的基礎(chǔ)I:
答案:C
121.請(qǐng)問在Pandas中,DataFrame刈象可以使用以下哪個(gè)力法直看的n條數(shù)據(jù)?
A.read
B.tail
C.describe
D.head
答案:D
122.在DGC平臺(tái)架構(gòu)下提供企業(yè)級(jí)的元數(shù)據(jù)管理。數(shù)據(jù)資產(chǎn)管理可視支持鉆取、溯源等。通過數(shù)據(jù)地圖實(shí)現(xiàn)數(shù)據(jù)資產(chǎn)
的數(shù)據(jù)血緣和數(shù)據(jù)全景可視提供數(shù)據(jù)智能搜索和運(yùn)營(yíng)監(jiān)控的模塊是哪個(gè)?
A.數(shù)據(jù)開發(fā)
B.數(shù)據(jù)交產(chǎn)管理
C規(guī)范設(shè)計(jì)
D.數(shù)據(jù)集成
答案:B
123.以下關(guān)于SparkMLlib中k-Means優(yōu)化參數(shù)描述不正確的是?
A.initinlizationXode指定的機(jī)初始化.
B.runs:運(yùn)行Kacans算法的次數(shù).
C.maxHeraticns:要運(yùn)行的最大迭代次數(shù).
D.Epsilon:確定k-Means收斂的距離閾(ft,
答案;A
124.通過聚類的簇是否緊密相連來判斷樣本點(diǎn)是否屈f?一個(gè)簌的聚類算法是以二哪一項(xiàng)?
A.層次聚類
B.原型聚類
C.原點(diǎn)聚類
D.密度聚類
答案:I)
125.以卜關(guān)于離散特征編碼的表述錯(cuò)誤的是哪一項(xiàng)?單
A.禹放特征的取俏之間沒有大小的意義,使用on『hol編碼,
B,因?yàn)闄C(jī)器學(xué)習(xí)算法接收的足數(shù)字型變量.所以需要對(duì)屬性進(jìn)行編碼.
C.離散特征的取值有大小的直義,直接使用映射,
D.恐要方法pundua.xvldummic?()的作用等同于onchot涮碼的效果,只需要設(shè)置其參數(shù)dropfir?t_Truv
答案:D
126.請(qǐng)問對(duì)FCRISP-DM模型基本步驟的描述以下哪項(xiàng)是正確的?
A.1商業(yè)理解2數(shù)據(jù)理解3數(shù)據(jù)準(zhǔn)備4建立模型5模型評(píng)估6模型實(shí)施
B.1數(shù)據(jù)理解2商業(yè)理解3數(shù)據(jù)準(zhǔn)備4建立模型:模M評(píng)估6模型實(shí)施
C.I數(shù)掘理解2商業(yè)理解3數(shù)據(jù)準(zhǔn)備,I建立模型5模型實(shí)族6模型評(píng)估
D.I商業(yè)理解2數(shù)據(jù)理解3數(shù)據(jù)準(zhǔn)備.I建立模型5模型實(shí)族6模型評(píng)估
答案:A
127.我們可以使用Python中scikit-learn庫(kù)的()函數(shù),來對(duì)樣本集進(jìn)行featureselection(特征選擇)和
dimensionalityReduction(降維)?
A.sklearn,neighbors
B.sklearn.featureselection
C.sklearn.1inearmodel
D.skiearn,cluster
答案:B
128.以卜關(guān)于SparkMLlib中降維算法的相關(guān)描述,表述錯(cuò)誤的是哪一-項(xiàng)?
A.奇異值分解(SVD)通常不需要完全因式分解,只需要頂部奇異位及其相關(guān)的奇異向量,這可以節(jié)省存的,降噪并恢發(fā)矩陣的低秩結(jié)囪。
B.spark?1ib為RowMaIrix類的降維提供支持。
C.奇異值分耨(SYD)將矩陣分解為三個(gè)矩陣,分別是左奇異矩陣.對(duì)角矩陣和一個(gè)右奇異上三角豐正交矩陣.
D.PCA通常用于高維數(shù)據(jù)集的探索與可視化還可以用于數(shù)據(jù)壓絡(luò).
答案:C
129.以下關(guān)于K-折交叉驗(yàn)證法描述錯(cuò)誤的是?
A.K折交叉驗(yàn)證取K:k處常用的取的是10,此時(shí)稱為10折交叉驗(yàn)證。其他常用的Kfft還有5、20等。
B.交叉裟證的思想是,姆次用k個(gè)子集的并集作為訓(xùn)練集,余下的那個(gè)子集作為測(cè)試集,這樣就有K種訓(xùn)練集/測(cè)試集劃分的情況,從而可進(jìn)
行K次訓(xùn)練和測(cè)試,最終返回k次測(cè)試結(jié)果的均假。
C.如果訓(xùn)練票相對(duì)較小,則如果K值.
D.如果訓(xùn)練集相對(duì)較大.則減小K值.
答案,B
130.請(qǐng)問主成分分析PCA對(duì)數(shù)據(jù)進(jìn)行中心化后,使得每一維度上的均值是多少?
B.0
C.1
D,以上都不正確
答案:B
131.訪間最小值最大值歸一化的結(jié)果不會(huì)受到以下哪種數(shù)據(jù)點(diǎn)影響?
離群
點(diǎn)
極
點(diǎn)
A.值
B.升
C點(diǎn)
后
平
點(diǎn)
D.均
答
案D
:
132.關(guān)于SparkMLlib中SVD算法的使用說法錯(cuò)誤的是?
A.必須先通過已有數(shù)據(jù)創(chuàng)建出相應(yīng)矩即類型的對(duì)歌.然后調(diào)用該類的成員方法來進(jìn)行SVD分解.
B.如果需要獲得U成員,可以在進(jìn)行SYD分解時(shí).指定computeU參數(shù).令其等于False即可在分解后的svd對(duì)象中拿到U成員.
C.SparkMLlib中SVD方法位于org.apache,spark,mllib.Linalg包卜,的KowMatrix和IndexedRovUatrix類中
D.將數(shù)班轉(zhuǎn)換成RowMatrix后,可調(diào)用RowMatrix自帶的compuleSVD方法計(jì)算分解結(jié)果,
答案:B
133.我們可以使用Python中skiearn庫(kù)的0函數(shù),來解決無序分類變量的離散化問題?
A.cut。兩數(shù)
B.map()FfiiS
C.OnellotEncoderO函數(shù)
D.KMeansO函數(shù)
答案:C
134.設(shè)XY是兩個(gè)隨機(jī)變量,C是常數(shù),以卜.關(guān)于方差的性質(zhì)描述錯(cuò)誤的是?
A.D(C)=O
B.D(0>=0的充要條件如X以概率1取常數(shù)E00,即P(X=E(X))=I
C.DOX^'=D*DO
D.D<CX-€2D
冬案;C
135.以下關(guān)于SparkMLlib中集成算法的相關(guān)描述表述錯(cuò)誤的是哪一項(xiàng)?
A.,va1boostingStrategy=BoostingStrategy.defaultParams
(Classification*)boostingStrategy.numiterations
ASlxiostingStrategy.treeStrategy.numc1asses=2boostingStratfigy.treeStrategy.maxl)epth=5valiiodel=GradientBoostedlrees.train(trai
nng%ta,poostingStrategy)衣示訓(xùn)練悌度提升分類樹模型設(shè)置類別數(shù)緬度為2,樹的最大深度為5,
B..SparkMLlib包含兩種算法RandomForesi和GradieniBoosiEDecisionlree&BDT),二者都是用決策樹算法作為她學(xué)習(xí)器。
C..valnodcI=RandonForcst.trainRcKressor(trfeiningData,catCRoricalFcaturcsInfo,numlrecs=2,"auto",'variance*,naxDepth=4,32)該語(yǔ)
句梟用隨機(jī)森林算法進(jìn)行分類模型訓(xùn)練并且指定屬性選擇的方式為基尼系數(shù)度矍,
D..valBodel=newLogisticRegressionWithl^FGS0.setlumClassesUO).run(training)表示創(chuàng)建邏輯回打l.BFGS的模型進(jìn)行分類問膽的求解.
同時(shí)采用訓(xùn)練數(shù)據(jù)進(jìn)行預(yù)測(cè).樣本類別數(shù)是10.
答案:C
136.請(qǐng)問在Python中以F哪項(xiàng)描述是正確的?
A,定義一個(gè)空集合的命令為:x=R?
B.t=(42,)4111=(42)都可以用于定義tuple.
C.aninuils.removelfish')可以把a(bǔ)nimals這個(gè)丸表中所有,fish,元素都刮除。
D.unimals.inserl(l.fish)是往animals:這個(gè)列衣中索引為1.也就是第二個(gè)位置添加fish'元點(diǎn).
答案:D
137.請(qǐng)問以下關(guān)于隨機(jī)森林說法錯(cuò)誤的是哪一項(xiàng)?
A.劫機(jī)森林是bagging框架下的方法.
B.子學(xué)習(xí)器一般是單顆決策樹。
C隨機(jī)森林引入一次隨機(jī)性。
D.隨機(jī)森林支持并行操作。
答案:C
138.Flume中一個(gè)ChannelSeleclorl的作用是什么?
A.設(shè)過多個(gè)channel發(fā)往多個(gè)sink的策略
B.設(shè)置一個(gè)source發(fā)往算個(gè)channell的旅略
C.設(shè)置笫個(gè)source.發(fā)往多個(gè)channell的策珞
D.設(shè)置一個(gè)channel發(fā)往多個(gè)sink的策略
答案:B
139.以下選項(xiàng)中屈于需要模型通過訓(xùn)練荻得的參數(shù)是哪些?
A.隨機(jī)森林中的樹的個(gè)數(shù).
B.神經(jīng)網(wǎng)絡(luò)中的學(xué)習(xí)速率.
C.線性網(wǎng)歸或邏輯網(wǎng)歸中的系數(shù).
D..SYM算法中的核函數(shù).
答案;C
140.以下對(duì)聚類算法KMeans的缺點(diǎn)描述正確的是哪些項(xiàng)?
A.該算法對(duì)噪音和異常點(diǎn)比較的敏感.
B.如果各隱含類別的數(shù)據(jù)不平衡,比如各圖含類別的數(shù)據(jù)量嚴(yán)重失衡,或者各隱含類別的方差不同.則聚類效果不佳.
C.聚類結(jié)果可能具有一定的隨機(jī)性.
D.慎足超參數(shù),它的選取不好把握.
答案:D
141.請(qǐng)問在Python中以卜哪個(gè)選項(xiàng)正確?
A..Python中的類對(duì)象無法實(shí)現(xiàn)多成堆承,
B..Python面向?qū)︻}編程的封裝性只體現(xiàn)在不允許私有化變量被訪間,
C.變量是對(duì)象,但函數(shù)不是對(duì)象,
D..Python的多態(tài)性表現(xiàn)在「類可以置盅父類的屬性或方法.
答案:D
142.以下關(guān)于KMeans對(duì)比K-Mediods的描述,表述錯(cuò)誤的是哪一項(xiàng)?
A..K-Mediods質(zhì)心可能是計(jì)算產(chǎn)生的,不屬于數(shù)甥集中的點(diǎn).
B..如果數(shù)據(jù)集本身不存在特別多的異常值,也不需要使用K-Mediods替代K-Means.
C..K-Mcdiods比K-Mcans效果更秘定。
D..K-Mediods律法對(duì)比K-Means算法.質(zhì)心的計(jì)尊更雜度更高。
答案:A
143.請(qǐng)問以下關(guān)于特征選擇方法的一些表述,不正確的是哪一項(xiàng)?
A,,f:?方值描述了自變量與因變量之間的相大程段,£?方位越小,相關(guān)程度也越大,所以很自然的可以刊用f:?方值來做特征選杼,保留相關(guān)程
度大的變量,
B..遞歸消除特征法使用一個(gè)基模型來進(jìn)行多輪訓(xùn)煉,每輪訓(xùn)練后,移除若干權(quán)值系數(shù)的特征,目基于新的特征集進(jìn)行下一輪訓(xùn)練。它解決思
路沒有過謔法直接,它是在確認(rèn)后埃的算法模型后,把模型本身的性能作為評(píng)價(jià)準(zhǔn)則:選擇一個(gè)目標(biāo)函數(shù)來一步步的篩選特征.
C.基于樹的嵌入方法能夠用來計(jì)算特征的更要程度?因此能用來去就小機(jī)關(guān)的特征.
D..保留大的方差的實(shí)際意義,就是該列特征的始據(jù)分散情況比較大,對(duì)結(jié)果的劃分的影響力度就大,反過來,如果方差很小,比如?列數(shù)據(jù)
侑值全部?樣,方差為。,確實(shí)對(duì)結(jié)果的分類來說意義不大,有沒有這列特征都不能影響分類目市產(chǎn)生不同的姑果,這個(gè)也是方差選擇法的原
理。
答案:A
144.若要修改HBase表,下列API哪個(gè)最先被調(diào)用?
A..createConnectionO
B..getTableO
C..getConnectO
D..getAd?in()
答案:A
145.以下關(guān)于特征縮放的處理方法,最小值-最大值歸一化和標(biāo)準(zhǔn)化的應(yīng)用場(chǎng)景描述錯(cuò)誤的是?
A..在實(shí)際應(yīng)用中,特征縮放的標(biāo)準(zhǔn)化操作更常用.
B..標(biāo)準(zhǔn)化方法在分、求類算法中需要使用PCA技術(shù)進(jìn)行降維
C..最小位-以大值婦-化的數(shù)據(jù)不符合正態(tài)分布.
D..最小伯最大(ft歸一化和標(biāo)準(zhǔn)化都需要使用距出來度小相似性.
答案:D
146.以下哪個(gè)選項(xiàng)不是連續(xù)變量的數(shù)值特征離散化方法?
A..OneR
B..獨(dú)熱編碼
C.分箱
D..基于信息燒的方法
答案:B
147.以下關(guān)于大數(shù)據(jù)Lambda架構(gòu)描述不正確的是哪一選項(xiàng)?
A..Lambda架構(gòu)是大數(shù)據(jù)系統(tǒng)里面舉足輕田的架構(gòu),大多數(shù)架構(gòu)戰(zhàn)本都是Lambda架構(gòu)或者提于其變種的架構(gòu)。
B..Lambda架構(gòu)很好的流頤了實(shí)時(shí)處理和陽(yáng)線處理,幾乎覆蔽了大多數(shù)的數(shù)據(jù)分析對(duì)需求處理,W以很好地滿足同時(shí)存在實(shí)時(shí)和底戰(zhàn)需求的場(chǎng)
C.lumbdH架構(gòu)將數(shù)據(jù)通道分為兩個(gè)分支:實(shí)時(shí)沆和離線,實(shí)時(shí)流類似流式架構(gòu).保障了其實(shí)時(shí)4.而離線則以批處理方式為主.保障了最終
一致性.
D..Lambda架構(gòu)的映點(diǎn):離線層與實(shí)時(shí)流內(nèi)部處理的邏輯是不相同的,因此有大量冗余和重復(fù)的芟塊存在.
答案:D
148.現(xiàn)實(shí)中大數(shù)據(jù)挖掘任務(wù)往往特征屬性過多,而個(gè)普遍存在的事實(shí)是,大數(shù)據(jù)集帶來的關(guān)鍵信息只聚集在部分甚
至少數(shù)特征上,因此我們需要進(jìn)行以下哪種操作?
A..特征標(biāo)準(zhǔn)化
B..特征選擇
C..特征歸一化
D..特征清洗
答案;B
149.請(qǐng)問在機(jī)器學(xué)習(xí)中,我們通常將原始數(shù)據(jù)按照比例分割為“測(cè)試集”和“訓(xùn)練集”,從
Sklearn.modelselection中調(diào)用traintestsplit函數(shù),以卜哪項(xiàng)對(duì)該函數(shù)的描述不正確?
A..參數(shù)random_state:是隨機(jī)數(shù)的種子.使用不同的附機(jī)數(shù)也可以保證每次拆分的數(shù)據(jù)集?致.
B..對(duì)數(shù)據(jù)%進(jìn)行切分:訓(xùn)練集和測(cè)試集的語(yǔ)句可以是:Xtrain.X_test,y_train,y_test=train_test_split<X,y,test_size=O.3)
C.該函數(shù)的一般寫法是:traintestsplit(traindata,traintarget.lestsize=0-1,raulomstate=O.stratify=ytrain).其中
test_size參數(shù)表示樣本占比。
D..導(dǎo)入該函數(shù)所在模塊的譜句是:fromsk1earn.mode1selectionittporttrain_test_spliI
答案:C
150.請(qǐng)問以下哪些算法最適合配合線性判別分析LDA使用?
A..聚類匏法
B..非戰(zhàn)性回歸算法
C..多元線性回歸算法
D..一元線性回歸算法
答窠:B
151,以下不屬于大數(shù)據(jù)治理的目的的是哪一項(xiàng)?
A,.保障企業(yè)或組織用■以明確定位到共楨心數(shù)據(jù)伍總,加客戶、供應(yīng)商、產(chǎn)品等信息格逑。
B..梢助企業(yè)等組織建立其現(xiàn)有數(shù)據(jù)的清單,就修建立物理資產(chǎn)的清單一樣。
C..兼顧開放性,如多分析引擎統(tǒng)一管理,滿足多樣化的數(shù)據(jù)分析場(chǎng)景和物掘能力。
[).?防御其財(cái)務(wù)、企業(yè)資源規(guī)劃和人力資源應(yīng)用杵序中的關(guān)雄業(yè)務(wù)數(shù)據(jù)受到未授權(quán)更改.
答案:C
152.以下關(guān)于SparkMLlib中協(xié)同過濾算法參數(shù)描述不正確的是哪一項(xiàng)?
A..Iterations:模型中潛在因子的數(shù)量。
B..nunBlocks:用于并行計(jì)算的塊數(shù),如設(shè)置為T則為自動(dòng)配行。
C..Lambda:ALS
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 深度解析(2026)《GBT 19312-2003小艇 汽油機(jī)和或汽油柜艙室的通風(fēng)》
- 狼瘡性肺炎的氧療與呼吸支持策略
- 環(huán)境因素:ARDS發(fā)病與氣候關(guān)聯(lián)性研究
- 設(shè)計(jì)院面試題及設(shè)計(jì)創(chuàng)意
- 垃圾破袋機(jī)項(xiàng)目可行性分析報(bào)告范文
- 貯料設(shè)備項(xiàng)目可行性研究報(bào)告(總投資7000萬元)(33畝)
- 深度解析(2026)《GBT 18969-2003飼料中有機(jī)磷農(nóng)藥殘留量的測(cè)定 氣相色譜法》(2026年)深度解析
- 深度解析(2026)《GBT 18932.7-2002蜂蜜中苯酚殘留量的測(cè)定方法 液相色譜法》(2026年)深度解析
- 深度解析(2026)《GBT 18875-2002起重機(jī) 備件手冊(cè)》
- 教育行業(yè)名師面試技巧及答案
- 濕疹患者護(hù)理查房
- 2025至2030中國(guó)融媒體行業(yè)市場(chǎng)深度分析及前景趨勢(shì)與投資報(bào)告
- 2026年江蘇農(nóng)牧科技職業(yè)學(xué)院?jiǎn)握新殬I(yè)技能測(cè)試模擬測(cè)試卷附答案
- 2026年南京交通職業(yè)技術(shù)學(xué)院?jiǎn)握新殬I(yè)傾向性測(cè)試題庫(kù)附答案
- 2025吐魯番市高昌區(qū)招聘第二批警務(wù)輔助人員(165人)筆試考試參考試題及答案解析
- 江蘇省徐州市2026屆九年級(jí)上學(xué)期期末模擬數(shù)學(xué)試卷
- 2025年南陽(yáng)市公安機(jī)關(guān)招聘看護(hù)隊(duì)員200名筆試考試參考試題及答案解析
- 產(chǎn)后康復(fù)健康促進(jìn)干預(yù)方案
- 2024年人民法院聘用書記員考試試題及答案
- 2025年高三英語(yǔ)口語(yǔ)模擬(附答案)
- 2023版思想道德與法治專題3 追求遠(yuǎn)大理想 堅(jiān)定崇高信念 第3講 在實(shí)現(xiàn)中國(guó)夢(mèng)的實(shí)踐中放飛青春夢(mèng)想
評(píng)論
0/150
提交評(píng)論