2025年人工智能訓(xùn)練師技能競賽考試題及答案_第1頁
2025年人工智能訓(xùn)練師技能競賽考試題及答案_第2頁
2025年人工智能訓(xùn)練師技能競賽考試題及答案_第3頁
2025年人工智能訓(xùn)練師技能競賽考試題及答案_第4頁
2025年人工智能訓(xùn)練師技能競賽考試題及答案_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2025年人工智能訓(xùn)練師技能競賽考試題及答案

(內(nèi)含單選,多選,判斷題)

1.下列關(guān)于字典的遍歷的描述正確的有()

A.forin變量i,字典:使用i遍歷所有的鍵,有鍵就可以通過變量訪

問其值

B.fbr變量iin字典:使用i遍歷所有的鍵,有鍵就可以通過變量訪

問其值

C.fbr變量i,變量jin字典items):使用變量i遍歷所有鍵,通過

變量j遍歷所有值

D.forin變量i,變量j字典items):使用變量i遍歷所有鍵,通過

變量j遍歷所有值

答案:B,C

2?在數(shù)據(jù)庫的SQL語言開發(fā)中,下述關(guān)于Union和Unionall的描述

哪些是正確的:

A.使用Union或Unionall組合查詢的數(shù)據(jù)集,需滿足兩個條件:列

數(shù)和列的順序必須相同;數(shù)據(jù)類型必須兼容

B.Union在進(jìn)行表鏈接后會篩選掉重復(fù)的記錄,所以在表鏈接后會對

所產(chǎn)生的結(jié)果集進(jìn)行排序運算,刪除重復(fù)的記錄再返回結(jié)果。

C.Unionall返回的結(jié)果集就會包含重復(fù)的數(shù)據(jù)了,如果表數(shù)據(jù)量大

的話可能會導(dǎo)致用磁盤進(jìn)行排序。

因此,從效率上說,union要比unionall快很多

D.如果可以確認(rèn)合并的兩個結(jié)果集中不包含重復(fù)的數(shù)據(jù)的話,那么就

建議使用Unionall

答案:A,B,D

3.采用暴次變換進(jìn)行灰度變換時,當(dāng)累次以大于1時,該變換是針對

如下哪一類圖像進(jìn)行增強

A.圖像整體偏暗

B.圖像整體偏亮

C.圖像細(xì)節(jié)淹沒在暗背景中

D.圖像同時存在過亮和過暗背景

答案:B

4.下面關(guān)于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法,錯誤的

是()

A.可以使用概率密度函數(shù)來描述連續(xù)型隨磯變量的概率分布

B.正態(tài)分布是一種連續(xù)型隨機變量的概率分布

C.〃一個客服一天可能接聽到多少個電話〃是一個連續(xù)型隨機變量

D.連續(xù)型概率密度函數(shù)曲線下方的面積之和為1

答案:C

5.HFile數(shù)據(jù)格式中的Magic字段用于

A.存儲隨機數(shù),防止數(shù)據(jù)損壞

B.存儲數(shù)據(jù)的起點

C.存儲數(shù)據(jù)塊的起點

D.指定字段的長度

答案:A

6.K均值是聚類算法

A.正確

B.錯誤

答案:A

7.數(shù)據(jù)庫系統(tǒng)的核心是軟件工具

A.正確

B.錯誤

答案:B

8.在scikit-learn中,DBSCAN算法對于njobs參數(shù)值的選擇非常

敏感

A.正確

B.錯誤

答案:B

9.下面哪句話是正確的?

A.機器學(xué)習(xí)模型的精準(zhǔn)度越高,則模型的性能越好

B.增加模型的復(fù)雜度,總能減小測試樣木浜差

C.增加模型的復(fù)雜度,總能減小訓(xùn)練樣本誤差

D.以上說法都不對

答案:C

10.下面關(guān)于TRUNCATE和DELETE的說法正確的是

B.用均值填充

C.用隨機森林等算法預(yù)測填充

D.以上選項都不正確

答案:A,B,C

14.UBase分布式模式最好需要。個節(jié)點

A.1

B.2

C.3

D.4

答案:C

15.大數(shù)據(jù)成為重塑國家競爭優(yōu)勢的新機遇。

A.正確

B.錯誤

答案:A

16.不屬于Mayer-SchonbergerV和CukierK.在其著名論著《BigData:

ARevolutionThatWillTransformHowWeLive,Work,andThink》中提出

了大數(shù)據(jù)時代統(tǒng)計的思維變革的是()。

A.不是隨機樣木,而是全體數(shù)據(jù)

B.不是精確性,而是混雜性

C.不是描述性分析,而是預(yù)測性分析

D.不是因果關(guān)系,而是相關(guān)關(guān)系

答案:C

17.有一個28x28的圖片,并使用輸入深度為3和輸出深度為8在上

面運行一個3x3的卷積神經(jīng)網(wǎng)絡(luò)。注意,步幅是1,你正在使用相同

的填充(padding)當(dāng)使用給定的參數(shù)時,輸出特征圖的尺寸是多少?

()

A.13寬、13高、8深

B.28寬、28高、8深

C.13寬、28高、8深

D.28寬、13高、8深

答案:B

18.在有關(guān)數(shù)據(jù)倉庫測試,下列說法正確的是0

A.在完成數(shù)據(jù)倉庫的實施過程中,需要對數(shù)據(jù)倉庫進(jìn)行各種測試.測

試工作中要包括單元測試和系統(tǒng)測試.

B.當(dāng)數(shù)據(jù)倉庫的每個單獨組件完成后,就需要對他們進(jìn)行單元測試.

C.系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進(jìn)行大量的功能測試

和回歸測試.

D.在測試之前沒必要制定詳細(xì)的測試計劃.

答案:A,B,C

19.假如使用Lasso回歸來擬合數(shù)據(jù)集,該數(shù)據(jù)集輸人特征有100個

(XI,X2,X100)o現(xiàn)在,把其中一個特征的值擴大10倍(如特

征XI),然后用相同的正則化參數(shù)對Lass。回歸進(jìn)行修正。

那么下列說法正確的是()。

A.特征XI很可能被排除在模型之外

B.特征XI很可能還包含在模型之中

C.無法確定特征XI是否被舍

0.以上答案都不正確

答案:B

20.HDFS無法高效存儲大量小文件,想讓它能處理好小文件,比較可

行的改進(jìn)策略不包括

A.利用SequenceFile、MapFile、Har等方式歸檔小文件

B.多Master設(shè)計

C.Block大小適當(dāng)調(diào)小

D.調(diào)大namenode內(nèi)存或?qū)⑽募到y(tǒng)元數(shù)據(jù)存到硬盤里

答案:D

21.若N=100,如何將后面的N個字節(jié)讀入字符串中錯誤的是?

A.open('file').readlines()

B.open('file').read(N)

C.線性降維方法目標(biāo)是要保證降維到的超平面能更好地表示原始數(shù)

據(jù)

D.核線性降維方法目標(biāo)是通過核函數(shù)和核方法來避免采樣間投影到

高維間再降維之后的低維結(jié)構(gòu)丟失

答案:A

22.大數(shù)據(jù)的特點不包括下面哪一項

A.巨大的數(shù)據(jù)量

B.多結(jié)構(gòu)化數(shù)據(jù)

C.增長速度快

D.價值密度高

答案:D

23.下列關(guān)于表連接的說法,錯誤的是()

A.rightjoin連接的左表和右表,即使右表沒有對應(yīng)匹配的記錄,也

會返回左表所有記錄

B.irme門oin用來連接一張表中某一字段在另一張表中對應(yīng)字段相匹

配的值

C.leftjoin連接的左表和右表,即使左表沒有對應(yīng)匹配的記錄,也會

返回右表所有記錄

D.連接tablel和table2兩張表時,tabletinnerjointable2后面指

定兩個表之間連接的字段,字段可以不用完全引用表名

答案:A,C,D

24.一般來說,下列哪種方法常用來預(yù)測連續(xù)獨立變量

A.線性回歸

B.邏輯回顧

C.線性回歸和邏輯回歸都行

D.以上說法都不對

答案:A

25.pit.boxplot

A.繪制餅圖

B.繪制折線圖

C.繪制直方圖

D.繪制箱線圖

答案:D

26.NameNode負(fù)責(zé)HDFS數(shù)據(jù)存儲。

A.正確

B.錯誤

答案:B

27.如何調(diào)用Scikit-learn中的數(shù)據(jù)劃分模塊?

A.fromsklearn.model_selectionimporttrain_test_split

B.fromsklearn.datasetsimporttraintestsplit

C.fromsklearn.datasetsimportsplit

答案:A

28.下面關(guān)于隨機變量的說法,正確的有:

A.投擲一次6面骰子得到的點數(shù)是一個隨機變量,取值范圍是1,2,

3,4,5,6

B.隨機變量是一次隨機事件得到的結(jié)果

C.隨機變量是隨機而定的變量

D.投擲100次6面骰子,〃得到的點數(shù)為1的次數(shù)〃這個隨機變量的取

值范圍是。到100

答案:A,D

29.NameNode負(fù)責(zé)管理metadata,client端每次讀寫請求,它都會

從磁盤中讀取或則會寫入metadata信息并反饋client端。

A.正確

B.錯誤

答案:B

30.下列不屬于數(shù)據(jù)科學(xué)與統(tǒng)計學(xué)區(qū)別的是()。

A.數(shù)據(jù)科學(xué)中的數(shù)據(jù)不僅僅是數(shù)值

B.數(shù)據(jù)科學(xué)關(guān)注的不僅僅是〃單一學(xué)科〃問題,超出了數(shù)學(xué)、統(tǒng)計學(xué)、

計算機科學(xué)等單一學(xué)科的范疇

C.數(shù)據(jù)科學(xué)不僅僅是理論研究,也不是純領(lǐng)城實務(wù)知識,它關(guān)注和強

調(diào)的是二者的結(jié)合

D.數(shù)據(jù)科學(xué)和統(tǒng)計學(xué)中的計算一樣,僅僅是加減乘除

答案:D

31.Stage的Task的數(shù)量由什么決定

A.Partition

B.Job

C.Stage

D.TaskScheduler

答案:A

32.查看數(shù)據(jù)的維度大?。篸ata,shape

A.正確

B.錯誤

答案:A

33.下列關(guān)于數(shù)據(jù)交易市場的說法錯誤的是()。

A.數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物

B.商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市場

C.數(shù)據(jù)交易市場通過生產(chǎn)、研發(fā)和分析數(shù)據(jù),為數(shù)據(jù)交易提供幫助

D.數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物

答案:C

34.計算機顯示器主要采用哪一種彩色模型

A.RGB

B.CMY或CMYK

C.CMY或CMYK

D.HSV

答案:A

35.Iladoop中,Reducer的三個步驟是()。

A.Shuffle-Sort-Reduce

B.Shuffle-Reduce-Sort

C.Reduce-Shuffle-Sort

D.Sort-Shufle-Reduce

答案:A

36.表tl中有id,name,salary三列,如果tl是一個論壇的發(fā)帖信

息表,id是發(fā)帖人的編號,name是帖子的標(biāo)題,salary是每次發(fā)帖

論壇獎勵的分?jǐn)?shù)。表示更新tl表中字段內(nèi)容的語句是()

A.createtabletl(idint,namechar(30),salaryint)

B.droptablet1

C.createviewvtlasselectid,namefromtl

D.updatetlsetname=,lixiaoming,whereid=100

答案:D

37.下面關(guān)于回歸的說法,錯誤的是()

A.線性回歸是一種經(jīng)典的回歸分析方法

B.回歸用于分析自變量和應(yīng)變量之間的關(guān)系

C.自變量X(也就是特征)往往包含多個特征

D.在回歸中,建立應(yīng)變量關(guān)于自變量的函數(shù),自變量是應(yīng)變量在函數(shù)

上的映射

答案:D

38.以下哪種方法能夠防止過擬合()

A.增加訓(xùn)練次數(shù)

B.正則化

C.數(shù)據(jù)集擴增

D.dropout

答案:B,C,D

39.字典中可以添加新的鍵-值

A.正確

B.錯誤

答案:A

40.下列關(guān)于分類算法的準(zhǔn)確率、召回率、F1值的描述錯誤的是()。

A.準(zhǔn)確率是檢索出相關(guān)文檔數(shù)與檢索出的文檔總數(shù)的比率,衡量的是

檢索系統(tǒng)的查準(zhǔn)率

B.召回率是指檢索出的相關(guān)文檔數(shù)和文檔庫中所有的相關(guān)文檔數(shù)的

比率,衡量的是檢索系統(tǒng)的查全率

C.正確率、召回率和F1值取值都在0和1之間,數(shù)值越接近0,查

準(zhǔn)率或查全率就越高

D.為了解決準(zhǔn)確率和召回率沖突問題,引入了F1分?jǐn)?shù)

答案:C

4LHBase依賴()提供強大的計算能力

A.Zookeeper

B.Chubby

C.RPC

D.MapReduce

答案:D

42.在神經(jīng)網(wǎng)絡(luò)中引人了非線性的是()。

A.隨機梯度下降

B.修正線性單元(ReLU)

C.卷積函數(shù)

D.以上答案都不正確

答案:B

43.在〃人貨場〃的業(yè)務(wù)模塊下,有可能成為描述〃場〃的情況的相關(guān)數(shù)

據(jù)表是()

A.訂單表

B.訂單詳情表

C.客戶詳情表

0.區(qū)域表

答案:A,B

44.MapReduce的inputsplit一定是一個block。

A.正確

B.錯誤

答案:B

45.極大似然估計與最大后驗估計的思想來自于()

A.兩種參數(shù)估計方法都來自于頻率派

B.極大似然估計來自于貝葉斯學(xué)派,最大后驗估計來自于頻率派

C.極大似然估計來自于頻率派,最大后驗估計來自于貝葉斯學(xué)派

D.兩種參數(shù)估計方法都來自于貝葉斯學(xué)派

答案:C

46.各單位應(yīng)深入分析數(shù)據(jù)資產(chǎn)質(zhì)量問題產(chǎn)生的原因,以〃()〃為基

本策略,制定數(shù)據(jù)資產(chǎn)質(zhì)量提升措施,從數(shù)據(jù)源頭解決數(shù)據(jù)資產(chǎn)質(zhì)量

問題。

A.控制存量、消除增量

B.控制增量、消除存量

C.控制增量、消除增量

D.控制存量、消除存量

答案:B

47.卡方檢驗是用途非常廣的一種假設(shè)檢驗方法,卡方檢驗中將任意

兩行互換則卡方值()

A.變大

B.變小

C.不變

D.不確定

答案:C

48.下列關(guān)于MapReduce計算框架中生成鍵值對的說法正確的是()。

A.可以有相同的鍵,值必須唯一

B.可以有相同的值,鍵必須唯一

C.可以有相同的鍵,也可以有相同的值

D.鍵和值都必須唯一

答案:C

49.下列關(guān)于計算機編程語言的說法錯誤的是()

A.編程語言是用于書寫計算機程序的語言

B.計算機語言可分為機器語言、匯編語言、高級語言

C.計算機能識別和執(zhí)行所有編程語言寫的程序

D.C/C=++pascal>java、Python都屬于高級編程語言

答案:C

50.數(shù)據(jù)資產(chǎn)需求是指滿足公司()所需要的數(shù)據(jù)。

A.業(yè)務(wù)發(fā)展

B.經(jīng)營管理

C.數(shù)據(jù)資產(chǎn)應(yīng)用

D.以上都選

答案:D

51.下列關(guān)于json數(shù)據(jù)格式的說法正確的有()

A.jsonloads栽入json格式數(shù)據(jù)后會用類似數(shù)組的方式把數(shù)據(jù)轉(zhuǎn)換

成數(shù)據(jù)表

B.具有數(shù)據(jù)結(jié)構(gòu)緊湊可讀性強的優(yōu)點

C.Python中可以使用json模塊把json格式字符串解碼轉(zhuǎn)換成

Python對象

D.網(wǎng)絡(luò)中交換數(shù)據(jù)最常見的格式之一

答案:B,C,D

52.若三階矩陣A的行列式|A|二8,已知A有2個特征值,4和7,則

它的另一特征值為

A.2

B.-2

C.5

D.-5

答案:B

53.NameNode負(fù)責(zé)管理元數(shù)據(jù)信息metadata,client端每次讀寫請

求,它都會從磁盤中讀取或會寫入metadata信息并反饋給client端。

A.正確

B.錯誤

答案:B

54.hive的元數(shù)據(jù)存儲在derby和MySQL中有什么區(qū)別

A.沒區(qū)別

B.多會話

C.支持網(wǎng)絡(luò)環(huán)境

D.數(shù)據(jù)庫的區(qū)別

答案:B

55.boosting和bagging都是組合多個分類器投票的方法,二者都是

根據(jù)單個分類器的正確率確定其權(quán)重

A.正確

B.錯誤

答案:B

56.下列方法中屬于映射數(shù)據(jù)到新的間的是()。

A.傅里葉變換

B.特征加權(quán)

C.漸進(jìn)抽樣

D.維歸約

答案:A

57.對一幅100x100像元的圖象,若每像元用8bit表示其灰度值,

經(jīng)霍夫曼編碼后壓縮圖象的數(shù)據(jù)量為40000bit,則圖象的壓縮比為

A.084028

B.125694

C.167361

D.043056

答案:C

58.在Linux下預(yù)裝了Python2、Python3且默認(rèn)Python版本為

Python3,則下列描述可以正確啟動Python的是()

A.在Linux應(yīng)用程序Terminal,打開一個終端窗口,輸入whichPython

B.在Linux應(yīng)用程序Terminal,打開一個終端窗口,輸入Python2或

Python3

C.在Linux應(yīng)用程序Terminal,打井一個終端窗口,輸入

whichPython3

D.在Linux應(yīng)用程序Terminal,打開一個終端窗口,輸入

whichPython2

答案:B

59.HFile數(shù)據(jù)格式中的Metaindex字段用于()

A.Meta塊的長度

B.Meta塊的結(jié)束點

C.Meta塊數(shù)據(jù)內(nèi)容

D.Meta塊的起始點

答案:D

60.Svm適用于以下哪種數(shù)據(jù)集()

A.的數(shù)據(jù)集

B.含有很多噪聲和重疊的數(shù)據(jù)

C.經(jīng)過清洗較為干凈的數(shù)據(jù)

D.以上數(shù)據(jù)都適用

答案:A,C,D

61.查詢數(shù)組的列數(shù):len(data)

A.正確

B.錯誤

答案:B

62.下列關(guān)于深度神經(jīng)網(wǎng)絡(luò)的說法正確的是()。

A.增加神經(jīng)網(wǎng)絡(luò)層數(shù),可能會增加測試數(shù)據(jù)集的分類錯誤率

B.減少神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小測試數(shù)據(jù)集的分類錯誤率

C.增加神經(jīng)網(wǎng)絡(luò)層數(shù),總是能減小訓(xùn)練數(shù)據(jù)集的分類錯誤率

D.A、B都對

答案:A

63.HBase依賴MapReduce提供強大的計算能力

A.正確

B.錯誤

答案:A

64.裝袋通過降低弱分類器的(),改善了整體的()

A.預(yù)測方差,泛化性能

B.整體方差,泛化性能

C.泛化性能,預(yù)測方差

D.預(yù)測均值,預(yù)測結(jié)果

答案:A

65.哪個不是DDL(數(shù)據(jù)庫定義語言)語句?

A.ALTER

B.CREATE

C.drop

D.GRANT

答案:D

66.()認(rèn)為,大數(shù)據(jù)時代的數(shù)據(jù)管理目標(biāo)不一定理想和完美,一致

性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭取)可能導(dǎo)致

另一個特征的損失(放棄)。

A.CAP理論

B.BASE原則

C.數(shù)據(jù)一致性理論

D.大數(shù)據(jù)法則

答案:A

67.堅持創(chuàng)新驅(qū)動發(fā)展,加快大數(shù)據(jù)部署,深化大數(shù)據(jù)應(yīng)用,已成為

()和推動政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇。

A.穩(wěn)增長

B.促改革

C.調(diào)結(jié)構(gòu)

D.惠民生

答案:A,B,C,D

68.數(shù)據(jù)預(yù)處理在實際的數(shù)據(jù)挖掘項日中是花費時間最長也是最為煩

瑣的步驟。()

A.正確

B.錯誤

答案:A

69.一幅灰度級均勻分布的圖象,其灰度范圍在[0,255],則該圖象

的信息量為

A.0

B.255

C.6

D.8

答案:D

70.數(shù)據(jù)支撐單位要加強對所屬()的管理,相關(guān)人員及變動情況要

在所服務(wù)的運監(jiān)中心登記備案。

A.工作人員

B.數(shù)據(jù)支撐人員

C.數(shù)據(jù)管理人員

D.所有人員

答案:B

71.數(shù)據(jù)資產(chǎn)管理()制定公司數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn)規(guī)范,業(yè)務(wù)部門按照規(guī)

范制定本專業(yè)數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn),跨專業(yè)、跨部門的數(shù)據(jù)資產(chǎn)標(biāo)準(zhǔn)應(yīng)充分

考慮后序使用環(huán)節(jié)的要求。

A.歸口部門

B.上級部門

C.管理部門

D.業(yè)務(wù)部門

答案:A

72.構(gòu)建一個神經(jīng)網(wǎng)絡(luò),將前一層的輸出和它自身作為輸人,則有反饋

連接的是()。

A.循環(huán)神經(jīng)網(wǎng)絡(luò)

B.卷積神經(jīng)網(wǎng)絡(luò)

C.限制玻爾茲曼機

D.都不是

答案:A

73.支持向量是指()

A.遠(yuǎn)離決策平面的數(shù)據(jù)點

B.靠近決策平面的數(shù)據(jù)點

C.支持分類結(jié)果的數(shù)據(jù)點

D.不支持分類結(jié)果的數(shù)據(jù)點

答案:B

74.低通濾波法是使()受到抑制而讓()順利通過,從而實現(xiàn)圖像平滑

的順序為

A.高頻成分

B.低頻成分

C.中頻成分

D.超頻成分

答案:A,C

75.下列處理方法能獲得像素級標(biāo)注的是()。

A.圖像分類

B.物體檢測

C.圖像去噪

D.語義分割

答案:D

76.對特征進(jìn)行標(biāo)準(zhǔn)化,以下說法不正確的是()

A.可以使所有特征數(shù)據(jù)處于相同的大小維度

B.可以加快梯度下降的收斂速度

C.會使模型出現(xiàn)過擬合

D.避免了模型對數(shù)據(jù)偏差處理

答案:C

77.一個對象的離群點得分是該對象周圍密度的逆。這是基于概率的

離群點定義。

A.正確

B.錯誤

答案:B

78.函數(shù)root=optimize.fsolve(f,1)是計算標(biāo)量函數(shù)的零點

A.正確

B.錯誤

答案:A

79.數(shù)據(jù)計算之后持久化緩存

A.checkpoint

B.Memory

C.persist

D.Add

答案:A,C

80.測得某個采用按需調(diào)頁策略的計算機系統(tǒng)部分狀態(tài)數(shù)據(jù)為:CPU利

用率5%,用于交換間的磁盤利用率95%,其他I/O設(shè)備利用率5%o

試問,這種情況下()能提高CPU的利用率。

A.增大內(nèi)存的容量

B.增大磁盤交換區(qū)的容量

C.減少多道程序的度數(shù)

D.使用更快速的磁盤交換區(qū)

答案:A,C

81.打造數(shù)據(jù)共享服務(wù)可以實現(xiàn)優(yōu)化用能建議、優(yōu)質(zhì)服務(wù)提升等服務(wù),

提升電力用戶獲得感。

A.正確

B.錯誤

答案:A

82.分類模型包括哪些?

A.主成分分析

B.lasso回歸

C.邏輯回歸

D.決策樹

答案:C,D

83.提升電網(wǎng)運行效率可以實現(xiàn)先于用戶報修之前,生成主動搶修工

單開展自動派發(fā)。

A.正確

B.錯誤

答案:A

84.關(guān)于服務(wù)器-客戶端型數(shù)據(jù)庫和文件型數(shù)據(jù)庫的區(qū)別,以下哪些說

法是正確的:

A.關(guān)于前者,數(shù)據(jù)庫是安裝在數(shù)據(jù)庫服務(wù)器上的,客戶端需要通過網(wǎng)

絡(luò)連接來進(jìn)行訪問

B.文件型數(shù)據(jù)庫是存儲在本地的,一些瀏覽器會傾向于使用這一類的

數(shù)據(jù)庫存儲一些用戶記錄

C.關(guān)于前者,任何一個機器都可以通過TP進(jìn)行對數(shù)據(jù)庫服務(wù)器的訪

問,但是會受到賬戶密碼的權(quán)限限制

D.前者相對后者而言,更輕量級

答案:A,B,C

85.RandomForest的中間樹不是相互獨立的,而

GradientBoostingTrees的中間樹是相互獨立的

A.正確

B.錯誤

答案:B

86.高通濾波后的圖像通常較暗,為改善這種情況,將高通濾波器的

轉(zhuǎn)移函數(shù)加上一常數(shù)量以便引入一些低頻分量。這樣的濾波器叫

A.巴特沃斯高通濾波器

B.高頻提升濾波器

C.高頻加強濾波器

D.理想高通濾波器

答案:B

87.在scikit-learn包里,如果想要把字符串類型的類別特征轉(zhuǎn)換成

數(shù)值型,符合邏輯回歸的要求,需要使用()進(jìn)行轉(zhuǎn)換。

A.Encoder

B.Label

C.to_float

D.LabelEncoder

答案:D

88.如果說線性回歸模型完美地擬合了訓(xùn)練樣木(訓(xùn)練樣木誤差為零),

則下列說法正確的是()。

A.測試樣本誤差始終為零

B.測試樣本誤差不可能為零

C.測試樣本誤差不一定為零

D.以上答案都不對

答案:C

89.從數(shù)字集合{1,2,3,4,-,20)中選出4個數(shù)字的子集,如果不允許

兩個相連的數(shù)字出現(xiàn)在同一集合中,那么能夠形成多少個這種子集?

A.2380

B.816

C.330

D.1220

答案:A

90.Hadoop組件的核心功能包括

A.分布式數(shù)據(jù)存儲

B.分析

C.挖掘

D.分布式計算

答案:A,D

91.下面關(guān)于k近鄰的說法,正確的是:

A.根據(jù)特征向量X計算樣本之間的相似性,選擇離中心點最相似的k

個樣木

B.k近鄰既可以用于分類,也可以用于回歸

C.k近鄰用于分類時,對于新的樣本,計算離其最近的k個樣本的平

均值,作為新樣本的預(yù)測值

D.k近鄰用于分類時,對于新的樣本,根據(jù)其k個最近鄰樣本的類別,

通過多數(shù)表決的方式預(yù)測新樣本的類別

答案:B,D

92.Knn算法的優(yōu)點包括以下哪項()

A.精度高

B.計算復(fù)雜度低

C.對異常值不敏感

D.無數(shù)據(jù)輸入假定

答案:A,C,D

93.下列關(guān)于L1正則化與L2正則化的描述錯誤的是()。

A.IJ范數(shù)正則化有助于降低過擬合風(fēng)險

B.L2范數(shù)正則化有助于降低過擬合風(fēng)險

C.L1范數(shù)正則化比L2范數(shù)正則化更易于獲得稀疏解

D.L2范數(shù)正則化比L1范數(shù)正則化更易于獲得稀疏解

答案:D

94.下列演示方式中,不屬于傳統(tǒng)統(tǒng)計圖方式的是()

A.柱狀圖

B.餅狀圖

C.曲線圖

D.網(wǎng)絡(luò)圖

答案:D

95.Shufle處理:為了確保每個reduce()函數(shù)的輸人都按鍵排序。

()

A.正確

B.錯誤

答案:A

96.設(shè)計為8層的卷積神經(jīng)網(wǎng)絡(luò)AlexNet網(wǎng)絡(luò)成功使用(),其效果遠(yuǎn)

遠(yuǎn)地超過了Sigmoid刖數(shù)。

A.ReLU函數(shù)

B.sigmoid函數(shù)

C.tanh函數(shù)

D.sin函數(shù)

答案:A

97.指標(biāo)用來描述業(yè)務(wù)行為結(jié)果的好壞程度,但是對于指標(biāo)值的觀測

應(yīng)在一定條件下進(jìn)行,以下選項中不屬于觀測指標(biāo)值好壞程度的前提

條件的是()

A.相同時間內(nèi)

B.相同條件下

C.相同維度下

D.相同觀測者

答案:D

98.下列關(guān)于OLAP和OLTP的區(qū)別描述不正確的是()。

A.OLAP主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù),它與OTAP應(yīng)用

程序不同

B.與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對簡單的事務(wù)

C.OLAP的特點在于事務(wù)量大,但事務(wù)內(nèi)容比較簡單且重復(fù)率高

D.OLAP是以數(shù)據(jù)倉庫為基礎(chǔ)的,但其最終數(shù)據(jù)來源與OLTP一樣均來

自底層的數(shù)據(jù)庫系統(tǒng),兩者面對的用戶是相同的

答案:C

99.大數(shù)據(jù)的最顯著特征是數(shù)據(jù)類型多樣

A.正確

B.錯誤

答案:B

100.下列關(guān)于總體和樣本的說法正確的有()。

A.總體也就是研究對象的全體

B.如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品,那么樣本可以是每間

隔10s抽取的產(chǎn)品

C.樣本是從總體的隨機抽樣

D.如果總體是某一小學(xué)的1000名學(xué)生,那么樣本可以是一年級的100

名學(xué)生

答案:A,B,C

10L打造數(shù)據(jù)共享服務(wù)可以實現(xiàn)第三方數(shù)據(jù)公共服務(wù)產(chǎn)品標(biāo)準(zhǔn)開發(fā)

生態(tài)環(huán)境,培育大數(shù)據(jù)運營〃獨角獸〃企業(yè)。

A.正確

B.錯誤

答案:A

102.數(shù)據(jù)流轉(zhuǎn)和應(yīng)用過程中應(yīng)確保(),前序環(huán)節(jié)應(yīng)保證數(shù)據(jù)的真實、

完整并及時傳遞到后序環(huán)節(jié),前后環(huán)節(jié)數(shù)據(jù)應(yīng)保持銜接一致。

A.可追溯

B.可復(fù)查

C.可交換

D.可更改

答案:A,B

103,以下的場景中,適合使用聚類算法的是:

A.根據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習(xí)慣等相關(guān)信息,

預(yù)測顧客的消費額

B.據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習(xí)慣等相關(guān)信息,預(yù)

測顧客是否會重復(fù)購買

C.根據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習(xí)慣等相關(guān)信息,

把顧客分成不同顧客群體,針對不同的顧客群體采取針對性強的產(chǎn)品

推廣方法

D.據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習(xí)慣等相關(guān)信息,給

顧客推薦不同的商品

答案:C

104.各單位應(yīng)深入分析數(shù)據(jù)資產(chǎn)質(zhì)量問題產(chǎn)生的原因,以〃控制增量、

消除增量〃為基本策略,制定數(shù)據(jù)資產(chǎn)質(zhì)量提升措施,從數(shù)據(jù)源頭解

決數(shù)據(jù)資產(chǎn)質(zhì)量問題。

A.正確

B.錯誤

答案:B

105.下列關(guān)于DBSCAN算法的說法,正確的是:

A.DBSCAN算法根據(jù)?和min_samples把樣本點分成Core,outlier兩

B.如果以一個樣本點為中心,以?為半徑的范圍內(nèi)的樣本點總數(shù)小于

min_samples,那么此樣本點就會被認(rèn)為是異常點

C.如果以一個樣本點為中心,在以?為半徑的范圍內(nèi)有大于或等于

min_samples的樣本點,則這個樣本點屬于Reachable類

D.DBSCAN算法根據(jù)?和min_samples把樣本點分成Core,Reachable,

outlier三類

答案:D

106.圖像取反操作適用于增強圖像主體灰度偏亮的圖像

A.正確

B.錯誤

答案:B

107.在梳理抽象業(yè)務(wù)線索及需求到具體數(shù)據(jù)時常用到5W2H模型,那

么通過5W2H模型整理數(shù)據(jù)的思維步驟包括哪些()

A.將業(yè)務(wù)場景進(jìn)行5W2H的概括總結(jié)

B.將5W2H總結(jié)內(nèi)容梳理為業(yè)務(wù)維度

C.將業(yè)務(wù)維度梳理為數(shù)據(jù)表

D.將數(shù)據(jù)表展開到字段

答案:A,B,C,D

108.圖象增強按增強處理所在間不同分為

A.頻率

B.域

C.峰值

D.頻域

答案:B,D

109.對于SQL語句select*fromtwherea=100andb=200,哪個索引可

以使用到?

A.索引idx_b(b)

B.索引idx_b_a(b,a)

C.索引idx_a_b(a,b)

D.都可以

答案:D

110.下列關(guān)于計算機存儲容量單位的說法錯誤的是()。

A.lkB<lMB<lGB

B.基本單位是字節(jié)(Byte)

C.一個漢字需要一個字節(jié)的存儲間

D.一個字節(jié)能夠容納一個英文字符

答案:C

111.特征集合X中可能包含很多冗余或者跟預(yù)測目標(biāo)y無關(guān)的特征,

所以需要進(jìn)行特征選擇

A.正確

B.錯誤

答案:B

112.對從公司獲取的各類數(shù)據(jù)資產(chǎn),各單位、部門和人員只享有有限

的、不排它的使用權(quán),對外開放的數(shù)據(jù)資產(chǎn)在使用協(xié)議中對數(shù)據(jù)再行

轉(zhuǎn)讓應(yīng)進(jìn)行禁止或限制。

A.正確

B.錯誤

答案:A

113.下列關(guān)于支持向量機優(yōu)化性問題形式的說法正確的是()o

A.它是一個凸二次規(guī)劃問題

B.它是一個凸一次規(guī)劃問題

C.它是一個凹二次規(guī)劃問題

D.它是一個凹一次規(guī)劃問題

答案:A

114.觀察樣本次數(shù)如何影響過擬合?注意:所有情況的參數(shù)都保持一

A.觀察次數(shù)少,容易發(fā)生過擬合

B.觀察次數(shù)少,不容易發(fā)生過擬合

C.觀察次數(shù)多,容易發(fā)生過擬合

D.觀察次數(shù)多,不容易發(fā)生過擬合

答案:A,D

115.大數(shù)據(jù)關(guān)鍵技術(shù)及產(chǎn)品研發(fā)與產(chǎn)業(yè)化工程主要包括哪些()?

A.網(wǎng)絡(luò)和大數(shù)據(jù)安全支撐體系建設(shè)

B.加強大數(shù)據(jù)基礎(chǔ)研究

C.大數(shù)據(jù)技術(shù)產(chǎn)品研發(fā)

D.提升大數(shù)據(jù)技術(shù)服務(wù)能力

答案:B,C,D

116.以下說法正確的是()。

A.聚類是監(jiān)督學(xué)習(xí)

B.聚類是非監(jiān)督學(xué)習(xí)

C.分類是非監(jiān)督學(xué)習(xí)

D.分類是監(jiān)督學(xué)習(xí)

答案:B,D

117.假定存在t=(l,2,3),如何轉(zhuǎn)化為list

A.t[O:-l]

B.t[0:len(t)]

C.t.convert()

D.list(t)

答案:A,B,C

118.數(shù)據(jù)預(yù)處理的方法有()。

A.標(biāo)準(zhǔn)化

B.訓(xùn)練模型

C.歸一化

D.填充缺失值

答案:A,C,D

119.在分析人員向決策者提交業(yè)務(wù)分析報告匯報分析成果時,業(yè)務(wù)分

析報告的文字信息應(yīng)盡量避免()

A.對圖表信息重復(fù)描述

B.過多主觀推測性結(jié)論

C.對圖表信息進(jìn)行總結(jié)

D.對論據(jù)進(jìn)行片面解讀

答案:A,B,D

120.下列關(guān)于MySQL表的數(shù)據(jù)類型,說法正確的是()

A.使用HeidiSQL導(dǎo)入數(shù)據(jù)表中的數(shù)據(jù),在設(shè)置字段的時候需要注意

數(shù)據(jù)表中對應(yīng)字段的數(shù)據(jù)類型

B.數(shù)據(jù)類型CHAR和VARC1IAR的區(qū)別是,CHAR指定定長字符串類型,

并且必須在圓括號內(nèi)用一個大小修飾符來定義,VARCIIAR指定可變長

度字符串類型

C.明確指定數(shù)據(jù)類型可以保證插入數(shù)據(jù)的數(shù)據(jù)類型的一致性,還可以

優(yōu)化存儲

D.MySQL中的數(shù)據(jù)類型主要包括數(shù)值類型、字符串類型、運算符號類

答案:A,B,C

121.在GradientBoostingTrees中可以生成并行樹,因為它們是相互

獨立的

A.正確

B.錯誤

答案:B

122.關(guān)于數(shù)據(jù)分析流程,下列說法正確的是:

A.探索型數(shù)據(jù)分析發(fā)現(xiàn)的數(shù)據(jù)特征可以很好地指導(dǎo)后續(xù)預(yù)測型數(shù)據(jù)

分析,但是對驗證型數(shù)據(jù)分析指導(dǎo)作用不大

B.在預(yù)測型數(shù)據(jù)分析之前必須進(jìn)行驗證型數(shù)據(jù)分析

C.探索型數(shù)據(jù)分析和數(shù)據(jù)清理是相輔相成的,通過探索型數(shù)據(jù)分析可

以發(fā)現(xiàn)數(shù)據(jù)異常值,從而指導(dǎo)數(shù)據(jù)清理

D.預(yù)測型數(shù)據(jù)分析結(jié)果可以生成數(shù)據(jù)分析報告,從而指導(dǎo)決策

答案:C,D

123.spark中master管理什么?

A.管理集群

B.節(jié)點

C.計算節(jié)點

D.組件

答案:A,B

124.下列不適合使用機器學(xué)習(xí)方法解決的是()。

A.判斷電子郵件是否是垃圾郵件

B.判斷給定的圖中是否有環(huán)

C.判斷是否給指定用戶辦理信用卡

D.對滴滴拼車乘客分簇

答案:B

125.數(shù)據(jù)資產(chǎn)規(guī)劃與計劃管理是指制定數(shù)據(jù)資產(chǎn)()并組織實施。

A.發(fā)展戰(zhàn)略

B.規(guī)劃

C.年度計劃

D.以上都選

答案:D

126.每個map槽就是一個線程。

A.正確

B.錯誤

答案:B

127.用于分類的指標(biāo)是()o

A.roc

B.fl

C.R'2

D.precision

答案:A,B,D

128.一個分布式應(yīng)用程序協(xié)調(diào)服務(wù),分布式應(yīng)用程序可以基于它實現(xiàn)

同步服務(wù),配置維護(hù)和命名服務(wù)等的工具有

A.Flume

B.Zookeeper

C.Storm

D.Sparkstreaming

答案:B

129,常用的圖像去噪方法包括()。

A.高斯濾波

B.中值濾波

C.P-M方程去噪

D.以上答案都正確

答案:D

130.設(shè)計分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時,為取樣更高效,一般可

以對表中的連續(xù)字段進(jìn)行什么操作。

A.分桶

B.分區(qū)

C.索引

D.分表

答案:A

131.回歸方程判定系數(shù)的計算公式R2=SSR/SST=1-SSE/SST,對判定

系數(shù)描述錯誤的是()。

A.SSE指殘差平方和

B.SSR指總離差平方和

C.判定系數(shù)用來衡量回歸方程的擾合優(yōu)度

D.判定系數(shù)R2等于相關(guān)系數(shù)的平方

答案:B

132.()能使圖像亮度得到平緩漸變,減小突變梯度,改善圖像質(zhì)量。

A.圖像平滑

B.圖像分類

C.圖像識別

D.圖像分割

答案:A

133.點擊率的預(yù)測是一個數(shù)據(jù)比例不平衡問題(如訓(xùn)練集中樣本呈陰

性的比例為99%,陽性的比例是1%),如果用這種數(shù)據(jù)建立模型并使

得訓(xùn)練集的準(zhǔn)確率高達(dá)99%。則可以得出結(jié)論是()。

A.模型的準(zhǔn)確率非常高,我們不需要進(jìn)一步探索

B.模型不好,我們應(yīng)建一個更好的模型

C.無法評價模型

D.以上答案都不正確

答案:C

134.假設(shè)precision=TP/(TP+FP),recall=TP/(TP+FN),則在二分

類問題中,當(dāng)測試集的正例和負(fù)例數(shù)量不均衡時,下列評價方案中相

對不合理的是()。

A.Accuracy:(TP+TN)/all

B.F-value:2*recal1*precision/(recal1+precision)

C.G-mean:sqrt(precision*recall)

D.AUC:曲線下面積

答案:A

135.根據(jù)不同的業(yè)務(wù)需求來建立數(shù)據(jù)模型,抽取最有意義的向量,決

定選取哪種方法的數(shù)據(jù)分析角色人員是()

A.數(shù)據(jù)管理人員

B.數(shù)據(jù)分析員

C.研究科學(xué)家

D.軟件開發(fā)工程帥

答案:C

136,歸集數(shù)據(jù)資產(chǎn)應(yīng)用成果,評估數(shù)據(jù)資產(chǎn)應(yīng)用成效,加強成果(),

促進(jìn)共享和應(yīng)用。

A.統(tǒng)一管理

B.專業(yè)管理

C.管理應(yīng)用

D.統(tǒng)一應(yīng)用

答案:B,C,D

137.下列關(guān)于HDFS文件寫人的描述正確的有()。

A.不支持多用戶對同一文件的寫操作

B.用戶不可以在文件任意位置進(jìn)行修改

C.默認(rèn)將文件復(fù)制成三份存放

D.復(fù)制的文件塊默認(rèn)不存在同一機架上

答案:A,B,C,D

138.Ganglia不僅可以進(jìn)行監(jiān)控,也可以進(jìn)行告警。

A.正確

B.錯誤

答案:A

139.在全球信息化快速發(fā)展的大背景下,大數(shù)據(jù)已成為國家重要的基

礎(chǔ)性戰(zhàn)略資源,正引領(lǐng)新一輪科技創(chuàng)新。

A.正確

B.錯誤

答案:A

140.輸人圖像已被轉(zhuǎn)換為大小為28X28的矩陣和大小為7X7的步

幅為1的核心/濾波器,則卷積矩陣的大小是()。

A.22X22

B.21X21

C.28X28

D.7X7

答案:A

14LDBSCAN算法可以適用于以下哪種數(shù)據(jù)()

A.有噪聲的數(shù)據(jù)集

B.稠密數(shù)據(jù)集

C.非凸數(shù)據(jù)集

D.以上都適用

答案:D

142.以下關(guān)于損失函數(shù)說法正確的是()

A.損失函數(shù)可以用于評價模型的擬合效果

B.損失函數(shù)的選取是固定的

C.可以通過損失函數(shù)構(gòu)造優(yōu)化目標(biāo)

D.線性回歸模型常用mse作為損失函數(shù)

答案:A,C,D

143.下面哪個不是RDD的特點

A.可分區(qū)

B.可序列化

C.可修改

D.可持久化

答案:C

144.假設(shè)有一個如下定義的神經(jīng)網(wǎng)絡(luò),如果去掉RcLU層,這個神經(jīng)

網(wǎng)絡(luò)仍能處理非線性函數(shù),這種說法是()

A.正確的

B.錯誤的

C.兩者并沒有關(guān)系

D.以上都不對

答案:A

145.z=stats.beta,rvs(size=20,a=3,b=4)生成20個服從參數(shù)

a=3,b=4的beta分布的隨機數(shù)

A.正確

B.錯誤

答案:A

146.下面關(guān)于邏輯回歸的說法,正確的是:

A.邏輯回歸主要應(yīng)用于二分類問題

B.邏輯回歸使用LogisticFunction后得到的數(shù)值在T到1之間

C.把邏輯回歸應(yīng)用于多分類問題時,需要使用Onevs.Rest方法

D.邏輯回歸得到的數(shù)值可以看作屬于類別1的概率

答案:A,C,D

147.二維數(shù)組切片時,a[b:c]中b和c分別代表的是()。

A.b為行

B.c為行

C.c為列

D.b為列

答案:A,C

148.目前,我國在大數(shù)據(jù)發(fā)展和應(yīng)用方面已具備一定基礎(chǔ),擁有市場

優(yōu)勢和()。

A.發(fā)展優(yōu)勢

B.發(fā)展能力

C.發(fā)展?jié)摿?/p>

D.穩(wěn)定發(fā)展

答案:C

149.task運行在那他機器上,dag劃分stage的時候確定的

A.正確

B.錯誤

答案:A

150.LLE適用于以下哪種數(shù)據(jù)()

A.非閉合的球面

B.稀疏數(shù)據(jù)

C.分布不均的數(shù)據(jù)

D.以上都適合

答案:A

151.公司數(shù)據(jù)資產(chǎn)管理遵循統(tǒng)一管理與分級負(fù)責(zé)相結(jié)合、共享應(yīng)用與

集約可控相結(jié)合、全面開展與循序漸進(jìn)相結(jié)合的原則。

A.正確

B.錯誤

答案:A

152.關(guān)于NoSQL型數(shù)據(jù)庫和SQL型數(shù)據(jù)庫之間的差別,以下哪些說法

是正確的:

A.MongoDB,Cassandra是非關(guān)系型數(shù)據(jù)庫

B.Oracle,MSSQLServer,MySQL,SQLite都是關(guān)系型數(shù)據(jù)庫

C.NoSQL數(shù)據(jù)庫不可以使用SQL語言進(jìn)行查詢

D.相比較非關(guān)系型數(shù)據(jù)庫而言,關(guān)系型數(shù)據(jù)庫在分布式的場合使用較

答案:A,B,C

153.創(chuàng)建一個大小為10的隨機向量并且將該向量中最大的值替換為

0:Z=np.random,random(10)Z[Z.argmax()]=0

A.正確

B.錯誤

答案:A

154.下面關(guān)于隨機森林和集成學(xué)習(xí)的說法,正確的是:

A.隨機森林只能用于解決分類問題

B.隨機森林由隨機數(shù)量的決策樹組成

C.集成學(xué)習(xí)通過構(gòu)建多個模型,并將各個模型的結(jié)果使用求平均數(shù)的

方法集成起來,作為最終的預(yù)測結(jié)果,提高分類問題的準(zhǔn)確率

D.隨機森林的弱分類器(基分類器)的特征選擇是隨機的

答案:C,D

155.下面哪個超參數(shù)的增加可能會造成隨機森林過擬合()

A.隨機種子數(shù)

B.學(xué)習(xí)速率

C.樹的深度

D.樹的數(shù)量

答案:C

156.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對數(shù)據(jù)進(jìn)行()錄入等處理

的過程。

A.更正

B.刪除

C.補充

D.保存

答案:A,B,C

157.大數(shù)據(jù)成為推動經(jīng)濟轉(zhuǎn)型發(fā)展的新動力。

A.正確

B.錯誤

答案:A

158.下血關(guān)于隨機變量的說法,正確的有()

A.投擲100次6面骰子,〃得到的點數(shù)為1的次數(shù)〃這個隨機變量的取

值范圍是20到100

B.隨機變量是一次隨機事件得到的結(jié)果

C.投擲一次6面骰子得到的點數(shù)是一個隨機變量,取值范圍是1,2,

3,4,5,6

D.隨機變量是隨機而定的變量

答案:C

159.AGNES是指層次聚類算法

A.正確

B.錯誤

答案:B

160.下列說法正確的是()

A.cookielib庫提供可存儲cookie的對象,以便于與urllirequost

庫配合使用來進(jìn)行訪問

B.過于頻繁的爬蟲不會帶給網(wǎng)站額外的壓力

C.使用.split??梢赃M(jìn)行字符串的拆分

D.正則表達(dá)式可以實現(xiàn)對爬取信息的快速過濾

答案:A,C,D

161.Hadoop支持?jǐn)?shù)據(jù)的隨機讀寫

A.正確

B.錯誤

答案:B

162.數(shù)據(jù)資產(chǎn)生成是指數(shù)據(jù)在業(yè)務(wù)信息系統(tǒng)中通過自動采集或()創(chuàng)

建的過程。

A.人工錄入

B.自動錄入

C.人工編輯

D.自動生成

答案:A

163.當(dāng)計算機顯示器顯示的顏色偏藍(lán)時,提高紅色和綠色分量可以對

顏色進(jìn)行校正

A.正確

B.錯誤

答案:A

164.通過郵件內(nèi)容來檢測該郵件是否為垃圾郵件,這是一個回歸問題

A.正確

B.錯誤

答案:A

165.下面關(guān)于回歸的說法,正確的是:

A.自變量X(也就是特征)往往包含多個特征

B.回歸用于分析自變量和應(yīng)變量之間的關(guān)系

C.線性回歸是一種經(jīng)典的回歸分析方法

D.在回歸中,建立應(yīng)變量關(guān)于自變量的函數(shù),應(yīng)變量是自變量在函數(shù)

上的映射

答案:A,B,C,D

166.Spark支持的分布式部署方式中哪個是錯誤的

A.standalone

B.sparkonmesos

C.sparkonYARN

D.Sparkonlocal

答案:D

167.對參數(shù)進(jìn)行L2正則,是機器學(xué)習(xí)常用的防止過擬合的方法。對

參數(shù)做L2正則時,()是對參數(shù)本身做先驗分布假設(shè)。

A.高斯分布

B.拉普拉斯分布

C.泊松分布

D.均勾分布

答案:A

168.關(guān)于算法的描述,以下選項中正確的是

A.算法是指解題方案的準(zhǔn)確而完整的描述

B.算法的復(fù)雜度主要包括時間復(fù)雜度和數(shù)據(jù)復(fù)雜度

C.算法具有可行性、確定性、有窮性的基本特征

D.算法的基本要素包括數(shù)據(jù)對象的運算和操作及算法的控制結(jié)構(gòu)

答案:A,C,D

169.下列說法錯誤的有()o

A.列表是有序的

B.集合是有序的

C.元組是有序的

D.字典是有序的

答案:B,D

170.以下關(guān)于數(shù)據(jù)分析類型

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論