人工智能訓練師技能競賽考試題（附答案）

上傳人：新*** IP屬地：河北上傳時間：2025-10-15 格式：PDF 頁數(shù)：56 大?。?.92MB 積分：12 舉報 版權申訴

已閱讀5頁，還剩51頁未讀，繼續(xù)免費閱讀

版權說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權，請進行舉報或認領

文檔簡介

人工智能訓練師技能競賽考試題（附答案）

單選題

1.裝袋通過降低弱分類器的（），改善了整體的（）

A、預測方差，泛化性能

B、整體方差，泛化性能

C、泛化性能，預測方差

D、預測均值，預測結果

參考答案：A

2.指標用來描述業(yè)務行為結果的好壞程度，但是對于指標值的觀

測應在一定條件下進行，以下選項中不屬于觀測指標值好壞程度

的前提條件的是（）

A、相同時間內(nèi)

B、相同條件下

C、相同維度下

D、相同觀測者

參考答案：D

3.支持向量是指。

A、遠離決策平面的數(shù)據(jù)點

B、靠近決策平面的數(shù)據(jù)點

C、支持分類結果的數(shù)據(jù)點

1st

D、不支持分類結果的數(shù)據(jù)點

參考答案：B

4.在神經(jīng)網(wǎng)絡中引入了非線性的是（）。

A、隨機梯度下降

B、修正線性單元（ReLU）

C、卷積函數(shù)

D、以上答案都不正確

參考答案：B

5.在大型數(shù)據(jù)集上訓練決策樹時，為了花費更少的時間來訓練這

個模型，下列做法正確的是（）。

A、增加樹的深度

B、增加學習率

C、減小樹的深度

D、減少樹的數(shù)量

參考答案：C

6.在scikit-learn包里，如果想要把字符串類型的類別特征轉換成

數(shù)值型，符合邏輯回歸的要求，需要使用0進行轉換。

A、Encoder

B、Label

C、to_float

D、LabclEncodcr

參考答案：D

2nd

7.在Linux下預裝了Pvthon2>Pvthon3且默認Python版本為Pyth

on3,則下列描述可以正確啟動Python的是（）

A、在Linux應用程序Terminal,打開一個終端窗口，輸入which

PyJthon

B、在Linux應用程序Terminal,打開一個終端窗口，輸入Pytho

n2或Python3

C^在Linux應用程序Terminal,打開一個終端窗口，輸入which

PJython3

D、在Linux應用程序Terminal,打開一^終端窗口，輸入which

PJvthon2

參考答案：B

8.有一個28x28的圖片，并使用輸入深度為3和輸出深度為8在

上面運行一個3x3的卷積神經(jīng)網(wǎng)絡。注意，步幅是1,你正在使

用相同的填充（padding）當使用給定的參數(shù)時，輸出特征圖的尺

寸是多少？0

A、13寬、13高、8深

B、28寬、28高、8深

C、13寬、28高、8深

D、28寬、13高、8深

參考答案：B

9.有個袋子裝有2個紅球，2個藍球，1個黃球，取出球以后不再

放回，請問取兩次出來的球是相同顏色的概率是多少？

3rd

A、3333

B、25

C、2

D、1667

參考答案：C

10.以下的場景中，適合使用聚類算法的是：

A、根據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習慣等相關

信息，預測顧客的消費額

B、據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習慣等相關信

息，預測顧客是否會重復購買

C、根據(jù)顧客的年終、收入、職業(yè)、購買頻率、購買習慣等相關

信息，把顧客分成不同顧客群體，針對不同的顧客群體采取針對

性強的產(chǎn)品推廣方法

D、據(jù)顧客的年齡、收入、職業(yè)、購買頻率、購買習慣等相關信

息，給顧客推薦不同的商品

參考答案：C

11.一個分布式應用程序協(xié)調(diào)服務，分布式應用程序可以基于它實

現(xiàn)同步服務，配置維護和命名服務等的工具有

A、Flume

B、Zookeeper

C、Storm

D、Sparkstreaming

4th

參考答案：B

12.一幅灰度級均勻分布的圖象，其灰度范圍在[0,255],則該圖

象的信息量為

A、0

B、255

C、6

D、8

參考答案：D

13.一般來說，下列哪種方法常用來預測連續(xù)獨立變量

A、線性回歸

B、邏輯回顧

C、線性回歸和邏輯回歸都行

D、以上說法都不對

參考答案：A

14.下面哪句話是正確的？

A、機器學習模型的精準度越高，則模型的性能越好

B、增加模型的復雜度，總能減小測試樣本誤差

C、增加模型的復雜度，總能減小訓練樣本誤差

D、以上說法都不對

參考答案：C

15.下面哪個超參數(shù)的增加可能會造成隨機森林過擬合()

A、隨機種子數(shù)

5th

B、學習速率

C、樹的深度

D、樹的數(shù)量

參考答案：C

16.下面哪個不是RDD的特點

A、可分區(qū)

B、可序列化

C、可修改

D、可持久化

參考答案：C

17.下面關于隨機變量的說法，正確的有()

A、投擲100次6面骰子，”得到的點數(shù)為1的次數(shù)”這個隨機變

量的取值范圍是20到100

B、隨機變量是一次隨機事件得到的結果

C、投擲一次6面骰子得到的點數(shù)是一個隨機變量，取值范圍是

1,2,3,4,5,6

D、隨機變量是隨機而定的變量

參考答案：C

18.下面關于連續(xù)型隨機變量以及連續(xù)型概率密度函數(shù)的說法，錯

誤的是0

A、可以使用概率密度函數(shù)來描述連續(xù)型隨機變量的概率分右

B、正態(tài)分布是一種連續(xù)型隨機變量的概率分布

6th

c、”一個客服一天可能接聽到多少個電話”是一個連續(xù)型隨機變

量

D、連續(xù)型概率密度函數(shù)曲線下方的面積之和為1

參考答案：C

19.下面關于回歸的說法，錯誤的是（）

A、線性回歸是一種經(jīng)典的回歸分析方法

B、回歸用于分析自變量和應變量之間的關系

C、自變量X（也就是特征）往往包含多個特征

D、在回歸中，建立應變量關于自變量的函數(shù)，自變量是應變量

在函數(shù)上的映射

參考答案：D

20.下列演示方式中，不屬于傳統(tǒng)統(tǒng)計圖方式的是（）

A、柱狀圖

B、餅狀圖

C、曲線圖

D、網(wǎng)絡圖

參考答案：D

21.下列關于支持向量機優(yōu)化性問題形式的說法正確的是（）。

A、它是一個凸二次規(guī)劃問題

B、它是一^個凸一^欠規(guī)劃問題

C、它是一個凹二次規(guī)劃問題

D、它是一個凹一次規(guī)劃問題

7th

參考答案：A

22.下列關于數(shù)據(jù)整合和分組的說法不正確的是（）o

A、數(shù)據(jù)連接可以用concat或merge函數(shù)

B、axis=l表示軸向連接

C、數(shù)據(jù)分組可以使用mean函數(shù)

D、使用agg可以自定義多個聚合函數(shù)

參考答案：C

23.下列關于數(shù)據(jù)交易市場的說法錯誤的是（）。

A、數(shù)據(jù)交易市場是大數(shù)據(jù)產(chǎn)業(yè)發(fā)展到一定程度的產(chǎn)物

B、商業(yè)化的數(shù)據(jù)交易活動催生了多方參與的第三方數(shù)據(jù)交易市

場

C、數(shù)據(jù)交易市場通過生產(chǎn)、研發(fā)和分析數(shù)據(jù)，為數(shù)據(jù)交易提供

幫助

D、數(shù)據(jù)交易市場是大數(shù)據(jù)資源化的必然產(chǎn)物

參考答案：C

24.下列關于深度神經(jīng)網(wǎng)絡的說法正確的是（）。

A、增加神經(jīng)網(wǎng)絡層數(shù)，可能會增加測試數(shù)據(jù)集的分類錯誤率

B、減少神經(jīng)網(wǎng)絡層數(shù)，總是能減小測試數(shù)據(jù)集的分類錯誤率

C、增加神經(jīng)網(wǎng)絡層數(shù)，總是能減小訓練數(shù)據(jù)集的分類錯誤率

D、A、B都對

參考答案：A

25.下列關于計算機存儲容量單位的說法錯誤的是（）。

8th

A、lkB<lMB<lGB

B、基本單位是字節(jié)(Byte)

C、一個漢字需要一個字節(jié)的存儲間

D、一個字節(jié)能夠容納一個英文字符

參考答案：C

26.下列關于計算機編程語言的說法錯誤的是()

A、編程語言是用于書寫計算機程序的語言

B、計算機語言可分為機器語言、匯編語言、高級語言

C、計算機能識別和執(zhí)行所有編程語言寫的程序

D、C/C=++pascal、java、Python都屬于高級編程語言

參考答案：C

27.下列關于分類算法的準確率、召回率、F1值的描述錯誤的是

()o

A、準確率是檢索出相關文檔數(shù)與檢索出的文檔總數(shù)的比率，衡

量的是檢索系統(tǒng)的查準率

B、召回率是指檢索出的相關文檔數(shù)和文檔庫中所有的相關文檔

數(shù)的比率，衡量的是檢索系統(tǒng)的查全率

C、正確率、召回率和F1值取值都在。和1之間，數(shù)值越接近0,

查準率或查全率就越高

D、為了解決準確率和召回率沖突問題，引入了F1分數(shù)

參考答案：C

28.下列關于OLAP和OLTP的區(qū)別描述不正確的是()。

9th

A、OLAP主要是關于如何理解聚集的大量不同的數(shù)據(jù)，它與O

TAP應用程序不同

B、與OLAP應用程序不同，OLTP應用程序包含大量相對簡單

的事務

C、OLAP的特點在于事務量大，但事務內(nèi)容比較簡單且重復率

高

D、OLAP是以數(shù)據(jù)倉庫為基礎的，但其最終數(shù)據(jù)來源與OLTP

一樣均來自底層的數(shù)據(jù)庫系統(tǒng)，兩者面對的用戶是相同的

參考答案：C

29.下列關于MapReduce計算框架中生成鍵值對的說法正確的是

()o

A、可以有相同的鍵，值必須唯一

可以有相同的值，鍵必須唯一

C、可以有相同的鍵，也可以有相同的值

D、鍵和值都必須唯一

參考答案：C

30.下列關于L1正則化與L2正則化的描述錯誤的是()o

A、L1范數(shù)正則化有助于降低過擬合風險

B、L2范數(shù)正則化有助于降低過擬合風險

C、L1范數(shù)正則化比L2范數(shù)正則化更易于獲得稀疏解

D、L2范數(shù)正則化比L1范數(shù)正則化更易于獲得稀疏解

參考答案：D

10th

31.下列關于LI、L2正則化的說法正確的是（）。

A、L2正則化能防止過擬合，提升模型的泛化能力，但L1做不

到這點

B、L2正則化技術又稱為LassoRegularization

C、L1正則化得到的解更加稀疏

D、L2正則化得到的解更加稀疏

參考答案：C

32.下列關于DBSCAN算法的說法，正確的是：

A、DBSCAN算法根據(jù)?和min_samples把樣本點分成Core,outli

er兩類

B、如果以一個樣本點為中心，以?為半徑的范圍內(nèi)的樣本點總數(shù)

小于min_samples,那么此樣本點就會被認為是異常點

C、如果以一個樣本點為中心，在以?為半徑的范圍內(nèi)有大于或等

于min_samples的樣本點，則這個樣本點屬于Reachable類

D、DBSCAN算法根據(jù)?和min_samples把樣本點分成Core,Rea

chable,outlier三類

參考答案：D

33.下列方法中屬于映射數(shù)據(jù)到新的間的是（）。

A、傅里葉變換

B、特征加權

C、漸進抽樣

D、維歸約

11th

參考答案：A

34.下列處理方法能獲得像素級標注的是（）。

A、圖像分類

B、物體檢測

C、圖像去噪

D、語義分割

參考答案：D

35.下列不屬于數(shù)據(jù)科學與統(tǒng)計學區(qū)別的是（）。

A、數(shù)據(jù)科學中的數(shù)據(jù)不僅僅是數(shù)值

B、數(shù)據(jù)科學關注的不僅僅是“單一學科”問題，超出了數(shù)學、統(tǒng)

計學、計算機科學等單一學科的范疇

C、數(shù)據(jù)科學不僅僅是理論研究，也不是純領城實務知識，它關

注和強調(diào)的是二者的結合

D、數(shù)據(jù)科學和統(tǒng)計學中的計算一樣，僅僅是加減乘除

參考答案：D

36.下列不適合使用機器學習方法解決的是（）。

A、判斷電子郵件是否是垃圾郵件

B、判斷給定的圖中是否有環(huán)

C、判斷是否給指定用戶辦理信用卡

D、對滴滴拼車乘客分簇

參考答案：B

37.數(shù)據(jù)資產(chǎn)需求是指滿足公司（）所需要的數(shù)據(jù)。

12th

A、業(yè)務發(fā)展

B、經(jīng)營管理

C、數(shù)據(jù)資產(chǎn)應用

D、以上都選

參考答案：D

38.數(shù)據(jù)資產(chǎn)生成是指數(shù)據(jù)在業(yè)務信息系統(tǒng)中通過自動采集或。

創(chuàng)建的過程。

A、人工錄入

B、自動錄入

C、人工編輯

D、自動生成

參考答案：A

39.數(shù)據(jù)資產(chǎn)規(guī)劃與計劃管理是指制定數(shù)據(jù)資產(chǎn)。并組織實施。

A、發(fā)展戰(zhàn)略

B、規(guī)劃

C、年度計劃

D、以上都選

參考答案：D

40.數(shù)據(jù)資產(chǎn)管理0制定公司數(shù)據(jù)資產(chǎn)標準規(guī)范，業(yè)務部門按照

規(guī)范制定本專業(yè)數(shù)據(jù)資產(chǎn)標準，跨專業(yè)、跨部門的數(shù)據(jù)資產(chǎn)標準

應充分考慮后序使用環(huán)節(jié)的要求。

A、歸口部門

13th

B、上級部門

C、管理部門

D、業(yè)務部門

參考答案：A

41.數(shù)據(jù)支撐單位要加強對所屬（）的管理，相關人員及變動情況

要在所服務的運監(jiān)中心登記備案。

A、工作人員

B、數(shù)據(jù)支撐人員

C、數(shù)據(jù)管理人員

D、所有人員

參考答案：B

42.輸入圖像已被轉換為大小為28義28的矩陣和大小為7X7的步

幅為1的核心/濾波器，則卷積矩陣的大小是（）。

A、22X22

B、21X21

C、28X28

D、7X7

參考答案：A

43.設計為8層的卷積神經(jīng)網(wǎng)絡AlexNet網(wǎng)絡成功使用（），其效

果遠遠地超過了Sigmoid雨數(shù)。

A、RcLU函數(shù)

B、sigmoid函數(shù)

14th

C、tanh函數(shù)

D、sin函數(shù)

參考答案：A

44.設計分布式數(shù)據(jù)倉庫hive的數(shù)據(jù)表時，為取樣更高效，一般

可以對表中的連續(xù)字段進行什么操作。

A、分桶

B、分區(qū)

C、索引

D、分表

參考答案：A

45.若有33個長度不等的初始歸并段，做7路平衡歸并排序，為

組織最佳歸并樹，應增加長度為0的初始歸并段的個數(shù)是_____

A、0

B、2

C、4

D、6

參考答案：C

46.若三階矩陣A的行列式|A|=8,已知A有2個特征值，4和-1,

則它的另一特征值為

A、2

B、-2

15th

C、5

D、-5

參考答案：B

47.若N=100,如何將后面的N個字節(jié)讀入字符串中錯誤的是？

A、open('file').readlines()

B、open('file').read(N)

C、線性降維方法目標是要保證降維到的超平面能更好地表示原

始數(shù)據(jù)

D、核線性降維方法目標是通過核函數(shù)和核方法來避免采樣間投

影到高維間再降維之后的低維結構丟失

參考答案：A

48.如何調(diào)用Scikit-learn中的數(shù)據(jù)劃分模塊？

A、fromsklcarn.modcl_sclectionimporttrain_tcst_split

B、fromsklcarn.datasetsimporttrain_tcst_split

C、fromsklearn.datasetsimportsplit

參考答案：A

49.如果說線性回歸模型完美地擬合了訓練樣本(訓練樣本誤差為

零)，則下列說法正確的是()。

A、測試樣本誤差始終為零

B、測試樣本誤差不可能為零

C、測試樣本誤差不一定為零

D、以上答案都不對

16th

參考答案：C

50.哪個不是DDL（數(shù)據(jù)庫定義語言）語句？

A、ALTER

B、CREATE

C、drop

D、GRANT

參考答案：D

51.目前，我國在大數(shù)據(jù)發(fā)展和應用方面已具備一定基礎，擁有市

場優(yōu)勢和（）。

A、發(fā)展優(yōu)勢

B、發(fā)展能力

C、發(fā)展?jié)摿?/p>

D、穩(wěn)定發(fā)展

參考答案：C

52.卡方檢驗是用途非常廣的一種假設檢驗方法，卡方檢驗中將任

意兩行互換則卡方值。

A、變大

B、變小

C、不變

D、不確定

參考答案：C

53.假設正在訓練一個LSTM網(wǎng)絡,有一個10000詞的詞匯表,并

17th

且使用一個激活值維度為100的LSTM塊，在每一個時間步中，

Tu的維度是()。

A、1

B、100

C、300

D、10000

參考答案：B

54.假設有一個如下定義的神經(jīng)網(wǎng)絡，如果去掉ReLU層，這個神

經(jīng)網(wǎng)絡仍能處理非線性函數(shù)，這種說法是()

A、正確的

B、錯誤的

C、兩者并沒有關系

D、以上都不對

參考答案：A

551g3殳precision=TP/(TP+FP),recall=TP/(TP+FN),則在二

分類問題中，當測試集的正例和負例數(shù)量不均衡時，下列評價方

案中相對不合理的是()。

A、Accuracy：(TP+TN)/all

B、F-value：2*recall*precision/(recall+precision)

C^G-mean：sqrt(prccision*rccall)

D、AUC:曲線下面積

參考答案：A

18th

56.假如使用Lasso回歸來擬合數(shù)據(jù)集，該數(shù)據(jù)集輸入特征有100

個（XI,X2,???,X100）o現(xiàn)在，把其中一個特征的值擴大10

倍（如特征XI）,然后用相同的正則化參數(shù)對Lass。回歸進行修

正。那么下列說法正確的是（）。

A、特征XI很可能被排除在模型之外

B、特征XI很可能還包含在模型之中

C、無法確定特征XI是否被舍

D、以上答案都不正確

參考答案：B

57.計算機顯示器主要采用哪一種彩色模型

A、RGB

B、CMY或CMYK

C、CMY或CMYK

D、HSV

參考答案：A

58.極大似然估計與最大后驗估計的思想來自于（）

A、兩種參數(shù)估計方法都來自于頻率派

B、極大似然估計來自于貝葉斯學派，最大后驗估計來自于頻率

派

C、極大似然估計來自于頻率派，最大后驗估計來自于貝葉斯學

派

D、兩種參數(shù)估計方法都來自于貝葉斯學派

19th

參考答案：C

59.機器學習的應用包括哪方面（）

A、數(shù)據(jù)挖掘

B、自然語言處理

C、計算機視覺

D、以上皆是

參考答案：D

60.回歸方程判定系數(shù)的計算公式R2=SSR/SST=1-SSE/SST,對判

定系數(shù)描述錯誤的是（）。

A、SSE指殘差平方和

B、SSR指總離差平方和

C、判定系數(shù)用來衡量回歸方程的擾合優(yōu)度

D、判定系數(shù)R2等于相關系數(shù)的平方

參考答案：B

61.過濾式特征選攔、包裹式特征選擇與學習器的關系分別是（）。

A、相關，相關

B、相關，不相關

C、不相關，相關

D、不相關，不相關

參考答案：C

62.關于HDFS的文件寫入，正確的是

A、支持多用戶對同一文件的寫操作

20th

B、用戶可以在文件任意位置進行修改

C、默認將文件塊復制成三份存放

D、復制的文件塊默認都存在同一機架上

參考答案：C

63.構建一個神經(jīng)網(wǎng)絡，將前-層的輸出和它自身作為輸入，則有

反饋連接的是（）。

A、循環(huán)神經(jīng)網(wǎng)絡

B、卷積神經(jīng)網(wǎng)絡

C、限制玻爾茲曼機

D、都不是

參考答案：A

64.根據(jù)不同的業(yè)務需求來建立數(shù)據(jù)模型，抽取最有意義的向量，

決定選取哪種方法的數(shù)據(jù)分析角色人員是0

A、數(shù)據(jù)管理人員

B、數(shù)據(jù)分析員

C、研究科學家

D、軟件開發(fā)工程師

參考答案：C

65.各單位應深入分析數(shù)據(jù)資產(chǎn)質量問題產(chǎn)生的原因，以“（）”

為基本策略，制定數(shù)據(jù)資產(chǎn)質量提升措施，從數(shù)據(jù)源頭解決數(shù)據(jù)

資產(chǎn)質量問題。

A、控制存量、消除增量

21st

B、控制增量、消除存量

C、控制增量、消除增量

D、控制存量、消除存量

參考答案：B

66.高通濾波后的圖像通常較暗，為改善這種情況，將高通濾波器

的轉移函數(shù)加上一常數(shù)量以便引入一些低頻分量。這樣的濾波器

叫

A、巴特沃斯高通濾波器

B、高頻提升濾波器

C、高頻加強濾波器

D、理想高通濾波器

參考答案：B

67.對于SQL語句sclect*fromt\X,herea=100andb=200,哪個索引可

以使用到？

A、索引idx_b(b)

B、索引idx_b_a(b,a)

C、索引idx_a_b(a,b)

D、都可以

參考答案：D

68.對一幅100x100像元的圖象，若每像元用8bit表示其灰度值,

經(jīng)霍夫曼編碼后壓縮圖象的數(shù)據(jù)量為40000bit,則圖象的壓縮比

為

22nd

A、084028

B、125694

C、167361

D、043056

參考答案：C

69.對特征進行標準化，以下說法不正確的是（）

A、可以使所有特征數(shù)據(jù)處于相同的大小維度

B、可以加快梯度下降的收斂速度

C、會使模型出現(xiàn)過擬合

D、避免了模型對數(shù)據(jù)偏差處理

參考答案：C

70.對參數(shù)進行L2正則，是機器學習常用的防止過擬合的方法。

對參數(shù)做L2正則時，（）是對參數(shù)本身做先驗分布假設。

A、高斯分布

B、拉普拉斯分布

C、泊松分布

D、均勾分布

參考答案：A

71.點擊率的預測是一個數(shù)據(jù)比例不平衡問題（如訓練集中樣本呈

陰性的比例為99%,陽性的比例是1%）,如果用這種數(shù)據(jù)建立模

型并使得訓練集的準確率高達99%。則可以得出結論是（）。

A、模型的準確率非常高，我們不需要進一步探索

23rd

B、模型不好，我們應建一個更好的模型

C、無法評價模型

D、以上答案都不正確

參考答案：C

72.大數(shù)據(jù)是指不用隨機分析法這樣的捷徑，而采用（）。

A、所有數(shù)據(jù)

B、部分數(shù)據(jù)

C、少量數(shù)據(jù)

D、抽樣數(shù)據(jù)

參考答案：A

73.大數(shù)據(jù)的特點不包括下面哪一項

A、巨大的數(shù)據(jù)量

B、多結構化數(shù)據(jù)

C、增長速度快

D、價值密度高

參考答案：D

74.從數(shù)字集合｛1,2,3,4,…，20｝中選出4個數(shù)字的子集，如

果不允許兩個相連的數(shù)字出現(xiàn)在同一集合中，那么能夠形成多少

個這種子集？

A、2380

B、816

C、330

24th

D、1220

參考答案：A

75.常用的圖像去噪方法包括（）。

A、高斯濾波

B、中值濾波

C、P-M方程去噪

D、以上答案都正確

參考答案：D

76.采用賽次變換進行灰度變換時，當?shù)诖稳〈笥?時，該變換是

針對如下哪一類圖像進行增強

A、圖像整體偏暗

B、圖像整體偏亮

C、圖像細節(jié)淹沒在暗背景中

D、圖像同時存在過亮和過暗背景

參考答案：B

77.不屬于Mayer-SchonbergerV和CukierK.在其著名論著《BigDat

a：ARevolutionThatWillTransformHowWeLive,Work,andThink》

中提出了大數(shù)據(jù)時代統(tǒng)計的思維變革的是（）。

A、不是隨機樣本，而是全體數(shù)據(jù)

B、不是精確性，而是混雜性

C、不是描述性分析，而是預測性分析

D、不是因果關系，而是相關關系

25th

參考答案：C

78.表tl中有id,name,salary三列，如果tl是一個論壇的發(fā)帖信

息表，id是發(fā)帖人的編號，name是帖子的標題，salary是每次發(fā)

帖論壇獎勵的分數(shù)。表示更新tl表中字段內(nèi)容的語句是()

A、createtabletl(idint,namechar(30),salarydnt)

BNdroptablctl

C^createviewvtlasselectid,namefromtl

D、updatetlsetname=,lixiaoming,whereid=100

參考答案：D

79.Stage的Task的數(shù)量由什么決定

A、Partition

B、Job

C、Stage

D、TaskSchcduler

參考答案：A

8O.Spark支持的分布式部署方式中哪個是錯誤的

A^standalone

B、sparkonmesos

C、sparkonYARN

D>Sparkonlocal

參考答案：D

81.plt.boxplot

26th

A、繪制餅圖

B、繪制折線圖

C、繪制直方圖

D、繪制箱線圖

參考答案：D

82.LSM結構的數(shù)據(jù)首先存儲在

A、硬盤上

B、內(nèi)存中

C、磁盤陣列中

D、閃存中

參考答案：B

83.LLE適用于以下哪種數(shù)據(jù)（）

A、非閉合的球面

B、稀疏數(shù)據(jù)

C、分布不均的數(shù)據(jù)

D、以上都適合

參考答案：A

84.hive的元數(shù)據(jù)存儲在derby和MySQL中有什么區(qū)別

A、沒區(qū)別

B、多會話

C、支持網(wǎng)絡環(huán)境

D、數(shù)據(jù)庫的區(qū)別

27th

參考答案：B

85.HFile數(shù)據(jù)格式中的Metaindex字段用于（）

A、Meta塊的長度

Meta塊的結束點

C、Meta塊數(shù)據(jù)內(nèi)容

D、Meta塊的起始點

參考答案：D

86.HFile數(shù)據(jù)格式中的Magic字段用于

A、存儲隨機數(shù)，防止數(shù)據(jù)損壞

B、存儲數(shù)據(jù)的起點

C、存儲數(shù)據(jù)塊的起點

D、指定字段的長度

參考答案：A

87.HDFS無法高效存儲大量小文件，想讓它能處理好小文件，比

較可行的改進策略不包括

A、利用SequenceFile、MapFile、Har等方式歸檔小文件

B、多Master設計

C、Block大小適當調(diào)小

D、調(diào)大namenode內(nèi)存或將文件系統(tǒng)元數(shù)據(jù)存到硬盤里

參考答案：D

88.HBasc依賴（）提供強大的計算能力

A、Zookeeper

28th

B、Chubby

C、RPC

D、MapReduce

參考答案：D

89.HBase分布式模式最好需要()個節(jié)點

A、1

B、2

C、3

D、4

參考答案：C

90.Hadoop中，Reducer的三個步驟是()。

A>Shuffle-Sort-Reduce

B、Shuffle-Rcduce-Sort

C、Rcduce-Shufflc-Sort

D、Sort-Shufle-Reduce

參考答案：A

91.Hadoop的作者是下面哪一位

A、MartinFowler

B>Dougcutting

C^KcntBeck

D、GraccHoppcr

參考答案：B

29th

92.DBSCAN算法可以適用于以下哪種數(shù)據(jù)()

A、有噪聲的數(shù)據(jù)集

B、稠密數(shù)據(jù)集

C、非凸數(shù)據(jù)集

D、以上都適用

參考答案：D

93.()認為，大數(shù)據(jù)時代的數(shù)據(jù)管理目標不一定理想和完美，一

致性、可用性和分區(qū)容錯性中的任何兩個特征的保證(爭取)可

能導致另一個特征的損失(放棄)。

A、CAP理論

B、BASE原則

C、數(shù)據(jù)一致性理論

D、大數(shù)據(jù)法則

參考答案：A

94.()能使圖像亮度得到平緩漸變，減小突變梯度，改善圖像質

量。

A、圖像平滑

B、圖像分類

C、圖像識別

D、圖像分割

參考答案：A

30th

多選題

1.在有關數(shù)據(jù)倉庫測試，下列說法正確的是()

A、在完成數(shù)據(jù)倉庫的實施過程中，需要對數(shù)據(jù)倉庫進行各種測

試.測試工作中要包括單元測試和系統(tǒng)測試.

B、當數(shù)據(jù)倉庫的每個單獨組件完成后，就需要對他們進行單元

測試.

C、系統(tǒng)的集成測試需要對數(shù)據(jù)倉庫的所有組件進行大量的功能

測試和回歸測試.

D、在測試之前沒必要制定詳細的測試計劃.

參考答案：ABC

2.在數(shù)據(jù)庫的SQL語言開發(fā)中，下述關于Union和Unionall的描

述哪些是正確的：

A、使用Union或Unionall組合查詢的數(shù)據(jù)集，需滿足兩個條件：

列數(shù)和列的順序必須相同；數(shù)據(jù)類型必須兼容

B、Union在進行表鏈接后會篩選掉重復的記錄，所以在表鏈接

后會對所產(chǎn)生的結果集進行排序運算，刪除重復的記錄再返回結

果。

C、Uniondl返回的結果集就會包含重復的數(shù)據(jù)了，如果表數(shù)據(jù)

量大的話可能會導致用磁盤進行排序。因此，從效率上說，unio

n要比unionall快很多

D、如果可以確認合并的兩個結果集中不包含重復的數(shù)據(jù)的話，

那么就建議使用Unionall

31st

參考答案：ABD

3.在梳理抽象業(yè)務線索及需求到具體數(shù)據(jù)時常用到5W2H模型，

那么通過5W2H模型整理數(shù)據(jù)的思維步驟包括哪些()

A、將業(yè)務場景進行5W2H的概括總結

B、將5W2H總結內(nèi)容梳理為業(yè)務維度

C、將業(yè)務維度梳理為數(shù)據(jù)表

D、將數(shù)據(jù)表展開到字段

參考答案：ABCD

4.在分析人員向決策者提交業(yè)務分析報告匯報分析成果時，業(yè)務

分析報告的文字信息應盡量避免()

A、對圖表信息重復描述

B、過多主觀推測性結論

C、對圖表信息進行總結

D、對論據(jù)進行片面解讀

參考答案：ABD

5.在“人貨場”的業(yè)務模塊下，有可能成為描述“場”的情況的相關

數(shù)據(jù)表是()

A、訂單表

B、訂單詳情表

C、客戶詳情表

D、區(qū)域表

參考答案：AB

32nd

6.用于分類的指標是（）。

A、roc

B、fl

C、M2

D、precision

參考答案：ABD

7.以下說法正確的是（）。

A、聚類是監(jiān)督學習

B、聚類是非監(jiān)督學習

C、分類是非監(jiān)督學習

D、分類是監(jiān)督學習

參考答案：BD

8.以下哪種是數(shù)據(jù)標準化方法

A、向量歸一^匕

B、平均值法

C、最大值法

D、線性比例變換法

參考答案：ABD

9.以下哪種方法能夠防止過擬合（）

A、增加訓練次數(shù)

B、正則化

C、數(shù)據(jù)集擴增

33rd

D、dropout

參考答案：BCD

io.以下關于損失函數(shù)說法正確的是0

A、損失函數(shù)可以用于評價模型的擬合效果

B、損失函數(shù)的選取是固定的

C、可以通過損失函數(shù)構造優(yōu)化目標

D、線性回歸模型常用mse作為損失函數(shù)

參考答案：ACD

11.以下關于數(shù)據(jù)分析類型的說法正確的是（）

A、探索型數(shù)據(jù)分析指的是在盡量少的假設和猜想下對已有的數(shù)

據(jù)進行探索，通常通過圖形展示數(shù)據(jù)的真實分布，發(fā)現(xiàn)數(shù)據(jù)具有

的特性

B、驗證型的數(shù)據(jù)分析主要通過統(tǒng)計學里的假設檢驗方法，驗證

假設是否成立

C、預測型數(shù)據(jù)分析主要通過統(tǒng)計學習、機器學習等的一些方法

對已有的數(shù)據(jù)進行分析得出模型，利用模型對未知的數(shù)據(jù)進行預

測

D、數(shù)據(jù)分析主要指的是探索型數(shù)據(jù)分析

參考答案：ABC

12.下面關于隨機森林和集成學習的說法，正確的是：

A、隨機森林只能用于解決分類問題

B、隨機森林由隨機數(shù)量的決策樹組成

34th

C、集成學習通過構建多個模型，并將各個模型的結果使用求平

均數(shù)的方法集成起來，作為最終的預測結果，提高分類問題的準

確率

D、隨機森林的弱分類器（基分類器）的特征選擇是隨機的

參考答案：CD

13.下面關于隨機變量的說法，正確的有：

A、投擲一次6面骰子得到的點數(shù)是一個隨機變量，取值范圍是

1,2,3,4,5,6

B、隨機變量是一次隨機事件得到的結果

C、隨機變量是隨機而定的變量

D、投擲100次6面骰子，”得到的點數(shù)為1的次數(shù)”這個隨機變

量的取值范圍是0到100

參考答案：AD

14.下面關于邏輯回歸的說法，正確的是：

A、邏輯回歸主要應用于二分類問題

B、邏輯回歸使用LogisticFunction后得到的數(shù)值在-1到1之間

C、把邏輯回歸應用于多分類問題時，需要使用Onevs.Rest方法

D、邏輯回歸得到的數(shù)值可以看作屬于類別1的概率

參考答案：ACD

15.下面關于回歸的說法，正確的是：

A、自變量X（也就是特征）往往包含多個特征

B、回歸用于分析自變量和應變量之間的關系

35th

C、線性回歸是一種經(jīng)典的回歸分析方法

D、在回歸中，建立應變量關于自變量的函數(shù)，應變量是自變量

在函數(shù)上的映射

參考答案：ABCD

16.下面關于TRUNCATE和DELETE的說法正確的是

A、TRUNCATE屬于DDL,而DELETE屬于DML

B、TRUNCATE與DELETE均能夠刪除表中的指定記錄

C、TRUNCATE不能刪除表中指定的記錄，而DELETE能夠刪

除表中的指定記錄

D、在清表記錄的操作時，TRUNCATE的執(zhí)行效率比DELETE

高

參考答案：CD

17.下面關于k近鄰的說法，正確的是：

A、根據(jù)特征向量X計算樣本之間的相似性，選擇離中心點最相

似的k個樣本

B、k近鄰既可以用于分類，也可以用于回歸

C、k近鄰用于分類時，對于新的樣本，計算離其最近的k個樣

木的平均值，作為新樣本的預測值

D、k近鄰用于分類時，對于新的樣本，根據(jù)其k個最近鄰樣本

的類別，通過多數(shù)表決的方式預測新樣本的類別

參考答案：BD

18.下列說法正確的是()

36th

A、cookielib庫提供可存儲cookie的對象，以便于與urllirequest

庫配合使用來進行訪問

B、過于頻繁的爬蟲不會帶給網(wǎng)站額外的壓力

C、使用.split()可以進行字符串的拆分

D、正則表達式可以實現(xiàn)對爬取信息的快速過濾

參考答案：ACD

19.下列說法錯誤的有()o

A、列表是有序的

B、集合是有序的

C、元組是有序的

D、字典是有序的

參考答案：BD

20.下列關于總體和樣本的說法正確的有()o

A、總體也就是研究對象的全體

B、如果總體是某一條生產(chǎn)線上生產(chǎn)的全部產(chǎn)品，那么樣本可以

是每間隔10s抽取的產(chǎn)品

C、樣本是從總體的隨機抽樣

D、如果總體是某一小學的1000名學生，那么樣木可以是一年級

的100名學生

參考答案：ABC

21.下列關于字典的遍歷的描述正確的有()

A、forin變量i,字典：使用i遍歷所有的鍵，有鍵就可以通過變

37th

量訪問其值

B、fbr變量iin字典：使用i遍歷所有的鍵，有鍵就可以通過變

量訪問其值

C、fbr變量i,變量jin字典items）：使用變量i遍歷所有鍵，通

過變量j遍歷所有值

D、forin變量i,變量j字典items）：使用變量i遍歷所有鍵，通

過變量j遍歷所有值

參考答案：BC

22.下列關于表連接的說法，錯誤的是（）

A、rightjoin連接的左表和右表，即使右表沒有對應匹配的記錄,

也會返回左表所有記錄

B.innerjoin用來連接一張表中某一字段在另一張表中對應字段

相匹配的值

C、leftjoin連接的左表和右表，即使左表沒有對應匹配的記錄，

也會返回右表所有記錄

D、連接table1和table2兩張表時，table1innerjointable2后面指定

兩個表之間連接的字段，字段可以不用完全引用表名

參考答案：ACD

23.下列關于MySQL表的數(shù)據(jù)類型，說法正確的是（）

A、使用HcidiSQL導入數(shù)據(jù)表中的數(shù)據(jù)，在設置字段的時候需要

注意數(shù)據(jù)表中對應字段的數(shù)據(jù)類型

B、數(shù)據(jù)類型CHAR和VARCHAR的區(qū)別是CHAR指定定長字符

38th

串類型，并且必須在圓括號內(nèi)用一個大小修飾符來定義，VARC

HAR指定可變長度字符串類型

C、明確指定數(shù)據(jù)類型可以保證插入數(shù)據(jù)的數(shù)據(jù)類型的一致性，

還可以優(yōu)化存儲

D、MySQL中的數(shù)據(jù)類型主要包括數(shù)值類型、字符串類型、運算

符號類型

參考答案：ABC

24.下列關于json數(shù)據(jù)格式的說法正確的有（）

A、jsonloads栽入json格式數(shù)據(jù)后會用類似數(shù)組的方式把數(shù)據(jù)轉

換成數(shù)據(jù)表

B、具有數(shù)據(jù)結構緊湊可讀性強的優(yōu)點

C、Python中可以使用json模塊把json格式字符串解碼轉換成P

ython對象

D、網(wǎng)絡中交換數(shù)據(jù)最常見的格式之一

參考答案：BCD

25.下列關于HDFS文件寫入的描述正確的有（）。

A、不支持多用戶對同一文件的寫操作

B、用戶不可以在文件任意位置進行修改

C、默認將文件復制成三份存放

D、復制的文件塊默認不存在同一機架上

參考答案：ABCD

26.圖象增強按增強處理所在間不同分為

39th

A、頻率

B、域

C、峰值

D、頻域

參考答案：BD

27.數(shù)據(jù)資產(chǎn)維護是指為保證數(shù)據(jù)質量，對數(shù)據(jù)進行（）錄入等處

理的過程。

A、更正

B、刪除

C、補充

D、保存

參考答案：ABC

28.數(shù)據(jù)預處理的方法有（）。

A、標準化

B、訓練模型

C、歸一^七

D、填充缺失值

參考答案：ACD

29.數(shù)據(jù)流轉和應用過程中應確保（），前序環(huán)節(jié)應保證數(shù)據(jù)的真

實、完整并及時傳遞到后序環(huán)節(jié)，前后環(huán)節(jié)數(shù)據(jù)應保持銜接一致。

A、可追溯

B、可復查

40th

C、可交換

D、可更改

參考答案：AB

30.數(shù)據(jù)計算之后持久化緩存

A>checkpoint

BNMemory

C^persist

D、Add

參考答案：AC

31.確定數(shù)據(jù)分析的問題可以從以下哪些方面進行:

A、問題的挑戰(zhàn)性，即對于該問題其他人無法得出有效結論

B、問題的可行性，即問題是否可以量化以及是否有數(shù)據(jù)支持

C、問題的新穎性，即該問題是否已有人涉及

D、問題的重要性，即該問題解決以后是否可以產(chǎn)生實際作月和

效益

參考答案：ABCD

32.你所理解的Spark的shuffle過程

A、shuffle過程的劃分

B、shuffle的中間結果如何存儲

C、shuffle的數(shù)據(jù)如何拉取過來

D、shuffle的數(shù)據(jù)處理

參考答案：ABC

41st

33.堅持創(chuàng)新驅動發(fā)展，加快大數(shù)據(jù)部署，深化大數(shù)據(jù)應用，已成

為()和推動政府治理能力現(xiàn)代化的內(nèi)在需要和必然選擇。

A、穩(wěn)增長

B、促改革

C、調(diào)結構

D、惠民生

參考答案：ABCD

34.假定存在t二(1,2,3),如何轉化為list

A、tl():-l]

B、t[O:len(t)]

C、t.convert()

D、list(t)

參考答案：ABC

35.歸集數(shù)據(jù)資產(chǎn)應用成果，評估數(shù)據(jù)資產(chǎn)應用成效，加強成果。，

促進共享和應用。

A、統(tǒng)一管理

B、專業(yè)管理

C、管理應用

D、統(tǒng)一^應用

參考答案：BCD

36.觀察樣本次數(shù)如何影響過擬合？注意：所有情況的參數(shù)都保持

一致

42nd

A、觀察次數(shù)少，容易發(fā)生過擬合

B、觀察次數(shù)少，不容易發(fā)生過擬合

C、觀察次數(shù)多，容易發(fā)生過擬合

D、觀察次數(shù)多，不容易發(fā)生過擬合

參考答案：AD

37.關于特征向量的缺失值處理方式如下：缺失值較多，直接將該

特征舍棄掉，否則可能會帶入較大的noise,對結果造成不良影

響；缺失值較少，其余的特征缺失值都在10%以內(nèi)，可以采取的

處理方式有（）。

A、把NaN直接作為一個特征，假設用0表示

B、用均值填充

C、用隨機森林等算法預測填充

D、以上選項都不正確

參考答案：ABC

38.關于算法的描述，以下選項中正確的是

A、算法是指解題方案的準確而完整的彳苗述

B、算法的復雜度主要包括時間復雜度而數(shù)據(jù)復雜度

C、算法具有可行性、確定性、有窮性的基本特征

D、算法的基本要素包括數(shù)據(jù)對象的運算和操作及算法的控制結

構

參考答案：ACD

39.關于數(shù)據(jù)結構的描述，以下選項中錯誤的是

43rd

A、數(shù)據(jù)結構指相互有關聯(lián)的數(shù)據(jù)元素的集合

B、數(shù)據(jù)的存儲結構是指反映數(shù)據(jù)元素之間邏輯關系的數(shù)據(jù)結構

C、數(shù)據(jù)結構不可以直觀地用圖形表示

D、數(shù)據(jù)的邏輯結構有順序、鏈接、索引等存儲方式

參考答案：BCD

40.關于數(shù)據(jù)分析流程，下列說法正確的是：

A、探索型數(shù)據(jù)分析發(fā)現(xiàn)的數(shù)據(jù)特征可以很好地指導后續(xù)預測型

數(shù)據(jù)分析，但是對驗證型數(shù)據(jù)分析指導作用不大

B、在預測型數(shù)據(jù)分析之前必須進行驗證型數(shù)據(jù)分析

C、探索型數(shù)據(jù)分析和數(shù)據(jù)清理是相輔相成的，通過探索型數(shù)據(jù)

分析可以發(fā)現(xiàn)數(shù)據(jù)異常值，從而指導數(shù)據(jù)清理

D、預測型數(shù)據(jù)分析結果可以生成數(shù)據(jù)分析報告，從而指導決策

參考答案：CD

41.關于服務器-客戶端型數(shù)據(jù)庫和文件型數(shù)據(jù)庫的區(qū)別，以下哪

些說法是正確的：

A、關于前者，數(shù)據(jù)庫是安裝在數(shù)據(jù)庫服務器上的，客戶端需要

通過網(wǎng)絡連接來進行訪問

B、文件型數(shù)據(jù)庫是存儲在本地的，一些瀏覽器會傾向于使用這

一類的數(shù)據(jù)庫存儲一些用戶記錄

C、關于前者，任何一個機器都可以通過IP進行對數(shù)據(jù)庫服務器

的訪問，但是會受到賬戶密碼的權限限制

D、前者相對后者而言，更輕量級

44th

參考答案：ABC

42.關于NoSQL型數(shù)據(jù)庫和SQL型數(shù)據(jù)庫之間的差別，以下哪些

說法是正確的：

A、MongoDBCassandra是非關系型數(shù)據(jù)庫

B、Oracle,MSSQLServcr,MySQL,SQLitc都是關系型數(shù)據(jù)庫

C、NoSQL數(shù)據(jù)庫不可以使用SQL語言進行查詢

D、相比較非關系型數(shù)據(jù)庫而言，關系型數(shù)據(jù)庫在分布式的場合

使用較多

參考答案：ABC

43.分類模型包括哪些？

A、主成分分析

B、lasso回歸

C、邏輯回歸

D、決策樹

參考答案：CD

44.二維數(shù)組切片時，a[b:c]中b和c分別代表的是（）。

A^b為行

B、c為行

C、c為列

D、b為列

參考答案：AC

45.低通濾波法是使（）受到抑制而讓（）順利通過，從而實現(xiàn)圖

45th

像平滑的順序為

A、高頻成分

B、低頻成分

C、中頻成分

D、超頻成分

參考答案：AC

46.大數(shù)據(jù)關鍵技術及產(chǎn)品研發(fā)與產(chǎn)業(yè)化工程主要包括哪些()?

A、網(wǎng)絡和大數(shù)據(jù)安全支撐體系建設

B、加強大數(shù)據(jù)基礎研究

C、大數(shù)據(jù)技術產(chǎn)品研發(fā)

D、提升大數(shù)據(jù)技術服務能力

參考答案：BCD

47.測得某個采用按需調(diào)頁策略的計算機系統(tǒng)部分狀態(tài)數(shù)據(jù)為：C

PU利用率5%,用于交換間的磁盤利用率95%,其他I/O設備

利用率5%。試問，這種情況下()能提高CPU的利用率。

A、增大內(nèi)存的容量

B、增大磁盤交換區(qū)的容量

C、減少多道程序的度數(shù)

D、使用更快速的磁盤交換區(qū)

參考答案：AC

48.Svm適用于以下哪種數(shù)據(jù)集()

A、的數(shù)據(jù)集

46th

B、含有很多噪聲和重疊的數(shù)據(jù)

C、經(jīng)過清洗較為干凈的數(shù)據(jù)

D、以上數(shù)據(jù)都適用

參考答案：ACD

49.spark中master管理什么？

A、管理集群

B、節(jié)點

C、計算節(jié)點

D、組件

參考答案：AB

5O.Knn算法的優(yōu)點包括以下哪項()

A、精度鬲

B、計算復雜度低

對異常值不敏感

D、無數(shù)據(jù)輸入假定

參考答案：ACD

51.Hadoop組件的核心功能包括

A、分布式數(shù)據(jù)存儲

B、分析

C、挖掘

D、分布式計算

參考答案：AD

47th

52.excel工作簿a中有兩列id、age,工作簿b中有一列id,需要

找到工作薄b中id對應的age,可用的函數(shù)包括

A、index+match

B、vlo

人人文庫> 全部分類> 教育資料 > 輔導培訓

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預覽，若沒有圖紙預覽就沒有圖紙。
4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負責。
6. 下載文件中如有侵權或不適當內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

人工智能訓練師技能競賽考試題（附答案）

文檔簡介

溫馨提示

最新文檔

評論