2022年大數(shù)據(jù)應(yīng)用知識(shí)考試題庫(kù)(含答案)_第1頁
2022年大數(shù)據(jù)應(yīng)用知識(shí)考試題庫(kù)(含答案)_第2頁
2022年大數(shù)據(jù)應(yīng)用知識(shí)考試題庫(kù)(含答案)_第3頁
2022年大數(shù)據(jù)應(yīng)用知識(shí)考試題庫(kù)(含答案)_第4頁
已閱讀5頁,還剩205頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2022年大數(shù)據(jù)應(yīng)用知識(shí)考試題庫(kù)(含答案)ー、單選題.圖像平滑會(huì)造成0。A、圖像邊緣模糊化B、圖像邊緣清晰化C、無影響D、以上答案都不正確答案:A解析:為了抑制噪聲,使圖像亮度趨于平緩的處理方法就是圖像平滑。圖像平滑實(shí)際上是低通濾波,平滑過程會(huì)導(dǎo)致圖像邊緣模糊化。.關(guān)于Spark的說法中,()是錯(cuò)誤的。A、采用內(nèi)存計(jì)算模式B、可利用多種語言編程C、主要用于批處理D!可進(jìn)行map()操作答案:C解析:HadoopMapReduce主要用于批處理,與Hadoop不同的是,Spark更為通用一些,可以很好地支持流計(jì)算ゝ交互式處理、圖計(jì)算等多種計(jì)算模式。.以下關(guān)于代碼規(guī)范描述,哪些是錯(cuò)誤的()。A、類總是使用駝峰格式命名,即所有單詞首字母大寫其余字母小寫。B、除特殊模塊_init_之外,模塊名稱都使用不帶下劃線的小寫字母。C、不要濫用?args和**kwargsD、建議把所有方法都放在ー個(gè)類中答案:D解析:以下關(guān)于代碼規(guī)范描述,把所有方法都放在ー個(gè)類中是錯(cuò)誤的。.下面關(guān)于詞袋模型說法錯(cuò)誤的是〇。A、詞袋模型使用ー個(gè)多重集對(duì)文本中出現(xiàn)的單詞進(jìn)行編碼B、詞袋模型不考慮詞語原本在句子中的順序C、詞袋模型可以應(yīng)用于文檔分類和檢索,同時(shí)受到編碼信息的限制D、詞袋模型產(chǎn)生的靈感來源于包含類似單詞的文檔經(jīng)常有相似的含義答案:C解析:文本處理基礎(chǔ)知識(shí)。.對(duì)數(shù)值型輸出,最常見的結(jié)合策略是()。A、投票法B、平均法C、學(xué)習(xí)法D、排序法答案:B解析:對(duì)數(shù)值型輸出,最常見的結(jié)合策略是平均法。.以下有關(guān)計(jì)算機(jī)編程語言說法錯(cuò)誤的是()。A、編程語言是用于書寫計(jì)算機(jī)程序的語言;B、計(jì)算機(jī)語言可分為機(jī)器語言、匯編語言、高級(jí)語言;C、計(jì)算機(jī)能識(shí)別和執(zhí)行所有編程語言寫的程序;D、C/C++、pascal、javpython都屬于高級(jí)編程語言;答案:C解析:只有機(jī)器語言才能被計(jì)算機(jī)直接識(shí)別,Python等高級(jí)語言源程序,不能直接運(yùn)行,必須翻譯成機(jī)器語言才能執(zhí)行。.Python中StatsmodeI庫(kù)和()庫(kù)關(guān)系密切。NumpyB\ScipyC、jiebaD\Pandas答案:D解析:StatsmodeIs建立在pandas之上。.以下屬于考慮詞語位置關(guān)系的模型有()。A、詞向量模型B、詞袋模型C、詞的分布式表示D、TF-IDF答案:A解析:詞向量模型考慮通過中間詞預(yù)測(cè)鄰近詞,需要考慮詞語順序位置。.建立一個(gè)詞典[Alex,wants,to,go,pIay,footbaII,shopping],下面的句子:AlexwantstogotopIayfootbaII可以用向量表示為()。A、[1,1,2,1,1,1,0]B、[1,1,2,1,1,1]C、[1,1,1,1,1,1,01D、[1,1,1,1,1,1,11答案:A解析:向量中每個(gè)元素代表該詞在句中出現(xiàn)的次數(shù),比如to在句中出現(xiàn)兩次,所以第3個(gè)元素應(yīng)為2。.()是指給目標(biāo)用戶產(chǎn)生的錯(cuò)誤或不準(zhǔn)確的視覺感知,而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實(shí)情況不一致。A、視覺假象B、視覺認(rèn)知C、視覺感知D、數(shù)據(jù)可視答案:A解析:視覺假象(VisualIIlusion)是數(shù)據(jù)可視化工作中不可忽略的特殊問題。視覺假象是指給目標(biāo)用戶產(chǎn)生的錯(cuò)誤或不準(zhǔn)確的視覺感知,而這種感知與數(shù)據(jù)可視化者的意圖或數(shù)據(jù)本身的真實(shí)情況不一致。視.以下濾波器對(duì)圖像中的椒鹽噪聲濾波效果最好的是()。A、中值濾波B、均值濾波C、最大值濾波D、最小值濾波答案:A解析:中值濾波對(duì)圖像椒鹽噪聲的濾波效果最好。.以下哪種方法不能成功創(chuàng)建一個(gè)數(shù)組()。Ava=np.array([1,2,3,4])Bvb=np.zeros((3,4))Cvc=np.ones(1,2,3,4)Dvd=np.arange(10,30,5)答案:C解析:ones。函數(shù)必須傳入ー個(gè)數(shù)組類型的維度參數(shù)所表示的序列,如列表或元組,所以C無法成功創(chuàng)建數(shù)組,改為np.ones((1,2,3,4))就可以。.MapReduce中,ShuffIe操作的作用是()〇Av合并Bv排序Cv降維Dv分區(qū)答案:B解析:Shuffle一確保每個(gè)reduce()函數(shù)的輸入都按鍵排序。.一個(gè)MapReduce程序中的MapTask的個(gè)數(shù)由什么決定()Av輸入的總文件數(shù)Bv客戶端程序設(shè)置的mapTask的個(gè)數(shù)CvFiIeInputFormat.getSpIits(JobContextjob)計(jì)算出的邏輯切片的數(shù)量Dv輸入的總文件大小/數(shù)據(jù)塊大小答案:C解析:MapReduce編程模型中的mapTask的并行度決定機(jī)制是由FilelnputFormat.getSpIits(JobContextjob)決定的。該方法的返回值是List<lnputSpIit>spIits,這個(gè)結(jié)果集合中的每個(gè)!nputSpIit就是ー個(gè)邏輯輸入切片,每個(gè)邏輯輸入切片在默認(rèn)情況下是會(huì)要啟動(dòng)一個(gè)MapTask任務(wù)進(jìn)行計(jì)算的,因此C對(duì)。.對(duì)于SVM分類算法,待分樣本集中的大部分樣本不是支持向量,下列說法正確的是〇。A、需要將這些樣本全部強(qiáng)制轉(zhuǎn)換為支持向量B、需要將這些樣本中可以轉(zhuǎn)化的樣本轉(zhuǎn)換為支持向量,不能轉(zhuǎn)換的直接刪除C、移去或者減少這些樣本對(duì)分類結(jié)果沒有影響D、以上都不對(duì)答案:C解析:支持向量機(jī)的一個(gè)重要性質(zhì):訓(xùn)練完成后,大部分的訓(xùn)練樣本都不需保留,最終模型僅與支持向量有關(guān)。.下列對(duì)于sigmoid函數(shù)的說法,錯(cuò)誤的是()A、存在梯度爆炸的問題B、不是關(guān)于原點(diǎn)對(duì)稱G計(jì)算exp比較耗時(shí)D、存在梯度消失的問題答案:A解析:對(duì)于sigmoid函數(shù),S型函數(shù)圖像向兩邊的斜率逼近〇,因此隨著網(wǎng)絡(luò)層增加,梯度消失比梯度爆炸更容易發(fā)生的多。.決策樹模型的規(guī)模應(yīng)當(dāng)是()。A、越復(fù)雜越好B、越簡(jiǎn)單越好C、適當(dāng)限制其復(fù)雜程度D、盡可能利用所有特征答案:C解析:決策樹模型的規(guī)模復(fù)雜可能產(chǎn)生過擬合,因此并非越復(fù)雜做好,應(yīng)適當(dāng)限制其復(fù)雜程度。.在Windows系統(tǒng)中,關(guān)閉Python終端會(huì)話常用快捷鍵是()。A\CtrI+CCtrl+DCtrl+EDxCtrl+Z答案:D解析:在Windows系統(tǒng)中,關(guān)閉Python終端會(huì)話常用快捷鍵是Ctrl+Z。.數(shù)據(jù)可視化的本質(zhì)是()。A、將數(shù)據(jù)轉(zhuǎn)換為知識(shí)B、將知識(shí)轉(zhuǎn)換為數(shù)據(jù)C、將數(shù)據(jù)轉(zhuǎn)換為信息D、將信息轉(zhuǎn)換為智慧答案:A解析:可視化分析學(xué)模型認(rèn)為,數(shù)據(jù)可視化的本質(zhì)是將數(shù)據(jù)轉(zhuǎn)換為知識(shí),而不能僅僅停留在數(shù)據(jù)的可視化呈現(xiàn)層次之上,并提出從數(shù)據(jù)到知識(shí)的轉(zhuǎn)換途徑有兩個(gè):一是可視化分析,另ー個(gè)是自動(dòng)化建模。.在HDFS中()是文件系統(tǒng)的工作節(jié)點(diǎn)。A、DataNodeB、ClientC、NameNodeD、Flume答案:A解析:數(shù)據(jù)節(jié)點(diǎn)(DataNode)是分布式文件系統(tǒng)HDFS的工作節(jié)點(diǎn),負(fù)責(zé)數(shù)據(jù)的存儲(chǔ)和讀取,會(huì)根據(jù)客戶端或者是名稱節(jié)點(diǎn)的調(diào)度來進(jìn)行數(shù)據(jù)的存儲(chǔ)和檢索,并且向名稱節(jié)點(diǎn)定期發(fā)送自己所存儲(chǔ)的塊的列表。每個(gè)數(shù)據(jù)節(jié)點(diǎn)中的數(shù)據(jù)會(huì)被保存在各自節(jié)點(diǎn)本地Linux文件系統(tǒng)中。.圖像中虛假輪廓的出現(xiàn)就其本質(zhì)而言是〇。A、圖像的灰度級(jí)數(shù)不夠多而造成的B、圖像的空間分辨率不夠高而造成的C、圖像的灰度級(jí)數(shù)過多而造成的D、圖像的空間分辨率過高而造成的答案:A解析:圖像中的虛假輪廓最易在平滑區(qū)域內(nèi)產(chǎn)生。平滑區(qū)域內(nèi)灰度應(yīng)緩慢變化,但當(dāng)圖像的灰度級(jí)數(shù)不夠多時(shí)會(huì)產(chǎn)生階躍。所以圖像中虛假輪廓的出現(xiàn)就其本質(zhì)而言是圖像的灰度級(jí)數(shù)不夠多而造成的,選Ao.對(duì)于數(shù)據(jù)3,3,2,3,6,3,10,3,6,3,2.①這組數(shù)據(jù)的眾數(shù)是3;②這組數(shù)據(jù)的眾數(shù)與中位數(shù)的數(shù)值不相等;③這組數(shù)據(jù)的中位數(shù)與平均數(shù)的數(shù)值不相等;④這組數(shù)據(jù)的平均數(shù)與眾數(shù)的數(shù)值相等.其中正確結(jié)論的個(gè)數(shù)為()。A、1B、2C、3D、4答案:B解析:眾數(shù)是指ー組中出現(xiàn)次數(shù)最多的數(shù),中位數(shù)是按順序排列的ー組數(shù)據(jù)中居于中間位置的數(shù),平均值是各數(shù)值加總求和再除以總的個(gè)數(shù)。此題中眾數(shù)為3,中位數(shù)為3,平均值為4I故①和③正確。.文本信息往往包含客觀事實(shí)和主觀情感,對(duì)于文本的情感分析主要是識(shí)別文章中的主觀類詞語,其中()不適用于情感分析。A、表達(dá)觀點(diǎn)的關(guān)鍵詞B、表達(dá)程度的關(guān)鍵詞C、表達(dá)情緒的關(guān)鍵詞D、表達(dá)客觀事實(shí)的關(guān)鍵詞答案:D解析:D中表達(dá)客觀事實(shí)的關(guān)鍵詞是對(duì)事物的客觀性描述,不帶有感情色彩和情感傾向,即為客觀性文本,不適用于情感分析。而主觀性文本則是作者對(duì)各種事物的看法或想法,帶有作者的喜好厭惡等情感傾向,如ABC中表觀點(diǎn)、程度和情緒的關(guān)鍵詞都是帶有情感傾向的主觀性文本,適用于情感分析。.scipy.stats,moment函數(shù)的作用是()。A、隨機(jī)變量的概率密度函數(shù)B、隨機(jī)變量的累積分布函數(shù)C、隨機(jī)變量的生存函數(shù)D、計(jì)算分布的非中心矩答案:D.以下哪些算法是基于規(guī)則的分類器()。A、04.5B、KNNC、NaiveBayesD、ANN答案:A解析:基于規(guī)則的分類器有決策樹、隨機(jī)森林、Aprior。.scipy.stats模塊中對(duì)隨機(jī)變量進(jìn)行隨機(jī)取值的函數(shù)是()-A、rvsB、pdfC、cdfD、sf答案:A解析:stats模塊中每個(gè)分布都rvs函數(shù),對(duì)隨機(jī)變量取值。.以下不屬于大數(shù)據(jù)重要意義的是()。A、大數(shù)據(jù)成為推動(dòng)經(jīng)濟(jì)轉(zhuǎn)型發(fā)展的新動(dòng)カB、大數(shù)據(jù)成為重塑國(guó)家競(jìng)爭(zhēng)優(yōu)勢(shì)的新機(jī)遇C、大數(shù)據(jù)成為提升政府治理能力的新途徑D、大數(shù)據(jù)會(huì)增加經(jīng)濟(jì)發(fā)展的成本答案:D解析:大數(shù)據(jù)可以促進(jìn)經(jīng)濟(jì)的發(fā)展,催生新的業(yè)態(tài),在輔助商業(yè)的決策、降低運(yùn)營(yíng)成本、精準(zhǔn)市場(chǎng)的營(yíng)銷方面都能發(fā)揮作用,進(jìn)ー步提升企業(yè)競(jìng)爭(zhēng)力。.Spark那個(gè)組件用于支持實(shí)時(shí)計(jì)算需求()。SparkSQLSparkStreamingSparkGraphXDxSparkMLLib答案:B解析:SparkStreaming用于實(shí)時(shí)處理。.Mapreduce適用于()A、任意應(yīng)用程序B、任意可在windowsservet2008上運(yùn)行的程序C、可以串行處理的應(yīng)用程序D、可以并行處理的應(yīng)用程序答案:D解析:Mapreduce適用于并行處理的應(yīng)用程序.使用Numpy讀取csv文件應(yīng)使用以下哪個(gè)函數(shù)()。A、save()B、read_csv()C、loadtxt()D\open()答案:C解析:Numpy中設(shè)有讀取csv文件的函數(shù),使用np.loadtxt可讀取csv文件。.讀代碼,請(qǐng)寫出程序正確的答案00#!/usr/bin/envpython3N=100Sum=OCounter=1Whilecounter<=n:Sum+counterCounter+=1Print(n!到%d之和為:%d"%(n,sum))A、結(jié)果:1到100之和為:5000B、結(jié)果:1到100之和為:〇G結(jié)果:1到100之和為:2050Dv結(jié)果:1到100之和為:5020答案:B解析:循環(huán)中沒有給sum賦值,故sum=0.以下哪個(gè)參數(shù)可以使數(shù)組計(jì)算沿指定軸進(jìn)行應(yīng)用操作()。A、axisB、!npIaceC、dataD\dtype答案:A解析:通過指定axis參數(shù),可以沿?cái)?shù)組的指定軸應(yīng)用操作。.PageRank是一個(gè)函數(shù),它對(duì)Web中的每個(gè)網(wǎng)頁賦予一個(gè)實(shí)數(shù)值。它的意圖在于網(wǎng)頁的PageRank越高,那么它就()。A、相關(guān)性越高B、越不重要C、相關(guān)性越低D、越重要答案:D解析:PageRank認(rèn)為,如果A頁面有一個(gè)鏈接指向B頁面,那就可以看作是A頁面對(duì)B頁面的ー種信任或推薦。所以,如果一個(gè)頁面的反向鏈接越多,再根據(jù)這些鏈接的價(jià)值加權(quán)越高,那搜索引擎就會(huì)判斷這樣的頁面更為重要。.機(jī)器學(xué)習(xí)中L1正則化和L2正則化的區(qū)別是()。A、使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值B、使用L1可以得到平滑的權(quán)值,使用L2可以得到平滑的權(quán)值C、使用L1可以得到平滑的權(quán)值,使用L2可以得到稀疏的權(quán)值D、使用L1可以得到稀疏的權(quán)值,使用L2可以得到稀疏的權(quán)值答案:A解析:使用L1可以得到稀疏的權(quán)值,使用L2可以得到平滑的權(quán)值。.下面哪個(gè)操作是窄依賴〇A、joinB\fiItergroupsort答案:B解析:spark中常見的窄依賴操作包括map,filer,union,sampIe等,寬依賴的操作包括reducebykey,groupbykey,join等。36.數(shù)據(jù)科學(xué)中,人們開始注意到傳統(tǒng)數(shù)據(jù)處理方式中普遍存在的“信息丟失”現(xiàn)象,進(jìn)而數(shù)據(jù)處理范式從()轉(zhuǎn)向〇。A、產(chǎn)品在先,數(shù)據(jù)在后范式;數(shù)據(jù)在先,產(chǎn)品在后范式或無模式B、模式在先,產(chǎn)品在后范式;產(chǎn)品在先,模式在后范式或無模式C、數(shù)據(jù)在先,模式在后范式或無模式;模式在先,數(shù)據(jù)在后范式D、模式在先,數(shù)據(jù)在后范式;數(shù)據(jù)在先,模式在后范式或無模式答案:D解析:傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)中,先定義模式,然后嚴(yán)格按照模式要求存儲(chǔ)數(shù)據(jù);當(dāng)需要調(diào)整模式時(shí),不僅需要數(shù)據(jù)結(jié)構(gòu),而且還需要修改上層應(yīng)用程序。然而,NoSQL技術(shù)則采用了非常簡(jiǎn)單的Key-Value等模式在后(SchemaLater)和無模式(SchemaIess)的方式提升了數(shù)據(jù)管理系統(tǒng)的自適應(yīng)能力。當(dāng)然,模式在后(SchemaLater)和無模式(SchemaIess)也會(huì)帶來新問題,如降低了數(shù)據(jù)管理系統(tǒng)的數(shù)據(jù)處理能力。37.假如我們使用非線性可分的SVM目標(biāo)函數(shù)作為最優(yōu)化對(duì)象,我們?cè)趺幢WC模型線性可分()。A、設(shè)C設(shè)B、設(shè)C=0c、設(shè)c二無窮大D、以上答案都不正確答案:C解析:C無窮大保證了所有的線性不可分都是可以忍受的。.假定你現(xiàn)在訓(xùn)練了一個(gè)線性SVM并推斷出這個(gè)模型出現(xiàn)了欠擬合現(xiàn)象,在下一次訓(xùn)練時(shí),應(yīng)該采取下列什么措施〇A、增加數(shù)據(jù)點(diǎn)B、減少數(shù)據(jù)點(diǎn)C、增加特征D、減少特征答案:C解析:欠擬合是指模型擬合程度不高,數(shù)據(jù)距離擬合曲線較遠(yuǎn),或指模型沒有很好地捕捉到數(shù)據(jù)特征,不能夠很好地?cái)M合數(shù)據(jù)。可通過增加特征解決。.兩個(gè)變量相關(guān),它們的相關(guān)系數(shù)r可能為〇。這句話是否正確()Av正確Bv錯(cuò)誤答案:A解析:Pearson相關(guān)系數(shù)ア0,這表示兩個(gè)變量間不存在線性相關(guān)關(guān)系。.一幅數(shù)字圖像是()。A、一個(gè)觀測(cè)系統(tǒng)B、ー個(gè)由許多像素排列而成的實(shí)體C、ー個(gè)2-D數(shù)組中的元素D、ー個(gè)3-D空間中的場(chǎng)景答案:C解析:數(shù)字圖像,又稱數(shù)碼圖像或數(shù)位圖像,是二維圖像用有限數(shù)字?jǐn)?shù)值像素的表7JX〇.執(zhí)行以下代碼段Print(bool('False'))Print(bool())時(shí),輸出為0。TrueTrueTrueFaIseC、FaIseTrueDxFaIseFaIse答案:B解析:這里’False'只是字符串42.以下說法正確的是:()。1.ー個(gè)機(jī)器學(xué)習(xí)模型,如果有較高準(zhǔn)確率,總是說明這個(gè)分類器是好的2.如果增加模型復(fù)雜度,那么模型的測(cè)試錯(cuò)誤率總是會(huì)降低3.如果增加模型復(fù)雜度,那么模型的訓(xùn)練錯(cuò)誤率總是會(huì)降低A、1B、2C、3D、Iand3答案:C解析:如果增加模型復(fù)雜度,那么模型的測(cè)試錯(cuò)誤率總是會(huì)降低,訓(xùn)練錯(cuò)誤率可能降低,也可能增高。.從網(wǎng)絡(luò)的原理上來看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是()。A、卷積神經(jīng)網(wǎng)絡(luò)B、長(zhǎng)短時(shí)記憶神經(jīng)網(wǎng)絡(luò)C、GRUD、BP神經(jīng)網(wǎng)絡(luò)答案:B解析:從網(wǎng)絡(luò)的原理上來看,結(jié)構(gòu)最復(fù)雜的神經(jīng)網(wǎng)絡(luò)是LSTMO.txt=open(fiIename)返回的是()〇A、變量B、常數(shù)C、文件內(nèi)容D、文件對(duì)象答案:D解析:txt=open(filename)返回的是文件對(duì)象。.pipinsta4scipy==1.7與pipinstaIIscipy兩者的區(qū)別是()〇A、兩者作用ー樣B、前者安裝指定版本的包,后者安裝最新版本的包C、前者安裝指定版本的包,后者安裝隨機(jī)版本的包D、以上答案都不正確答案:B解析:pipinstallscipy==1.7與pipinstalIscipy兩者的區(qū)別是前者安裝指定版本的包,后者安裝最新版本的包。.若arr=np.array([[1,2,3,],[4,5,6,],[7,8,9,]]),則arr[:2,1:]的輸出為〇。Av([[2,3].[5,6]])Bv([[1][6]])Cv([[5,6],[8,9]])Dv([[1,2],[4,5]])答案:A解析:索引時(shí)如果不指定冒號(hào)旁邊的數(shù)值,則默認(rèn)從開頭開始或至結(jié)尾結(jié)束。.以下不能創(chuàng)建一個(gè)字典的語句是〇。AvdietkUBvdict2={3:5}Cvdict3={[1,2,3]:l,uestcn)Dvdict4={(1,2,3):"uestc”}答案:C解析:字典key不可以是可變類型.LSTM中,(_)的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中,并更新細(xì)胞狀態(tài)。Av輸入門Bv遺忘門C、輸出門D、更新門答案:A解析:LSTM中,輸入門的作用是確定哪些新的信息留在細(xì)胞狀態(tài)中,并更新細(xì)胞狀態(tài);遺忘門決定我們會(huì)從細(xì)胞狀態(tài)中丟棄什么信息;輸出門確定輸出。.MatpIotIib的核心是面向()〇A、過程B、對(duì)象C、結(jié)果D、服務(wù)答案:B解析:MatplotIib的核心是面向?qū)ο蟮?。如果需要更多控制和自定義圖,我們建議直接使用對(duì)象。.正確導(dǎo)入日期模塊的語句()。A\importdateB、importdatetimeC\importtimeDヽimportdate_time答案:B解析:導(dǎo)入日期模塊的語句是importdatetime.診斷性分析主要采取的分析方法是()和()。A、關(guān)聯(lián)分析和因果分析法B、關(guān)聯(lián)分析和分類分析法C、關(guān)聯(lián)分析和運(yùn)籌學(xué)D、因果分析和分類分析法答案:A解析:診斷性分析主要關(guān)注過去,回答為什么發(fā)生,主要采用關(guān)聯(lián)分析法和因果分析法。.為了降低MapReduce兩個(gè)階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對(duì)map階段的輸出進(jìn)行處理。Avsort()B、biner()C、join()D、gather()答案:B解析:為了降低數(shù)據(jù)傳遞量,采用binerO函數(shù)對(duì)map()函數(shù)的數(shù)據(jù)結(jié)果進(jìn)行合并處理。.IDLE環(huán)境的退出命令是〇。A、exit()B、回車鍵C、cIose()D、esc()答案:A解析:IDLE使用exit。退出環(huán)境。.反轉(zhuǎn)二維數(shù)組arr的行arr=np.arange(9).reshape(3,3)A、arr[::-1]B\arr[::-2]arr[::1]arr[::0]答案:A解析:::T進(jìn)行反轉(zhuǎn)。.要彌補(bǔ)缺失值,可以使用均值,中位數(shù),眾數(shù)等等,preprocessing模塊中那個(gè)方法可以實(shí)現(xiàn)()。A、preprocessing.Imputer()B、preprocessing.PoIynomiaIFeatures()C、preprocessing.FunctionTransformer()D、preprocessing.Binarizer()答案:A解析:要彌補(bǔ)缺失值,可以使用均值,中位數(shù),眾數(shù)等等,preprocessing中Imputer方法可以實(shí)現(xiàn)。.在當(dāng)前圖形上添加一個(gè)子圖需要用到哪個(gè)方法()。A、pypIot.stackpIot()B\pypIot.suptitIe()CヽpypIot.subpIot()D、pypIot.imshow()答案:c解析:matpIotIib.pyplot.subplot0的作用是在當(dāng)前圖形上添加一個(gè)子圖。.下面哪個(gè)是滿足期望輸出的代碼()。Arr=np.array([0,1,2,3,4,5,6,7,8,9])期望輸出:array([1,3,5,7,9])arr%2==1arr[arr%2==1]arr[arr/2==1]arr[arr//2==1]答案:B解析:題中的結(jié)果是選取了原數(shù)組的奇數(shù),先使用數(shù)組進(jìn)行邏輯判斷得到ー個(gè)邏輯數(shù)組,然后以其作為索引選取數(shù)據(jù)。.A=np.array([[1,1],[0,1]]),B=np.array([[2,0].[3,4]]),A*B的結(jié)果是()。A、[[2,0].[0,4]]B、[[5,4].[3,4]]G[[3,4].[5,4]]D、無法計(jì)算答案:A解析:Numpy數(shù)組的乘法計(jì)算分為兩種:一種是矩陣正常相乘,代碼實(shí)現(xiàn)為AB或A.dot(B),一種是每個(gè)元素對(duì)應(yīng)相乘,表現(xiàn)方式為A*B,本題所問的是后ー種。.下列哪種算法可以用神經(jīng)網(wǎng)絡(luò)構(gòu)建?(_)1.K-NN最近鄰算法2.線性回歸3.邏輯回歸Aヽ1and2B\2and31,2and3Noneoftheabove答案:B解析:KNN是關(guān)于距離的學(xué)習(xí)算法,沒有任何參數(shù),所以無法用神經(jīng)網(wǎng)絡(luò)構(gòu)建。.matplotlib中的調(diào)用堆積折線圖的函數(shù)是什么〇。A、step()B、stackpIot()GpIuspIot()Dvhist0答案:B解析:stackpIot用于繪制堆疊折線圖。.信息增益對(duì)可取值數(shù)目()的屬性有所偏好,增益率對(duì)可取值數(shù)目〇的屬性有所偏好。A、較高,較高B、較高,較低C、較低,較高D、較低,較低答案:B解析:信息增益準(zhǔn)則對(duì)可取值數(shù)目較多的屬性有所偏好,增益率對(duì)可取值數(shù)目較少的屬性有所偏好。.數(shù)組分割使用以下哪個(gè)函數(shù)()〇Avvstack()B、hstack()C、spIit()D、view()答案:C解析:np.split()的作用是把ー個(gè)數(shù)組從左到右按順序切分。.關(guān)于基本數(shù)據(jù)的元數(shù)據(jù)是指()。A、基本元數(shù)據(jù)與數(shù)據(jù)源,數(shù)據(jù)倉(cāng)庫(kù),數(shù)據(jù)集市和應(yīng)用程序等結(jié)構(gòu)相關(guān)的信息B、基本元數(shù)據(jù)包括與企業(yè)相關(guān)的管理方面的數(shù)據(jù)和信息C、基本元數(shù)據(jù)包括日志文件和簡(jiǎn)歷執(zhí)行處理的時(shí)序調(diào)度信息D、基本元數(shù)據(jù)包括關(guān)于裝載和更新處理,分析處理以及管理方面的信息答案:D解析:元數(shù)據(jù)(Metadata),又稱中介數(shù)據(jù)、中繼數(shù)據(jù),為描述數(shù)據(jù)的數(shù)據(jù)(dataaboutdata)〇.標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的()為最小。A、累積方差B、累積誤差C、累積協(xié)方差D、累積偏差答案:B解析:標(biāo)準(zhǔn)BP算法的目標(biāo)是使訓(xùn)練集上的累積誤差最小。.假負(fù)率是指〇。A、正樣本預(yù)測(cè)結(jié)果數(shù)/正樣本實(shí)際數(shù)B、被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)C、被預(yù)測(cè)為正的負(fù)樣本結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)D、負(fù)樣本預(yù)測(cè)結(jié)果數(shù)/負(fù)樣本實(shí)際數(shù)答案:B解析:假負(fù)率是指被預(yù)測(cè)為負(fù)的正樣本結(jié)果數(shù)/正樣本實(shí)際數(shù)。.bootstrap數(shù)據(jù)是什么意思()。A、有放回地從總共M個(gè)特征中抽樣m個(gè)特征B、無放回地從總共M個(gè)特征中抽樣m個(gè)特征C、有放回地從總共N個(gè)樣本中抽樣n個(gè)樣本D、無放回地從總共N個(gè)樣本中抽樣n個(gè)樣本答案:C解析:自助來樣法(bootstrapsampling),給定包含N個(gè)樣本的數(shù)據(jù)集,我們先隨機(jī)取出ー個(gè)樣本放入采樣集中,再把該樣本放回初始數(shù)據(jù)集,使得下次采樣時(shí)該樣本仍有可能被選中,這樣經(jīng)過n次隨機(jī)采樣操作,我們得到含n個(gè)樣本的采樣集。.在編寫程序時(shí)經(jīng)常要對(duì)某ー個(gè)條件進(jìn)行判斷,“條件”只有“成立”或“不成立”兩種結(jié)果。成立用“True”表示,不成立用“False”表示。下列關(guān)系表達(dá)式中,結(jié)果為“True”的是()。A、2>53>=31!=16ニニ5答案:B解析:>=可表示為〉或二。.劃分聚類算法是ー種簡(jiǎn)單的較為基本的重要聚類方法。它的主要思想是通過將數(shù)據(jù)點(diǎn)集分為()個(gè)劃分,并使用重復(fù)的控制策略使某個(gè)準(zhǔn)則最優(yōu)化,以達(dá)到最終的結(jié)果A、DB、KC、ED、F答案:B解析:劃分聚類算法K-Means將數(shù)據(jù)點(diǎn)集分為K個(gè)子集。.以下代碼的輸出結(jié)果為〇。ImportnumpyasnpA=np.array([0.25,1.33,1,100])Print(np.reciprocaI(a))A、[-10.-9.-8.]B、[-7.-6.-5.]C、[0.251.331.100.]D、[4.0.75187971.0.01]答案:D解析:np.reciprocal。取倒數(shù)。.有N個(gè)樣本,一般用于訓(xùn)練,一般用于測(cè)試。若增大N值,則訓(xùn)練誤差和測(cè)試誤差之間的差距會(huì)如何變化()。A、增大B、減小C、無法確定D、無明顯變化答案:B解析:增加數(shù)據(jù),能夠有效減小過擬合,減小訓(xùn)練樣本誤差和測(cè)試樣本誤差之間的差距。.Numpy簡(jiǎn)單介紹,不正確的是()。A、Numpy(NumericaIPython)是Python語言的ー個(gè)擴(kuò)展程序庫(kù)B、支持大量的維度數(shù)組與矩陣運(yùn)算C、針對(duì)數(shù)組運(yùn)算提供大量的數(shù)學(xué)函數(shù)庫(kù)D、Numpy不開放源代碼答案:D解析:Numpy是開源代碼庫(kù)。.當(dāng)相關(guān)系數(shù)尸。時(shí),說明()。A、現(xiàn)象之間相關(guān)程度較小B、現(xiàn)象之間完全相關(guān)C、現(xiàn)象之間無直線相關(guān)D、現(xiàn)象之間完全無關(guān)答案:C解析:相關(guān)系數(shù)r刻畫了兩個(gè)變量之間的相關(guān)程度,|rI小于等于1,IrI越接近1,則表示兩個(gè)變量相關(guān)度越高,反之相關(guān)度越低。相關(guān)系數(shù)一〇只能說明線性無關(guān),不能說明完全無關(guān)。.獲取兩個(gè)PythonNumpy數(shù)組之間的公共項(xiàng)〇〇A=np.array([1,2,3,2,3,4,3,4,5,6])B=np.array([7,2,10,2,7,4,9,4,9,8])期望輸出:array([2,4])A、intersectld(a,b)B、ersectld(a,b)C、erset(a,b)D、ersectld(a)答案:B解析:intersect1d()返回二者的交集并排序。.大數(shù)據(jù)中的小數(shù)據(jù)可能缺失、冗余、存在垃圾數(shù)據(jù)不影響大數(shù)據(jù)的可信數(shù)據(jù),體現(xiàn)大數(shù)據(jù)“涌現(xiàn)”的()表現(xiàn)形式。A、價(jià)值涌現(xiàn)B、隱私涌現(xiàn)C、質(zhì)量涌現(xiàn)D、安全涌現(xiàn)答案:C解析:大數(shù)據(jù)的“質(zhì)量涌現(xiàn)”是指大數(shù)據(jù)中的成員小數(shù)據(jù)可能有質(zhì)量問題(不可信的數(shù)據(jù)),如缺失、冗余、垃圾數(shù)據(jù)的存在,但不影響大數(shù)據(jù)的質(zhì)量(可信的數(shù)據(jù))〇.以下不屬于Python內(nèi)置模塊的是()。A、sysB\jsonC、osD、image答案:D解析:image屬于第三方庫(kù)。.Numpy的數(shù)組中Ndarray對(duì)象屬性描述錯(cuò)誤的是()。A、Ndarray.dtypeNdarray對(duì)象中每個(gè)元素的大小,以字節(jié)為單位B、Ndarray.flagsNdarray對(duì)象的內(nèi)存信息GNdarray.realNdarray元素的實(shí)部D、Ndarray.imagNdarray元素的虛部答案:A解析:dtype是數(shù)組元素的類型。.當(dāng)圖像通過信道傳輸時(shí),噪聲一般與()無關(guān)。A、信道傳輸?shù)馁|(zhì)量B、出現(xiàn)的圖像信號(hào)C、是否有中轉(zhuǎn)信道的過程D、圖像在信道前后的處理答案:B解析:當(dāng)圖像通過信道傳輸時(shí),噪聲一般與出現(xiàn)的圖像信號(hào)無關(guān),這種獨(dú)立于信號(hào)的退化被稱為加性噪聲。信道傳輸質(zhì)量、中轉(zhuǎn)信道都會(huì)影響圖像質(zhì)量,而圖像在信道前后的預(yù)處理和后處理也會(huì)產(chǎn)生噪聲。.在留出法、交叉驗(yàn)證法和自助法三種評(píng)估方法中,()更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測(cè)試集的情況。A'留出法B'交叉驗(yàn)證法C'自助法D'留一法答案:C解析:自助法更適用于數(shù)據(jù)集較小、難以劃分訓(xùn)練集和測(cè)試集的情況。.在數(shù)據(jù)科學(xué)中,通??梢圆捎?)方法有效避免數(shù)據(jù)加工和數(shù)據(jù)備份的偏見。A、A/B測(cè)試B、訓(xùn)練集和測(cè)試集的劃分C、測(cè)試集和驗(yàn)證集的劃分D、圖靈測(cè)試答案:A解析:A/B測(cè)試是ー種對(duì)比試驗(yàn),準(zhǔn)確說是ー種分離式組間試驗(yàn),在試驗(yàn)過程中,我們從總體中隨機(jī)抽取ー些樣本進(jìn)行數(shù)據(jù)統(tǒng)計(jì),進(jìn)而得出對(duì)總體參數(shù)的多個(gè)評(píng)估。A/B測(cè)試有效避免數(shù)據(jù)加工和準(zhǔn)備偏見以及算法/模型選擇偏見具有重要借鑒意義。.下列不屬于深度學(xué)習(xí)內(nèi)容的是(_)〇A、深度置信網(wǎng)絡(luò)B、受限玻爾茲曼機(jī)C、卷積神經(jīng)網(wǎng)絡(luò)D、貝葉斯學(xué)習(xí)答案:D解析:貝葉斯學(xué)習(xí)屬于傳統(tǒng)的機(jī)器學(xué)習(xí)算法。.關(guān)于數(shù)據(jù)分析,下列說法正確的是〇。A、描述性分析和預(yù)測(cè)性分析是對(duì)診斷性分析的基礎(chǔ)B、斷性分析分析是對(duì)規(guī)范性分析的進(jìn)ー步理解C、預(yù)測(cè)性分析是規(guī)范性分析的基礎(chǔ)D、規(guī)范性分析是數(shù)據(jù)分析的最高階段,可以直接產(chǎn)生產(chǎn)業(yè)價(jià)值答案:C解析:在數(shù)據(jù)分析中,流程分為以下方式:描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。.增加卷積核的大小對(duì)于改進(jìn)卷積神經(jīng)網(wǎng)絡(luò)的效果是必要的嗎()A、是的,增加卷積核尺寸一定能提高性能B、不是,增加核函數(shù)的大小不一定會(huì)提高性能答案:B解析:增加核函數(shù)的大小不一定會(huì)提高性能。這個(gè)問題在很大程度上取決于數(shù)據(jù)集。.關(guān)于Python包,以下說法正確的是()。A、利用pip包管理器更新已安裝包的代碼是:pipupdate包名B、單獨(dú)導(dǎo)入包名即可導(dǎo)入包中所包含的所有子模塊C、下載安裝、更新、查看、移除包等行為可以在命令行中進(jìn)行,但不可以在Jupyternotebook中進(jìn)行D、下載安裝、更新、查看、移除包等行為既可以用pip工具,也可以用conda工具答案:D解析:PiP更新包指令為pipinstaII-upgradePackage;單獨(dú)導(dǎo)入包之后訪問子模塊需要用“模塊.子模塊”方式;在Jupyter中也可以通過指令管理包。.三維以上數(shù)組是以()的形式輸出的。A、按行輸出B、按矩陣輸出C、按矩陣列表輸出D、按字符串輸出答案:C解析:ー維數(shù)組輸出為行,二維數(shù)組輸出為矩陣,三維數(shù)組輸出位矩陣列表。.從連續(xù)圖像到數(shù)字圖像需要()。A、圖像灰度級(jí)設(shè)定B、圖像分辨率設(shè)定C、確定圖像的存儲(chǔ)空間D、采樣和量化答案:D解析:數(shù)字圖像又稱離散圖像,連續(xù)圖像到數(shù)字圖像需要離散化,離散化是通過采樣和量化實(shí)現(xiàn)的。.有數(shù)組arr=Numpy.array([1,2,3,4]),執(zhí)行arr.dtype后輸出結(jié)果為()〇A、!nt32Bゝint64fIoat32fIoat64答案:A解析:從列表中創(chuàng)建時(shí),Numpy會(huì)自動(dòng)判斷元素的類型從而確定數(shù)組的類型,此處都為整數(shù)則確定為int32,如果將元素1改為1.0,則會(huì)確定為float64o87.以下分割方法中不屬于區(qū)域算法的是()。A、分裂合并B、閾值分割C、區(qū)域生長(zhǎng)D、邊緣檢測(cè)答案:D解析:邊緣檢測(cè)算法是標(biāo)識(shí)數(shù)字圖像中亮度變化明顯的點(diǎn),不屬于區(qū)域算法發(fā)范疇。.假設(shè)我們已經(jīng)在ImageNet數(shù)據(jù)集(物體識(shí)別)上訓(xùn)練好了一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。然后給這張卷積神經(jīng)網(wǎng)絡(luò)輸入ー張全白的圖片。對(duì)于這個(gè)輸入的輸出結(jié)果為任何種類的物體的可能性都是ー樣的,對(duì)嗎〇。A、對(duì)的B、不知道C、看情況D、不對(duì)答案:D解析:不對(duì),神經(jīng)網(wǎng)絡(luò)對(duì)于未知的數(shù)據(jù)不是均勻預(yù)測(cè)的,會(huì)對(duì)莫ー種或多種類別存在偏向。.以下哪個(gè)不屬于數(shù)據(jù)治理的內(nèi)容。A、理解自己的數(shù)據(jù)B、行為規(guī)范的制定C、崗位職責(zé)的定義D、獲得更多的數(shù)據(jù)答案:D解析:獲得更多的數(shù)據(jù)不屬于數(shù)據(jù)治理。.Python安裝擴(kuò)展庫(kù)常用的是()工具。A\pyinstaIIB、pipC、popD、post答案:B.數(shù)據(jù)故事話的‘情景‘不包括()。A、還原情景B、統(tǒng)計(jì)情景C、移植情景D、虛構(gòu)情景答案:B解析:“數(shù)據(jù)的故事化描述(Storytelling)”是指為了提升數(shù)據(jù)的可理解性、可記憶性及可體驗(yàn)性,將“數(shù)據(jù)”還原成關(guān)聯(lián)至特定的“情景”的過程??梢?數(shù)據(jù)故事化也是數(shù)據(jù)轉(zhuǎn)換的表現(xiàn)形式之一,其本質(zhì)是以“故事講述”的方式展現(xiàn)“數(shù)據(jù)的內(nèi)容”。數(shù)據(jù)故事化中的“情景”,可以是:1)還原情景:還原數(shù)據(jù)所計(jì)量和記錄信息時(shí)的“原始情景”;2)移植情景:并非對(duì)應(yīng)信息的原始情景,而是將數(shù)據(jù)移植到另ー個(gè)真實(shí)發(fā)生的情景(如目標(biāo)用戶比較熟悉的情景)之中。3)虛構(gòu)情景:數(shù)據(jù)的故事化描述中所選擇的情景并非為真實(shí)存在的情景,而是根據(jù)講述人的想象カ設(shè)計(jì)出來的“虛構(gòu)情景”。.Hadoop生態(tài)系統(tǒng)中,HBase是一種()。A、分布式文件系統(tǒng)B、數(shù)據(jù)倉(cāng)庫(kù)C、實(shí)時(shí)分布式數(shù)據(jù)庫(kù)D、分布式計(jì)算系統(tǒng)答案:C解析:HBase是ー個(gè)面向列的實(shí)時(shí)分布式數(shù)據(jù)庫(kù)。.以下代碼的輸出結(jié)果為()。ImportnumpyasnpA二np.arange(9)B=np.split(a,3)Print(b)A、[012345678]B、[array([0,1,2]),array([3,4,5]),array([6,7,8])]G[array([0,1,2,3]),array([4,5,6]),array([7,8])]D、沒有正確答案答案:B解析:split將原數(shù)組等分成三個(gè)數(shù)組。.為了觀察測(cè)試丫與X之間的線性關(guān)系,X是連續(xù)變量,使用下列()比較適合。A、散點(diǎn)圖B、柱形圖C、直方圖D、以上答案都不正確答案:A解析:散點(diǎn)圖反映了兩個(gè)變量之間的相互關(guān)系,在測(cè)試丫與X之間的線性關(guān)系時(shí),使用散點(diǎn)圖最為直觀。.下列哪個(gè)用于說明在RDD上執(zhí)行何種計(jì)算()。A、分區(qū);B、算子;C、日志;D、數(shù)據(jù)塊;答案:B解析:算子是Spark中定義的函數(shù),用于對(duì)RDD中的數(shù)據(jù)進(jìn)行操作、轉(zhuǎn)換和計(jì)算。.情感信息歸納常見的存在形式是()。A、語料庫(kù)B、情感文摘C、情感評(píng)論D、情感傾向答案:B解析:文本處理基礎(chǔ)知識(shí).平滑圖像()處理可以采用RGB彩色模型。A、直方圖均衡化B、直方圖均衡化C、加權(quán)均值濾波D、中值濾波答案:C解析:平滑圖像處理可以采用RGB彩色加權(quán)均值濾波模型。.()計(jì)算框架源自ー種分布式計(jì)算模型,其輸入和輸出值均為“鍵ー值對(duì)”結(jié)構(gòu)。MahoutMapReduceSparkSqoop答案:B解析:MapReduce定義99.下列關(guān)于HDFS的描述正確的是()A、如果NameNode宕機(jī),SecondaryNameNode會(huì)接替它使集群繼續(xù)工作B、HDFS集群支持?jǐn)?shù)據(jù)的隨機(jī)讀寫CvNameNode磁盤元數(shù)據(jù)不保存Block的位置信息D\DataNode通過長(zhǎng)連接與NameNode保持通信答案:C解析:SecondaryNameNode并不是namenode節(jié)點(diǎn)的備份。所以A錯(cuò)。;存儲(chǔ)在HDFS集群上的數(shù)據(jù)是不支持隨機(jī)修改和刪除的,只支持追加,所以B錯(cuò);namenode和datanode之間的通信是基于一種心跳機(jī)制。該機(jī)制不是長(zhǎng)連接。是短連接形式。每次發(fā)送ー個(gè)數(shù)據(jù)包(自身狀態(tài)信息+數(shù)據(jù)塊信息)即可,所以D錯(cuò)。100,以下選項(xiàng)中,輸出結(jié)果是False的是()。A、?>5isnot4B、>>>5!=4G?>False!=0D、>?5is5答案:C解析:False在內(nèi)置表達(dá)式中為〇。101.在抽樣估計(jì)中,隨著樣本容量的增大,樣本統(tǒng)計(jì)量接近總體參數(shù)的概率就越大,這一性質(zhì)稱為()A、無偏性B、有效性C、及時(shí)性D、一致性答案:D解析:一致性是指隨著樣本容量的增大,樣本統(tǒng)計(jì)量接近總體參數(shù)的概率就越大,對(duì)于給定的偏差控制水平,兩者間偏差高于此控制水平,兩者間偏差高于此控制水平的可能性越小。1O2.Scikit-Learn中()可以實(shí)現(xiàn)評(píng)估回歸模型。A\accuracy_scoremean_squared_errorf1_scoreDvauc答案:B解析:mean_squared_err"均方誤差是用來評(píng)估回歸模型的指標(biāo),其他三個(gè)都是評(píng)估分類模型的指標(biāo)。.下列場(chǎng)景中最有可能應(yīng)用人工智能的是()。A、刷臉辦電B、輿情分析C、信通巡檢機(jī)器人D、以上答案都正確答案:D解析:人工智能應(yīng)用的范圍很廣,包括:計(jì)算機(jī)科學(xué),金融貿(mào)易,醫(yī)藥,診斷,重工業(yè),運(yùn)輸,遠(yuǎn)程通訊,在線和電話服務(wù),法律,科學(xué)發(fā)現(xiàn),玩具和游戲,音樂等諸多方面,刷臉辦電、輿情分析、信通巡檢機(jī)器人當(dāng)然都能很好的應(yīng)用到人工智能,選D。.過濾式特征選擇與學(xué)習(xí)器〇,包裹式特征選擇與學(xué)習(xí)器()。A、相關(guān)相關(guān)B、相關(guān)不相關(guān)C、不相關(guān)相關(guān)D、不相關(guān)不相關(guān)答案:C解析:過濾式方法先對(duì)數(shù)據(jù)集進(jìn)行特征選擇,然后再訓(xùn)練學(xué)習(xí)器,特征選擇過程與后續(xù)學(xué)習(xí)器無關(guān)。包裹式特征選擇把最終將要使用的學(xué)習(xí)器的性能作為特征于集的評(píng)價(jià)準(zhǔn)則。.()是數(shù)據(jù)庫(kù)管理系統(tǒng)運(yùn)行的基本工作單位。A、事務(wù)B、數(shù)據(jù)倉(cāng)庫(kù)C、數(shù)據(jù)單元D、數(shù)據(jù)分析答案:A解析:在關(guān)系數(shù)據(jù)庫(kù)中,事務(wù)(Transaction)是保證數(shù)據(jù)一致性的重要手段,可以幫助用戶維護(hù)數(shù)據(jù)的一致性。事務(wù)是用戶定義的ー個(gè)數(shù)據(jù)庫(kù)操作序列,這些操作要么全做,要么全不做,是ー個(gè)不可分割的工作單位。.以下輸出的結(jié)果正確的是()。ImportnumpyasnpX=np.arange(32).reshape((8,4))Print(x[[-4,-2,T,-7]])[[16171819][24252627][28293031][4567]][[16171819][891011][456刀[28293031][[891011][4567]]error答案:A解析:二維數(shù)組只傳入ー個(gè)列表進(jìn)行索弓I時(shí),是對(duì)行進(jìn)行選取。DAGScheduIer的作用是什么()A、負(fù)責(zé)分配任務(wù);B、負(fù)責(zé)調(diào)度Worker的運(yùn)行;C、負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃;D、負(fù)責(zé)清理執(zhí)行完畢的任務(wù);答案:C解析:Scheduler模塊分為兩個(gè)部分DAGScheduIer和TaskScheduler。DAGScheduler負(fù)責(zé)創(chuàng)建執(zhí)行計(jì)劃;TaskScheduler負(fù)責(zé)分配任務(wù)并調(diào)度Worker的運(yùn)行。HBase使用一個(gè)〇節(jié)點(diǎn)協(xié)調(diào)管理一個(gè)或多個(gè)regionserver從屬機(jī)。namenode;datanode;jobtracker;master;答案:D解析:Hbase中由一個(gè)Master節(jié)點(diǎn)負(fù)責(zé)協(xié)調(diào)管理一個(gè)或多個(gè)RegionServer從屬.數(shù)據(jù)安全不只是技術(shù)問題,還涉及到()。A、人員問題B、管理問題C、行政問題D、領(lǐng)導(dǎo)問題答案:B解析:數(shù)據(jù)安全不只是技術(shù)問題,還涉及到管理問題。.關(guān)于表述數(shù)據(jù)可視化在數(shù)據(jù)科學(xué)中重要地位說法中,下列不正確的是〇。A、視覺是人類獲得信息的最主要途徑B、數(shù)據(jù)可視化處理可以洞察統(tǒng)計(jì)分析無法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)C、數(shù)據(jù)可視化處理結(jié)果的解讀對(duì)用戶知識(shí)水平的要求較高D、可視化能夠幫助人們提高理解與處理數(shù)據(jù)的效率答案:C解析:視覺是人類獲得信息的最主要途徑,超過50%的人腦功能用于視覺信息的處理。數(shù)據(jù)可視化處理可以洞察統(tǒng)計(jì)分析無法發(fā)現(xiàn)的結(jié)構(gòu)和細(xì)節(jié)。數(shù)據(jù)可視化處理結(jié)果的解讀對(duì)用戶知識(shí)水平的要求較低??梢暬軌驇椭藗兲岣呃斫馀c處理數(shù)據(jù)的效率。.以下算法中不屬于基于深度學(xué)習(xí)的圖像分割算法是()。A、FCNB、deepIabC、Mask-RCNND、kNN答案:D解析:KNN為傳統(tǒng)機(jī)器學(xué)習(xí)方法并非深度學(xué)習(xí)方法。112.下列關(guān)于文本分類的說法不正確的是()A、文本分類是指按照預(yù)先定義的主題類別,由計(jì)算機(jī)自動(dòng)地為文檔集合中的每個(gè)文檔確定一個(gè)類別B、文本分類大致可分為基于知識(shí)工程的分類系統(tǒng)和基于機(jī)器學(xué)習(xí)的分類系統(tǒng)C、文本的向量形式一般基于詞袋模型構(gòu)建,該模型考慮了文本詞語的行文順序D、構(gòu)建文本的向量形式可以歸結(jié)為文本的特征選擇與特征權(quán)重計(jì)算兩個(gè)步驟答案:C解析:詞袋模型是指將所有詞語裝進(jìn)ー個(gè)袋子里,不考慮其詞法和語序的問題,即每個(gè)詞語都是獨(dú)立的,所以該模型沒有考慮文本詞語的行文順序,C錯(cuò)誤,選Co113.關(guān)于函數(shù)的關(guān)鍵字參數(shù)使用限制,以下選項(xiàng)中描述錯(cuò)誤的是()。A、關(guān)鍵字參數(shù)必須位于位置參數(shù)之前B、不得重復(fù)提供實(shí)際參數(shù)C、關(guān)鍵字參數(shù)必須位于位置參數(shù)之后D、關(guān)鍵字參數(shù)順序無限制答案:A解析:關(guān)鍵字參數(shù)必須位于位置參數(shù)之后。.Apriori算法的核心思想是。。A、通過頻繁項(xiàng)集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來挖掘候選集B、通過候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來挖掘頻繁項(xiàng)集C、數(shù)據(jù)集中包含該項(xiàng)集的數(shù)據(jù)所占數(shù)據(jù)集的比例,度量一個(gè)集合在原始數(shù)據(jù)中出現(xiàn)的頻率D、若某條規(guī)則不滿足最小置信度要求,則該規(guī)則的所有子集也不滿足最小置信度要求答案:B解析:Aprior!算法是ー種挖掘關(guān)聯(lián)規(guī)則的頻繁項(xiàng)集算法,其核心思想是通過候選集生成和情節(jié)的向下封閉檢測(cè)兩個(gè)階段來挖掘頻繁項(xiàng)集。.與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機(jī)器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對(duì)未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。()是此類方法的重要代表〇A'協(xié)同訓(xùn)練B'組合訓(xùn)練C'配合訓(xùn)練D'陪同訓(xùn)練答案:A解析:與生成方法、半監(jiān)督SVM、圖半監(jiān)督學(xué)習(xí)等基于單學(xué)習(xí)機(jī)器利用未標(biāo)記數(shù)據(jù)不同,基于分歧的方法(disagreement-basedmethods)使用多學(xué)習(xí)器,而學(xué)習(xí)器之間的分歧(disagreement)對(duì)未標(biāo)記數(shù)據(jù)的利用至關(guān)重要。協(xié)同是此類方法的重要代表,它很好地利用了多視圖的相容互補(bǔ)性。.kNN最近鄰算法在什么情況下效果較好()。A、樣本較多但典型性不好B、樣本較少但典型性好C、樣本呈團(tuán)狀分布D、樣本呈鏈狀分布答案:B解析:K近鄰算法主要依靠的是周圍的點(diǎn),因此如果樣本過多,則難以區(qū)分,典型性好的容易區(qū)分。.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的()、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A、暫時(shí)隔離B、暫時(shí)刪除C、永久刪除D、不作處理答案:C解析:數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的永久刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。.以下代碼的輸出結(jié)果為()。ImportnumpyasnpA=np.array([[1,2,3],[4,5,6]])Print(np.append(a,[7,8,9]))[[123][456]][123456789]C、[[123][456][789]]D、[[123555][456789]]答案:B解析:append。函數(shù)在沒有指定軸進(jìn)行操作時(shí),默認(rèn)展平數(shù)組。.對(duì)于ー個(gè)分類任務(wù),如果開始時(shí)神經(jīng)網(wǎng)絡(luò)的權(quán)重不是隨機(jī)賦值的,而是都設(shè)成〇,下面哪個(gè)敘述是正確的()A、其他選項(xiàng)都不對(duì)B、沒啥問題,神經(jīng)網(wǎng)絡(luò)會(huì)正常開始訓(xùn)練C、神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西D、神經(jīng)網(wǎng)絡(luò)不會(huì)開始訓(xùn)練,因?yàn)闆]有梯度改變答案:C解析:神經(jīng)網(wǎng)絡(luò)可以訓(xùn)練,但是所有的神經(jīng)元最后都會(huì)變成識(shí)別同樣的東西。.time庫(kù)的time,mktime(t)函數(shù)的作用是()。A、將當(dāng)前程序掛起secs秒,掛起即暫停執(zhí)行B、將struct_time對(duì)象變量t轉(zhuǎn)換為時(shí)間戳C、返回一個(gè)代表時(shí)間的精確浮點(diǎn)數(shù),兩次或多次調(diào)用,其差值用來計(jì)時(shí)D、根據(jù)format格式定義,解析字符串t.返回struct_time類型時(shí)間變量答案:B解析:mktime(t)函數(shù)的作用是將結(jié)構(gòu)化時(shí)間變量t轉(zhuǎn)換為時(shí)間戳。.以下()不是NoSQL數(shù)據(jù)庫(kù)。AヽMongoDBB、BigTabIeC、HBaseD\Access答案:D解析:NoSQL是指那些非關(guān)系型的、分布式的、不保證遵循ACID原則的數(shù)據(jù)存儲(chǔ)系統(tǒng)。典型的NoSQL產(chǎn)品有DangaInteractive的Memcached、10gen的MongoDB'Facebook的Cassandra、Google的BigTable及其開源系統(tǒng)HBase、Amazon的Dynamo、Apache的TokyoCabinet、CouchDB和Redis等。.關(guān)于層次聚類算法:(1)不斷重復(fù)直達(dá)達(dá)到預(yù)設(shè)的聚類簇?cái)?shù)⑵不斷合并距離最近的聚類簇⑶對(duì)初始聚類簇和相應(yīng)的距離矩陣初始化⑷對(duì)合并得到的聚類簇進(jìn)行更新。正確的執(zhí)行順序?yàn)?)。1234132432413412答案:C解析:層次聚類算法的過程是:對(duì)初始聚類簇和相應(yīng)的距離矩陣初始化;不斷合并距離最近的聚類簇;對(duì)合并得到的聚類簇進(jìn)行更新;不斷重復(fù)直達(dá)達(dá)到預(yù)設(shè)的聚類簇?cái)?shù)。.執(zhí)行以下代碼段MotorcycIes=['honda','yamaha','suzuki']MotorcycIes.append('ducati')MotorcycIes.pop(1)Print(motorcycIes)時(shí),輸出為0。A、['honda','yamaha','suzuki']B、['yamaha*,1suzuki','ducati']C、['honda','yamaha',*suzuki','ducati']D、['honda','suzuki*,1ducati']答案:D解析:pop出第一位置的元素.Windows系統(tǒng)下安裝Matplotiib的命令是()〇A、pythonpipinstaIImatpIotIibBヽpython-mpipinstaIImatpIotIibCヽsudoapt-getinstaIIpython-matplotiibDxsudopython-mpipinstaIImatpIotIib答案:B解析:A選項(xiàng)缺少參數(shù)‘-m',C選項(xiàng)是Linux系統(tǒng)下安裝命令,D選項(xiàng)是MacOSX系統(tǒng)下安裝命令。.以下()屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。A、數(shù)據(jù)戰(zhàn)略制定B、業(yè)務(wù)術(shù)語表C、數(shù)據(jù)質(zhì)量評(píng)估D、過程質(zhì)量保障答案:A解析:數(shù)據(jù)戰(zhàn)略制定屬于DMM(數(shù)據(jù)管理成熟度模型)中的關(guān)鍵過程域“數(shù)據(jù)戰(zhàn)略”。.深度學(xué)習(xí)是當(dāng)前很熱門的機(jī)器學(xué)習(xí)算法,在深度學(xué)習(xí)中,涉及到大量的矩陣相乘,現(xiàn)在需要計(jì)算三個(gè)稠密矩陣A,B,C的乘積ABC,假設(shè)三個(gè)矩陣的尺寸分別為m*n,n*p,p*q,且mくnくpくq,以下計(jì)算順序效率最高的是(_)〇A、(AB)CAC(B)C、A(BC)D、所有效率都相同答案:A解析:B選項(xiàng)中A的列數(shù)與C的行數(shù)不相等,無法相乘,B選項(xiàng)排除。A選項(xiàng)需要的乘法次數(shù)為m*n*p+m*p*q,C選項(xiàng)需要的乘法次數(shù)為n*p*q+m*n*q,由于mくnくpくq,顯然A運(yùn)算次數(shù)更少。.ordinaIencoder將屬性轉(zhuǎn)化為()。A、獨(dú)熱編碼B、附帶特性的數(shù)字C、二進(jìn)制編碼D、ASCII碼答案:B解析:。rdinalencoder的作用是數(shù)值化,但是不增加列數(shù)。.下列關(guān)于大數(shù)據(jù)的分析理念的說法中,錯(cuò)誤的是〇。A、在數(shù)據(jù)基礎(chǔ)上傾向于全體數(shù)據(jù)而不是抽樣數(shù)據(jù)B、在分析方法上更注重相關(guān)分析而不是因果分析C、在分析效果上更追求效率而不是絕對(duì)精確D、在數(shù)據(jù)規(guī)模上強(qiáng)調(diào)相對(duì)數(shù)據(jù)而不是絕對(duì)數(shù)據(jù)答案:D解析:在大數(shù)據(jù)的分析理念中,數(shù)據(jù)規(guī)模上強(qiáng)調(diào)絕對(duì)數(shù)據(jù)而不是相對(duì)數(shù)據(jù)。.以下哪個(gè)是正確的運(yùn)行結(jié)果()。lmportnumpyasnpa=np.logspace(0,9,10,base=2)Print(a)A、[1357]B、[.28.256.512.][0123456789][010]答案:B解析:np.logspace()計(jì)算時(shí)可以先求相同參數(shù)的Iinspace結(jié)果,然后對(duì)每個(gè)元素做以base參數(shù)為底的辱運(yùn)算。此處為以2為底,依此做0-9的幕運(yùn)算。.np.exp(x).round⑸的結(jié)果是2.71828,x的值是()〇A、0B、1C、2D、2.71828答案:B解析:e的1次方。.以下關(guān)于圖像的平滑處理錯(cuò)誤的說法是()。A、圖像的平滑處理是指在盡量保留原有信息的情況下,過濾掉圖像內(nèi)部的噪音B、圖像平滑處理會(huì)對(duì)圖像中與周圍像素點(diǎn)的像素值差異較大的像素點(diǎn)進(jìn)行處理,將其值調(diào)整為周圍像素點(diǎn)像素值的近似值C、講過平滑處理后圖像質(zhì)量會(huì)下降D、以上答案都正確答案:C解析:圖像的平滑處理不會(huì)損壞圖像的輪廓及邊緣等重要信息,使得圖像清晰視覺效果好。132,在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是:()〇A、有放回的簡(jiǎn)單隨機(jī)抽樣B、無放回的簡(jiǎn)單隨機(jī)抽樣C、分層抽樣D、漸進(jìn)抽樣答案:D解析:在抽樣方法中,當(dāng)合適的樣本容量很難確定時(shí),可以使用的抽樣方法是漸進(jìn)抽樣。.數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)“三同步”原則不包括以下哪項(xiàng)()。A、同步規(guī)劃B、同步建設(shè)C、同步使用D、同步運(yùn)維答案:D解析:數(shù)據(jù)安全技術(shù)保護(hù)與信息系統(tǒng)包含同步規(guī)則ゝ同步建設(shè)ゝ同步適用三項(xiàng)原則。.如果要將讀寫位置移動(dòng)到文件開頭,需要使用的命令是()。A、cIoseB、seek(0)C、truncateD\write(*stuff1)答案:B解析:seek(0)指移動(dòng)指針到〇位置即開頭。.以下代碼的輸出結(jié)果為()。ImportnumpyasnpA=np.array([[10,7,4],[3,2,1]])Print(np.percentiIe(a,50))A、[[1074][321]]B、3.5C、[]D、[7.2.]答案:B解析:percentiIe是百分位數(shù),此處是50%,即中位數(shù),因?yàn)閿?shù)組個(gè)數(shù)為偶數(shù)個(gè),因此中位數(shù)為3和4的均值。.a=np.array([[0,0,0],[10,10,10],[20,20,20],[30,30,30]])B=np.array([1,2,3]),a+b的輸出結(jié)果為()。A、[[123][101010][202020][303030]]Bゝ[[123][000][101010][202020][303030]]C、[[123][111213][212223][313233]]D、無法計(jì)算答案:C解析:在Numpy中兩個(gè)維度不同的數(shù)組進(jìn)行計(jì)算時(shí)會(huì)自動(dòng)觸發(fā)Numpy的廣播機(jī)制,原公式會(huì)轉(zhuǎn)換為[[1,2,3],[1,2,3],[1,2,3],[1,2,3]]+[[0,0,0],[10,10,10],[20,20,20],[30,30,30]]〇.()將觀測(cè)值分為相同數(shù)目的兩部分,當(dāng)統(tǒng)計(jì)結(jié)果為非對(duì)稱分布時(shí),經(jīng)常使用它。A、眾數(shù)B、標(biāo)準(zhǔn)差C、中位數(shù)D、均值答案:C解析:中位數(shù)是指ー組數(shù)據(jù)排序后處于中間位置的變量值。.關(guān)于OLAP的特性,下面正確的是:(1)快速性⑵可分析性⑶多維性(4)信息性⑸共享性()A、(1)(2)(3)B、(2)(3)(4)G(1)(2)(3)(4)D、(1)(2)(3)(4)(5)答案:D解析:OLAP具有快速性、可分析性、多維性、信息性、共享性等特征。.()是指針對(duì)用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價(jià)值最重要也是最直接的發(fā)現(xiàn)方式。A、數(shù)據(jù)服務(wù)B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)應(yīng)用答案:A解析:數(shù)據(jù)服務(wù)指針對(duì)用戶非常明確的數(shù)據(jù)查詢和處理任務(wù),以高性能和高吞吐量的方式實(shí)現(xiàn)大眾化的服務(wù),是數(shù)據(jù)價(jià)值最重要也是最直接的發(fā)現(xiàn)方式。.數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行()等處理的過程。A、更正B、刪除C、補(bǔ)充錄入D、以上答案都正確答案:D解析:數(shù)據(jù)資產(chǎn)維護(hù)是指為保證數(shù)據(jù)質(zhì)量,對(duì)數(shù)據(jù)進(jìn)行更正、刪除、補(bǔ)充錄入等處理的過程。.SparkJob默認(rèn)的調(diào)度模式是()。A、FIFOB、FAIRC、無D、運(yùn)行時(shí)指定答案:A解析:Spark中的調(diào)度模式主要有兩種FIFO和FAIR。默認(rèn)情況下Spark的調(diào)度模式是F圧0(先進(jìn)先出)。.以下可以應(yīng)用關(guān)鍵詞提取的是()。A、文獻(xiàn)檢索B、自動(dòng)文摘C、文本聚類/分類D、以上答案都正確答案:D解析:在自然語言處理領(lǐng)域,處理海量的文本文件最關(guān)鍵的是要把用戶最關(guān)心的問題提取出來。.()是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。A、數(shù)據(jù)管理B、數(shù)據(jù)分析C、數(shù)據(jù)治理D、數(shù)據(jù)規(guī)劃答案:C解析:從DMM模型可以看出,數(shù)據(jù)治理是實(shí)現(xiàn)數(shù)據(jù)戰(zhàn)略的重要保障。數(shù)據(jù)管理的是指通過管理“數(shù)據(jù)”實(shí)現(xiàn)組織機(jī)構(gòu)的某種業(yè)務(wù)目的。然而,數(shù)據(jù)治理則指如何確?!皵?shù)據(jù)管理”的順利、有效、科學(xué)地完成。.ggplot2的核心理念是()。A、繪圖與數(shù)據(jù)分離B、結(jié)構(gòu)與數(shù)據(jù)分離C、繪圖與結(jié)構(gòu)分離D、繪圖與數(shù)據(jù)和結(jié)構(gòu)分離答案:A解析:ggplot2的核心理念是將繪圖與數(shù)據(jù)分離,數(shù)據(jù)相關(guān)的繪圖與數(shù)據(jù)無關(guān)的繪圖分離。.最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法是什么()A、長(zhǎng)短期記憶網(wǎng)絡(luò)B、門控循環(huán)單元網(wǎng)絡(luò)C、堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)D、雙向循環(huán)神經(jīng)網(wǎng)絡(luò)答案:A解析:LSTM是最早被提出的循環(huán)神經(jīng)網(wǎng)絡(luò)門控算法。長(zhǎng)短期記憶網(wǎng)絡(luò)(Long-Sh。rtTermMemory,LSTM)論文首次發(fā)表于1997年11月15日。門控循環(huán)單元網(wǎng)絡(luò)(GRU)論文發(fā)表于2014年。堆疊循環(huán)神經(jīng)網(wǎng)絡(luò)(SRNN)論文發(fā)表于2017年。雙向循環(huán)神經(jīng)網(wǎng)絡(luò)(BidirectionaIrecurrentneuraInetworks)發(fā)表于1997年11月。.在其他條件不變的前提下,以下哪種做法容易引起機(jī)器學(xué)習(xí)中的過擬合問題〇。A、增加訓(xùn)練集量B、減少神經(jīng)網(wǎng)絡(luò)隱藏層節(jié)點(diǎn)數(shù)C、刪除稀疏的特征D、SVM算法中使用高斯核/RBF核代替線性核答案:D解析:神經(jīng)網(wǎng)絡(luò)減少隱藏層節(jié)點(diǎn),就是在減少參數(shù),只會(huì)將訓(xùn)練誤差變高,不會(huì)導(dǎo)致過擬合。D選項(xiàng)中SVM高斯核函數(shù)比線性核函數(shù)模型更復(fù)雜,容易過擬合。.下列的哪種方法可以用來降低深度學(xué)習(xí)模型的過擬合問題()。1增加更多的數(shù)據(jù)2使用數(shù)據(jù)擴(kuò)增技術(shù)(dataaugmentation)3使用歸納性更好的架構(gòu)4正規(guī)化數(shù)據(jù)5降低架構(gòu)的復(fù)雜度A、145B、123C、1345D、所有項(xiàng)目都有用答案:D解析:增多數(shù)據(jù)、數(shù)據(jù)擴(kuò)增、正規(guī)化數(shù)據(jù)、選擇歸納性更好、復(fù)雜度更低的架構(gòu)均可以用來降低深度學(xué)習(xí)模型的過擬合問題。.神經(jīng)網(wǎng)絡(luò)感知機(jī)只有(_)神經(jīng)元進(jìn)行激活函數(shù)處理,即只擁有一層功能神經(jīng)兀。A、輸出層B、輸入層C、感知層D、網(wǎng)絡(luò)層答案:A解析:神經(jīng)網(wǎng)絡(luò)感知機(jī)只有輸入層神經(jīng)元進(jìn)行激活函數(shù)處理,即只擁有一層功能神經(jīng)元。.下列不屬于transform操作的是〇A\mapBvfiIterC、sampIeDvcount答案:D解析:Transformation常用函數(shù)為map、filter、flatMap、sample、union、j〇!n〇.下列方法中,用于獲取當(dāng)前目錄的是()。A\openB、writeGetpwdread答案:C解析:用于獲取當(dāng)前目錄的方法是Getcwd。151.Scipy中計(jì)算偏度的函數(shù)是哪個(gè)()。A、scipy.stats,skewtest()B、scipy.stats,norm,rvs()C、scipy.stats,kurtosis()D、scipy.stats,poisson.rvs()答案:A解析:利用stats,skewtest()計(jì)算偏度,有兩個(gè)返回值,第二個(gè)為p-value,即數(shù)據(jù)集服從正態(tài)分布的概率(0~1)〇.相對(duì)于HadoopMapReducel.0,Spark的特點(diǎn)不包括()〇A、速度快B、并發(fā)多C、通用性D、易用性答案:B解析:相較于HadoopMapReduce,Spark的特點(diǎn)為速度快、通用性和易用性。.python語言定義的class的初始化函數(shù)的函數(shù)名是。。AxinitB'_init_C'_initD'init_答案:B解析:Python語言定義的class的初始化函數(shù)的函數(shù)名是_init_。.關(guān)于欠擬合(under-fitting),()是正確的。A'訓(xùn)練誤差較大,測(cè)試誤差較小B、訓(xùn)練誤差較小,測(cè)試誤差較大C、訓(xùn)練誤差較大,測(cè)試誤差較大D、訓(xùn)練誤差較小,測(cè)試誤差較小答案:C解析:欠擬合是指對(duì)訓(xùn)練樣本的一般性質(zhì)尚未學(xué)好,因此訓(xùn)練誤差和測(cè)試誤差均較大.數(shù)組拼接的函數(shù)不包括一下哪種〇。A、append()B、insert()C、vstack()D、where()答案:D解析:append。函數(shù)可向數(shù)組橫縱坐標(biāo)添加數(shù)組,insert()函數(shù)可向一維數(shù)組后添加數(shù)據(jù),vstack()函數(shù)可以進(jìn)行數(shù)組拼接,where()函數(shù)是對(duì)數(shù)據(jù)進(jìn)行條件篩選。.下列哪項(xiàng)不是HDFS的設(shè)計(jì)目標(biāo)〇。A、流式數(shù)據(jù)訪問B、大規(guī)模數(shù)據(jù)集C、移動(dòng)計(jì)算D、"多次寫入多次讀取”的文件訪問模型答案:D解析:HDFS的設(shè)計(jì)以“一次寫入、多次讀取”為主要應(yīng)用場(chǎng)景,因此D錯(cuò)。.如果python程序中包括零運(yùn)算,解釋器將在運(yùn)行時(shí)拋出()錯(cuò)誤信息()。A、NameErrorFiIeNotFoundErrorSyntaxErrorDZeroD、ivisionError答案:D解析:NameError為找不到變量名報(bào)錯(cuò);FileNotFoundError為文件不存在報(bào)錯(cuò);SyntaxError為語法報(bào)錯(cuò);ZeroDivisionError為數(shù)學(xué)除零運(yùn)算報(bào)錯(cuò)。158.在python3中以下安裝第三方模塊命令正確的是0。A、pip-instalIsklearnB、pipinstaIIskIearnC、pip-upgrageskIearnpip-isklearn答案:B解析:pip安裝第三方包的指令為:pipinstaIIPackage.通過聚集多個(gè)分類器的預(yù)測(cè)來提高分類準(zhǔn)確率的技術(shù)稱為()。A、組合(ensemble)B、聚集(aggregate)G合并(bination)D、投票(voting)答案:A解析:通過聚集多個(gè)分類器的預(yù)測(cè)來提高分類準(zhǔn)確率的技術(shù)稱為組合。.下列選項(xiàng)中,不屬于python特點(diǎn)的是〇。A、面向?qū)ο?B、運(yùn)行效率高;C、可移植性;D、免費(fèi)和開源;答案:B解析:Python是免費(fèi)開源的面向?qū)ο缶幊陶Z言,方便移植,以解釋方式逐條執(zhí)行語句,相比C++等語言運(yùn)行效率較低。.關(guān)于Python的全局變量和局部變量,以下選項(xiàng)中描述錯(cuò)誤的是()。A、局部變量指在函數(shù)內(nèi)部使用的變量,當(dāng)函數(shù)退出時(shí),變量依然存在,下次函數(shù)調(diào)用可以繼續(xù)使用B、使用global保留字聲明簡(jiǎn)單數(shù)據(jù)類型變量后,該變量作為全局變量使用C、簡(jiǎn)單數(shù)據(jù)類型變量無論是否與全局變量重名,僅在函數(shù)內(nèi)部創(chuàng)建和使用,函數(shù)退出后變量被釋放D、全局變量指在函數(shù)之外定義的變量,一般沒有縮進(jìn),在程序執(zhí)行全過程有效答案:A解析:局部變量指在函數(shù)內(nèi)部使用的變量,當(dāng)函數(shù)退出時(shí),變量即不存在。.下列表達(dá)式中[print(x,y,100-x-y)forxinrange(21)foryinrange(34)if(100-x-y)%3==0and5*x+3*y+(100-x-y)〃3==100I第三次輸出的結(jié)果是()〇418784217581478D、81181答案:D解析:執(zhí)行結(jié)果應(yīng)為:02575418788118112484.pynlpir是ー種常用的自然語言理解工具包,其中進(jìn)行分詞處理的函數(shù)是()〇A、open()B、segment()GAddUserWord()D、generate()答案:B解析:pynlpir是python中分詞工具包,用于分詞處理的函數(shù)是segment().()在劃分屬性時(shí)是在當(dāng)前結(jié)點(diǎn)的屬性集合中選擇ー個(gè)最優(yōu)屬性。A、AdaBoostB、RFC、BaggingD、傳統(tǒng)決策樹答案:D解析:傳統(tǒng)決策樹在選擇劃分屬性時(shí),是在當(dāng)前節(jié)點(diǎn)的屬性集合中選擇ー個(gè)最優(yōu)屬性進(jìn)行劃分。.聚類算法的性能度量可稱為()。A、密度估計(jì)B、異常檢測(cè)C、有效性指標(biāo)D、分布結(jié)構(gòu)答案:C解析:聚類算法的性能度量可稱為有效性指標(biāo)。.現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型不包括()。A、數(shù)據(jù)源與APPB、基礎(chǔ)設(shè)施C、HadoopD、數(shù)據(jù)資源答案:C解析:Speechpad的聯(lián)合創(chuàng)始人DaveFeinleib于2012年發(fā)布大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape),首次較為全面地刻畫了當(dāng)時(shí)快速發(fā)展中的大數(shù)據(jù)技術(shù)體系。后來,該圖及其畫法成為大數(shù)據(jù)和數(shù)據(jù)科學(xué)的重要分析工具,得到廣泛的應(yīng)用和不斷的更新。MattTurck等組織繪制的2017大數(shù)據(jù)產(chǎn)業(yè)全景圖(BigDataLandscape2017)。從2017大數(shù)據(jù)產(chǎn)業(yè)全景圖看,現(xiàn)階段的大數(shù)據(jù)技術(shù)體系主要類型包括:數(shù)據(jù)資源、數(shù)據(jù)源與APP、開源工具、跨平臺(tái)基礎(chǔ)設(shè)施和分析工具、行業(yè)應(yīng)用、企業(yè)應(yīng)用、基礎(chǔ)設(shè)施和分析工具。.下列關(guān)于RNN說法正確的是(_)。A、RNN可以應(yīng)用在NLP領(lǐng)域B、LSTM是RNN的ー個(gè)變種C、在RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出也有關(guān)D、以上答案都正確答案:D解析:RNN是一種人造神經(jīng)網(wǎng)絡(luò),它通過賦予網(wǎng)絡(luò)圖附加權(quán)重來創(chuàng)建循環(huán)機(jī)制,以維持內(nèi)部的狀態(tài)。在擁有狀態(tài)以后,便能在序列預(yù)測(cè)中明確地學(xué)習(xí)并利用上下文信息,如順序或時(shí)間成分,因此RNN適用于自然語言處理。RNN中一個(gè)序列當(dāng)前的輸出與前面的輸出有關(guān)。LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn),能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系,因此是RNN的ー個(gè)變種。.在ー個(gè)神經(jīng)網(wǎng)絡(luò)中,下面哪種方法可以用來處理過擬合()A、DropoutB、分批歸ー化(BatchNormaIization)C、正則化(regularization)D、都可以答案:D解析:Dropout,BatchNormaIization和正則化都可以用來處理過擬合。.矩陣相減使用以下哪種函數(shù)〇〇A、np.add()B、np.subtract()C、np.mu11ipIy()D、np.divide()答案:B解析:ABCD選項(xiàng)分別對(duì)應(yīng)矩陣計(jì)算的加減乘除法。.關(guān)于L1ヽL2正則化下列說法正確的是()A、L2正則化能防止過擬合,提升模型的泛化能力,但L1做不到這點(diǎn)B\L2正則化技術(shù)又稱為L(zhǎng)assoReguIarizationC、L1正則化得到的解更加稀疏D、L2正則化得到的解更加稀疏答案:C解析:L1正則化可以產(chǎn)生稀疏權(quán)值矩陣,即產(chǎn)生一個(gè)稀疏模型,可以用于特征選擇,L2正則化可以防止模型過擬合,一定程度上;L1也可以防止過擬合;L1正則化,又稱LassoRegressiono.關(guān)于數(shù)據(jù)清洗,不正確的說法是()。A、單數(shù)據(jù)源,主鍵取值不能重復(fù)B、多數(shù)據(jù)源會(huì)存在數(shù)據(jù)重復(fù),單位不一致的問題C、連續(xù)型數(shù)據(jù)不存在冗余問題D、缺失值可以采用刪除和填補(bǔ)等方法處理答案:C解析:連續(xù)型數(shù)據(jù)可能存在冗余問題。.關(guān)于_name_的說法,下列描述錯(cuò)誤的是()。A、它是Python提供的ー個(gè)方法;B、每個(gè)模塊內(nèi)部都有一個(gè)_name_屬性;C、當(dāng)它的值為'_main_?時(shí),表示模塊自身在運(yùn)行;D、當(dāng)它的值不為'_main_’時(shí),表示模塊被引用;答案:A解析:_name_是Python提供的ー個(gè)屬性。.彩色圖像增強(qiáng)時(shí),()處理可以采用RGBoA、直方圖均衡化B、同態(tài)濾波C、加權(quán)均值濾波D、中值濾波答案:C解析:RGB是彩色圖像的三通道像素值,均值濾波進(jìn)行的是線性操作,不影響原本圖像的相對(duì)亮度。.下列關(guān)于線性回歸分析中的殘差說法正確的是()。A、殘差均值總是為零B、殘差均值總是約等于零C、殘差均值總是大于零D、以上答案都不正確答案:A解析:線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會(huì)得到殘差和為零,即殘差均值為.數(shù)據(jù)管理成熟度模型中成熟度等級(jí)最高是哪一級(jí)()。A、已優(yōu)化級(jí)B、已測(cè)量級(jí)C、已定義級(jí)D、已管理級(jí)答案:A解析:已優(yōu)化是數(shù)據(jù)管理成熟度模型中成熟度的最高等級(jí)。.任何ー個(gè)核函數(shù)都隱式地定義了一個(gè)()空間。A、希爾伯特空間B、再生希爾伯特空間C、再生核希爾伯特空間D、歐式空間答案:C解析:任何ー個(gè)核函數(shù)都隱式地定義了一個(gè)再生核希爾伯特空間空間。.數(shù)據(jù)科學(xué)項(xiàng)目應(yīng)遵循一般項(xiàng)目管理的原則和方法,涉及()。A、整體、范圍ゝ時(shí)間、成本、質(zhì)量、溝通、風(fēng)險(xiǎn)ゝ宣傳、消費(fèi)B、整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、溝通、風(fēng)險(xiǎn)、采購(gòu)C、整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、運(yùn)維ゝ采購(gòu)、宣傳D、整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、采購(gòu)、宣傳、運(yùn)維答案:B解析:數(shù)據(jù)科學(xué)項(xiàng)目應(yīng)遵循一般項(xiàng)目管理的原則和方法,涉及整體、范圍、時(shí)間、成本、質(zhì)量、人力資源、溝通、風(fēng)險(xiǎn)、采購(gòu)。.()用于將非線性引入神經(jīng)網(wǎng)絡(luò)。它會(huì)將值縮小到較小的范圍內(nèi)。A、損失函數(shù)B、優(yōu)化函數(shù)C、激活函數(shù)D、目標(biāo)函數(shù)答案:c解析:激活函數(shù)用于將非線性引入神經(jīng)網(wǎng)絡(luò),它會(huì)將值縮小到較小的范圍內(nèi)。.下面哪項(xiàng)不屬于循環(huán)神經(jīng)網(wǎng)絡(luò)的輸出模式。(_)A、單輸出B、多輸出C、同步多輸出D、異步多輸出答案:C解析:深度學(xué)習(xí)基礎(chǔ)知識(shí)。.隨機(jī)森林與Bagging中基學(xué)習(xí)器多樣性的區(qū)別是()。A、都來自樣本擾動(dòng)B、都來自屬性擾動(dòng)C、來自樣本擾動(dòng)和自屬性擾動(dòng)D、多樣本集結(jié)合答案:C解析:Bagging中基學(xué)習(xí)器的多樣性僅來

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論