大數(shù)據(jù)理論考試(習(xí)題卷13)

上傳人：1*** IP屬地：重慶上傳時(shí)間：2024-02-03 格式：DOCX 頁(yè)數(shù)：28 大?。?8.44KB 積分：3.6 舉報(bào) 版權(quán)申訴

已閱讀5頁(yè)，還剩23頁(yè)未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說(shuō)明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試卷科目：大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷13)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分：?jiǎn)雾?xiàng)選擇題，共64題，每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.大數(shù)據(jù)計(jì)算服務(wù)（MaxCompute，原ODPS）的MapReduce由多個(gè)步驟組成，以下（）步驟不是必須的。A)combineB)shuffleC)mapD)reduce答案:C解析:[單選題]2.在大規(guī)模的語(yǔ)料中，挖掘詞的相關(guān)性是一個(gè)重要的問(wèn)題。以下哪一個(gè)信息不能用于確定兩個(gè)詞的相關(guān)性（）。A)互信息B)最大熵C)卡方檢驗(yàn)D)最大似然答案:B解析:最大熵為尋找最優(yōu)模型的方法，并不能度量相似性。[單選題]3.為了降低MapReduce兩個(gè)階段之間的數(shù)據(jù)傳遞量，一般采用（）函數(shù)對(duì)map階段的輸出進(jìn)行處理。A)sort（）B)combiner（）C)join（）D)gather（）答案:B解析:為了降低數(shù)據(jù)傳遞量，采用combiner（）函數(shù)對(duì)map（）函數(shù)的數(shù)據(jù)結(jié)果進(jìn)行合并處理。[單選題]4.關(guān)于Sqoop的說(shuō)法，不正確的是（）A)主要設(shè)計(jì)目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的ETL操作B)數(shù)據(jù)導(dǎo)入導(dǎo)出通過(guò)MapReduce完成C)Sqoop具備MapReduce的并行化和容錯(cuò)性D)Sqoop的Reduce操作速度更答案:D解析:sqoop是一個(gè)強(qiáng)大的工具,主要用來(lái)處理大量的數(shù)據(jù)傳輸，并不會(huì)影響Reduce的操作速度。[單選題]5.以下四個(gè)選項(xiàng)中，（）是Spark的核心數(shù)據(jù)結(jié)構(gòu)。A)彈性分布式數(shù)據(jù)集B)列表C)元組D)字典答案:A解析:彈性分布式數(shù)據(jù)集（RDD）是Spark的核心數(shù)據(jù)結(jié)構(gòu)[單選題]6.一幅256*256(2^16)的圖像，若灰度級(jí)數(shù)為16，則該圖像的大小是：（）A)128KB)32KC)1MD)2MB答案:B解析:二、多選題Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)包括（）文本總結(jié)文本分類文本機(jī)器學(xué)習(xí)關(guān)聯(lián)規(guī)則下列關(guān)于TF-IDF模型的描述正確的有（）TF是詞頻IDF是逆文本頻率該模型基于統(tǒng)計(jì)方法在信息檢索中應(yīng)用較少圖像處理中的去噪方法有（）中值濾波均值濾波峰值濾波高值濾波三、[單選題]7.信息熵是度量（）最常用的一種指標(biāo)。A)樣本的個(gè)數(shù)B)樣本的維度C)樣本的純度D)樣本的冗余答案:C解析:信息熵是度量樣本純度最常用的一種指標(biāo)。[單選題]8.數(shù)據(jù)分析的第一步是（）。A)探索性分析B)描述性分析C)診斷性分析D)規(guī)范性分答案:B解析:數(shù)據(jù)分析的步驟：描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。[單選題]9.輸入圖像為32x32，經(jīng)過(guò)步長(zhǎng)為1，不進(jìn)行padding，卷積核為5x5的卷積層后，得到的特征圖尺寸是多少（）A)28x28B)27x27C)29x29D)32x32答案:A解析:(32+0-5)/1+1=28。[單選題]10.點(diǎn)擊率問(wèn)題是這樣一個(gè)預(yù)測(cè)問(wèn)題,99%的人是不會(huì)點(diǎn)擊的,而1%的人是會(huì)點(diǎn)擊進(jìn)去的,所以這是一個(gè)非常不平衡的數(shù)據(jù)集.假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來(lái)分類,而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們可以下的結(jié)論是:（）。A)模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B)模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型C)無(wú)法下結(jié)論D)以上答案都不正確答案:C解析:類別不均衡的情況下，不能用準(zhǔn)確率做分類評(píng)估指標(biāo)，因?yàn)槿袛酁椴粫?huì)點(diǎn)，準(zhǔn)確率也是99%，此時(shí)分類器一點(diǎn)用都沒(méi)有。[單選題]11.pyplot.pie()所畫的圖像是（）。A)箱線圖B)折線圖C)直方圖D)餅圖答案:D解析:pyplot.pie()的作用是繪制餅圖。[單選題]12.以下處理能獲得像素級(jí)標(biāo)注的是（）。A)圖像分類B)物體檢測(cè)C)圖像去噪D)語(yǔ)義分答案:D解析:語(yǔ)義分割通過(guò)對(duì)每個(gè)像素進(jìn)行密集的預(yù)測(cè)、推斷標(biāo)簽來(lái)實(shí)現(xiàn)細(xì)粒度的推理，從而使每個(gè)像素都被標(biāo)記為其封閉對(duì)象礦石區(qū)域的類別，因此能夠獲得像素級(jí)標(biāo)注。[單選題]13.關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn)，下面說(shuō)法正確的是（）。A)當(dāng)簇只包含少量數(shù)據(jù)點(diǎn)，或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí)，混合模型也能很好地處理B)混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇C)混合模型比K均值或模糊c均值更一般，因?yàn)樗梢允褂酶鞣N類型的分布D)混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問(wèn)題答案:C解析:K均值與模糊C均值，這兩個(gè)方法都是迭代求取最終的聚類劃分，即聚類中心與隸屬度值。兩者都不能保證找到問(wèn)題的最優(yōu)解，都有可能收斂到局部極值。模糊C均值是K均值方法的改進(jìn)，算法的目標(biāo)函數(shù)與K均值一致，區(qū)別在于目標(biāo)函數(shù)中增加了模糊權(quán)重指數(shù)；GMM高斯混合模型聚類采用了新的判斷依據(jù)--概率，即通過(guò)屬于某一類的概率大小來(lái)判斷最終的歸屬類別。[單選題]14.以下描述中錯(cuò)誤的是（）。A)數(shù)據(jù)科學(xué)中的?數(shù)據(jù)?不僅僅是?數(shù)值?，也不等同于?數(shù)值?B)數(shù)據(jù)科學(xué)中的?計(jì)算?包括數(shù)據(jù)的查詢、挖掘、洞見(jiàn)等C)數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D)數(shù)據(jù)科學(xué)不包括?理論知識(shí)?，只包括?領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)?答案:D解析:數(shù)據(jù)科學(xué)既包括?理論知識(shí)?，又包括?領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)?。[單選題]15.大數(shù)據(jù)計(jì)算服務(wù)（MaxCompute，原ODPS）中的用戶表dim_user是一張非分區(qū)表，另外有一部分新增用戶的數(shù)據(jù)存在user_delta表中，兩張表的結(jié)構(gòu)相同，為了在dim_user表中得到全量的用戶數(shù)據(jù)，可以采用（）方式A)select*fromuser_delta、intodim_userB)insertintodim_userselect*fromuser_deltaunionallselect*fromdim_userC)insertoverwritetabledim_userselect*fromuser_deltaD)insertintotabledim_userselect*fromuser_delta答案:D解析:[單選題]16.為了允許支持向量機(jī)在一些樣本上出錯(cuò)，引入（）的概念。A)軟間隔B)硬間隔C)間隔D)誤答案:A解析:為了允許支持向量機(jī)在一些樣本上出錯(cuò)，引入軟間隔的概念。[單選題]17.MaxCompute中，A和B都是bigint類型，進(jìn)行A/B運(yùn)算，返回結(jié)果為:（）。A)doubleB)intC)bigintD)float答案:A解析:[單選題]18.目前，多數(shù)NoSQL數(shù)據(jù)庫(kù)是針對(duì)特定應(yīng)用場(chǎng)景研發(fā)出來(lái)的，其設(shè)計(jì)遵循（）原則，更加強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴(kuò)展性。A)EY原則B)READ原則C)BASE原則D)BASIC原則答案:C解析:BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用，并不追求全天候服務(wù)；SoftState是指不要求一直保持強(qiáng)一致?tīng)顟B(tài)；EventuallyConsistent是指最終數(shù)據(jù)一致，而不是嚴(yán)格的實(shí)時(shí)一致，系統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。[單選題]19.DWS的stream算子不包括下列哪個(gè)：A)broadcastB)gatherC)redistributeD)has答案:D解析:[單選題]20.關(guān)系云的一個(gè)重要功能是提供（）。A)數(shù)據(jù)庫(kù)即服務(wù)B)虛擬服務(wù)C)彈性計(jì)算D)按需服務(wù)答案:A解析:關(guān)系云的一個(gè)重要功能是提供?數(shù)據(jù)庫(kù)即服務(wù)（DatabaseasaService）?，用戶無(wú)須在本機(jī)安裝數(shù)據(jù)庫(kù)管理軟件，也不需要搭建自己的數(shù)據(jù)管理集群，而只需要使用服務(wù)提供商提供的數(shù)據(jù)庫(kù)服務(wù)。[單選題]21.下列方法中，用于獲取當(dāng)前目錄的是（）。A)openB)writeC)GetpwdD)read答案:C解析:用于獲取當(dāng)前目錄的方法是Getcwd。[單選題]22.下面哪個(gè)功能不是大數(shù)據(jù)平臺(tái)安全管理組件提供的功能（）。A)接口代理B)接口認(rèn)證C)接口授權(quán)D)路由代理答案:D解析:接口可以對(duì)用戶的身份和請(qǐng)求的參數(shù)進(jìn)行驗(yàn)證，以保證接口的安全。通過(guò)添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性，防止數(shù)據(jù)被篡改和信息泄露。[單選題]23.關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是（）。A)OL主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OT應(yīng)用程序不同。B)與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)。C)OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高。D)OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的答案:C解析:OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用，主要是基本的、日常的事務(wù)處理，記錄即時(shí)的增、刪、改、查，比如在銀行存取一筆款，就是一個(gè)事務(wù)交易。OLAP即聯(lián)機(jī)分析處理，是數(shù)據(jù)倉(cāng)庫(kù)的核心部心，支持復(fù)雜的分析操作，側(cè)重決策支持，并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。[單選題]24.不屬于數(shù)據(jù)脫敏的要求的是（）。A)雙向性B)單向性C)無(wú)殘留D)易于實(shí)現(xiàn)答案:A解析:數(shù)據(jù)脫敏操作不能停留在簡(jiǎn)單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個(gè)要求：?jiǎn)蜗蛐?、無(wú)殘留、易于實(shí)現(xiàn)。[單選題]25.對(duì)文本數(shù)據(jù)處理，通常采用（）核函數(shù)。A)多項(xiàng)式核B)sigmoid核C)線性核D)拉普拉斯答案:C解析:對(duì)文本數(shù)據(jù)處理，通常采用線性核函數(shù)。[單選題]26.（）試圖學(xué)得一個(gè)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù)。A)決策樹(shù)B)貝葉斯分類器C)神經(jīng)網(wǎng)絡(luò)D)線性模答案:D解析:線性模型試圖學(xué)得一個(gè)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù)。[單選題]27.列表對(duì)象的sort()方法用來(lái)對(duì)列表元素進(jìn)行原地排序，該函數(shù)返回值為（）。A)FalseB)NoneC)TrueD)報(bào)錯(cuò)答案:B解析:列表對(duì)象的sort()方法用來(lái)對(duì)列表元素進(jìn)行原地排序，該函數(shù)返回值為None。[單選題]28.下面回歸模型中的哪個(gè)步驟/假設(shè)最能影響過(guò)擬合和欠擬合之間的平衡因素（）。A)多項(xiàng)式的階數(shù)B)是否通過(guò)矩陣求逆或梯度下降學(xué)習(xí)權(quán)重C)使用常數(shù)項(xiàng)D)使用正則化答案:A解析:選取合適的多項(xiàng)式階數(shù)對(duì)于回歸的擬合程度會(huì)產(chǎn)生重要的影響。多項(xiàng)式階數(shù)越高，越容易產(chǎn)生過(guò)擬合現(xiàn)象。[單選題]29.下列不屬于transform操作的是（）A)mapB)filterC)sampleD)count答案:D解析:Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。[單選題]30.當(dāng)Spark發(fā)生Shuffle時(shí)，MapTask的運(yùn)算結(jié)果會(huì)通過(guò)()的形式把運(yùn)算結(jié)果分發(fā)到對(duì)應(yīng)的任務(wù)上去。A)序列化B)鍵值對(duì)C)二進(jìn)制D)RD答案:B解析:[單選題]31.基于統(tǒng)計(jì)的分詞方法為（）。A)正向最大匹配法B)逆向最大匹配法C)最少切分D)條件隨機(jī)答案:D解析:第一類是基于語(yǔ)法和規(guī)則的分詞法。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析，利用句法信息和語(yǔ)義信息來(lái)進(jìn)行詞性標(biāo)注，以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語(yǔ)法知識(shí)、句法規(guī)則十分籠統(tǒng)、復(fù)雜，基于語(yǔ)法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿意，目前這種分詞系統(tǒng)還處在試驗(yàn)階段。第二類是機(jī)械式分詞法（即基于詞典）。機(jī)械分詞的原理是將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配，如果詞典中找到某個(gè)字符串，則匹配成功，可以切分，否則不予切分?；谠~典的機(jī)械分詞法，實(shí)現(xiàn)簡(jiǎn)單，實(shí)用性強(qiáng)，但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。據(jù)統(tǒng)計(jì)，用一個(gè)含有70000個(gè)詞的詞典去切分含有15000個(gè)詞的語(yǔ)料庫(kù)，仍然有30%以上的詞條沒(méi)有被分出來(lái)，也就是說(shuō)有4500個(gè)詞沒(méi)有在詞典中登錄。第三類是基于統(tǒng)計(jì)的方法?；诮y(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語(yǔ)料庫(kù)中出現(xiàn)的統(tǒng)計(jì)頻率來(lái)決定其是否構(gòu)成詞。詞是字的組合，相鄰的字同時(shí)出現(xiàn)的次數(shù)越多，就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。最大匹配是指以詞典為依據(jù)，取詞典中最長(zhǎng)單詞為第一個(gè)次取字?jǐn)?shù)量的掃描串，在詞典中進(jìn)行掃描，這是基于詞典分詞的方法。1.正向最大匹配法，2.逆向最大匹配法，3.最少切分法：使每一句中切出的詞數(shù)最小，這也是基于詞典分詞的方法。[單選題]32.Scipy的stats包中提供了產(chǎn)生連續(xù)性分布的函數(shù)，其中用于均勻分布的函數(shù)是（）。A)normB)uniformC)betaD)geom答案:B解析:均勻分布是uniform。[單選題]33.下列選項(xiàng)中，用于觸發(fā)異常的是（）。A)tryB)catchC)raiseD)except答案:C解析:[單選題]34.以下關(guān)于break,continue說(shuō)法正確的是（）。A)continue語(yǔ)句被用來(lái)告訴Python跳過(guò)當(dāng)前循環(huán)塊中的剩余語(yǔ)句，然后繼續(xù)進(jìn)行下一輪循環(huán)在循環(huán)中break的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作，一旦程序運(yùn)行了break，循環(huán)也就終止了！B)break語(yǔ)句被用來(lái)告訴Python跳過(guò)當(dāng)前循環(huán)塊中的剩余語(yǔ)句，然后繼續(xù)進(jìn)行下一輪循環(huán)，在循環(huán)中continue的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作，一旦程序運(yùn)行了continue，循環(huán)也就終止了！C)break,continue語(yǔ)句被用來(lái)告訴Python跳過(guò)當(dāng)前循環(huán)塊中的剩余語(yǔ)句，然后繼續(xù)進(jìn)行下一輪循環(huán)D)在循環(huán)中break,continue的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作，一旦程序運(yùn)行了break循環(huán)也就終止了！答案:A解析:continue語(yǔ)句可以跳過(guò)循環(huán)的當(dāng)前一步。[單選題]35.在Hive中一個(gè)查詢語(yǔ)句執(zhí)行后顯示的結(jié)果為：2018081250；2018081332；20180814NULL，則最有可能的查詢語(yǔ)句是（）A)SELECTinc_day,count(task_no)FROM任務(wù)表WHEREinc_dayB)SELECTinc_day,count(task_no)FROM任務(wù)表WHEREinc_dayC)SELECTinc_day,count(task_no)FROM任務(wù)表WHEREinc_dayD)SELECTinc_day,count(task_no)FROM任務(wù)表HAVINGinc_day答案:B解析:[單選題]36.下列哪些項(xiàng)目是在圖像識(shí)別任務(wù)中使用的數(shù)據(jù)擴(kuò)增技術(shù)(dataaugmentationtechnique)（）。1水平翻轉(zhuǎn)(Horizontalflipping)2隨機(jī)裁剪(Randomcropping)3隨機(jī)放縮(Randomscaling)4顏色抖動(dòng)(Colorjittering)5隨機(jī)平移(Randomtranslation)6隨機(jī)剪切(Randomshearing)A)1，3，5，6B)1，2，4C)2，3，4，5，6D)所有項(xiàng)答案:D解析:水平翻轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)放縮、顏色抖動(dòng)、隨機(jī)平移和隨機(jī)剪切都是在圖像識(shí)別任務(wù)中使用的數(shù)據(jù)擴(kuò)增技術(shù)[單選題]37.下列方法中，能夠返回某個(gè)子串在字符串中出現(xiàn)次數(shù)的是（）。A)lengthB)indexC)countD)find答案:C解析:count能夠返回某個(gè)子串在字符串中出現(xiàn)次數(shù)。[單選題]38.關(guān)于創(chuàng)建api，以下描述正確的是:（）。A)創(chuàng)建api只能通過(guò)腳本模式創(chuàng)建B)創(chuàng)建api只能通過(guò)向?qū)Ｊ絼?chuàng)建C)創(chuàng)建api可以通過(guò)腳本模式和向?qū)Ｊ絻煞N方式創(chuàng)建D)以上說(shuō)法均不正答案:C解析:[單選題]39.建立一個(gè)詞典[Alex,wants,to,go,play,football,shopping],下面的句子：Alexwantstogotoplayfootball可以用向量表示為（）。A)[1,1,2,1,1,1,0]B)[1,1,2,1,1,1]C)[1,1,1,1,1,1,0]D)[1,1,1,1,1,1,1答案:A解析:向量中每個(gè)元素代表該詞在句中出現(xiàn)的次數(shù)，比如to在句中出現(xiàn)兩次，所以第3個(gè)元素應(yīng)為2。[單選題]40.下列關(guān)于LSTM說(shuō)法錯(cuò)誤的是(__)。A)LSTM中存在sigmoid函數(shù)B)LSTM中存在tanh函數(shù)C)LSTM又稱長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)D)RNN是LSTM的變答案:D解析:LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn)，能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系，因此是RNN的一個(gè)變種。[單選題]41.關(guān)于__name__的說(shuō)法，下列描述錯(cuò)誤的是()A)它是Python提供的一個(gè)方法B)每個(gè)模塊內(nèi)部都有一個(gè)__name__屬性C)當(dāng)它的值為?main?時(shí)，表示模塊自身在運(yùn)行D)當(dāng)它的值不為?main?時(shí)，表示模塊被引用答案:A解析:__name__是屬于python中的內(nèi)置類屬性[單選題]42.假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型，可能遇到一個(gè)問(wèn)題，Logistic回歸需要很長(zhǎng)時(shí)間才能訓(xùn)練，如果對(duì)相同的數(shù)據(jù)進(jìn)行邏輯回歸，如何花費(fèi)更少的時(shí)間，并給出比較相似的精度（）。A)降低學(xué)習(xí)率，減少迭代次數(shù)B)降低學(xué)習(xí)率，增加迭代次數(shù)C)提高學(xué)習(xí)率，增加迭代次數(shù)D)增加學(xué)習(xí)率，減少迭代次答案:D解析:如果在訓(xùn)練時(shí)減少迭代次數(shù)，就能花費(fèi)更少的時(shí)間獲得相同的精度，但需要增加學(xué)習(xí)率。[單選題]43.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的（）、不可恢復(fù)，如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A)暫時(shí)隔離B)暫時(shí)刪除C)永久刪除D)不作處理答案:C解析:數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的永久刪除、不可恢復(fù)，如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。[單選題]44.下列關(guān)于Kafka描述正確的是（）？A)數(shù)據(jù)實(shí)時(shí)傳輸，沒(méi)有延遲B)不支持物聯(lián)網(wǎng)傳感數(shù)據(jù)直接接入C)可以實(shí)現(xiàn)全局消息有序D)監(jiān)控完善，可以獨(dú)立監(jiān)答案:B解析:[單選題]45.下列哪個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會(huì)發(fā)生權(quán)重共享(__)。A)卷積神經(jīng)網(wǎng)絡(luò)B)循環(huán)神經(jīng)網(wǎng)絡(luò)C)全連接神經(jīng)網(wǎng)絡(luò)D)選項(xiàng)A和答案:D解析:CNN與RNN網(wǎng)絡(luò)會(huì)發(fā)生權(quán)重共享。[單選題]46.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好，稱為（）。A)訓(xùn)練偏好B)歸納偏好C)分析偏好D)假設(shè)偏答案:B解析:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好，稱為歸納偏好。[單選題]47.一篇文章中某些名詞的TF-IDF值比較大，則說(shuō)明（）。A)這些名詞對(duì)這篇文章的區(qū)分度比較高B)這些名詞對(duì)這篇文章的區(qū)分度比較低C)不能說(shuō)明什么D)以上答案都不正答案:A解析:TF-IDF是一種統(tǒng)計(jì)方法，用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。名詞的TF-IDF值越大說(shuō)明這些名詞對(duì)這篇文章的區(qū)分度越高。[單選題]48.（）是利用樣本的實(shí)際資料計(jì)算統(tǒng)計(jì)量的取值，并以引來(lái)檢驗(yàn)事先對(duì)總體某些數(shù)量特征的假設(shè)是否可信作為決策取舍依據(jù)的一種統(tǒng)計(jì)分析方法A)假設(shè)檢驗(yàn)B)邏輯分析C)方差分析D)回歸分答案:A解析:假設(shè)檢驗(yàn)，又稱統(tǒng)計(jì)假設(shè)檢驗(yàn)，是用來(lái)判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。其基本原理是先對(duì)總體的特征做出某種假設(shè)，然后通過(guò)抽樣研究的統(tǒng)計(jì)推理，對(duì)此假設(shè)應(yīng)該被拒絕還是接受做出推斷。[單選題]49.以下關(guān)于異常處理的描述，正確的是（）。A)try語(yǔ)句中有except子句就不能有finally子句B)Python中，可以用異常處理捕獲程序中的所有錯(cuò)誤C)引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)NameError錯(cuò)誤D)Python中允許利用raise語(yǔ)句由程序主動(dòng)引發(fā)異常答案:D解析:try語(yǔ)句中有except子句可以有finally子句,不用異常處理捕獲程序中的所有錯(cuò)誤，引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)lisindeoutError。[單選題]50.數(shù)據(jù)科學(xué)是一門以（）為主要研究任務(wù)的獨(dú)立學(xué)科。A)?數(shù)據(jù)驅(qū)動(dòng)??數(shù)據(jù)業(yè)務(wù)化??數(shù)據(jù)洞見(jiàn)??數(shù)據(jù)產(chǎn)品研發(fā)?和（或）?數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)?B)數(shù)據(jù)研發(fā)C)數(shù)據(jù)處理D)數(shù)據(jù)洞見(jiàn)答案:A解析:數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)?從數(shù)據(jù)到信息?、?從數(shù)據(jù)到知識(shí)?和（或）?從數(shù)據(jù)到智慧?的轉(zhuǎn)化為主要研究目的的，以?數(shù)據(jù)驅(qū)動(dòng)?、?數(shù)據(jù)業(yè)務(wù)化?、?數(shù)據(jù)洞見(jiàn)?、?數(shù)據(jù)產(chǎn)品研發(fā)?和（或）?數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)?為主要研究任務(wù)的獨(dú)立學(xué)科。[單選題]51.a=[[1.，2.，1.],[1.，2.，1.]]，a+3的值為（）。A)[[1，2，1],[4，5，4]]B)[[4，5，4],[4，5，4]]C)[[4，5，4],[1，2，1]]D)以上答案都不正確答案:D解析:列表不能和數(shù)字相加，因此會(huì)報(bào)錯(cuò)。[單選題]52.對(duì)于隨機(jī)森林和GBDT,下面說(shuō)法正確的是（）。A)在隨機(jī)森林的單個(gè)樹(shù)中,樹(shù)和樹(shù)之間是有依賴的,而GBDT中的單個(gè)樹(shù)之間是沒(méi)有依賴的B)這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹(shù)C)我們可以并行地生成GBDT單個(gè)樹(shù),因?yàn)樗鼈冎g是沒(méi)有依賴的D)GB訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林答案:B解析:組成隨機(jī)森林的樹(shù)可以并行生成；而GBDT只能是串行生成[單選題]53.回歸方程判定系數(shù)的計(jì)算公式R^2=SSR/SST=1-SSE/SST，對(duì)判定系數(shù)描述錯(cuò)誤的是（）。A)式中的SSE指殘差平方和B)式中的SSR指總離差平方和C)判定系數(shù)用來(lái)衡量回歸方程的擾合優(yōu)度D)判定系數(shù)R^2等于相關(guān)系數(shù)的平方答案:B解析:SSR指回歸平方和。[單選題]54.以下哪些算法是基于規(guī)則的分類器（）。A)C4.5B)KNNC)NaiveBayesD)AN答案:A解析:基于規(guī)則的分類器有決策樹(shù)、隨機(jī)森林、Aprior。[單選題]55.當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過(guò)（）,學(xué)習(xí)一個(gè)（）。A)硬間隔最大化線性可分支持向量機(jī)B)軟間隔最大化線性支持向量機(jī)C)硬間隔最大化線性支持向量機(jī)D)軟間隔最大化非線性支持向量機(jī)答案:B解析:當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過(guò)軟間隔,學(xué)習(xí)一個(gè)最大化線性支持向量機(jī)。[單選題]56.下列常用模塊功能描述錯(cuò)誤的是（）。A)datetime：datetime對(duì)象不可將日期對(duì)象格式化為可讀字符串的方法B)json：JSON(JavaScriptObjectNotation,JS對(duì)象標(biāo)記)是一種輕量級(jí)的數(shù)據(jù)交換格式C)sys：這個(gè)模塊可供訪問(wèn)由解釋器使用或維護(hù)的變量和與解釋器進(jìn)行交互的函數(shù)D)scipy：應(yīng)用廣泛的科學(xué)計(jì)算包答案:A解析:strftime()是datetime庫(kù)將日期對(duì)象格式化為可讀字符串的方法。[單選題]57.以下濾波器對(duì)圖像中的椒鹽噪聲濾波效果最好的是（）。A)中值濾波B)均值濾波C)最大值濾波D)最小值濾答案:A解析:中值濾波對(duì)圖像椒鹽噪聲的濾波效果最好。[單選題]58.下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)（）A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)Jobtracker答案:D解析:hadoop的集群是基于master/slave模式，namenode和jobtracker屬于master，datanode和tasktracker屬于slave，master只有一個(gè)，而slave有多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上，所以通常secondaryNameNode（運(yùn)行在單獨(dú)的物理機(jī)器上）和NameNode運(yùn)行在不同的機(jī)器上。JobTracker對(duì)應(yīng)于NameNode。TaskTracker對(duì)應(yīng)于DataNode。DataNode和NameNode是針對(duì)數(shù)據(jù)存放來(lái)而言的，JobTracker和TaskTracker是對(duì)于MapReduce執(zhí)行而言的。[單選題]59.下面關(guān)于HiveSQL的內(nèi)外表使用正確的是（）A)在/tmp/path創(chuàng)建外表：CREATEEXTERNALTABLE...LOCATION'/tmp/path';B)在/tmp/path創(chuàng)建外表：CREATETABLE...;C)創(chuàng)建內(nèi)表：CREATEEXTERNALTABLE...LOCATION'/tmp/path';D)創(chuàng)建內(nèi)表：CREATEEXTERNALTABLE...答案:A解析:[單選題]60.Spark中引入RDD概念的目的是（）。A)數(shù)據(jù)存儲(chǔ)B)數(shù)據(jù)查重C)提升容錯(cuò)能力D)增強(qiáng)數(shù)據(jù)一致答案:C解析:在Spark中引入RDD概念的目的是實(shí)現(xiàn)Spark的并行操作和靈活的容錯(cuò)能力。[單選題]61.以下說(shuō)法正確的是:（）。1.一個(gè)機(jī)器學(xué)習(xí)模型，如果有較高準(zhǔn)確率，總是說(shuō)明這個(gè)分類器是好的2.如果增加模型復(fù)雜度，那么模型的測(cè)試錯(cuò)誤率總是會(huì)降低3.如果增加模型復(fù)雜度，那么模型的訓(xùn)練錯(cuò)誤率總是會(huì)降低A)1B)2C)3D)1and答案:C解析:如果增加模型復(fù)雜度，那么模型的測(cè)試錯(cuò)誤率總是會(huì)降低，訓(xùn)練錯(cuò)誤率可能降低，也可能增高。[單選題]62.異常檢測(cè)過(guò)程查找基于（）組標(biāo)準(zhǔn)值偏差的異常個(gè)案。A)單體B)分類C)聚類D)回答案:C解析:異常檢測(cè)?過(guò)程查找基于聚類組標(biāo)準(zhǔn)值偏差的異常個(gè)案。該過(guò)程設(shè)計(jì)為在探索性步驟中，快速檢測(cè)到用于數(shù)據(jù)審核的異常個(gè)案，并優(yōu)先于任何推論性數(shù)據(jù)分析。[單選題]63.Python中用于生成隨機(jī)數(shù)的模塊是random,以下描述錯(cuò)誤的是（）。A)random.random()：生成一個(gè)0-1之間的隨機(jī)浮點(diǎn)數(shù)B)random.uniform(a,b)：生成[a,b]之間的浮點(diǎn)數(shù)C)random.randint(a,b)：生成[a,b]之間的整數(shù)D)random.choice(sequence)：隨機(jī)生成任意一個(gè)整數(shù)答案:D解析:random.choice(sequence)函數(shù)用來(lái)從給定的序列中隨機(jī)采樣。[單選題]64.關(guān)于數(shù)據(jù)清洗，不正確的說(shuō)法是（）。A)單數(shù)據(jù)源，主鍵取值不能重復(fù)B)多數(shù)據(jù)源會(huì)存在數(shù)據(jù)重復(fù)，單位不一致的問(wèn)題C)連續(xù)型數(shù)據(jù)不存在冗余問(wèn)題D)缺失值可以采用刪除和填補(bǔ)等方法處理答案:C解析:連續(xù)型數(shù)據(jù)可能存在冗余問(wèn)題。第2部分：多項(xiàng)選擇題，共22題，每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]65.Hadoop框架的缺陷有（）。A)MR編程框架的限制；B)過(guò)多的磁盤操作,缺乏對(duì)分布式內(nèi)存的支持；C)無(wú)法高效支持迭代式計(jì)算；D)不支持多用戶寫入并任意修改文件；答案:ABCD解析:以上四項(xiàng)都為Hadoop的缺點(diǎn)。[多選題]66.Spark的部署模式包括（）。A)本地模式B)standalone模式C)SparkonyarnD)mesos模式答案:ABCD解析:spark支持上述四種運(yùn)行模式，在實(shí)驗(yàn)中為了充分利用資源，一般配置standalone模式運(yùn)行。[多選題]67.對(duì)于大數(shù)據(jù)計(jì)算服務(wù)（MaxCompute，原ODPS）內(nèi)置絕對(duì)值函數(shù)abs描述正確的有:（）。A)當(dāng)輸入?yún)?shù)是bigint時(shí)，返回值是bigint類型B)當(dāng)輸入?yún)?shù)是string類型時(shí)，一定會(huì)導(dǎo)致異常C)輸入類型是boolean則返回值是TrueD)當(dāng)輸入?yún)?shù)是double時(shí)，返回值是double類型答案:AD解析:[多選題]68.一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為（）。A)訓(xùn)練集B)驗(yàn)證集C)測(cè)試集D)預(yù)處理答案:ABC解析:一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為訓(xùn)練集、測(cè)試集、預(yù)測(cè)集。其中測(cè)試集來(lái)測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力，然后以測(cè)試集上的測(cè)試誤差(testingerror)作為泛化誤差的近似。[多選題]69."噪聲"是指測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差，噪聲數(shù)據(jù)的主要表現(xiàn)有那幾種形式（）A)錯(cuò)誤數(shù)據(jù)B)假數(shù)據(jù)C)異常數(shù)據(jù)D)僵尸數(shù)據(jù)答案:ABC解析:錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測(cè)量變量中多被定義為噪聲。[多選題]70.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分。A)卷積層B)中間層C)池化層D)全連接層答案:ACD解析:卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。[多選題]71.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在（）。A)具有勞動(dòng)增值B)涉及法律權(quán)屬C)具有財(cái)務(wù)價(jià)值D)涉及道德與倫理答案:ABCD解析:大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。[多選題]72.下面關(guān)于單樣本Z檢驗(yàn)的說(shuō)法，正確的是（）。A)在Python中，單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp（）實(shí)現(xiàn)B)單樣本Z檢驗(yàn)適用于樣本量較大的情況C)單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量（近似）滿足正態(tài)分布D)單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量答案:BCD解析:在Python中，單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。[多選題]73.在BP網(wǎng)絡(luò)中，常用于緩解其過(guò)擬合的策略有（）。A)早停策略B)正則化策略C)全局最小策略D)局部最小策答案:AB解析:通常有兩種策略來(lái)緩解BP網(wǎng)絡(luò)的過(guò)擬合。第一種策略是早停(earlystopping)：將數(shù)據(jù)分成訓(xùn)練集合驗(yàn)證集，訓(xùn)練集用來(lái)計(jì)算梯度、更新連接權(quán)和閾值，驗(yàn)證集用來(lái)估計(jì)誤差，若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高，則停止訓(xùn)練，同時(shí)返回具有最小驗(yàn)證集誤差的連接權(quán)和閾值。第二種策略是正則化(regularization),其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分，例如連接權(quán)和閾值的平方和。[多選題]74.Spark2.0提供的應(yīng)用庫(kù)包括（）。A)SparkSQLB)SparkStreamingC)MLibD)GraphX答案:ABCD解析:Spark2.0提供的應(yīng)用庫(kù)包括SparkSQL、SparkStreaming、MLib、GraphX。[多選題]75.數(shù)據(jù)來(lái)源和目標(biāo)用戶已定的情況下，不同視覺(jué)通道的表現(xiàn)力不同。視覺(jué)通道的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括（）。A)精確性B)可辨認(rèn)性C)可分離性D)視覺(jué)突出性答案:ABCD解析:在數(shù)據(jù)來(lái)源和目標(biāo)用戶已定的情況下，不同視覺(jué)通道的表現(xiàn)力不同。視覺(jué)通道的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺(jué)突出性。1）精確性代表的是人類感知系統(tǒng)對(duì)于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺(jué)通道所表示信息的精確性2）可辨認(rèn)性是指視覺(jué)通道的可辨認(rèn)度。3）可分離性是指同一個(gè)視覺(jué)圖形元素的不同視覺(jué)通道的表現(xiàn)力之間應(yīng)具備一定的獨(dú)立性。4）視覺(jué)突出性是指視覺(jué)編碼結(jié)果能否在很短的時(shí)間內(nèi)（如毫秒級(jí)）能夠迅速準(zhǔn)確表達(dá)出可視化編碼的主要意圖。[多選題]76.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過(guò)程涉及四個(gè)獨(dú)立的實(shí)體，包括（）。A)ClientB)JobTrackerC)TaskTrackerD)HDFS答案:ABCD解析:可以將MapReduce的工作流程概括為4個(gè)獨(dú)立的實(shí)體①客戶端，用來(lái)提交MapReduce的作業(yè)。編寫MapReduce程序，配置作業(yè)，提交作業(yè)，程序員完成的工作。②JobTracker，用來(lái)協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信，協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行③TaskTracker，用來(lái)處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信，在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù)，TaskTracker和JobTracker的不同有個(gè)很重要方面，就是在執(zhí)行任務(wù)時(shí)候TaskTracker可以有n多個(gè)，JobTracker則只會(huì)有一個(gè)④HDFS，用來(lái)在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等等，最后的結(jié)果也是保存在hdfs上面。[多選題]77.ElasticSearch支持的gateway類型有?A)AmazonS3B)本地文件系統(tǒng)C)HDFSD)AmazonS5答案:ABCD解析:[多選題]78.非頻繁模式（）。A)其支持度小于閾值B)都是不讓人感興趣的C)包含負(fù)模式和負(fù)相關(guān)模式D)對(duì)異常數(shù)據(jù)項(xiàng)敏感答案:AD解析:非頻繁模式，是一個(gè)項(xiàng)集或規(guī)則，其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的，但其中有些分析是有用的，特別是涉及到數(shù)據(jù)中的負(fù)相關(guān)時(shí)。它對(duì)異常數(shù)據(jù)項(xiàng)敏感。[多選題]79.在金融領(lǐng)域的大數(shù)據(jù)批量離線處理平臺(tái)中，以下描述準(zhǔn)確的是?A)金融領(lǐng)域的外部數(shù)據(jù)來(lái)源可以是征信信息、社交網(wǎng)絡(luò)和電商等。B)在數(shù)據(jù)集成模塊，可以分為數(shù)據(jù)采集、數(shù)據(jù)操控和數(shù)據(jù)加載3個(gè)階段。C)金融領(lǐng)域的內(nèi)部數(shù)據(jù)來(lái)源均是結(jié)構(gòu)化數(shù)據(jù)，包括信貸數(shù)據(jù)、信用卡數(shù)據(jù)和收單數(shù)據(jù)等、D)金融領(lǐng)域的數(shù)據(jù)應(yīng)用層面均是面向金融機(jī)構(gòu)內(nèi)部的，如監(jiān)管報(bào)表系統(tǒng)，精準(zhǔn)營(yíng)銷BI應(yīng)用等，完全不對(duì)外或?qū)ζ渌聦贆C(jī)構(gòu)開(kāi)放答案:AB解析:[多選題]80.API網(wǎng)關(guān)是：華為云提供的一個(gè)API托管的應(yīng)用服務(wù)，API網(wǎng)管包括的功能有：()。A)API全生命周期的管理B)權(quán)限控制C)訪問(wèn)控制D流量控D)PI網(wǎng)關(guān)是：華為云提供的一個(gè)API托管的應(yīng)用服務(wù)，API網(wǎng)管包括的功能有：()。A、API全生命周期的管理B、權(quán)限控制C、訪問(wèn)控制D流量控答案:ABCD解析:[多選題]81.下面關(guān)于隨機(jī)變量及其概率分布的說(shuō)法，正確的是（）。A)隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B)隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C)扔5次硬幣，正面朝上次數(shù)的可能取值是0，1，2，3，4，5，其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D)扔5次硬幣，正面朝上次數(shù)的可能取值是0，1，2，3，4，5，其中正面朝上次數(shù)為5的概率是最大的答案:ABC解析:扔5次硬幣，正面朝上次數(shù)的可能取值是0，1，2，3，4，5，其中正面朝上次數(shù)為5的概率不是最大的。[多選題]82.分布式列式存儲(chǔ)的功能有（）。A)支持在線快速讀寫B(tài))支持線性擴(kuò)展C)具備節(jié)點(diǎn)監(jiān)控管理D)數(shù)據(jù)同源不壓縮答案:ABC解析:分布式列式存儲(chǔ)的功能包括數(shù)據(jù)壓縮。[多選題]83.可視分析學(xué)是一門以可視交互為基礎(chǔ)，綜合運(yùn)用（）等技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí)，以實(shí)現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的分析推理學(xué)科。A)物理學(xué)B)圖形學(xué)C)數(shù)據(jù)挖掘D)人機(jī)交互答案:BCD解析:可視分析學(xué)（VisualAnalytics）：科學(xué)可視化和信息可視化理論的進(jìn)一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中，通常采用數(shù)據(jù)可視化的廣義定義方法，并以可視分析學(xué)為主要理論基礎(chǔ)。[多選題]84.下列關(guān)于spark中的RDD描述正確的有（）。A)RDD（ResilientDistributedDataset）叫做彈性分布式數(shù)據(jù)集，是spark中最基本的數(shù)據(jù)抽象；B)Resilient:表示彈性的；C)Destributed:分布式，可以并行在集群計(jì)算；D)Dataset:就是一個(gè)集合，用于存放數(shù)據(jù)的；答案:ABCD解析:關(guān)于spark中的RDD描述正確的有RDD（ResilientDistributedDataset）叫做彈性分布式數(shù)據(jù)集，是spark中最基本的數(shù)據(jù)抽象；Resilient:表示彈性的；Destributed:分布式，可以并行在集群計(jì)算；Dataset:就是一個(gè)集合，用于存放數(shù)據(jù)的。[多選題]85.MapReduce對(duì)map（）函數(shù)的返回值處理后才傳給reduce（）函數(shù)，其中涉及哪些操作（）。A)合并B)排序C)分區(qū)D)抽樣答案:ABC解析:分別涉及Shuffle（排序）、combiner（合并）和partition（分區(qū)）操作。[多選題]86

人人文庫(kù)> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無(wú)特殊說(shuō)明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間，僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請(qǐng)與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

大數(shù)據(jù)理論考試(習(xí)題卷13)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

大數(shù)據(jù)理論考試(習(xí)題卷13)

文檔簡(jiǎn)介

溫馨提示

最新文檔

評(píng)論

相關(guān)文檔