大數(shù)據(jù)理論考試(習(xí)題卷13)_第1頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷13)_第2頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷13)_第3頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷13)_第4頁(yè)
大數(shù)據(jù)理論考試(習(xí)題卷13)_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

試卷科目:大數(shù)據(jù)理論考試大數(shù)據(jù)理論考試(習(xí)題卷13)PAGE"pagenumber"pagenumber/SECTIONPAGES"numberofpages"numberofpages大數(shù)據(jù)理論考試第1部分:?jiǎn)雾?xiàng)選擇題,共64題,每題只有一個(gè)正確答案,多選或少選均不得分。[單選題]1.大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原ODPS)的MapReduce由多個(gè)步驟組成,以下()步驟不是必須的。A)combineB)shuffleC)mapD)reduce答案:C解析:[單選題]2.在大規(guī)模的語(yǔ)料中,挖掘詞的相關(guān)性是一個(gè)重要的問(wèn)題。以下哪一個(gè)信息不能用于確定兩個(gè)詞的相關(guān)性()。A)互信息B)最大熵C)卡方檢驗(yàn)D)最大似然答案:B解析:最大熵為尋找最優(yōu)模型的方法,并不能度量相似性。[單選題]3.為了降低MapReduce兩個(gè)階段之間的數(shù)據(jù)傳遞量,一般采用()函數(shù)對(duì)map階段的輸出進(jìn)行處理。A)sort()B)combiner()C)join()D)gather()答案:B解析:為了降低數(shù)據(jù)傳遞量,采用combiner()函數(shù)對(duì)map()函數(shù)的數(shù)據(jù)結(jié)果進(jìn)行合并處理。[單選題]4.關(guān)于Sqoop的說(shuō)法,不正確的是()A)主要設(shè)計(jì)目的是在Hadoop與傳統(tǒng)數(shù)據(jù)庫(kù)之間進(jìn)行數(shù)據(jù)的ETL操作B)數(shù)據(jù)導(dǎo)入導(dǎo)出通過(guò)MapReduce完成C)Sqoop具備MapReduce的并行化和容錯(cuò)性D)Sqoop的Reduce操作速度更答案:D解析:sqoop是一個(gè)強(qiáng)大的工具,主要用來(lái)處理大量的數(shù)據(jù)傳輸,并不會(huì)影響Reduce的操作速度。[單選題]5.以下四個(gè)選項(xiàng)中,()是Spark的核心數(shù)據(jù)結(jié)構(gòu)。A)彈性分布式數(shù)據(jù)集B)列表C)元組D)字典答案:A解析:彈性分布式數(shù)據(jù)集(RDD)是Spark的核心數(shù)據(jù)結(jié)構(gòu)[單選題]6.一幅256*256(2^16)的圖像,若灰度級(jí)數(shù)為16,則該圖像的大小是:()A)128KB)32KC)1MD)2MB答案:B解析:二、多選題Web內(nèi)容挖掘?qū)崿F(xiàn)技術(shù)包括()文本總結(jié)文本分類文本機(jī)器學(xué)習(xí)關(guān)聯(lián)規(guī)則下列關(guān)于TF-IDF模型的描述正確的有()TF是詞頻IDF是逆文本頻率該模型基于統(tǒng)計(jì)方法在信息檢索中應(yīng)用較少圖像處理中的去噪方法有()中值濾波均值濾波峰值濾波高值濾波三、[單選題]7.信息熵是度量()最常用的一種指標(biāo)。A)樣本的個(gè)數(shù)B)樣本的維度C)樣本的純度D)樣本的冗余答案:C解析:信息熵是度量樣本純度最常用的一種指標(biāo)。[單選題]8.數(shù)據(jù)分析的第一步是()。A)探索性分析B)描述性分析C)診斷性分析D)規(guī)范性分答案:B解析:數(shù)據(jù)分析的步驟:描述性分析、診斷性分析、預(yù)測(cè)性分析、規(guī)范性分析。[單選題]9.輸入圖像為32x32,經(jīng)過(guò)步長(zhǎng)為1,不進(jìn)行padding,卷積核為5x5的卷積層后,得到的特征圖尺寸是多少()A)28x28B)27x27C)29x29D)32x32答案:A解析:(32+0-5)/1+1=28。[單選題]10.點(diǎn)擊率問(wèn)題是這樣一個(gè)預(yù)測(cè)問(wèn)題,99%的人是不會(huì)點(diǎn)擊的,而1%的人是會(huì)點(diǎn)擊進(jìn)去的,所以這是一個(gè)非常不平衡的數(shù)據(jù)集.假設(shè),現(xiàn)在我們已經(jīng)建了一個(gè)模型來(lái)分類,而且有了99%的預(yù)測(cè)準(zhǔn)確率,我們可以下的結(jié)論是:()。A)模型預(yù)測(cè)準(zhǔn)確率已經(jīng)很高了,我們不需要做什么了B)模型預(yù)測(cè)準(zhǔn)確率不高,我們需要做點(diǎn)什么改進(jìn)模型C)無(wú)法下結(jié)論D)以上答案都不正確答案:C解析:類別不均衡的情況下,不能用準(zhǔn)確率做分類評(píng)估指標(biāo),因?yàn)槿袛酁椴粫?huì)點(diǎn),準(zhǔn)確率也是99%,此時(shí)分類器一點(diǎn)用都沒(méi)有。[單選題]11.pyplot.pie()所畫的圖像是()。A)箱線圖B)折線圖C)直方圖D)餅圖答案:D解析:pyplot.pie()的作用是繪制餅圖。[單選題]12.以下處理能獲得像素級(jí)標(biāo)注的是()。A)圖像分類B)物體檢測(cè)C)圖像去噪D)語(yǔ)義分答案:D解析:語(yǔ)義分割通過(guò)對(duì)每個(gè)像素進(jìn)行密集的預(yù)測(cè)、推斷標(biāo)簽來(lái)實(shí)現(xiàn)細(xì)粒度的推理,從而使每個(gè)像素都被標(biāo)記為其封閉對(duì)象礦石區(qū)域的類別,因此能夠獲得像素級(jí)標(biāo)注。[單選題]13.關(guān)于混合模型聚類算法的優(yōu)缺點(diǎn),下面說(shuō)法正確的是()。A)當(dāng)簇只包含少量數(shù)據(jù)點(diǎn),或者數(shù)據(jù)點(diǎn)近似協(xié)線性時(shí),混合模型也能很好地處理B)混合模型很難發(fā)現(xiàn)不同大小和橢球形狀的簇C)混合模型比K均值或模糊c均值更一般,因?yàn)樗梢允褂酶鞣N類型的分布D)混合模型在有噪聲和離群點(diǎn)時(shí)不會(huì)存在問(wèn)題答案:C解析:K均值與模糊C均值,這兩個(gè)方法都是迭代求取最終的聚類劃分,即聚類中心與隸屬度值。兩者都不能保證找到問(wèn)題的最優(yōu)解,都有可能收斂到局部極值。模糊C均值是K均值方法的改進(jìn),算法的目標(biāo)函數(shù)與K均值一致,區(qū)別在于目標(biāo)函數(shù)中增加了模糊權(quán)重指數(shù);GMM高斯混合模型聚類采用了新的判斷依據(jù)--概率,即通過(guò)屬于某一類的概率大小來(lái)判斷最終的歸屬類別。[單選題]14.以下描述中錯(cuò)誤的是()。A)數(shù)據(jù)科學(xué)中的?數(shù)據(jù)?不僅僅是?數(shù)值?,也不等同于?數(shù)值?B)數(shù)據(jù)科學(xué)中的?計(jì)算?包括數(shù)據(jù)的查詢、挖掘、洞見(jiàn)等C)數(shù)據(jù)科學(xué)強(qiáng)調(diào)的是跨學(xué)科視角D)數(shù)據(jù)科學(xué)不包括?理論知識(shí)?,只包括?領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)?答案:D解析:數(shù)據(jù)科學(xué)既包括?理論知識(shí)?,又包括?領(lǐng)域?qū)崉?wù)經(jīng)驗(yàn)?。[單選題]15.大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原ODPS)中的用戶表dim_user是一張非分區(qū)表,另外有一部分新增用戶的數(shù)據(jù)存在user_delta表中,兩張表的結(jié)構(gòu)相同,為了在dim_user表中得到全量的用戶數(shù)據(jù),可以采用()方式A)select*fromuser_delta、intodim_userB)insertintodim_userselect*fromuser_deltaunionallselect*fromdim_userC)insertoverwritetabledim_userselect*fromuser_deltaD)insertintotabledim_userselect*fromuser_delta答案:D解析:[單選題]16.為了允許支持向量機(jī)在一些樣本上出錯(cuò),引入()的概念。A)軟間隔B)硬間隔C)間隔D)誤答案:A解析:為了允許支持向量機(jī)在一些樣本上出錯(cuò),引入軟間隔的概念。[單選題]17.MaxCompute中,A和B都是bigint類型,進(jìn)行A/B運(yùn)算,返回結(jié)果為:()。A)doubleB)intC)bigintD)float答案:A解析:[單選題]18.目前,多數(shù)NoSQL數(shù)據(jù)庫(kù)是針對(duì)特定應(yīng)用場(chǎng)景研發(fā)出來(lái)的,其設(shè)計(jì)遵循()原則,更加強(qiáng)調(diào)讀寫效率、數(shù)據(jù)容量以及系統(tǒng)可擴(kuò)展性。A)EY原則B)READ原則C)BASE原則D)BASIC原則答案:C解析:BASE原則是BasicallyAvailable(基本可用)、SoftState(柔性狀態(tài))和EventuallyConsistent(最終一致)的縮寫。BasicallyAvailable是指可以容忍系統(tǒng)的短期不可用,并不追求全天候服務(wù);SoftState是指不要求一直保持強(qiáng)一致?tīng)顟B(tài);EventuallyConsistent是指最終數(shù)據(jù)一致,而不是嚴(yán)格的實(shí)時(shí)一致,系統(tǒng)在某一個(gè)時(shí)刻后達(dá)到一致性要求即可。[單選題]19.DWS的stream算子不包括下列哪個(gè):A)broadcastB)gatherC)redistributeD)has答案:D解析:[單選題]20.關(guān)系云的一個(gè)重要功能是提供()。A)數(shù)據(jù)庫(kù)即服務(wù)B)虛擬服務(wù)C)彈性計(jì)算D)按需服務(wù)答案:A解析:關(guān)系云的一個(gè)重要功能是提供?數(shù)據(jù)庫(kù)即服務(wù)(DatabaseasaService)?,用戶無(wú)須在本機(jī)安裝數(shù)據(jù)庫(kù)管理軟件,也不需要搭建自己的數(shù)據(jù)管理集群,而只需要使用服務(wù)提供商提供的數(shù)據(jù)庫(kù)服務(wù)。[單選題]21.下列方法中,用于獲取當(dāng)前目錄的是()。A)openB)writeC)GetpwdD)read答案:C解析:用于獲取當(dāng)前目錄的方法是Getcwd。[單選題]22.下面哪個(gè)功能不是大數(shù)據(jù)平臺(tái)安全管理組件提供的功能()。A)接口代理B)接口認(rèn)證C)接口授權(quán)D)路由代理答案:D解析:接口可以對(duì)用戶的身份和請(qǐng)求的參數(shù)進(jìn)行驗(yàn)證,以保證接口的安全。通過(guò)添加身份驗(yàn)證和數(shù)字簽名的方法提高接口安全性,防止數(shù)據(jù)被篡改和信息泄露。[單選題]23.關(guān)于OLAP和OLTP的區(qū)別描述,不正確的是()。A)OL主要是關(guān)于如何理解聚集的大量不同的數(shù)據(jù).它與OT應(yīng)用程序不同。B)與OLAP應(yīng)用程序不同,OLTP應(yīng)用程序包含大量相對(duì)簡(jiǎn)單的事務(wù)。C)OLAP的特點(diǎn)在于事務(wù)量大,但事務(wù)內(nèi)容比較簡(jiǎn)單且重復(fù)率高。D)OLAP是以數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ)的,但其最終數(shù)據(jù)來(lái)源與OLTP一樣均來(lái)自底層的數(shù)據(jù)庫(kù)系統(tǒng),兩者面對(duì)的用戶是相同的答案:C解析:OLTP是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫(kù)的主要應(yīng)用,主要是基本的、日常的事務(wù)處理,記錄即時(shí)的增、刪、改、查,比如在銀行存取一筆款,就是一個(gè)事務(wù)交易。OLAP即聯(lián)機(jī)分析處理,是數(shù)據(jù)倉(cāng)庫(kù)的核心部心,支持復(fù)雜的分析操作,側(cè)重決策支持,并且提供直觀易懂的查詢結(jié)果。典型的應(yīng)用就是復(fù)雜的動(dòng)態(tài)報(bào)表系統(tǒng)。[單選題]24.不屬于數(shù)據(jù)脫敏的要求的是()。A)雙向性B)單向性C)無(wú)殘留D)易于實(shí)現(xiàn)答案:A解析:數(shù)據(jù)脫敏操作不能停留在簡(jiǎn)單地將敏感信息屏蔽掉或匿名處理。數(shù)據(jù)脫敏操作必須滿足以下3個(gè)要求:?jiǎn)蜗蛐?、無(wú)殘留、易于實(shí)現(xiàn)。[單選題]25.對(duì)文本數(shù)據(jù)處理,通常采用()核函數(shù)。A)多項(xiàng)式核B)sigmoid核C)線性核D)拉普拉斯答案:C解析:對(duì)文本數(shù)據(jù)處理,通常采用線性核函數(shù)。[單選題]26.()試圖學(xué)得一個(gè)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù)。A)決策樹(shù)B)貝葉斯分類器C)神經(jīng)網(wǎng)絡(luò)D)線性模答案:D解析:線性模型試圖學(xué)得一個(gè)屬性的線性組合來(lái)進(jìn)行預(yù)測(cè)的函數(shù)。[單選題]27.列表對(duì)象的sort()方法用來(lái)對(duì)列表元素進(jìn)行原地排序,該函數(shù)返回值為()。A)FalseB)NoneC)TrueD)報(bào)錯(cuò)答案:B解析:列表對(duì)象的sort()方法用來(lái)對(duì)列表元素進(jìn)行原地排序,該函數(shù)返回值為None。[單選題]28.下面回歸模型中的哪個(gè)步驟/假設(shè)最能影響過(guò)擬合和欠擬合之間的平衡因素()。A)多項(xiàng)式的階數(shù)B)是否通過(guò)矩陣求逆或梯度下降學(xué)習(xí)權(quán)重C)使用常數(shù)項(xiàng)D)使用正則化答案:A解析:選取合適的多項(xiàng)式階數(shù)對(duì)于回歸的擬合程度會(huì)產(chǎn)生重要的影響。多項(xiàng)式階數(shù)越高,越容易產(chǎn)生過(guò)擬合現(xiàn)象。[單選題]29.下列不屬于transform操作的是()A)mapB)filterC)sampleD)count答案:D解析:Transformation常用函數(shù)為map、filter、flatMap、sample、union、join等。[單選題]30.當(dāng)Spark發(fā)生Shuffle時(shí),MapTask的運(yùn)算結(jié)果會(huì)通過(guò)()的形式把運(yùn)算結(jié)果分發(fā)到對(duì)應(yīng)的任務(wù)上去。A)序列化B)鍵值對(duì)C)二進(jìn)制D)RD答案:B解析:[單選題]31.基于統(tǒng)計(jì)的分詞方法為()。A)正向最大匹配法B)逆向最大匹配法C)最少切分D)條件隨機(jī)答案:D解析:第一類是基于語(yǔ)法和規(guī)則的分詞法。其基本思想就是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息來(lái)進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)楝F(xiàn)有的語(yǔ)法知識(shí)、句法規(guī)則十分籠統(tǒng)、復(fù)雜,基于語(yǔ)法和規(guī)則的分詞法所能達(dá)到的精確度遠(yuǎn)遠(yuǎn)還不能令人滿意,目前這種分詞系統(tǒng)還處在試驗(yàn)階段。第二類是機(jī)械式分詞法(即基于詞典)。機(jī)械分詞的原理是將文檔中的字符串與詞典中的詞條進(jìn)行逐一匹配,如果詞典中找到某個(gè)字符串,則匹配成功,可以切分,否則不予切分?;谠~典的機(jī)械分詞法,實(shí)現(xiàn)簡(jiǎn)單,實(shí)用性強(qiáng),但機(jī)械分詞法的最大的缺點(diǎn)就是詞典的完備性不能得到保證。據(jù)統(tǒng)計(jì),用一個(gè)含有70000個(gè)詞的詞典去切分含有15000個(gè)詞的語(yǔ)料庫(kù),仍然有30%以上的詞條沒(méi)有被分出來(lái),也就是說(shuō)有4500個(gè)詞沒(méi)有在詞典中登錄。第三類是基于統(tǒng)計(jì)的方法?;诮y(tǒng)計(jì)的分詞法的基本原理是根據(jù)字符串在語(yǔ)料庫(kù)中出現(xiàn)的統(tǒng)計(jì)頻率來(lái)決定其是否構(gòu)成詞。詞是字的組合,相鄰的字同時(shí)出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個(gè)詞。因此字與字相鄰共現(xiàn)的頻率或概率能夠較好的反映它們成為詞的可信度。最大匹配是指以詞典為依據(jù),取詞典中最長(zhǎng)單詞為第一個(gè)次取字?jǐn)?shù)量的掃描串,在詞典中進(jìn)行掃描,這是基于詞典分詞的方法。1.正向最大匹配法,2.逆向最大匹配法,3.最少切分法:使每一句中切出的詞數(shù)最小,這也是基于詞典分詞的方法。[單選題]32.Scipy的stats包中提供了產(chǎn)生連續(xù)性分布的函數(shù),其中用于均勻分布的函數(shù)是()。A)normB)uniformC)betaD)geom答案:B解析:均勻分布是uniform。[單選題]33.下列選項(xiàng)中,用于觸發(fā)異常的是()。A)tryB)catchC)raiseD)except答案:C解析:[單選題]34.以下關(guān)于break,continue說(shuō)法正確的是()。A)continue語(yǔ)句被用來(lái)告訴Python跳過(guò)當(dāng)前循環(huán)塊中的剩余語(yǔ)句,然后繼續(xù)進(jìn)行下一輪循環(huán)在循環(huán)中break的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作,一旦程序運(yùn)行了break,循環(huán)也就終止了!B)break語(yǔ)句被用來(lái)告訴Python跳過(guò)當(dāng)前循環(huán)塊中的剩余語(yǔ)句,然后繼續(xù)進(jìn)行下一輪循環(huán),在循環(huán)中continue的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作,一旦程序運(yùn)行了continue,循環(huán)也就終止了!C)break,continue語(yǔ)句被用來(lái)告訴Python跳過(guò)當(dāng)前循環(huán)塊中的剩余語(yǔ)句,然后繼續(xù)進(jìn)行下一輪循環(huán)D)在循環(huán)中break,continue的作用是終止當(dāng)前循環(huán)結(jié)構(gòu)的后續(xù)操作,一旦程序運(yùn)行了break循環(huán)也就終止了!答案:A解析:continue語(yǔ)句可以跳過(guò)循環(huán)的當(dāng)前一步。[單選題]35.在Hive中一個(gè)查詢語(yǔ)句執(zhí)行后顯示的結(jié)果為:2018081250;2018081332;20180814NULL,則最有可能的查詢語(yǔ)句是()A)SELECTinc_day,count(task_no)FROM任務(wù)表WHEREinc_dayB)SELECTinc_day,count(task_no)FROM任務(wù)表WHEREinc_dayC)SELECTinc_day,count(task_no)FROM任務(wù)表WHEREinc_dayD)SELECTinc_day,count(task_no)FROM任務(wù)表HAVINGinc_day答案:B解析:[單選題]36.下列哪些項(xiàng)目是在圖像識(shí)別任務(wù)中使用的數(shù)據(jù)擴(kuò)增技術(shù)(dataaugmentationtechnique)()。1水平翻轉(zhuǎn)(Horizontalflipping)2隨機(jī)裁剪(Randomcropping)3隨機(jī)放縮(Randomscaling)4顏色抖動(dòng)(Colorjittering)5隨機(jī)平移(Randomtranslation)6隨機(jī)剪切(Randomshearing)A)1,3,5,6B)1,2,4C)2,3,4,5,6D)所有項(xiàng)答案:D解析:水平翻轉(zhuǎn)、隨機(jī)裁剪、隨機(jī)放縮、顏色抖動(dòng)、隨機(jī)平移和隨機(jī)剪切都是在圖像識(shí)別任務(wù)中使用的數(shù)據(jù)擴(kuò)增技術(shù)[單選題]37.下列方法中,能夠返回某個(gè)子串在字符串中出現(xiàn)次數(shù)的是()。A)lengthB)indexC)countD)find答案:C解析:count能夠返回某個(gè)子串在字符串中出現(xiàn)次數(shù)。[單選題]38.關(guān)于創(chuàng)建api,以下描述正確的是:()。A)創(chuàng)建api只能通過(guò)腳本模式創(chuàng)建B)創(chuàng)建api只能通過(guò)向?qū)J絼?chuàng)建C)創(chuàng)建api可以通過(guò)腳本模式和向?qū)J絻煞N方式創(chuàng)建D)以上說(shuō)法均不正答案:C解析:[單選題]39.建立一個(gè)詞典[Alex,wants,to,go,play,football,shopping],下面的句子:Alexwantstogotoplayfootball可以用向量表示為()。A)[1,1,2,1,1,1,0]B)[1,1,2,1,1,1]C)[1,1,1,1,1,1,0]D)[1,1,1,1,1,1,1答案:A解析:向量中每個(gè)元素代表該詞在句中出現(xiàn)的次數(shù),比如to在句中出現(xiàn)兩次,所以第3個(gè)元素應(yīng)為2。[單選題]40.下列關(guān)于LSTM說(shuō)法錯(cuò)誤的是(__)。A)LSTM中存在sigmoid函數(shù)B)LSTM中存在tanh函數(shù)C)LSTM又稱長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)D)RNN是LSTM的變答案:D解析:LSTM在RNN基礎(chǔ)上進(jìn)行了改進(jìn),能夠?qū)W習(xí)到長(zhǎng)期依賴關(guān)系,因此是RNN的一個(gè)變種。[單選題]41.關(guān)于__name__的說(shuō)法,下列描述錯(cuò)誤的是()A)它是Python提供的一個(gè)方法B)每個(gè)模塊內(nèi)部都有一個(gè)__name__屬性C)當(dāng)它的值為?main?時(shí),表示模塊自身在運(yùn)行D)當(dāng)它的值不為?main?時(shí),表示模塊被引用答案:A解析:__name__是屬于python中的內(nèi)置類屬性[單選題]42.假設(shè)在龐大的數(shù)據(jù)集上使用Logistic回歸模型,可能遇到一個(gè)問(wèn)題,Logistic回歸需要很長(zhǎng)時(shí)間才能訓(xùn)練,如果對(duì)相同的數(shù)據(jù)進(jìn)行邏輯回歸,如何花費(fèi)更少的時(shí)間,并給出比較相似的精度()。A)降低學(xué)習(xí)率,減少迭代次數(shù)B)降低學(xué)習(xí)率,增加迭代次數(shù)C)提高學(xué)習(xí)率,增加迭代次數(shù)D)增加學(xué)習(xí)率,減少迭代次答案:D解析:如果在訓(xùn)練時(shí)減少迭代次數(shù),就能花費(fèi)更少的時(shí)間獲得相同的精度,但需要增加學(xué)習(xí)率。[單選題]43.數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的()、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。A)暫時(shí)隔離B)暫時(shí)刪除C)永久刪除D)不作處理答案:C解析:數(shù)據(jù)銷毀環(huán)節(jié)的安全技術(shù)措施有通過(guò)軟件或物理方式保障磁盤中存儲(chǔ)數(shù)據(jù)的永久刪除、不可恢復(fù),如數(shù)據(jù)銷毀軟件、硬盤消磁機(jī)、硬盤粉碎機(jī)等。[單選題]44.下列關(guān)于Kafka描述正確的是()?A)數(shù)據(jù)實(shí)時(shí)傳輸,沒(méi)有延遲B)不支持物聯(lián)網(wǎng)傳感數(shù)據(jù)直接接入C)可以實(shí)現(xiàn)全局消息有序D)監(jiān)控完善,可以獨(dú)立監(jiān)答案:B解析:[單選題]45.下列哪個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)會(huì)發(fā)生權(quán)重共享(__)。A)卷積神經(jīng)網(wǎng)絡(luò)B)循環(huán)神經(jīng)網(wǎng)絡(luò)C)全連接神經(jīng)網(wǎng)絡(luò)D)選項(xiàng)A和答案:D解析:CNN與RNN網(wǎng)絡(luò)會(huì)發(fā)生權(quán)重共享。[單選題]46.機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好,稱為()。A)訓(xùn)練偏好B)歸納偏好C)分析偏好D)假設(shè)偏答案:B解析:機(jī)器學(xué)習(xí)算法在學(xué)習(xí)過(guò)程中對(duì)某種類型假設(shè)的偏好,稱為歸納偏好。[單選題]47.一篇文章中某些名詞的TF-IDF值比較大,則說(shuō)明()。A)這些名詞對(duì)這篇文章的區(qū)分度比較高B)這些名詞對(duì)這篇文章的區(qū)分度比較低C)不能說(shuō)明什么D)以上答案都不正答案:A解析:TF-IDF是一種統(tǒng)計(jì)方法,用以評(píng)估一字詞對(duì)于一個(gè)文件集或一個(gè)語(yǔ)料庫(kù)中的其中一份文件的重要程度。名詞的TF-IDF值越大說(shuō)明這些名詞對(duì)這篇文章的區(qū)分度越高。[單選題]48.()是利用樣本的實(shí)際資料計(jì)算統(tǒng)計(jì)量的取值,并以引來(lái)檢驗(yàn)事先對(duì)總體某些數(shù)量特征的假設(shè)是否可信作為決策取舍依據(jù)的一種統(tǒng)計(jì)分析方法A)假設(shè)檢驗(yàn)B)邏輯分析C)方差分析D)回歸分答案:A解析:假設(shè)檢驗(yàn),又稱統(tǒng)計(jì)假設(shè)檢驗(yàn),是用來(lái)判斷樣本與樣本、樣本與總體的差異是由抽樣誤差引起還是本質(zhì)差別造成的統(tǒng)計(jì)推斷方法。其基本原理是先對(duì)總體的特征做出某種假設(shè),然后通過(guò)抽樣研究的統(tǒng)計(jì)推理,對(duì)此假設(shè)應(yīng)該被拒絕還是接受做出推斷。[單選題]49.以下關(guān)于異常處理的描述,正確的是()。A)try語(yǔ)句中有except子句就不能有finally子句B)Python中,可以用異常處理捕獲程序中的所有錯(cuò)誤C)引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)NameError錯(cuò)誤D)Python中允許利用raise語(yǔ)句由程序主動(dòng)引發(fā)異常答案:D解析:try語(yǔ)句中有except子句可以有finally子句,不用異常處理捕獲程序中的所有錯(cuò)誤,引發(fā)一個(gè)不存在索引的列表元素會(huì)引發(fā)lisindeoutError。[單選題]50.數(shù)據(jù)科學(xué)是一門以()為主要研究任務(wù)的獨(dú)立學(xué)科。A)?數(shù)據(jù)驅(qū)動(dòng)??數(shù)據(jù)業(yè)務(wù)化??數(shù)據(jù)洞見(jiàn)??數(shù)據(jù)產(chǎn)品研發(fā)?和(或)?數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)?B)數(shù)據(jù)研發(fā)C)數(shù)據(jù)處理D)數(shù)據(jù)洞見(jiàn)答案:A解析:數(shù)據(jù)科學(xué)是一門以實(shí)現(xiàn)?從數(shù)據(jù)到信息?、?從數(shù)據(jù)到知識(shí)?和(或)?從數(shù)據(jù)到智慧?的轉(zhuǎn)化為主要研究目的的,以?數(shù)據(jù)驅(qū)動(dòng)?、?數(shù)據(jù)業(yè)務(wù)化?、?數(shù)據(jù)洞見(jiàn)?、?數(shù)據(jù)產(chǎn)品研發(fā)?和(或)?數(shù)據(jù)生態(tài)系統(tǒng)的建設(shè)?為主要研究任務(wù)的獨(dú)立學(xué)科。[單選題]51.a=[[1.,2.,1.],[1.,2.,1.]],a+3的值為()。A)[[1,2,1],[4,5,4]]B)[[4,5,4],[4,5,4]]C)[[4,5,4],[1,2,1]]D)以上答案都不正確答案:D解析:列表不能和數(shù)字相加,因此會(huì)報(bào)錯(cuò)。[單選題]52.對(duì)于隨機(jī)森林和GBDT,下面說(shuō)法正確的是()。A)在隨機(jī)森林的單個(gè)樹(shù)中,樹(shù)和樹(shù)之間是有依賴的,而GBDT中的單個(gè)樹(shù)之間是沒(méi)有依賴的B)這兩個(gè)模型都使用隨機(jī)特征子集,來(lái)生成許多單個(gè)的樹(shù)C)我們可以并行地生成GBDT單個(gè)樹(shù),因?yàn)樗鼈冎g是沒(méi)有依賴的D)GB訓(xùn)練模型的表現(xiàn)總是比隨機(jī)森林答案:B解析:組成隨機(jī)森林的樹(shù)可以并行生成;而GBDT只能是串行生成[單選題]53.回歸方程判定系數(shù)的計(jì)算公式R^2=SSR/SST=1-SSE/SST,對(duì)判定系數(shù)描述錯(cuò)誤的是()。A)式中的SSE指殘差平方和B)式中的SSR指總離差平方和C)判定系數(shù)用來(lái)衡量回歸方程的擾合優(yōu)度D)判定系數(shù)R^2等于相關(guān)系數(shù)的平方答案:B解析:SSR指回歸平方和。[單選題]54.以下哪些算法是基于規(guī)則的分類器()。A)C4.5B)KNNC)NaiveBayesD)AN答案:A解析:基于規(guī)則的分類器有決策樹(shù)、隨機(jī)森林、Aprior。[單選題]55.當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過(guò)(),學(xué)習(xí)一個(gè)()。A)硬間隔最大化線性可分支持向量機(jī)B)軟間隔最大化線性支持向量機(jī)C)硬間隔最大化線性支持向量機(jī)D)軟間隔最大化非線性支持向量機(jī)答案:B解析:當(dāng)訓(xùn)練樣本近似線性可分時(shí),通過(guò)軟間隔,學(xué)習(xí)一個(gè)最大化線性支持向量機(jī)。[單選題]56.下列常用模塊功能描述錯(cuò)誤的是()。A)datetime:datetime對(duì)象不可將日期對(duì)象格式化為可讀字符串的方法B)json:JSON(JavaScriptObjectNotation,JS對(duì)象標(biāo)記)是一種輕量級(jí)的數(shù)據(jù)交換格式C)sys:這個(gè)模塊可供訪問(wèn)由解釋器使用或維護(hù)的變量和與解釋器進(jìn)行交互的函數(shù)D)scipy:應(yīng)用廣泛的科學(xué)計(jì)算包答案:A解析:strftime()是datetime庫(kù)將日期對(duì)象格式化為可讀字符串的方法。[單選題]57.以下濾波器對(duì)圖像中的椒鹽噪聲濾波效果最好的是()。A)中值濾波B)均值濾波C)最大值濾波D)最小值濾答案:A解析:中值濾波對(duì)圖像椒鹽噪聲的濾波效果最好。[單選題]58.下列哪個(gè)程序通常與NameNode在一個(gè)節(jié)點(diǎn)啟動(dòng)()A)SecondaryNameNodeB)DataNodeC)TaskTrackerD)Jobtracker答案:D解析:hadoop的集群是基于master/slave模式,namenode和jobtracker屬于master,datanode和tasktracker屬于slave,master只有一個(gè),而slave有多個(gè)。SecondaryNameNode內(nèi)存需求和NameNode在一個(gè)數(shù)量級(jí)上,所以通常secondaryNameNode(運(yùn)行在單獨(dú)的物理機(jī)器上)和NameNode運(yùn)行在不同的機(jī)器上。JobTracker對(duì)應(yīng)于NameNode。TaskTracker對(duì)應(yīng)于DataNode。DataNode和NameNode是針對(duì)數(shù)據(jù)存放來(lái)而言的,JobTracker和TaskTracker是對(duì)于MapReduce執(zhí)行而言的。[單選題]59.下面關(guān)于HiveSQL的內(nèi)外表使用正確的是()A)在/tmp/path創(chuàng)建外表:CREATEEXTERNALTABLE...LOCATION'/tmp/path';B)在/tmp/path創(chuàng)建外表:CREATETABLE...;C)創(chuàng)建內(nèi)表:CREATEEXTERNALTABLE...LOCATION'/tmp/path';D)創(chuàng)建內(nèi)表:CREATEEXTERNALTABLE...答案:A解析:[單選題]60.Spark中引入RDD概念的目的是()。A)數(shù)據(jù)存儲(chǔ)B)數(shù)據(jù)查重C)提升容錯(cuò)能力D)增強(qiáng)數(shù)據(jù)一致答案:C解析:在Spark中引入RDD概念的目的是實(shí)現(xiàn)Spark的并行操作和靈活的容錯(cuò)能力。[單選題]61.以下說(shuō)法正確的是:()。1.一個(gè)機(jī)器學(xué)習(xí)模型,如果有較高準(zhǔn)確率,總是說(shuō)明這個(gè)分類器是好的2.如果增加模型復(fù)雜度,那么模型的測(cè)試錯(cuò)誤率總是會(huì)降低3.如果增加模型復(fù)雜度,那么模型的訓(xùn)練錯(cuò)誤率總是會(huì)降低A)1B)2C)3D)1and答案:C解析:如果增加模型復(fù)雜度,那么模型的測(cè)試錯(cuò)誤率總是會(huì)降低,訓(xùn)練錯(cuò)誤率可能降低,也可能增高。[單選題]62.異常檢測(cè)過(guò)程查找基于()組標(biāo)準(zhǔn)值偏差的異常個(gè)案。A)單體B)分類C)聚類D)回答案:C解析:異常檢測(cè)?過(guò)程查找基于聚類組標(biāo)準(zhǔn)值偏差的異常個(gè)案。該過(guò)程設(shè)計(jì)為在探索性步驟中,快速檢測(cè)到用于數(shù)據(jù)審核的異常個(gè)案,并優(yōu)先于任何推論性數(shù)據(jù)分析。[單選題]63.Python中用于生成隨機(jī)數(shù)的模塊是random,以下描述錯(cuò)誤的是()。A)random.random():生成一個(gè)0-1之間的隨機(jī)浮點(diǎn)數(shù)B)random.uniform(a,b):生成[a,b]之間的浮點(diǎn)數(shù)C)random.randint(a,b):生成[a,b]之間的整數(shù)D)random.choice(sequence):隨機(jī)生成任意一個(gè)整數(shù)答案:D解析:random.choice(sequence)函數(shù)用來(lái)從給定的序列中隨機(jī)采樣。[單選題]64.關(guān)于數(shù)據(jù)清洗,不正確的說(shuō)法是()。A)單數(shù)據(jù)源,主鍵取值不能重復(fù)B)多數(shù)據(jù)源會(huì)存在數(shù)據(jù)重復(fù),單位不一致的問(wèn)題C)連續(xù)型數(shù)據(jù)不存在冗余問(wèn)題D)缺失值可以采用刪除和填補(bǔ)等方法處理答案:C解析:連續(xù)型數(shù)據(jù)可能存在冗余問(wèn)題。第2部分:多項(xiàng)選擇題,共22題,每題至少兩個(gè)正確答案,多選或少選均不得分。[多選題]65.Hadoop框架的缺陷有()。A)MR編程框架的限制;B)過(guò)多的磁盤操作,缺乏對(duì)分布式內(nèi)存的支持;C)無(wú)法高效支持迭代式計(jì)算;D)不支持多用戶寫入并任意修改文件;答案:ABCD解析:以上四項(xiàng)都為Hadoop的缺點(diǎn)。[多選題]66.Spark的部署模式包括()。A)本地模式B)standalone模式C)SparkonyarnD)mesos模式答案:ABCD解析:spark支持上述四種運(yùn)行模式,在實(shí)驗(yàn)中為了充分利用資源,一般配置standalone模式運(yùn)行。[多選題]67.對(duì)于大數(shù)據(jù)計(jì)算服務(wù)(MaxCompute,原ODPS)內(nèi)置絕對(duì)值函數(shù)abs描述正確的有:()。A)當(dāng)輸入?yún)?shù)是bigint時(shí),返回值是bigint類型B)當(dāng)輸入?yún)?shù)是string類型時(shí),一定會(huì)導(dǎo)致異常C)輸入類型是boolean則返回值是TrueD)當(dāng)輸入?yún)?shù)是double時(shí),返回值是double類型答案:AD解析:[多選題]68.一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為()。A)訓(xùn)練集B)驗(yàn)證集C)測(cè)試集D)預(yù)處理答案:ABC解析:一個(gè)監(jiān)督觀測(cè)值集合會(huì)被劃分為訓(xùn)練集、測(cè)試集、預(yù)測(cè)集。其中測(cè)試集來(lái)測(cè)試學(xué)習(xí)器對(duì)新樣本的判別能力,然后以測(cè)試集上的測(cè)試誤差(testingerror)作為泛化誤差的近似。[多選題]69."噪聲"是指測(cè)量變量中的隨機(jī)錯(cuò)誤或偏差,噪聲數(shù)據(jù)的主要表現(xiàn)有那幾種形式()A)錯(cuò)誤數(shù)據(jù)B)假數(shù)據(jù)C)異常數(shù)據(jù)D)僵尸數(shù)據(jù)答案:ABC解析:錯(cuò)誤數(shù)據(jù)、假數(shù)據(jù)、異常數(shù)據(jù)在測(cè)量變量中多被定義為噪聲。[多選題]70.以下哪層是卷積神經(jīng)網(wǎng)絡(luò)的組成部分。A)卷積層B)中間層C)池化層D)全連接層答案:ACD解析:卷積神經(jīng)網(wǎng)絡(luò)的組成部分不包括中間層。[多選題]71.大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在()。A)具有勞動(dòng)增值B)涉及法律權(quán)屬C)具有財(cái)務(wù)價(jià)值D)涉及道德與倫理答案:ABCD解析:大數(shù)據(jù)的資產(chǎn)屬性體現(xiàn)在具有勞動(dòng)增值、涉及法律權(quán)屬、具有財(cái)務(wù)價(jià)值、涉及道德與倫理。[多選題]72.下面關(guān)于單樣本Z檢驗(yàn)的說(shuō)法,正確的是()。A)在Python中,單樣本Z檢驗(yàn)可以使用scipy.stats.ttest_1samp()實(shí)現(xiàn)B)單樣本Z檢驗(yàn)適用于樣本量較大的情況C)單樣本Z檢驗(yàn)假設(shè)要檢驗(yàn)的統(tǒng)計(jì)量(近似)滿足正態(tài)分布D)單樣本Z檢驗(yàn)常用于檢驗(yàn)總體平均值是否等于某個(gè)常量答案:BCD解析:在Python中,單樣本Z檢驗(yàn)可以使用statsmodels.stats.weightstats.ztest實(shí)現(xiàn)。[多選題]73.在BP網(wǎng)絡(luò)中,常用于緩解其過(guò)擬合的策略有()。A)早停策略B)正則化策略C)全局最小策略D)局部最小策答案:AB解析:通常有兩種策略來(lái)緩解BP網(wǎng)絡(luò)的過(guò)擬合。第一種策略是早停(earlystopping):將數(shù)據(jù)分成訓(xùn)練集合驗(yàn)證集,訓(xùn)練集用來(lái)計(jì)算梯度、更新連接權(quán)和閾值,驗(yàn)證集用來(lái)估計(jì)誤差,若訓(xùn)練集誤差降低但驗(yàn)證集誤差升高,則停止訓(xùn)練,同時(shí)返回具有最小驗(yàn)證集誤差的連接權(quán)和閾值。第二種策略是正則化(regularization),其基本思想是在誤差目標(biāo)函數(shù)中增加一個(gè)用于描述網(wǎng)絡(luò)復(fù)雜度的部分,例如連接權(quán)和閾值的平方和。[多選題]74.Spark2.0提供的應(yīng)用庫(kù)包括()。A)SparkSQLB)SparkStreamingC)MLibD)GraphX答案:ABCD解析:Spark2.0提供的應(yīng)用庫(kù)包括SparkSQL、SparkStreaming、MLib、GraphX。[多選題]75.數(shù)據(jù)來(lái)源和目標(biāo)用戶已定的情況下,不同視覺(jué)通道的表現(xiàn)力不同。視覺(jué)通道的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括()。A)精確性B)可辨認(rèn)性C)可分離性D)視覺(jué)突出性答案:ABCD解析:在數(shù)據(jù)來(lái)源和目標(biāo)用戶已定的情況下,不同視覺(jué)通道的表現(xiàn)力不同。視覺(jué)通道的表現(xiàn)力的評(píng)價(jià)指標(biāo)包括精確性、可辨認(rèn)性、可分離性和視覺(jué)突出性。1)精確性代表的是人類感知系統(tǒng)對(duì)于可視化編碼結(jié)果和原始數(shù)據(jù)之間的吻合程度。斯坦福大學(xué)Mackinlay曾于1986年提出了不同視覺(jué)通道所表示信息的精確性2)可辨認(rèn)性是指視覺(jué)通道的可辨認(rèn)度。3)可分離性是指同一個(gè)視覺(jué)圖形元素的不同視覺(jué)通道的表現(xiàn)力之間應(yīng)具備一定的獨(dú)立性。4)視覺(jué)突出性是指視覺(jué)編碼結(jié)果能否在很短的時(shí)間內(nèi)(如毫秒級(jí))能夠迅速準(zhǔn)確表達(dá)出可視化編碼的主要意圖。[多選題]76.HadoopMapReduce是MapReduce的具體實(shí)現(xiàn)之一。HadoopMapReduce數(shù)據(jù)處理過(guò)程涉及四個(gè)獨(dú)立的實(shí)體,包括()。A)ClientB)JobTrackerC)TaskTrackerD)HDFS答案:ABCD解析:可以將MapReduce的工作流程概括為4個(gè)獨(dú)立的實(shí)體①客戶端,用來(lái)提交MapReduce的作業(yè)。編寫MapReduce程序,配置作業(yè),提交作業(yè),程序員完成的工作。②JobTracker,用來(lái)協(xié)調(diào)作業(yè)的運(yùn)行。與TaskTracker通信,協(xié)調(diào)整個(gè)作業(yè)的執(zhí)行③TaskTracker,用來(lái)處理作業(yè)劃分后的任務(wù)。保持與JobTracker的通信,在分配的數(shù)據(jù)片段上執(zhí)行Map或Reduce任務(wù),TaskTracker和JobTracker的不同有個(gè)很重要方面,就是在執(zhí)行任務(wù)時(shí)候TaskTracker可以有n多個(gè),JobTracker則只會(huì)有一個(gè)④HDFS,用來(lái)在其他實(shí)體間共享作業(yè)文件。保存作業(yè)的數(shù)據(jù)、配置信息等等,最后的結(jié)果也是保存在hdfs上面。[多選題]77.ElasticSearch支持的gateway類型有?A)AmazonS3B)本地文件系統(tǒng)C)HDFSD)AmazonS5答案:ABCD解析:[多選題]78.非頻繁模式()。A)其支持度小于閾值B)都是不讓人感興趣的C)包含負(fù)模式和負(fù)相關(guān)模式D)對(duì)異常數(shù)據(jù)項(xiàng)敏感答案:AD解析:非頻繁模式,是一個(gè)項(xiàng)集或規(guī)則,其支持度小于閾值。絕大部分的頻繁模式不是令人感興趣的,但其中有些分析是有用的,特別是涉及到數(shù)據(jù)中的負(fù)相關(guān)時(shí)。它對(duì)異常數(shù)據(jù)項(xiàng)敏感。[多選題]79.在金融領(lǐng)域的大數(shù)據(jù)批量離線處理平臺(tái)中,以下描述準(zhǔn)確的是?A)金融領(lǐng)域的外部數(shù)據(jù)來(lái)源可以是征信信息、社交網(wǎng)絡(luò)和電商等。B)在數(shù)據(jù)集成模塊,可以分為數(shù)據(jù)采集、數(shù)據(jù)操控和數(shù)據(jù)加載3個(gè)階段。C)金融領(lǐng)域的內(nèi)部數(shù)據(jù)來(lái)源均是結(jié)構(gòu)化數(shù)據(jù),包括信貸數(shù)據(jù)、信用卡數(shù)據(jù)和收單數(shù)據(jù)等、D)金融領(lǐng)域的數(shù)據(jù)應(yīng)用層面均是面向金融機(jī)構(gòu)內(nèi)部的,如監(jiān)管報(bào)表系統(tǒng),精準(zhǔn)營(yíng)銷BI應(yīng)用等,完全不對(duì)外或?qū)ζ渌聦贆C(jī)構(gòu)開(kāi)放答案:AB解析:[多選題]80.API網(wǎng)關(guān)是:華為云提供的一個(gè)API托管的應(yīng)用服務(wù),API網(wǎng)管包括的功能有:()。A)API全生命周期的管理B)權(quán)限控制C)訪問(wèn)控制D流量控D)PI網(wǎng)關(guān)是:華為云提供的一個(gè)API托管的應(yīng)用服務(wù),API網(wǎng)管包括的功能有:()。A、API全生命周期的管理B、權(quán)限控制C、訪問(wèn)控制D流量控答案:ABCD解析:[多選題]81.下面關(guān)于隨機(jī)變量及其概率分布的說(shuō)法,正確的是()。A)隨機(jī)變量可以分為離散型隨機(jī)變量和連續(xù)型隨機(jī)變量B)隨機(jī)變量的概率分布指的是一個(gè)隨機(jī)變量所有取值的可能性C)扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為0與正面朝上次數(shù)為5的概率是一樣的D)扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為5的概率是最大的答案:ABC解析:扔5次硬幣,正面朝上次數(shù)的可能取值是0,1,2,3,4,5,其中正面朝上次數(shù)為5的概率不是最大的。[多選題]82.分布式列式存儲(chǔ)的功能有()。A)支持在線快速讀寫B(tài))支持線性擴(kuò)展C)具備節(jié)點(diǎn)監(jiān)控管理D)數(shù)據(jù)同源不壓縮答案:ABC解析:分布式列式存儲(chǔ)的功能包括數(shù)據(jù)壓縮。[多選題]83.可視分析學(xué)是一門以可視交互為基礎(chǔ),綜合運(yùn)用()等技術(shù)等多個(gè)學(xué)科領(lǐng)域的知識(shí),以實(shí)現(xiàn)人機(jī)協(xié)同完成可視化任務(wù)為主要目的分析推理學(xué)科。A)物理學(xué)B)圖形學(xué)C)數(shù)據(jù)挖掘D)人機(jī)交互答案:BCD解析:可視分析學(xué)(VisualAnalytics):科學(xué)可視化和信息可視化理論的進(jìn)一步演變以及與其他學(xué)科相互交融發(fā)展之后的結(jié)果。在數(shù)據(jù)科學(xué)中,通常采用數(shù)據(jù)可視化的廣義定義方法,并以可視分析學(xué)為主要理論基礎(chǔ)。[多選題]84.下列關(guān)于spark中的RDD描述正確的有()。A)RDD(ResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是spark中最基本的數(shù)據(jù)抽象;B)Resilient:表示彈性的;C)Destributed:分布式,可以并行在集群計(jì)算;D)Dataset:就是一個(gè)集合,用于存放數(shù)據(jù)的;答案:ABCD解析:關(guān)于spark中的RDD描述正確的有RDD(ResilientDistributedDataset)叫做彈性分布式數(shù)據(jù)集,是spark中最基本的數(shù)據(jù)抽象;Resilient:表示彈性的;Destributed:分布式,可以并行在集群計(jì)算;Dataset:就是一個(gè)集合,用于存放數(shù)據(jù)的。[多選題]85.MapReduce對(duì)map()函數(shù)的返回值處理后才傳給reduce()函數(shù),其中涉及哪些操作()。A)合并B)排序C)分區(qū)D)抽樣答案:ABC解析:分別涉及Shuffle(排序)、combiner(合并)和partition(分區(qū))操作。[多選題]86

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論