雨課堂學(xué)堂在線學(xué)堂云《大數(shù)據(jù)分析（北京理工）》單元測試考核答案

上傳人：z*** IP屬地：貴州上傳時(shí)間：2026-02-06 格式：DOCX 頁數(shù)：46 大?。?04.48KB 積分：15 舉報(bào) 版權(quán)申訴

雨課堂學(xué)堂在線學(xué)堂云《大數(shù)據(jù)分析（北京理工）》單元測試考核答案_第2頁

雨課堂學(xué)堂在線學(xué)堂云《大數(shù)據(jù)分析（北京理工）》單元測試考核答案_第3頁

雨課堂學(xué)堂在線學(xué)堂云《大數(shù)據(jù)分析（北京理工）》單元測試考核答案_第4頁

雨課堂學(xué)堂在線學(xué)堂云《大數(shù)據(jù)分析（北京理工）》單元測試考核答案_第5頁

已閱讀5頁，還剩41頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

第1題為什么我們說數(shù)據(jù)像未加工的原油?以下哪一個(gè)不是合理的原因?()A數(shù)據(jù)有價(jià)值B需要被加工才能使用C一個(gè)數(shù)據(jù)集可以應(yīng)用到不同的分析目的D可以被出售第2題產(chǎn)生和消費(fèi)數(shù)據(jù)的模式已經(jīng)轉(zhuǎn)變?yōu)橐韵履姆N情況()A少數(shù)公司產(chǎn)生數(shù)據(jù),其他公司消費(fèi)數(shù)據(jù).B我們所有人都在產(chǎn)生數(shù)據(jù),同時(shí)我們所有人也在消費(fèi)數(shù)據(jù).C一些公司在產(chǎn)生數(shù)據(jù),一些公司在消費(fèi)數(shù)據(jù).D我們中的一些人在產(chǎn)生數(shù)據(jù),我們中的一些人在消費(fèi)數(shù)據(jù).第3題關(guān)于大數(shù)據(jù)術(shù)語,哪個(gè)描述不合適()A可以分析大數(shù)據(jù)以獲得更好的決策和戰(zhàn)略業(yè)務(wù)舉措的見解B只是規(guī)模大C包括結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)D難以管理的數(shù)據(jù)量第4題關(guān)于數(shù)據(jù)生成階段,哪個(gè)順序是正確的()A運(yùn)營與業(yè)務(wù)系統(tǒng)、感知階段、用戶生成內(nèi)容B運(yùn)營與業(yè)務(wù)系統(tǒng),用戶生成內(nèi)容,感知階段C感知階段,運(yùn)營與業(yè)務(wù)系統(tǒng),用戶生成內(nèi)容D感知階段,用戶生成內(nèi)容,運(yùn)營與業(yè)務(wù)系統(tǒng)第5題以下哪個(gè)階段是大數(shù)據(jù)的主要原因?()A運(yùn)營與業(yè)務(wù)系統(tǒng)B用戶生成內(nèi)容C感知階段D社交媒體第1題據(jù)Gartner稱,估計(jì)有20%的組織數(shù)據(jù)是()數(shù)據(jù),其他多數(shù)是()數(shù)據(jù).()A結(jié)構(gòu)化,非結(jié)構(gòu)化B非結(jié)構(gòu),結(jié)構(gòu)化C結(jié)構(gòu)化,半結(jié)構(gòu)化D非結(jié)構(gòu),半結(jié)構(gòu)化第2題關(guān)于結(jié)構(gòu)化數(shù)據(jù),與非結(jié)構(gòu)化數(shù)據(jù)相比,哪個(gè)描述不對?()A它通常采用行和列的表格形式B易于加工C它以預(yù)定義的格式組織數(shù)據(jù)D需要更多的存儲空間第3題關(guān)于非結(jié)構(gòu)化數(shù)據(jù),與結(jié)構(gòu)化數(shù)據(jù)相比,哪個(gè)描述不對?()A不能顯示在行、列和關(guān)系數(shù)據(jù)庫中.B它們通常是圖像、音頻、視頻、文字處理文件、電子郵件、電子表格.C它們需要更多存儲空間,因?yàn)樗鼈償?shù)量龐大且組織不當(dāng).D可以輕松地使用傳統(tǒng)方式用遺留解決方案管理和保護(hù).第4題對比數(shù)據(jù)庫和大數(shù)據(jù),哪個(gè)先有schema,再根據(jù)schema組織數(shù)據(jù).A數(shù)據(jù)庫

B數(shù)據(jù)倉庫C大數(shù)據(jù)D數(shù)據(jù)庫和大數(shù)據(jù)都不是第5題數(shù)據(jù)規(guī)模遞增的正確順序是()AKBMBGBPBTBEBBKBMBGBTBPBEBCKBMBTBGBPBEBDKBMBGBTBEBPB第6題我們可以找到一種工具來處理大數(shù)據(jù)的所有數(shù)據(jù)管理問題.()第7題我們可以找到一種工具來處理數(shù)據(jù)庫的所有數(shù)據(jù)管理問題.()1.3科學(xué)研究第四范式第1題那個(gè)關(guān)于JimGray的描述不能確定()A關(guān)系型數(shù)據(jù)庫創(chuàng)始人B航海運(yùn)動愛好者C將科學(xué)研究分為四種范式D大數(shù)據(jù)科學(xué)家第2題四個(gè)范式的正確時(shí)間順序是()A實(shí)證–理論–計(jì)算–數(shù)據(jù)探索B理論-實(shí)證-計(jì)算-數(shù)據(jù)探索C實(shí)證-計(jì)算-理論-數(shù)據(jù)探索D實(shí)證-理論-數(shù)據(jù)探索-計(jì)算1.4大數(shù)據(jù)特征第1題在大數(shù)據(jù)的特征當(dāng)中,哪一個(gè)是最重要的特征.()A規(guī)模&速度B多樣性C真實(shí)性D價(jià)值第2題下面哪一個(gè)大數(shù)據(jù)的特征最好的描述了DataatRest?()A規(guī)模B速度C真實(shí)性D價(jià)值第3題下面哪一個(gè)大數(shù)據(jù)的特征最好的描述了DatainMotion?()A規(guī)模B多樣性C真實(shí)性D速度第4題下面哪一個(gè)大數(shù)據(jù)的特征最好的描述了DatainManyForms?()A規(guī)模B多樣性C真實(shí)性D速度第5題下面哪一個(gè)大數(shù)據(jù)的特征最好的描述了DatainDoubt(這意味著由于數(shù)據(jù)不一致和不完整、歧義、延遲、欺騙、模型近似而導(dǎo)致的不確定性)?()A規(guī)模B多樣性C真實(shí)性D速度第6題下面哪一個(gè)大數(shù)據(jù)的特征最好的描述了“沙中淘金”?()A價(jià)值B多樣性C真實(shí)性D速度1.5大數(shù)據(jù)生命周期第1題正確的大數(shù)據(jù)生命周期是()A數(shù)據(jù)治理數(shù)據(jù)采集,數(shù)據(jù)存儲和數(shù)據(jù)分析B數(shù)據(jù)采集,數(shù)據(jù)治理,數(shù)據(jù)存儲和數(shù)據(jù)分析C數(shù)據(jù)采集,數(shù)據(jù)存儲,數(shù)據(jù)治理和數(shù)據(jù)分析D數(shù)據(jù)采集,數(shù)據(jù)存儲,數(shù)據(jù)分析和數(shù)據(jù)治理第2題提取信息時(shí),支持制定決策的風(fēng)險(xiǎn)降低順序是()A數(shù)據(jù),信息,智慧,知識B信息,數(shù)據(jù),知識,智慧C數(shù)據(jù),信息,知識,智慧D信息,數(shù)據(jù),智慧,知識第3題以下哪一個(gè)是關(guān)于個(gè)別事實(shí)、數(shù)字、信號、測量?()A數(shù)據(jù)B信息C智慧D知識第4題以下哪一個(gè)是關(guān)于有組織的,結(jié)構(gòu)化的分類的,有用的,凝練的,計(jì)算過的數(shù)據(jù)?()A數(shù)據(jù)B信息C智慧D知識第5題以下哪一個(gè)是關(guān)于想法、學(xué)習(xí)、符號、概念、綜合、比較、思考、討論?()A數(shù)據(jù)B信息C智慧D知識第6題以下哪一項(xiàng)是關(guān)于理解、整合、應(yīng)用、反思、可操作、積累、原則、模式、決策過程?()A數(shù)據(jù)B信息C智慧D知識第7題利用數(shù)據(jù)的歷史技術(shù)發(fā)展順序是()1)()可以對歷史數(shù)據(jù)進(jìn)行報(bào)告和人工分析2)()可以分析當(dāng)前數(shù)據(jù)以改善業(yè)務(wù)交易3)()實(shí)時(shí)分析處理以做出實(shí)時(shí)決策并改進(jìn)實(shí)時(shí)業(yè)務(wù)響應(yīng)AOLAP:在線分析處理;OLTP:在線交易處理;RTAP:實(shí)時(shí)分析處理;BOLTP:在線交易處理;OLAP:在線分析處理;RTAP:實(shí)時(shí)分析處理;COLAP:在線分析處理;RTAP:實(shí)時(shí)分析處理;OLTP:在線交易處理;DOLTP:在線交易處理;RTAP:實(shí)時(shí)分析處理;OLAP:在線分析處理;第8題商務(wù)智能在規(guī)模和速度上都不斷發(fā)展,下圖中1234號方框中的技術(shù)分別是什么.(

)A1-數(shù)據(jù)倉庫,2-內(nèi)存關(guān)系型數(shù)據(jù)庫管理系統(tǒng),3-分布式數(shù)據(jù)存儲,4-實(shí)時(shí)&單一數(shù)據(jù)視圖B

1-內(nèi)存關(guān)系型數(shù)據(jù)庫管理系統(tǒng),2-數(shù)據(jù)倉庫,3-分布式數(shù)據(jù)存儲,4-實(shí)時(shí)&單一數(shù)據(jù)視圖C1-數(shù)據(jù)倉庫,2-分布式數(shù)據(jù)存儲,3-內(nèi)存關(guān)系型數(shù)據(jù)庫管理系統(tǒng),4-實(shí)時(shí)&單一數(shù)據(jù)視圖D1-數(shù)據(jù)倉庫,2-內(nèi)存關(guān)系型數(shù)據(jù)庫管理系統(tǒng),3-實(shí)時(shí)&單一數(shù)據(jù)視圖,4-分布式數(shù)據(jù)存儲1.6大數(shù)據(jù)處理流程第1題在下圖中,每個(gè)數(shù)字的正確術(shù)語是什么?()A數(shù)據(jù)來源、數(shù)據(jù)存儲、數(shù)據(jù)采集、數(shù)據(jù)處理、數(shù)據(jù)可視化、報(bào)表監(jiān)控B數(shù)據(jù)來源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)可視化、數(shù)據(jù)處理、報(bào)表監(jiān)控C數(shù)據(jù)來源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)可視化、報(bào)表監(jiān)控D數(shù)據(jù)來源、數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、報(bào)表監(jiān)控、數(shù)據(jù)可視化1.7大數(shù)據(jù)分析總體框架第1題當(dāng)數(shù)據(jù)量越來越大時(shí),任何單一的傳統(tǒng)高性能服務(wù)器都無法滿足需求,需要更多的服務(wù)器.這叫做()擴(kuò)展A垂直B水平C集中式D分布式第2題分布式計(jì)算的思想是使用()來取得()()A冗余性,可靠性;B可靠性,冗余性;C冗余性,性能;D可靠性,性能;第3題大數(shù)據(jù)的兩個(gè)主要的組件是()和().()A分布式存儲,分布式處理B分布式采集,分布式處理C分布式采集,分布式存儲D分布式采集,分布式應(yīng)用第4題在大數(shù)據(jù)通用架構(gòu)中,從下到上,大數(shù)據(jù)計(jì)算系統(tǒng)的三個(gè)基本層是()A數(shù)據(jù)處理系統(tǒng);數(shù)據(jù)存儲系統(tǒng);數(shù)據(jù)應(yīng)用系統(tǒng);B數(shù)據(jù)存儲系統(tǒng);數(shù)據(jù)處理系統(tǒng);數(shù)據(jù)應(yīng)用系統(tǒng);C數(shù)據(jù)采集系統(tǒng);數(shù)據(jù)處理系統(tǒng);數(shù)據(jù)存儲系統(tǒng);D數(shù)據(jù)存儲系統(tǒng);數(shù)據(jù)處理系統(tǒng);數(shù)據(jù)可視化系統(tǒng);第5題在大數(shù)據(jù)通用架構(gòu)中,數(shù)據(jù)存儲系統(tǒng)分為四個(gè)部分,哪一個(gè)最能描述數(shù)據(jù)存儲系統(tǒng)的四個(gè)部分?()A數(shù)據(jù)采集,數(shù)據(jù)建模,數(shù)據(jù)存儲(分布式文件系統(tǒng)和分布式數(shù)據(jù)庫),統(tǒng)一數(shù)據(jù)訪問接口B數(shù)據(jù)采集,數(shù)據(jù)預(yù)處理,數(shù)據(jù)存儲(分布式文件系統(tǒng)和分布式數(shù)據(jù)庫),統(tǒng)一數(shù)據(jù)訪問接口C數(shù)據(jù)預(yù)處理,數(shù)據(jù)建模,數(shù)據(jù)存儲(分布式文件系統(tǒng)和分布式數(shù)據(jù)庫),統(tǒng)一數(shù)據(jù)訪問接口D數(shù)據(jù)預(yù)處理,數(shù)據(jù)建模,分布式文件系統(tǒng),分布式數(shù)據(jù)庫第6題在大數(shù)據(jù)通用架構(gòu)中,數(shù)據(jù)處理系統(tǒng)分為三個(gè)部分,哪一個(gè)最恰當(dāng)?shù)孛枋隽怂鼈?()A數(shù)據(jù)存儲,數(shù)據(jù)處理算法,計(jì)算引擎和計(jì)算平臺B數(shù)據(jù)存儲,計(jì)算模型,計(jì)算引擎和計(jì)算平臺C數(shù)據(jù)處理算法,計(jì)算模型,計(jì)算引擎和計(jì)算平臺D數(shù)據(jù)處理算法,計(jì)算引擎,計(jì)算平臺第7題在大數(shù)據(jù)通用架構(gòu)中,UDAI-統(tǒng)一數(shù)據(jù)訪問接口不能解決的問題是.()A跨平臺問題B異構(gòu)問題C分布式計(jì)算問題D數(shù)據(jù)不一致問題第8題Hadoop是唯一的大數(shù)據(jù)架構(gòu).()2.1數(shù)據(jù)源第1題根據(jù)組織邊界,數(shù)據(jù)資源可分為兩類.()A在線數(shù)據(jù)和離線數(shù)據(jù).B組織數(shù)據(jù)和政府?dāng)?shù)據(jù).C內(nèi)部數(shù)據(jù)和外部數(shù)據(jù).D系統(tǒng)數(shù)據(jù)和IoT物聯(lián)網(wǎng)數(shù)據(jù)第2題當(dāng)您從互聯(lián)網(wǎng)上采集數(shù)據(jù)時(shí),您應(yīng)該注意一些問題,哪一項(xiàng)不包括在內(nèi)()A不同網(wǎng)站具有不同的IT水平和結(jié)構(gòu)—沒有一個(gè)統(tǒng)一的采集方法;B不同的網(wǎng)站對網(wǎng)絡(luò)爬蟲有不同的控制策略;C數(shù)據(jù)的權(quán)威性和數(shù)據(jù)的質(zhì)量要比其他的數(shù)據(jù)源的數(shù)據(jù)差D我們平均地采集各種形式的數(shù)據(jù).2.2內(nèi)部數(shù)據(jù)獲取第1題最常用的內(nèi)部數(shù)據(jù)采集是()A數(shù)據(jù)倉庫BETL(Extract提取,Transform轉(zhuǎn)換,load加載)C數(shù)據(jù)觸發(fā)器D增量數(shù)據(jù)提取第2題()是簡單直觀的數(shù)據(jù)提取方式,每次提取整個(gè)源數(shù)據(jù)存儲中的所有數(shù)據(jù).()A增量提取B全量提取C時(shí)間戳提取D觸發(fā)器提取第3題以下哪種方法是在數(shù)據(jù)庫中提取自上次提取以來的新的或修改的數(shù)據(jù),同時(shí),它通常不會對運(yùn)行的業(yè)務(wù)系統(tǒng)產(chǎn)生很大影響.()A增量提取B全量提取C時(shí)間戳提取D觸發(fā)器提取第4題以下哪種方法是在數(shù)據(jù)提取時(shí)通過數(shù)據(jù)庫自帶的日志評估變化了的數(shù)據(jù).()A日志比較方法B時(shí)間戳方法C觸發(fā)器方法D全表比較方法第5題以下哪種方法在更新相應(yīng)的記錄數(shù)據(jù)時(shí)添加和修改時(shí)間戳字段值。通過比較系統(tǒng)時(shí)間和時(shí)間戳?xí)r間來決定是否進(jìn)行本次數(shù)據(jù)提取。()A日志比較方法B時(shí)間戳方法C觸發(fā)器方法D全表比較方法第6題以下哪種方法每次在源數(shù)據(jù)庫表發(fā)生變化時(shí)在數(shù)據(jù)表上創(chuàng)建一個(gè)觸發(fā)器,變化了的數(shù)據(jù)通過相應(yīng)的觸發(fā)器被寫到臨時(shí)表中,數(shù)據(jù)提取線程從臨時(shí)表中提取數(shù)據(jù)。()A日志比較方法B時(shí)間戳方法C觸發(fā)器方法D全表比較方法第7題以下哪種數(shù)據(jù)提取方法中,ETL工具事先創(chuàng)建一個(gè)與待提取的數(shù)據(jù)庫表具有相似結(jié)構(gòu)的MD5臨時(shí)表。臨時(shí)表記錄源表的主鍵和基于所有字段數(shù)據(jù)計(jì)算的MD5值()A日志比較方法B時(shí)間戳方法C觸發(fā)器方法D全表比較方法第8題下列哪項(xiàng)不是進(jìn)行數(shù)據(jù)抽取時(shí)的數(shù)據(jù)轉(zhuǎn)換組件?()A字段映射B數(shù)據(jù)計(jì)算C數(shù)據(jù)拆分D去重第9題以下哪一個(gè)不是數(shù)據(jù)加載的方法?()A用SQL語句進(jìn)行插入,更新和刪除數(shù)據(jù)B數(shù)據(jù)全量提取C批量復(fù)制程序D通過API應(yīng)用程序接口進(jìn)行數(shù)據(jù)加載2.3外部數(shù)據(jù)獲取第1題以下哪一個(gè)不是網(wǎng)絡(luò)大數(shù)據(jù)的特征?()A多源異構(gòu)B高噪聲C交互性D結(jié)構(gòu)化第2題網(wǎng)絡(luò)爬蟲的過程以下描述的正確順序是()a)一個(gè)稱為種子URL的統(tǒng)一資源地址列表并將其用作爬行的鏈接的入口。當(dāng)爬蟲程序訪問這些種子URL時(shí),它識別出在種子URL上的所有需要的鏈接并將這些鏈接添加到待爬取隊(duì)列.b)把已經(jīng)下載完的URL放到已爬取URL列表c)提取新的URL,按照既定策略把這些URL放到待爬取URL隊(duì)列中等待爬取d)從待爬取隊(duì)列中取出網(wǎng)頁的鏈接,然后讀取URL,進(jìn)行DNS解析,并且把網(wǎng)頁放在已經(jīng)下載的網(wǎng)頁庫中.e)當(dāng)爬取隊(duì)列空了的時(shí)候,所有的爬取過程將終止.AabcdeBadbce

Cacbde

Dadcbe第3題如何處理種子URL中的扇出URL,也就是鏈接的鏈接,這涉及到網(wǎng)絡(luò)爬蟲的爬取策略.以下哪一個(gè)不是常用的爬蟲爬取策略()A深度優(yōu)先B廣度優(yōu)先C先進(jìn)先出D部分PageRank策略第4題在下圖中使用廣度優(yōu)先爬取策略,以下哪一個(gè)是正確的爬取順序?()AM1-M2-M5-M8-M6-M3-S7-S4BM1-M2-M3--S4-M5-M6-S7-M8CM1-M2-M5-M6-M8-M3-S7-S4DM1-M2-M5-M6-M3-S7-M8-S4第5題以下哪一個(gè)爬取策略給每一個(gè)網(wǎng)頁分配同樣的金幣。每當(dāng)一個(gè)網(wǎng)頁P(yáng)被下載,P所擁有的金幣就平均分配給網(wǎng)頁P(yáng)所包含的鏈接頁面。在隊(duì)列中的鏈接按照所擁有的金幣的數(shù)量從多到少順序進(jìn)行爬取()APageRankBOPICC深度優(yōu)先D廣度優(yōu)先第6題爬蟲的任務(wù)通常是很繁重的,很難由一個(gè)單獨(dú)的網(wǎng)絡(luò)爬蟲爬取,所以需要分布式網(wǎng)絡(luò)爬蟲。有三張基本的網(wǎng)絡(luò)爬蟲分布式架構(gòu),以下哪一種不屬于常用的分布式網(wǎng)絡(luò)爬蟲架構(gòu)。()AMaster-slaveBPeertopeerCMixedstructureDHybrid2.4深網(wǎng)數(shù)據(jù)獲取第1題傳統(tǒng)搜索引擎由于技術(shù)限制無法索引或經(jīng)過仔細(xì)考慮后不愿意索引的那些網(wǎng)頁、文件或其他高質(zhì)量、權(quán)威的信息,這些互聯(lián)網(wǎng)內(nèi)容屬于以下哪一種。()A淺網(wǎng)B深網(wǎng)C暗網(wǎng)D以上都不是第2題以下哪一項(xiàng)不是深網(wǎng)信息的特征?()A與信息需求、市場和領(lǐng)域高度相關(guān).B互聯(lián)網(wǎng)上增長最快的新型信息.C其中一半以上儲存在專題數(shù)據(jù)庫中.D可以通過搜索引擎進(jìn)行搜索.第3題深網(wǎng)內(nèi)容包括以下哪些()1由于缺乏定向鏈接而不被搜索引擎引用的頁面2網(wǎng)頁上可訪問的非網(wǎng)頁文件,如圖片文件、Pdf及word文件等.3通過填寫表單查詢后端在線數(shù)據(jù)庫獲得的動態(tài)頁面.4需要注冊或其他訪問限制的內(nèi)容。A1234B124C123D234第4題下面關(guān)于深網(wǎng)搜索接口的描述哪一個(gè)是不正確的()A深網(wǎng)有復(fù)雜的搜索接口B支持對多個(gè)屬性的查詢C從數(shù)據(jù)庫中提取內(nèi)容D接口容易找到第5題哪一個(gè)完整地描述了深網(wǎng)數(shù)據(jù)采集方法的內(nèi)容()A自動查詢接口標(biāo)識并填寫表單B解析HTML表單或?qū)TML表單執(zhí)行語法分析,以自動發(fā)現(xiàn)深網(wǎng)數(shù)據(jù)資源C將HTML表單與特定字段關(guān)聯(lián),實(shí)現(xiàn)表單的自動填充D域無關(guān)檢測:基于樣本從查詢結(jié)果中迭代獲取查詢關(guān)鍵字,以較少的查詢獲得盡可能多的查詢結(jié)果3.1數(shù)據(jù)預(yù)處理概述第1題以下哪個(gè)不能有助于防止臟數(shù)據(jù)出現(xiàn)?()A統(tǒng)一多個(gè)數(shù)據(jù)源的屬性值編碼B盡可能清楚地給出屬性名和屬性值C鍵值盡量使用選項(xiàng)D手動填寫條目第2題數(shù)據(jù)預(yù)處理的任務(wù)不包含以下的哪一項(xiàng)()A數(shù)據(jù)清洗B數(shù)據(jù)轉(zhuǎn)換C數(shù)據(jù)規(guī)約D數(shù)據(jù)定義第3題數(shù)據(jù)清洗技術(shù)不包含以下的哪一項(xiàng)()A數(shù)據(jù)轉(zhuǎn)換B缺失數(shù)據(jù)的清洗C數(shù)據(jù)去重D在數(shù)據(jù)集上執(zhí)行異常檢測第4題數(shù)據(jù)規(guī)約技術(shù)不包含以下的哪一項(xiàng)()A高維數(shù)據(jù)的降維處理B減少數(shù)據(jù)的量C隨機(jī)刪除一些數(shù)據(jù)D數(shù)據(jù)離散化技術(shù)3.2數(shù)據(jù)質(zhì)量第1題完整性約束屬于以下哪個(gè)數(shù)據(jù)質(zhì)量范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第2題唯一性屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第3題屬性依賴屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第4題拼寫錯(cuò)誤屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第5題冗余和重復(fù)記錄屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第6題屬性值沖突屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第7題命名沖突(對不同的數(shù)據(jù)對象使用同一個(gè)名字或者對同一個(gè)數(shù)據(jù)對象使用不同的名字)屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第8題結(jié)構(gòu)沖突(指用不同的方式表示在不同的數(shù)據(jù)源中的同一數(shù)據(jù)對象)屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層第9題相同值的不同表達(dá)屬于以下哪個(gè)數(shù)據(jù)質(zhì)量的范疇()A單一數(shù)據(jù)源,模型層面B單一數(shù)據(jù)源,實(shí)例層C多數(shù)據(jù)源,模型層面D多數(shù)據(jù)源,實(shí)例層3.3數(shù)據(jù)清洗技術(shù)第1題以下哪項(xiàng)不是主要的數(shù)據(jù)清理任務(wù)之一?()A重復(fù)數(shù)據(jù)清洗B缺失值清洗C剔除噪聲數(shù)據(jù)D當(dāng)合并不同的表時(shí)刪除一些冗余屬性第2題如何判斷兩條記錄是否重復(fù)?()A根據(jù)每個(gè)屬性的相似度和屬性的權(quán)重,比較兩條記錄的相關(guān)屬性值B由技術(shù)人員手工比較C通過數(shù)據(jù)庫支持進(jìn)行比較D以上都不是第3題

缺失值必須被找出并且通過以下哪些手段進(jìn)行補(bǔ)充()1)忽略這條記錄2)使用默認(rèn)值3)使用屬性平均值4)使用相似樣本的平均值

5）預(yù)測最有可能的值A(chǔ)1234B2345C12345D1345第4題以下哪一項(xiàng)不是消除數(shù)據(jù)噪聲的主要方法之一?()Abin/splitbin分箱算法B聚類算法C回歸算法D功能算法第5題當(dāng)平滑有噪聲的數(shù)據(jù)時(shí),哪一個(gè)不是常用的方法?()A用平均值來平滑B用隨機(jī)值來平滑C根據(jù)邊界值來平滑D根據(jù)中位數(shù)來平滑3.4數(shù)據(jù)轉(zhuǎn)換第1題當(dāng)將多個(gè)數(shù)據(jù)源的數(shù)據(jù)整合到一個(gè)一致的存儲中,以下哪項(xiàng)數(shù)據(jù)預(yù)處理任務(wù)不能起到保證數(shù)據(jù)質(zhì)量的作用()A模式匹配B數(shù)據(jù)冗余處理C數(shù)據(jù)值沖突解決D數(shù)據(jù)計(jì)算第2題為了方便高效的分析,以下哪些是可以采用的數(shù)據(jù)轉(zhuǎn)換方法()?1)數(shù)據(jù)平滑2)數(shù)據(jù)聚合3)數(shù)據(jù)泛化4)數(shù)據(jù)規(guī)范化5)屬性構(gòu)造A1234B2345C12345D13453.5數(shù)據(jù)規(guī)約第1題以下哪一種數(shù)據(jù)規(guī)約的說法是不正確的?()A使用數(shù)據(jù)規(guī)約(減法)技術(shù),幫助從原始龐大的數(shù)據(jù)集中獲得一個(gè)壓縮的數(shù)據(jù)集,并使這個(gè)壓縮的數(shù)據(jù)集保持原始數(shù)據(jù)集的完整性B對壓縮后的數(shù)據(jù)集進(jìn)行數(shù)據(jù)分析效率明顯更高,分析結(jié)果與使用原始數(shù)據(jù)集得到的結(jié)果基本一致C花在數(shù)據(jù)縮減上的時(shí)間可以超過或“抵消”分析減少的數(shù)據(jù)所節(jié)省的時(shí)間.D數(shù)據(jù)規(guī)約得到的數(shù)據(jù)比原始數(shù)據(jù)小很多,但可以產(chǎn)生相同或幾乎相同的分析結(jié)果.第2題以下哪項(xiàng)不是降維的方法?()A小波變換B屬性子集選擇CPCA主成分分析法D聚類第3題下列哪個(gè)選項(xiàng)不是數(shù)據(jù)分析中數(shù)據(jù)規(guī)模減少的方法?()APCA主成分分析法B數(shù)據(jù)立方體聚合C聚類D采樣第4題1.

以下哪一種是屬性子集選擇技術(shù)的屬性子集選擇的方法?

(

)1)向前逐步選擇屬性子集2)向后逐步選擇屬性子集3)向前選擇和向后刪除方法相結(jié)合4)PCA主成分分析法5)基于統(tǒng)計(jì)分析的減少屬性

6）決策樹(decisiontree)歸納A12346B12345C12356D123456第5題下圖中顯示了什么屬性子集選擇方法?(

)A向前逐步選擇屬性子集B向后逐步選擇屬性子集C向前選擇和向后刪除方法相結(jié)合D決策樹(decision

tree)歸納第6題下圖中顯示了什么屬性子集選擇方法?(

)A向前逐步選擇屬性子集B向后逐步選擇屬性子集C向前選擇和向后刪除方法相結(jié)合D決策樹(decisiontree)歸納第7題關(guān)于主成分分析-PCA,以下哪一個(gè)描述是錯(cuò)的?()A主成分分析搜索得到最能代表數(shù)據(jù)的c維正交向量B主成分分析是數(shù)量Numerosity約簡方法。C將原始數(shù)據(jù)投影到更小的空間,實(shí)現(xiàn)數(shù)據(jù)壓縮.D主成分分析是有損壓縮.4.1數(shù)據(jù)建模第1題數(shù)據(jù)建模可以包含定義以下的哪些（）.

1)元數(shù)據(jù)2)數(shù)據(jù)結(jié)構(gòu)3)屬性4)值的范圍5)關(guān)聯(lián)關(guān)系6)一致性7)時(shí)效性A12345B1234567C134567D123567第2題在數(shù)據(jù)存儲系統(tǒng)中，可分為4個(gè)部分，從下至上合理的處理順序是(A)

1)數(shù)據(jù)收集與建模2)統(tǒng)一數(shù)據(jù)訪問接口3)分布式文件系統(tǒng)

4）分布式數(shù)據(jù)庫和數(shù)據(jù)倉庫A1342B1234C1324D1423第3題為什么對收集來的數(shù)據(jù)進(jìn)行數(shù)據(jù)建模,以下不正確的是（）A數(shù)據(jù)存儲結(jié)構(gòu)設(shè)計(jì)B數(shù)據(jù)庫設(shè)計(jì)C計(jì)算模型D應(yīng)用設(shè)計(jì)第4題基于需求，我們可以構(gòu)建業(yè)務(wù)模型,業(yè)務(wù)模型包含()和().A概念模型,邏輯模型B邏輯模型,物理模型C過程模型,數(shù)據(jù)模型D過程模型,邏輯模型第5題關(guān)于數(shù)據(jù)建模設(shè)計(jì)層次的描述:哪一個(gè)匹配是正確的?()1)基于用戶的數(shù)據(jù)功能需求，獲取功能和關(guān)聯(lián)關(guān)系,以及與業(yè)務(wù)元素和功能相關(guān)的實(shí)體類.2)數(shù)據(jù)實(shí)體的更多細(xì)節(jié),包括主鍵，外鍵，屬性，索引，關(guān)系，關(guān)系，約束甚至是視圖和數(shù)據(jù)表，數(shù)據(jù)列，取值范圍，面向?qū)ο蟮念?，XML標(biāo)簽和其他描述形式。

3）數(shù)據(jù)存儲實(shí)現(xiàn)包括數(shù)據(jù)分區(qū)，數(shù)據(jù)表空間和數(shù)據(jù)集成.A1-概念模型設(shè)計(jì)2-物理模型設(shè)計(jì)3-邏輯模型設(shè)計(jì)B1-邏輯模型設(shè)計(jì)2-物理模型設(shè)計(jì)3-概念模型設(shè)計(jì)C1-概念模型設(shè)計(jì)2-邏輯模型設(shè)計(jì)3-物理模型設(shè)計(jì)D1-物理模型設(shè)計(jì)2-概念模型設(shè)計(jì)

3-邏輯模型設(shè)計(jì)4.2分布式文件系統(tǒng)第1題在HDFS中，name節(jié)點(diǎn)和data節(jié)點(diǎn)有各自的職責(zé)，請分別選擇Namenodes和Datanodes的職責(zé).Namenodes(),

Datanodes()

(B)1)實(shí)現(xiàn)數(shù)據(jù)塊到數(shù)據(jù)節(jié)點(diǎn)本地文件系統(tǒng)的映射2)管理文件系統(tǒng)命名空間3)存儲文件到數(shù)據(jù)塊4)存儲文件到數(shù)據(jù)塊到數(shù)據(jù)節(jié)點(diǎn)的映射關(guān)系5)調(diào)度客戶端的文件訪問6)存儲數(shù)據(jù)塊到本地磁盤

7)在內(nèi)存中存儲元數(shù)據(jù)方便快速訪問A1237,456B2457,136C1245,367D2456,137第2題在HDFS中寫數(shù)據(jù)到DataNodes的正確的順序是()a)分布式文件系統(tǒng)向NameNode發(fā)起一個(gè)RPCcall要在文件系統(tǒng)的命名空間中創(chuàng)建一個(gè)新的文件，該新文件當(dāng)前沒有數(shù)據(jù)塊與之關(guān)聯(lián)；b)客戶端Client通過在分布式文件系統(tǒng)上調(diào)用create()方法創(chuàng)建文件；c)DataNode的列表組成一個(gè)管道Pipeline，默認(rèn)的復(fù)制級別是3，因此管道Pipeline中有3個(gè)節(jié)點(diǎn)。DataStreamer將數(shù)據(jù)包以流的形式發(fā)送到管道中的第一個(gè)datanode，該datanode存儲數(shù)據(jù)包并將其轉(zhuǎn)發(fā)給管道中的第二個(gè)datanode。d)NameNode執(zhí)行各種檢查以確保文件不存在，并且客戶端有正確的權(quán)限創(chuàng)建文件。如果這些檢查都通過了，namenode會記錄新文件。否則，文件創(chuàng)建失敗，客戶端會拋出IOException異常.e)分布式文件系統(tǒng)返回一個(gè)FSDataOutputStream，讓客戶端開始向DataNode寫入數(shù)據(jù)。FSDataOutputStream封裝了一個(gè)DFSOutputStream，用于處理與DataNode和NameNode的通信.f)當(dāng)客戶端寫入數(shù)據(jù)時(shí)，DFSOutputStream將其拆分為數(shù)據(jù)包，并將其寫入一個(gè)內(nèi)部隊(duì)列，稱為數(shù)據(jù)隊(duì)列。數(shù)據(jù)隊(duì)列由DataStreamer使用，DataStreamer負(fù)責(zé)通過選擇一組合適的datanode讓namenode分配新數(shù)據(jù)塊來存儲數(shù)據(jù)副本g)類似地，第二個(gè)datanode存儲數(shù)據(jù)包并將其轉(zhuǎn)發(fā)給管道中的第三個(gè)(也是最后一個(gè))datanodeh)DFSOutputStream還維護(hù)一個(gè)內(nèi)部隊(duì)列，用于等待datanode的確認(rèn)，稱為ack隊(duì)列(ackqueue)。只有在數(shù)據(jù)包得到管道Pipeline中所有datanode的確認(rèn)后，它才會從ack隊(duì)列移除。i)

Whentheclienthasfinishedwritingdata,itcallsclose()onthestream.Itflushesalltheremainingpacketstothedatanodepipelineandwaitsforacknowledgmentsbeforecontactingthenamenodetosignalthatthefileiscomplete.當(dāng)客戶端完成數(shù)據(jù)寫入時(shí)，它對數(shù)據(jù)流調(diào)用close()函數(shù)。它將所有剩余的數(shù)據(jù)包發(fā)送到DataNode管道Pipeline，并在與NameNode聯(lián)系以表明文件已完成之前等待確認(rèn)。

j)Namenode已經(jīng)知道文件由哪些塊組成，所以它只需要等待塊被最小限度地復(fù)制就可以返回成功消息AbadefcghijBabdefcghijCbadefchgijDbadefcgihj第3題在HDFS中讀數(shù)據(jù)的正確的順序是

(

)a)分布式文件系統(tǒng)向Namenode發(fā)出RPC調(diào)用，以確定Datanode中文件以塊的形式存儲的位置。對于每個(gè)數(shù)據(jù)塊，Namenode返回有數(shù)據(jù)塊副本的Datanode的地址(數(shù)據(jù)塊和Datanode的元數(shù)據(jù))。Datanode根據(jù)鄰近程度(取決于網(wǎng)絡(luò)拓?fù)湫畔?進(jìn)行排序。b)客戶端通過調(diào)用分布式文件系統(tǒng)上的open()方法打開文件.c)客戶端然后對數(shù)據(jù)流調(diào)用read()方法。存儲了文件中前幾個(gè)數(shù)據(jù)塊的Datanode地址的DFSInputStream，然后連接到第一個(gè)(最近的)Datanode來獲取文件中的第一個(gè)數(shù)據(jù)塊d)分布式文件系統(tǒng)返回一個(gè)FSDataInputStream(一個(gè)支持文件查找的輸入流)給客戶端，以便從中讀取數(shù)據(jù)。FSDataInputStream又封裝了一個(gè)DFSInputStream，用于管理datanode和namenode的I/O。e)數(shù)據(jù)以數(shù)據(jù)流的形式從Datanode返回客戶端(以數(shù)據(jù)包的形式)，客戶端在數(shù)據(jù)流上反復(fù)調(diào)用read()方法.f)當(dāng)客戶端Client完成數(shù)據(jù)讀取后,它對FSDataInputStream調(diào)用close()方法g)當(dāng)?shù)竭_(dá)數(shù)據(jù)塊的末尾時(shí)，DFSInputStream將關(guān)閉與Datanode的連接，然后找到下一個(gè)數(shù)據(jù)塊的最合適的Datanode。AABDCEGFBBADCEGFCBADCEFGDBACDEGF4.3NoSQL數(shù)據(jù)庫第1題以下哪項(xiàng)不是RDBMS的挑戰(zhàn)?()A靈活性和易于在分布式環(huán)境中擴(kuò)展B按索引快速查詢C存儲非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)D支持分治策略等上層計(jì)算模式第2題下列對NoSQL數(shù)據(jù)庫的描述哪項(xiàng)是錯(cuò)誤的?()ANoSQL是無模式的B使用哈希和鍵空間進(jìn)行分區(qū)CNoSQL去掉了代價(jià)較大的關(guān)系維護(hù),可以很好地?cái)U(kuò)展DNoSQL具有強(qiáng)一致性第3題下列哪項(xiàng)關(guān)于NoSQL數(shù)據(jù)庫結(jié)構(gòu)特征的描述是不正確的?()A不需要預(yù)定義數(shù)據(jù)格式;B靈活可擴(kuò)展;C應(yīng)用共享存儲架構(gòu);D異步復(fù)制;第4題下列哪項(xiàng)不是關(guān)系型數(shù)據(jù)庫的優(yōu)點(diǎn)?()A基于完美的關(guān)系代數(shù)理論,具有嚴(yán)格的標(biāo)準(zhǔn)B支持交易酸的四個(gè)特性ACIDC易于伸縮D利用索引機(jī)制可以實(shí)現(xiàn)高效的查詢第5題以下哪項(xiàng)不是NoSQL數(shù)據(jù)庫的優(yōu)勢?()A能支持超大規(guī)模數(shù)據(jù)存儲B靈活的數(shù)據(jù)模型可以很好地支持Web2.0應(yīng)用C水平擴(kuò)展能力強(qiáng)D數(shù)學(xué)理論基礎(chǔ)第6題關(guān)系數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫各有優(yōu)缺點(diǎn),無法相互替代,()應(yīng)用場景:電信、銀行等領(lǐng)域的關(guān)鍵業(yè)務(wù)系統(tǒng)需要保證強(qiáng)事務(wù)一致性()應(yīng)用場景:互聯(lián)網(wǎng)企業(yè)、傳統(tǒng)企業(yè)的非關(guān)鍵業(yè)務(wù)(如數(shù)據(jù)分析)。()ANoSQL數(shù)據(jù)庫,關(guān)系數(shù)據(jù)庫;B關(guān)系數(shù)據(jù)庫;NoSQL數(shù)據(jù)庫CNoSQL數(shù)據(jù)庫,NoSQL數(shù)據(jù)庫;D關(guān)系數(shù)據(jù)庫;關(guān)系數(shù)據(jù)庫4.4NoSQL數(shù)據(jù)庫特征第1題根據(jù)CAP定理,一個(gè)分布式系統(tǒng)在進(jìn)行數(shù)據(jù)讀寫操作時(shí),只能滿足CAP特性其中的兩個(gè),RDBMS可以滿足哪兩個(gè)特性?()A一致性(C)和可用性(A)B一致性(C)和分區(qū)容忍性(P)C可用性(A)和分區(qū)容忍性(P)D以上都不對第2題根據(jù)CAP定理,分布式系統(tǒng)在運(yùn)行中的數(shù)據(jù)讀寫操作中只能滿足CAP三個(gè)特性中的兩個(gè),MongoDB可以滿足哪兩個(gè)特性()A一致性(C)和可用性(A)B一致性(C)和分區(qū)容忍性(P)C可用性(A)和分區(qū)容忍性(P)D以上都不對第3題根據(jù)CAP定理,分布式系統(tǒng)在運(yùn)行中的數(shù)據(jù)讀寫操作中只能滿足CAP三個(gè)特性中的兩個(gè),Cassandra可以滿足哪兩個(gè)特性?()A一致性(C)和可用性(A)B一致性(C)和分區(qū)容忍性(P)C可用性(A)和分區(qū)容忍性(P)D以上都不對第4題下列哪一個(gè)不是NoSQL數(shù)據(jù)庫事務(wù)模型-BASE的特征?()A基本可用性B最終一致性C軟狀態(tài)D原子性第5題下列哪一個(gè)不是RDBMS數(shù)據(jù)庫事務(wù)模型–ACID的特征?()A可用性B隔離C一致性D持久性NoSQL數(shù)據(jù)庫類型第1題以下哪一種NoSQL數(shù)據(jù)庫提供高性能的聚合查詢,如SUM,COUNT,AVG,MIN等.()A鍵值數(shù)據(jù)庫B列數(shù)據(jù)庫C面向文檔的數(shù)據(jù)庫D圖數(shù)據(jù)庫第2題以下哪一種NoSQL數(shù)據(jù)庫中,關(guān)系直接定義并存儲在數(shù)據(jù)庫中,遍歷關(guān)系是快速的,因?yàn)樗鼈円呀?jīng)被捕獲到數(shù)據(jù)庫中,不需要計(jì)算它們。()A鍵值數(shù)據(jù)庫B列數(shù)據(jù)庫C面向文檔的數(shù)據(jù)庫D圖數(shù)據(jù)庫第3題以下哪一種NoSQL數(shù)據(jù)庫中,記錄可以“自描述”所包含數(shù)據(jù)的類型和內(nèi)容。包含的數(shù)據(jù)記錄是一系列數(shù)據(jù)項(xiàng)的集合。每個(gè)數(shù)據(jù)項(xiàng)都有一個(gè)名稱和一個(gè)對應(yīng)的值。值可以是簡單的數(shù)據(jù)類型,如字符串、數(shù)字和日期,也可以是復(fù)雜的類型,如有有序的列表和關(guān)聯(lián)對象。()A鍵值數(shù)據(jù)庫B列數(shù)據(jù)庫C面向文檔的數(shù)據(jù)庫D圖數(shù)據(jù)庫第4題以下哪一種NoSQL數(shù)據(jù)庫中,基本思想是通過鍵來查詢數(shù)據(jù)值,鍵可以是字符串類型,值可以是任何類型的數(shù)據(jù),如整數(shù)、字符、數(shù)組、列表、集合、JSON、BLOB(二進(jìn)制大對象)等。它不支持基于數(shù)據(jù)值的查詢。它幫助開發(fā)人員存儲無模式數(shù)據(jù)。它們最適合處理購物車?yán)锏臇|西。()A鍵值數(shù)據(jù)庫B列數(shù)據(jù)庫C面向文檔的數(shù)據(jù)庫D圖數(shù)據(jù)庫第5題文檔數(shù)據(jù)庫、鍵值數(shù)據(jù)庫、列數(shù)據(jù)庫和圖數(shù)據(jù)庫的代表數(shù)據(jù)庫平臺()AMongoDB,Redis,Cassandra和Neo4j;BMongoDB,Cassandra,Redis和Neo4j;CRedis,MongoDB,Cassandra和Neo4j;DMongoDB,Redis,Neo4j和Cassandra;4.6統(tǒng)一數(shù)據(jù)訪問接口UDAI第1題在數(shù)據(jù)存儲系統(tǒng)中,哪一部分是在分布式環(huán)境中支持跨平臺異構(gòu)數(shù)據(jù),并向上層數(shù)據(jù)處理系統(tǒng)提供數(shù)據(jù)。()A數(shù)據(jù)采集和建模B分布式文件系統(tǒng)C分布式數(shù)據(jù)庫D統(tǒng)一數(shù)據(jù)訪問接口第2題(

)等數(shù)據(jù)庫連接編程接口可以支持應(yīng)用程序?qū)?shù)據(jù)庫的SQL訪問,但不能提供分布式計(jì)算環(huán)境中事務(wù)管理、并發(fā)調(diào)度、緩沖區(qū)管理、異構(gòu)數(shù)據(jù)轉(zhuǎn)換和繼承等復(fù)雜功能。這就引入了()。它是在數(shù)據(jù)庫之上提供數(shù)據(jù)交換功能的一層軟件。當(dāng)系統(tǒng)擴(kuò)展需要訪問跨平臺異構(gòu)數(shù)據(jù)庫時(shí),操作系統(tǒng)可以是UNIX、Linux或Windows,表單可以是郵件、XML文檔、EJB組件、Web服務(wù)、圖像、音頻/視頻文件或其他非結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)應(yīng)用層的技術(shù)也多樣化和各種標(biāo)準(zhǔn)。(

)的設(shè)計(jì)需要與各種標(biāo)準(zhǔn)技術(shù)和產(chǎn)品兼容,這就引入了()。()AODBC和JDBC;數(shù)據(jù)訪問層DAL;統(tǒng)一數(shù)據(jù)訪問接口;統(tǒng)一數(shù)據(jù)訪問接口;BODBC和JDBC;數(shù)據(jù)訪問層DAL;數(shù)據(jù)訪問層DAL;統(tǒng)一數(shù)據(jù)訪問接口;CDALdataaccesslayer;ODBC和JDBC;數(shù)據(jù)訪問層DAL;統(tǒng)一數(shù)據(jù)訪問接口;DODBC和JDBC;數(shù)據(jù)訪問層DAL;統(tǒng)一數(shù)據(jù)訪問接口;數(shù)據(jù)訪問層DAL;第3題1.

以下哪些是統(tǒng)一數(shù)據(jù)訪問接口Unifieddataaccessinterface的功能?

(

)1)事務(wù)管理;2)并發(fā)調(diào)度;3)緩沖區(qū)管理;4)數(shù)據(jù)轉(zhuǎn)換5)統(tǒng)一數(shù)據(jù)展示,存儲和管理;6)數(shù)據(jù)建模7)訪問接口與實(shí)現(xiàn)代碼分離，底層數(shù)據(jù)庫連接的改變不影響統(tǒng)一的數(shù)據(jù)訪問接口;8)屏蔽數(shù)據(jù)源差異和數(shù)據(jù)庫操作細(xì)節(jié)，使應(yīng)用層專注于數(shù)據(jù)應(yīng)用;9)提供統(tǒng)一的訪問接口和統(tǒng)一的查詢語言;A123456789B1345789C1235789D1235678第4題數(shù)據(jù)庫提供物理存儲結(jié)構(gòu);()第5題DFS分布式文件系統(tǒng)提供了數(shù)據(jù)的邏輯存儲結(jié)構(gòu).()第6題HDFS支持批量讀取、寫入和更新操作.()第7題在HDFS中,每個(gè)存儲文件首先被劃分為多個(gè)長度可以根據(jù)數(shù)據(jù)的大小進(jìn)行調(diào)整的數(shù)據(jù)塊.()第8題HDFS中的數(shù)據(jù)是不可修改的.()5.1數(shù)據(jù)處理系統(tǒng)架構(gòu)第1題下列哪項(xiàng)不是數(shù)據(jù)處理系統(tǒng)的一部分?()A計(jì)算算法B計(jì)算模型.C計(jì)算平臺和引擎.D數(shù)據(jù)采集與建模.第2題有代表性的批處理計(jì)算平臺,流處理計(jì)算平臺。大規(guī)模并行處理MPP計(jì)算平臺,內(nèi)存計(jì)算平臺,圖并行處理計(jì)算平臺是()AHadoop,Greenplum,Storm,Spark,PregelBHadoop,Storm,Greenplum,Spark,PregelCHadoop,Storm,Pregel,Spark,GreenplumDHadoop,Spark,Greenplum,Storm,Pregel第3題在下面的內(nèi)容中,哪一個(gè)是共享一切架構(gòu).()ASMPBNUMACMPPD以上都不是第4題以下哪一個(gè)是無共享架構(gòu).()ASMPBNUMACMPPD以上都不是第5題當(dāng)CPU增加時(shí),哪種方法可以實(shí)現(xiàn)近似線性的性能擴(kuò)展?()ASMPBNUMACMPPD以上都不能第6題在OLTP,用戶訪問中心數(shù)據(jù)庫,并且如果采用()系統(tǒng)架構(gòu),會更加高效.從()架構(gòu)的角度,可以在一個(gè)物理服務(wù)器中集成很多CPU,因此系統(tǒng)有更高的事務(wù)處理能力.由于遠(yuǎn)程訪問的延遲時(shí)間比本地內(nèi)存訪問時(shí)間長,必須減少不同CPU模塊之間的交互,顯然,()架構(gòu)更加適合OLTP業(yè)務(wù)處理的環(huán)境.在數(shù)據(jù)倉庫環(huán)境中,由于大量的復(fù)雜數(shù)據(jù)處理不可避免的導(dǎo)致大量的數(shù)據(jù)交互,這將明顯降低CPU的利用率,所以()架構(gòu)是一個(gè)比較好的解決方案.()ASMP,NUMA,NUMA,MPPBMPP,NUMA,NUMA,SMPCSMP,SMP,NUMA,MPPDSMP,NUMA,MPP,MPP5.2數(shù)據(jù)處理算法第1題機(jī)器學(xué)習(xí)和深度學(xué)習(xí)之間的區(qū)別,機(jī)器學(xué)習(xí)算法使用()進(jìn)行模式識別,深度學(xué)習(xí)使用()建模,兩者都可以以有監(jiān)督或無監(jiān)督的方式學(xué)習(xí).()A統(tǒng)計(jì)分析技術(shù),神經(jīng)網(wǎng)絡(luò)B神經(jīng)網(wǎng)絡(luò),統(tǒng)計(jì)分析技術(shù)C統(tǒng)計(jì)分析技術(shù),統(tǒng)計(jì)分析技術(shù)D神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)第2題分類屬于()算法類別.()A監(jiān)督學(xué)習(xí)B無監(jiān)督學(xué)習(xí)C半監(jiān)督學(xué)習(xí)D增強(qiáng)學(xué)習(xí)第3題聚類屬于()算法類別.()A監(jiān)督學(xué)習(xí)B無監(jiān)督學(xué)習(xí)C半監(jiān)督學(xué)習(xí)D增強(qiáng)學(xué)習(xí)第4題Self-training屬于()算法類別.()A監(jiān)督學(xué)習(xí)B無監(jiān)督學(xué)習(xí)C半監(jiān)督學(xué)習(xí)D增強(qiáng)學(xué)習(xí)第5題蒙特卡洛方法MonteCarlo屬于()算法類別.()A監(jiān)督學(xué)習(xí)B無監(jiān)督學(xué)習(xí)C半監(jiān)督學(xué)習(xí)D增強(qiáng)學(xué)習(xí)5.3批處理系統(tǒng)第1題用戶編寫的MapReduce程序通過(

)提交給()。用戶可以通過()提供的一些接口查看作業(yè)的運(yùn)行狀態(tài).()AJobTracker,Client,TasktrackerBClient,

JobTracker,ClientCJobTracker,Tasktracker,ClientDTasktracker,Client,JobTracker第2題()負(fù)責(zé)資源監(jiān)控和作業(yè)調(diào)度,()監(jiān)控所有()和作業(yè)的健康狀態(tài),如果發(fā)現(xiàn)故障,會將相應(yīng)的任務(wù)轉(zhuǎn)移到其他節(jié)點(diǎn)。()將跟蹤任務(wù)執(zhí)行進(jìn)度、資源使用情況和其他信息,并通知(),而()將在資源變?yōu)榭臻e時(shí)選擇使用這些資源的適當(dāng)任務(wù)。()AJobTracker,JobTracker,TaskTrackers,JobTracker,TaskScheduler,TaskSchedulerBJobTracker,TaskTrackers,JobTracker,JobTracker,TaskScheduler,TaskSchedulerCJobTracker,JobTracker,JobTracker,TaskTrackers,TaskScheduler,TaskSchedulerDJobTracker,JobTracker,TaskTrackers,TaskScheduler,JobTracker,TaskScheduler第3題()會通過“心跳”周期性地向()報(bào)告節(jié)點(diǎn)上的資源使用情況和任務(wù)的進(jìn)度,同時(shí)接收()發(fā)送的命令并執(zhí)行相應(yīng)的操作(如啟動新任務(wù)、終止任務(wù)等)。()AJobTracker,TaskTracker,JobTrackerBTaskTracker,TaskTracker,JobTrackerCTaskTracker,JobTracker,JobTrackerDJobTracker,JobTracker,TaskTracker第4題()使用()來劃分該節(jié)點(diǎn)上的資源數(shù)量(CPU、內(nèi)存等)。任務(wù)在獲得()后有機(jī)會運(yùn)行,()的作用是在每個(gè)()上為任務(wù)分配idle()。()AJobTracker,slot,slot,Hadoopscheduler,slots,TaskTracker;BTaskTracker,slot,slot,Hadoopscheduler,slots,TaskTracker;CTaskTracker,slot,slot,Taskscheduler,slots,TaskTracker;DTaskTracker,slot,slot,Hadoopscheduler,task,TaskTracker;5.4流處理系統(tǒng)第1題1.

對流計(jì)算特性和需求的正確描述包括(B)1)數(shù)據(jù)不再是分批到達(dá)，而是動態(tài)地連續(xù)到達(dá)2)計(jì)算分析需要實(shí)時(shí)、快速響應(yīng)和低延遲3)數(shù)據(jù)量大，不重視數(shù)據(jù)的存儲，但強(qiáng)調(diào)對數(shù)據(jù)的即時(shí)處理和分析4)注重整體數(shù)據(jù)的計(jì)算和分析結(jié)果，而不注重個(gè)別數(shù)據(jù)5)數(shù)據(jù)元素到達(dá)的順序和時(shí)間無法預(yù)測或控制，計(jì)算程序必須能夠響應(yīng)6)動態(tài)連續(xù)數(shù)據(jù)流的實(shí)時(shí)分析計(jì)算7)得到計(jì)算結(jié)果后，數(shù)據(jù)要么導(dǎo)入靜態(tài)數(shù)據(jù)庫，要么丟棄，即一次性使用A12347B1234567C124567D123567第2題Storm是一個(gè)原生的流處理系統(tǒng),即流數(shù)據(jù)的處理是基于每條數(shù)據(jù)進(jìn)行的,其并行計(jì)算是基于有向拓?fù)鋱D實(shí)現(xiàn)的。由數(shù)據(jù)源-()和處理單元-()組成的拓?fù)浣Y(jié)構(gòu)。Topology定義了并行計(jì)算的(),即從功能和結(jié)構(gòu)的角度設(shè)計(jì)計(jì)算步驟和過程。()ABolt,Spout,物理模型BSpout,Bolt,物理模型CBolt,Spout,邏輯模型DSpout,Bolt,邏輯模型第3題在Storm中,()通過一組()來管理許多工作節(jié)點(diǎn),每個(gè)工作節(jié)點(diǎn)運(yùn)行一個(gè)()守護(hù)進(jìn)程,監(jiān)控本地節(jié)點(diǎn)的狀態(tài),并在必要時(shí)根據(jù)()指令啟動和關(guān)閉該節(jié)點(diǎn)的()進(jìn)程。InStorm,()managesmanyworkernodesthroughagroupof(),Eachworkernoderunsa()daemon,monitorsthestatusofthelocalnode,andstartsandshutsdownthe()processofthenodewhennecessaryaccordingto()instructions.()AZookeeper,Nimbus,Supervisor,worker,NimbusBNimbus,Zookeeper,Supervisor,worker,ZookeeperCNimbus,Zookeeper,Supervisor,Nimbus,workerDSupervisor,Zookeeper,Supervisor,worker,Nimbus5.5大規(guī)模并行處理第1題MPP數(shù)據(jù)庫過程從()開始,發(fā)出一個(gè)查詢,然后傳遞給()。()包含數(shù)據(jù)字典和會話信息等信息,用于生成一個(gè)(),以便從每個(gè)底層節(jié)點(diǎn)檢索所需的信息。并行執(zhí)行表示通過節(jié)點(diǎn)1到節(jié)點(diǎn)n的并行計(jì)算實(shí)現(xiàn)(),查詢結(jié)果返回到主節(jié)點(diǎn)。()AClient,MasterNode,MasterNode,

執(zhí)行計(jì)劃executionplan,執(zhí)行計(jì)劃executionplanBMasterNode,Client,MasterNode,執(zhí)行計(jì)劃

executionplan,存儲計(jì)劃storingplanCClient,MasterNode,Client,

執(zhí)行計(jì)劃executionplan,執(zhí)行計(jì)劃executionplanDMasterNode,Client,MasterNode,

執(zhí)行計(jì)劃executionplan,存儲計(jì)劃storingplan第2題大規(guī)模并行處理MPP(MassivelyParallelProcessing)通過()的并行來提升性能.()與()合作,()與一個(gè)或者多個(gè)()合作。()并行處理查詢.()在無共享架構(gòu)下有自己的CPU,硬盤,內(nèi)存。為持續(xù)的數(shù)據(jù)處理流水線高速進(jìn)行交互。()Asegmenthosts,Master,segmenthost,Segmenthost,segmentinstances,Segmentinstances,SegmenthostsBsegmentinstance,Master,segmenthost,Segmenthost,segmentinstances,Segmentinstances,SegmenthostsCsegmentinstance,Master,segmenthost,Segmenthost,segmentinstances,Segmentinstances,SegmentinstancesDsegmenthosts,Master,segmenthost,Segmenthost,segmentinstances,Segmenthosts,Segmenthosts5.6內(nèi)存計(jì)算Spark第1題基于內(nèi)存計(jì)算模型的并行處理框架spark可以構(gòu)建在Hadoop平臺上,并使用HDFS文件系統(tǒng)存儲數(shù)據(jù),但為了支持高效的分布式內(nèi)存計(jì)算,在文件系統(tǒng)之上構(gòu)建了()()ADatachunkBResilientDistributeddataset(RDD)CDataBlockDdataset第2題RDD(ResilientDistributedDataset)只有兩種操作()。在()中可以對數(shù)據(jù)進(jìn)行filter、join、map、reduce等操作,但不進(jìn)行計(jì)算,只有在()才能進(jìn)行計(jì)算,并生成結(jié)果值.()Amapandreduce,map,reduceBtransformationsandaction,action,transformationCtransformationsandaction,transformation,actionDmapandreduce,reduce,map第3題()返回給驅(qū)動程序或者存儲在文件中的返回值,是從RDD到result的轉(zhuǎn)換過程,而()是從RDD到RDD的轉(zhuǎn)換過程。只有當(dāng)()被執(zhí)行時(shí),RDD才會被計(jì)算和生成,這是RDD延遲執(zhí)行的根源。()AAction,Transformation,ActionBTransformation,Action,ActionCTransformation,Transformation,ActionDAction,Transformation,Transformation第4題在Spark中,()負(fù)責(zé)將應(yīng)用的計(jì)算任務(wù)轉(zhuǎn)換為()。()負(fù)責(zé)在工作節(jié)點(diǎn)上完成計(jì)算和數(shù)據(jù)存儲。在每個(gè)worker上,()為分配給它的每個(gè)數(shù)據(jù)分區(qū)生成任務(wù)線程,以完成并行計(jì)算。()AExecutor,topology,Executor,DriverBDriver,Directedacyclicgraph(DAG),Executor,ExecutorCExecutor,Directedacyclicgraph(DAG),Executor,DriverDDriver,topology,Executor,Executor第5題Spark的特征包括以下哪些()1)內(nèi)存計(jì)算2)硬盤中計(jì)算3)延遲評估LazyEvaluation4)立即評估ImmediatelyEvaluation5)容錯(cuò)FaultTolerant6)不可修改Immutability7)分區(qū)Partitioning8)持久性Persistence9)粗力度操作Coarse-GrainedOperation10)細(xì)粒度操作Fine-GrainedOperationA2346789B1356789C135678,10D235678,10第6題Spark的組件可以方便地處理不同類型的計(jì)算任務(wù)，比如機(jī)器學(xué)習(xí)、流計(jì)算、圖計(jì)算等，這些組件包括(

)1)SparkCoreAPI2)Resilientdistributeddataset

(RDD),

3）

SparkSQL

4）Sparktopology5）

SparkStreaming6）MLlib(MachineLearningLibrary)7）

GraphX

8）SklearnA12345B13456C13567D13578第7題以下哪些屬于Spark的優(yōu)勢(

)1)快速處理

2)靈活性

3)內(nèi)存計(jì)算

4)實(shí)時(shí)處理

5)更好的分析

6)容錯(cuò)7)需要額外的持久化存儲A123567B123456C134567D2345675.7內(nèi)存數(shù)據(jù)庫HANA第1題內(nèi)存數(shù)據(jù)庫HANA可以快速地處理數(shù)據(jù),主要因?yàn)?)AHANA的多核架構(gòu)BHANA部署在高性能服務(wù)器上CHANA設(shè)計(jì)了快速索引機(jī)制DHANA把主要的數(shù)據(jù)存儲在內(nèi)存中第2題HANA在數(shù)據(jù)倉庫中提升了數(shù)據(jù)分析的性能,以下哪一個(gè)不是性能提升的原因()AHANA消除了不必要的復(fù)雜結(jié)構(gòu)和延遲B通過簡化進(jìn)行加速C由于內(nèi)存計(jì)算的優(yōu)勢,支持HANA把OLTP業(yè)務(wù)處理,和OLAP數(shù)據(jù)分析,集成在一個(gè)數(shù)據(jù)庫中。D用于報(bào)告和分析的專用數(shù)據(jù)倉庫需要對事務(wù)性數(shù)據(jù)進(jìn)行移動、轉(zhuǎn)換和預(yù)處理,這帶來了巨大的復(fù)雜性:有時(shí)一個(gè)企業(yè)可能擁有相同數(shù)據(jù)的三個(gè)不同副本5.8分布式圖并行計(jì)算第1題在圖計(jì)算中最基本的計(jì)算單元是節(jié)點(diǎn)，節(jié)點(diǎn)包含（）A節(jié)點(diǎn)屬性,外弧outwardarcs及其屬性,一個(gè)來接受發(fā)來的所有消息的邏輯收件箱B節(jié)點(diǎn)屬性,外弧outwardarcs及其屬性,外弧所指向的節(jié)點(diǎn)IDC節(jié)點(diǎn)屬性,外弧outwardarcs及其屬性,外弧所指向的節(jié)點(diǎn)ID,一個(gè)來接受發(fā)來的所有消息的邏輯收件箱D外弧outwardarcs及其屬性,外弧所指向的節(jié)點(diǎn)ID,一個(gè)來接受發(fā)來的所有消息的邏輯收件箱第2題下面哪項(xiàng)關(guān)于圖并行計(jì)算架構(gòu)的描述是不正確的()A整個(gè)圖被分解為多個(gè)“分區(qū)”B每個(gè)分區(qū)包含大量的節(jié)點(diǎn)C分區(qū)是一個(gè)執(zhí)行單元并且通常有一個(gè)執(zhí)行線程與之關(guān)聯(lián)D一個(gè)"worker"機(jī)器上運(yùn)行一個(gè)"partitions"第3題超步Superstep執(zhí)行過程是下面哪個(gè)順序(

)1)向其他節(jié)點(diǎn)發(fā)送消息,使它們處于活動狀態(tài);

2)修改節(jié)點(diǎn)和弧的屬性;

3)去掉現(xiàn)在的弧或者創(chuàng)建一個(gè)新的弧;

4)從收件箱接收消息;

5)自我停止直到收到新的信息;A42513B12345C42135D42351第4題執(zhí)行模型基于BSP(BulkSynchronousProcessing)模型。在該模型中，多個(gè)處理單元在一系列“superstep”中并行進(jìn)行。在每個(gè)“Superstep”中，處理序列應(yīng)該是(

)a)每個(gè)處

人人文庫> 全部分類> 教育資料 > 考試試卷

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

雨課堂學(xué)堂在線學(xué)堂云《大數(shù)據(jù)分析（北京理工）》單元測試考核答案

文檔簡介

溫馨提示

最新文檔

評論

雨課堂學(xué)堂在線學(xué)堂云《大數(shù)據(jù)分析（北京理工）》單元測試考核答案

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔