版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
1、單元測試2:大數(shù)據(jù)處理與分析技術(shù)II基本信息:矩陣文本題 *姓名:_部門:_員工編號:_1. MapReduce設(shè)計的一個理念就是“計算向數(shù)據(jù)靠攏”。 判斷題 *對(正確答案)錯2. 目前數(shù)據(jù)實驗的統(tǒng)計結(jié)果表明:正向匹配的切分精度略高于逆向匹配。 判斷題 *對錯(正確答案)答案解析:逆向匹配的切分精度略高于正向匹配3. 兩個鍵值對和,如果對其進(jìn)行歸并(merge),會得到,如果對其進(jìn)行合并(combine),會得到a, 判斷題 *對錯(正確答案)答案解析:兩個鍵值對和,如果合并,會得到,如果歸并,會得到“a”,4. 所謂Shuffle過程,是指對Map輸出結(jié)果進(jìn)行分區(qū)、排序、合并等處理,并交給
2、Reduce的過程。 判斷題 *對(正確答案)錯5. 第三次信息化浪潮的標(biāo)志是() 單選題 *個人電腦的普及云計算、大數(shù)據(jù)、物聯(lián)網(wǎng)技術(shù)的普及(正確答案)虛擬現(xiàn)實技術(shù)的普及互聯(lián)網(wǎng)的普及6. 以下關(guān)于云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)之間的關(guān)系,論述錯誤的是: 單選題 *云計算側(cè)重于數(shù)據(jù)分析(正確答案)物聯(lián)網(wǎng)可以借助于云計算實現(xiàn)海量數(shù)據(jù)的存儲物聯(lián)網(wǎng)可以借助于大數(shù)據(jù)實現(xiàn)海量數(shù)據(jù)的分析云計算、大數(shù)據(jù)和物聯(lián)網(wǎng)三者緊密相關(guān),相輔相成答案解析:大數(shù)據(jù)側(cè)重于海量數(shù)據(jù)的存儲、處理與分析,從海量數(shù)據(jù)中發(fā)現(xiàn)價值,服務(wù)于生產(chǎn)和生活;云計算本質(zhì)上旨在整合和優(yōu)化各種IT資源,并通過網(wǎng)絡(luò)以服務(wù)的方式廉價提供給用戶;物聯(lián)網(wǎng)的發(fā)展目標(biāo)是實
3、現(xiàn)物物相連,應(yīng)用創(chuàng)新是物聯(lián)網(wǎng)發(fā)展的核心。7. 每種大數(shù)據(jù)產(chǎn)品都有特定的應(yīng)用場景,以下哪個產(chǎn)品是用于流計算的 單選題 *GraphXS4(正確答案)ImpalaHive答案解析:S4: Yahoo!的分布式流計算平臺8. 以下哪個不是Hadoop的特性: 單選題 *成本高(正確答案)支持多種編程語言高容錯性高可靠性9. 以下哪個不是大數(shù)據(jù)時代新興的技術(shù): 單選題 *SparkHadoopHBaseMySQL(正確答案)10. 關(guān)于Hadoop技術(shù)描述錯誤的是?() 單選題 *HDFS是一個分布式文件系統(tǒng)聯(lián)盟鏈HDFS適合存儲大量的小文件(正確答案)HDFS存儲空間由數(shù)據(jù)節(jié)點數(shù)決定答案解析:A選項
4、是定義.B選項說的聯(lián)盟鏈指HDFS中的聯(lián)盟,Hdfs federation實際是把多個hdfs集群統(tǒng)一到一個命名空間下。Hdfs federation 作用擴(kuò)大NN容量,共享DN數(shù)據(jù),且方便客戶端訪問。C選項是錯誤的,HDFS小文件存儲問題一直是一個令人頭疼的問題,因為HDFS是基于大數(shù)據(jù)存儲的,但是它還需要存儲元數(shù)據(jù)信息,無論數(shù)據(jù)量多大,元數(shù)據(jù)量是差不多的,所以最好是存儲大文件,而不是海量小文件,可以使用歸約和壓縮的方式進(jìn)行解決D選項:存儲主要是由于DataNode決定,所以數(shù)據(jù)節(jié)點越多,存儲能力越強(qiáng)11. 采用多副本冗余存儲的優(yōu)勢不包含: 單選題 *保證數(shù)據(jù)可靠性容易檢查數(shù)據(jù)錯誤加快數(shù)據(jù)傳
5、輸速度節(jié)約存儲空間(正確答案)12. Hadoop集群中的HDFS的默認(rèn)的副本塊的個數(shù)是? 單選題 *123(正確答案)4答案解析:HDFS集群采取分散存儲 + 冗余存儲的策略,用戶上到HDFS集群的文件,HDFS集群會為它存儲多份。默認(rèn)是3份13. Spark 的四大組件下面哪個不是() 單選題 *SQL and DataFramesSpark StreamingMLlib (machine learning)GraphX (graph)是spark的四大組件Spark StreamingMlibGraphxSpark R(正確答案)14. Spark相比Hadoop的, 不是其優(yōu)勢的是()
6、 單選題 *DAG執(zhí)行引擎線程池模型增多task啟動開銷(正確答案)充分利用內(nèi)存,減少磁盤IO更適合迭代計算答案解析:spark 比Hadoop快的原因:數(shù)據(jù)本地性、調(diào)度優(yōu)化、傳輸優(yōu)化,最主要的是基于內(nèi)存計算和引入了DAG。Hadoop的計算結(jié)果在磁盤中,spark是在內(nèi)存中;數(shù)據(jù)計算任務(wù)需要多個步驟時,Hadoop需要引入Oozie等工具,但是spark有DAGHadoop中,每一個job 的計算結(jié)果都會存儲在hdfs中,所以每一步計算都要進(jìn)行硬盤的IO,大大增加了系統(tǒng)的延遲15. HDFS的是基于流數(shù)據(jù)模式訪問和處理超大文件的需求而開發(fā)的,默認(rèn)的最基本的存儲單位是64M,具有高容錯、高可靠
7、性、高可擴(kuò)展性、高吞吐率等特征,適合的讀寫任務(wù)是? 單選題 *一次寫入,少次讀出多次寫入,少次讀出一次寫入,多次讀出(正確答案)多次寫入,多次讀出答案解析:HDFS的設(shè)計初衷就是為將來的海量數(shù)據(jù)的分布式計算做鋪墊的,所以HDFS是一次寫入,多次讀出的場景16. MapReduce正確的流程順序是什么?() 單選題 *Map-Reduce-CombineReduce-Combine- MapMap-Combine- Reduce(正確答案)Combine- Reduce- Map答案解析:map函數(shù)操作所產(chǎn)生的鍵值對會作為combine函數(shù)的輸入,經(jīng)combine函數(shù)處理后再送到reduce函數(shù)
8、進(jìn)行處理,減少了寫入磁盤的數(shù)據(jù)量,同時也減少了網(wǎng)絡(luò)中鍵值對的傳輸量。17. 下列說法錯誤的是() 單選題 *Hadoop框架是用Java實現(xiàn)的,MapReduce應(yīng)用程序則一定要用Java來寫(正確答案)Map函數(shù)將輸入的元素轉(zhuǎn)換成形式的鍵值對MapReduce框架采用了Master/Slave架構(gòu),包括一個Master和若干個Slave不同的Map任務(wù)之間不能互相通信答案解析:hadoop 通過hadoop streaming 的方式也可以調(diào)用其他編程語言實現(xiàn)的MR,例如c+等18. 在使用MapReduce程序WordCount進(jìn)行詞頻統(tǒng)計時,對于文本行“hello hadoop hell
9、o world”,經(jīng)過WordCount程序的Map函數(shù)處理后直接輸出的中間結(jié)果,應(yīng)該是下面哪種形式: 單選題 *hello,、和(正確答案)、和、和、和答案解析:Map過程:對讀取的單詞進(jìn)行map操作,每個詞都以形式生成19. 對于文本行“hello hadoop hello world”,經(jīng)過WordCount的Reduce函數(shù)處理后的結(jié)果是() 單選題 *(正確答案)hello,答案解析:reduce操作是對map的結(jié)果進(jìn)行排序,合并,最后得出詞頻。20. 大數(shù)據(jù)的特性包括: *價值密度低(正確答案)處理速度快(正確答案)數(shù)據(jù)類型繁多(正確答案)數(shù)據(jù)量大(正確答案)21. Hadoop的
10、兩大核心是?() *MapReduce(正確答案)HBaseHDFS(正確答案)GFS答案解析:Hadoop的兩大核心是HDFS和MapReduce,HDFS用來存儲數(shù)據(jù),MapReduce用來處理數(shù)據(jù)。22. 回顧Hadoop的工作流程,可以發(fā)現(xiàn)Hadoop存在如下哪些缺點: *表達(dá)能力有限。計算都必須要轉(zhuǎn)化成Map和Reduce兩個操作,但這并不適合所有的情況,難以描述復(fù)雜的數(shù)據(jù)處理過程(正確答案)磁盤IO開銷大。每次執(zhí)行時都需要從磁盤讀取數(shù)據(jù),并且在計算完成后需要將中間結(jié)果寫入到磁盤中,IO開銷較大(正確答案)沒有提供文件管理系統(tǒng),必須和其他的分布式文件系統(tǒng)進(jìn)行集成才能運作延遲高。一次計
11、算可能需要分解成一系列按順序執(zhí)行的MapReduce任務(wù),任務(wù)之間的銜接由于涉及到IO開銷,會產(chǎn)生較高延遲(正確答案)23. 關(guān)于NoSQL數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫,下列說法正確的是: *NoSQL數(shù)據(jù)庫可以支持超大規(guī)模數(shù)據(jù)存儲,具有強(qiáng)大的橫向擴(kuò)展能力(正確答案)NoSQL數(shù)據(jù)庫和關(guān)系數(shù)據(jù)庫各有優(yōu)缺點,但隨著NoSQL的發(fā)展,終將取代關(guān)系數(shù)據(jù)庫大多數(shù)NoSQL數(shù)據(jù)庫很難實現(xiàn)數(shù)據(jù)完整性(正確答案)關(guān)系數(shù)據(jù)庫有關(guān)系代數(shù)理論作為基礎(chǔ),NoSQL數(shù)據(jù)庫沒有統(tǒng)一的理論基礎(chǔ)(正確答案)答案解析:如果源數(shù)據(jù)格式是 SQL 數(shù)據(jù),沒法控制;數(shù)據(jù)量小;數(shù)據(jù)間交叉引用關(guān)系復(fù)雜;查詢模式豐富;應(yīng)用又不需要高性能;不擔(dān)心機(jī)器故障等高可用性問題,那么繼續(xù)沿用關(guān)系型數(shù)據(jù)庫也是一個務(wù)實的選擇。24. NoSQL數(shù)據(jù)庫的類型包括: *鍵值數(shù)據(jù)庫(正確答案)列族數(shù)據(jù)庫(正確答案)文檔數(shù)據(jù)庫(正確答案)圖數(shù)據(jù)庫(正確答案)25. 分詞任務(wù)中,主要的難點在于() *未登陸詞識別(正確答案)穩(wěn)定劃分歧義切分(正確答案)短文本長文本26. 假設(shè),有以下4種標(biāo)簽:B
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 中國精準(zhǔn)醫(yī)療行業(yè)市場需求及投資戰(zhàn)略規(guī)劃研究
- 重慶文理學(xué)院《數(shù)字動畫導(dǎo)論》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國空氣源熱泵歐洲市場準(zhǔn)入標(biāo)準(zhǔn)與本土化營銷策略報告
- 北海藝術(shù)設(shè)計學(xué)院《人居環(huán)境景觀設(shè)計》2023-2024學(xué)年第二學(xué)期期末試卷
- 成都師范學(xué)院《國際經(jīng)貿(mào)地理》2023-2024學(xué)年第二學(xué)期期末試卷
- 中國空氣凈化設(shè)備新國標(biāo)實施后市場洗牌趨勢報告
- 銀行卡業(yè)務(wù)操作規(guī)范手冊
- 蘭州文理學(xué)院《企業(yè)運營綜合模擬》2023-2024學(xué)年第二學(xué)期期末試卷
- 2026重慶市永川區(qū)就業(yè)和人才中心招聘公益性崗位人員1人備考題庫附答案詳解
- 中國煎藥壺中醫(yī)藥文化復(fù)興與智能控制技術(shù)報告
- 鄉(xiāng)鎮(zhèn)醫(yī)院器械管理辦法
- 關(guān)節(jié)脫位院前急救
- 2024年山東省濟(jì)南市中考化學(xué)試卷( 含答案)
- 建筑結(jié)構(gòu)改造設(shè)計和加固技術(shù)綜合分析的開題報告
- 管理會計學(xué) 第10版 課件 第1、2章 管理會計概論、成本性態(tài)與變動成本法
- 喪葬費用補(bǔ)助申請的社保授權(quán)委托書
- 2024年度初會《經(jīng)濟(jì)法基礎(chǔ)》高頻真題匯編(含答案)
- 課例研究報告
- 啤酒營銷促銷實戰(zhàn)技巧之經(jīng)銷商管理技巧知識培訓(xùn)
- 建筑工程各部門職能及各崗位職責(zé)201702
- 機(jī)柜端口對應(yīng)表
評論
0/150
提交評論