大數(shù)據(jù)課程期末考試題庫(kù)合集_第1頁
大數(shù)據(jù)課程期末考試題庫(kù)合集_第2頁
大數(shù)據(jù)課程期末考試題庫(kù)合集_第3頁
大數(shù)據(jù)課程期末考試題庫(kù)合集_第4頁
大數(shù)據(jù)課程期末考試題庫(kù)合集_第5頁
已閱讀5頁,還剩4頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)課程期末考試題庫(kù)合集一、課程考核定位與題庫(kù)價(jià)值大數(shù)據(jù)課程以“理論+實(shí)踐”為核心考核方向,需掌握數(shù)據(jù)采集與存儲(chǔ)、分布式計(jì)算框架、數(shù)據(jù)分析算法、數(shù)據(jù)可視化等模塊知識(shí)。本題庫(kù)整合多所高校歷年真題、企業(yè)級(jí)案例與核心知識(shí)點(diǎn),覆蓋選擇題、簡(jiǎn)答題、應(yīng)用題、編程題四大題型,既滿足“基礎(chǔ)概念辨析”需求,也適配“工程實(shí)踐能力”考核,助力考生系統(tǒng)梳理知識(shí)體系、精準(zhǔn)突破高頻考點(diǎn)。二、題型結(jié)構(gòu)與考核重點(diǎn)(一)選擇題(20-30分)考核方向:大數(shù)據(jù)基礎(chǔ)概念(特征、技術(shù)棧)、工具組件辨析(Hadoop/Spark生態(tài)模塊)、算法原理(聚類/分類算法區(qū)別)、場(chǎng)景匹配(數(shù)據(jù)清洗工具、存儲(chǔ)選型)。典型例題:1.以下不屬于大數(shù)據(jù)4V特征的是()A.VolumeB.VarietyC.VelocityD.Value*(注:4V定義需結(jié)合教材版本,若教材采用“Veracity(真實(shí)性)”則選D;若采用“Value(價(jià)值)”則無正確選項(xiàng),需關(guān)注教材對(duì)特征的表述)*2.Hadoop生態(tài)中負(fù)責(zé)資源調(diào)度的組件是()A.HDFSB.YARNC.MapReduceD.Zookeeper(二)簡(jiǎn)答題(30-40分)考核方向:技術(shù)原理(如MapReduce執(zhí)行流程)、架構(gòu)設(shè)計(jì)(HDFS副本策略)、工具對(duì)比(Hadoop與Spark的適用場(chǎng)景)、流程設(shè)計(jì)(數(shù)據(jù)挖掘步驟)。典型例題:簡(jiǎn)述HDFS的副本放置策略及其設(shè)計(jì)目的。分析SparkStreaming與Flink在實(shí)時(shí)計(jì)算場(chǎng)景的技術(shù)差異。(三)應(yīng)用題(20-30分)考核方向:數(shù)據(jù)處理流程設(shè)計(jì)(如電商用戶行為分析)、算法應(yīng)用(K-means聚類解決客戶分群)、工具實(shí)操(用HiveSQL統(tǒng)計(jì)TopN商品)。典型例題:某電商平臺(tái)需分析用戶購(gòu)買行為(瀏覽→加購(gòu)→下單),請(qǐng)?jiān)O(shè)計(jì)基于Spark的數(shù)據(jù)分析流程,包含數(shù)據(jù)采集、清洗、分析、可視化環(huán)節(jié)。給定某銀行客戶交易數(shù)據(jù)集(含年齡、收入、消費(fèi)頻次),請(qǐng)用K-means算法完成客戶分群,并說明評(píng)估聚類效果的指標(biāo)。(四)編程題(10-20分)考核方向:MapReduce/Spark代碼實(shí)現(xiàn)(詞頻統(tǒng)計(jì)、TopN篩選)、HiveSQL腳本編寫(多表關(guān)聯(lián)、窗口函數(shù))、Python/R數(shù)據(jù)分析(數(shù)據(jù)清洗、可視化)。典型例題:用Scala編寫Spark程序,統(tǒng)計(jì)文本文件中每個(gè)單詞的出現(xiàn)次數(shù)(需處理停用詞)。編寫HiveSQL,從訂單表(order_id,user_id,amount,time)和用戶表(user_id,age,gender)中,統(tǒng)計(jì)“25-35歲女性用戶”的平均訂單金額。三、核心知識(shí)點(diǎn)題庫(kù)(按模塊分類)(一)大數(shù)據(jù)基礎(chǔ)理論1.概念與特征單選:大數(shù)據(jù)的核心價(jià)值體現(xiàn)在()A.數(shù)據(jù)量大小B.數(shù)據(jù)存儲(chǔ)成本C.數(shù)據(jù)挖掘與分析D.數(shù)據(jù)傳輸速度簡(jiǎn)答:對(duì)比大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)的本質(zhì)區(qū)別(從處理模式、價(jià)值密度、應(yīng)用場(chǎng)景分析)。2.技術(shù)棧與架構(gòu)多選:屬于大數(shù)據(jù)存儲(chǔ)層的技術(shù)有()A.HDFSB.HBaseC.KafkaD.Redis簡(jiǎn)答:簡(jiǎn)述“采集-存儲(chǔ)-處理-分析-可視化”大數(shù)據(jù)pipeline的關(guān)鍵環(huán)節(jié)與工具選型。(二)分布式計(jì)算框架1.Hadoop生態(tài)單選:MapReduce的Shuffle階段主要負(fù)責(zé)()A.數(shù)據(jù)分區(qū)B.數(shù)據(jù)排序與合并C.任務(wù)調(diào)度D.結(jié)果輸出簡(jiǎn)答:繪制HadoopYARN的架構(gòu)圖(ResourceManager、NodeManager、ApplicationMaster、Container),并說明各組件功能。2.Spark框架單選:Spark中RDD的持久化級(jí)別不包括()A.MEMORY_ONLYB.DISK_ONLYC.MEMORY_DISK_SERD.NETWORK_ONLY應(yīng)用:用Python的PySpark庫(kù),讀取CSV文件(含“user_id,click_time,product_id”),統(tǒng)計(jì)每個(gè)用戶的日點(diǎn)擊量(需處理時(shí)間格式轉(zhuǎn)換)。(三)數(shù)據(jù)處理與分析1.數(shù)據(jù)清洗單選:以下不屬于數(shù)據(jù)清洗操作的是()A.缺失值填充B.異常值檢測(cè)C.數(shù)據(jù)標(biāo)準(zhǔn)化D.數(shù)據(jù)加密應(yīng)用:給定含缺失值、重復(fù)項(xiàng)的Excel數(shù)據(jù)集,設(shè)計(jì)Python(pandas)數(shù)據(jù)清洗流程(步驟:讀取→去重→缺失值處理→格式轉(zhuǎn)換→輸出)。2.機(jī)器學(xué)習(xí)算法多選:屬于無監(jiān)督學(xué)習(xí)的算法有()A.K-meansB.決策樹C.PCAD.樸素貝葉斯簡(jiǎn)答:解釋K-means算法的“手肘法”原理,并說明如何用Python(sklearn)實(shí)現(xiàn)手肘法選擇K值。(四)數(shù)據(jù)可視化與應(yīng)用1.可視化工具單選:適合實(shí)時(shí)大屏可視化的工具是()A.TableauB.PowerBIC.EChartsD.Matplotlib應(yīng)用:用ECharts繪制某城市全年P(guān)M2.5折線圖(需包含x軸(月份)、y軸(濃度)、標(biāo)題、工具箱)。2.行業(yè)應(yīng)用簡(jiǎn)答:結(jié)合“智慧醫(yī)療”場(chǎng)景,說明大數(shù)據(jù)在“疾病預(yù)測(cè)”中的應(yīng)用流程(數(shù)據(jù)來源、處理方法、模型選型、價(jià)值輸出)。四、典型題目深度解析例題1:HDFS副本放置策略(簡(jiǎn)答題)題目:簡(jiǎn)述HDFS的副本放置策略及其設(shè)計(jì)目的。解析:策略:1.第一個(gè)副本:與客戶端同節(jié)點(diǎn)(若客戶端在集群外,隨機(jī)選節(jié)點(diǎn)),減少網(wǎng)絡(luò)傳輸;2.第二個(gè)副本:不同機(jī)架的節(jié)點(diǎn),提升容災(zāi)性;3.第三個(gè)副本:與第二個(gè)副本同機(jī)架的不同節(jié)點(diǎn),平衡性能與冗余。設(shè)計(jì)目的:機(jī)架感知(RackAwareness):通過“同機(jī)架優(yōu)先”減少跨機(jī)架帶寬消耗,提升讀取速度;冗余度(默認(rèn)3副本):容忍節(jié)點(diǎn)/機(jī)架故障,保證數(shù)據(jù)可靠性;讀寫效率:客戶端本地副本加速讀取,多機(jī)架分布保證寫入時(shí)的并行性??键c(diǎn):HDFS架構(gòu)設(shè)計(jì)的核心思想(可靠性、性能、成本的平衡)。例題2:Spark詞頻統(tǒng)計(jì)(編程題)題目:用Scala編寫Spark程序,統(tǒng)計(jì)文本文件中每個(gè)單詞的出現(xiàn)次數(shù)(需處理停用詞)。解析:1.步驟:讀取文本文件:`vallines=sc.textFile("input.txt")`分詞+過濾停用詞:`valwords=lines.flatMap(_.split("")).filter(!stopWords.contains(_))`(`stopWords`為停用詞集合,需提前定義,如`valstopWords=Set("the","a","an",...)`)詞頻統(tǒng)計(jì):`valwordCounts=words.map(word=>(word,1)).reduceByKey(_+_)`輸出結(jié)果:`wordCounts.collect.foreach(println)`2.考點(diǎn):RDD的轉(zhuǎn)換算子(`flatMap`、`map`、`reduceByKey`)與行動(dòng)算子(`collect`)的使用;停用詞處理的業(yè)務(wù)邏輯(需避免將大文件`collect`到Driver節(jié)點(diǎn),可結(jié)合廣播變量?jī)?yōu)化);分布式計(jì)算的并行化思想(拆分任務(wù)到Executor節(jié)點(diǎn)執(zhí)行)。五、備考策略與使用建議1.分層復(fù)習(xí):基礎(chǔ)層:掌握選擇題、簡(jiǎn)答題的概念(如4V特征、組件功能);進(jìn)階層:拆解應(yīng)用題的流程邏輯(數(shù)據(jù)流向、工具銜接);實(shí)戰(zhàn)層:動(dòng)手復(fù)現(xiàn)編程題(Scala/Python+Spark、HiveSQL),關(guān)注代碼的“容錯(cuò)性”(如空值處理、分區(qū)優(yōu)化)。2.知識(shí)點(diǎn)串聯(lián):將“數(shù)據(jù)采集(Kafka)→存儲(chǔ)(HDFS/HBase)→處理(Spark)→分析(MLlib)→可視化(ECharts)”串聯(lián)成完整流程,結(jié)合企業(yè)案例(如電商推薦、金融風(fēng)控)理解技術(shù)選型邏輯。3.錯(cuò)題歸因:標(biāo)記“概念混淆題”(如Hadoop與

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論