大數據分析考試復習試卷_第1頁
大數據分析考試復習試卷_第2頁
大數據分析考試復習試卷_第3頁
大數據分析考試復習試卷_第4頁
大數據分析考試復習試卷_第5頁
已閱讀5頁,還剩4頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大數據分析考試復習試卷一、單項選擇題(每題2分,共20分)1.以下不屬于大數據典型特征的是()A.數據規(guī)模龐大B.數據類型多樣C.處理速度要求高D.數據價值密度高*解析:大數據核心特征為“規(guī)模大、類型多、速度快、價值密度低”,因此D選項錯誤。*2.用于大數據分布式存儲與計算的開源框架是()A.SparkB.TableauC.RStudioD.MATLAB*解析:Spark是分布式計算框架,支持大數據處理;Tableau為可視化工具,RStudio、MATLAB側重統(tǒng)計建模,故選A。*3.數據預處理中,將分類變量轉換為數值形式的常用方法是()A.歸一化B.獨熱編碼(One-HotEncoding)C.主成分分析D.離散化*解析:獨熱編碼通過二進制向量表示分類變量;歸一化是數值特征縮放,主成分分析為降維,離散化是數值轉分類,故選B。*4.以下屬于無監(jiān)督學習算法的是()A.線性回歸B.決策樹C.K-均值聚類(K-Means)D.支持向量機*解析:K-Means通過聚類中心劃分數據,無監(jiān)督;線性回歸、決策樹、SVM多為監(jiān)督學習,故選C。*5.大數據可視化中,適合展示時間序列趨勢的圖表是()A.散點圖B.餅圖C.折線圖D.熱力圖*解析:折線圖通過點的連接直觀展示趨勢變化;散點圖側重分布,餅圖展示占比,熱力圖展示密度/關聯(lián),故選C。*6.Hadoop生態(tài)中,負責分布式文件存儲的組件是()A.HDFSB.MapReduceC.YARND.HBase*解析:HDFS(HadoopDistributedFileSystem)是分布式文件系統(tǒng);MapReduce為計算模型,YARN是資源管理,HBase是列式存儲,故選A。*7.以下工具中,常用于大數據實時流處理的是()A.FlinkB.HiveC.PigD.Sqoop*解析:Flink支持低延遲實時流處理;Hive、Pig是批處理工具,Sqoop是數據遷移工具,故選A。*8.數據規(guī)約的主要目的是()A.提高數據準確性B.減少數據量以提升處理效率C.增強數據可視化效果D.優(yōu)化機器學習模型參數*解析:數據規(guī)約通過降維、抽樣等減少數據量,降低存儲與計算成本,故選B。*9.電商平臺中,用戶購買行為分析常用的分析方法是()A.生存分析B.關聯(lián)規(guī)則挖掘(如Apriori算法)C.時間序列預測D.文本情感分析*解析:關聯(lián)規(guī)則挖掘可發(fā)現(xiàn)商品購買關聯(lián)(如“啤酒與尿布”),適配電商場景,故選B。*10.以下關于Python大數據分析庫的描述,錯誤的是()A.Pandas適合結構化數據處理B.NumPy支持高效數值計算C.Scikit-learn包含機器學習算法D.TensorFlow主要用于傳統(tǒng)統(tǒng)計分析*解析:TensorFlow是深度學習框架,側重神經網絡;傳統(tǒng)統(tǒng)計分析多用StatsModels等,故選D。*二、簡答題(每題10分,共40分)1.簡述大數據分析的基本流程,并說明每個環(huán)節(jié)的核心任務。*參考答案:大數據分析流程分為數據采集(多源獲取數據,如日志、傳感器、數據庫等,保障數據完整性)、數據預處理(清洗(去重、補漏、降噪)、集成(合并多源數據)、變換(編碼、歸一化)、規(guī)約(降維、抽樣),提升數據質量)、數據分析(選擇統(tǒng)計分析、機器學習等方法,挖掘模式/規(guī)律,回答業(yè)務問題)、數據可視化(以圖表等形式呈現(xiàn)結果,輔助決策理解)、結果評估與應用(驗證分析有效性,落地業(yè)務場景,如優(yōu)化推薦、風險預警)。*2.對比Spark與HadoopMapReduce的核心差異,并說明Spark的優(yōu)勢場景。*參考答案:差異體現(xiàn)在計算模型:MapReduce是批處理,基于磁盤IO;Spark支持批處理、流處理、交互式查詢,基于內存計算,迭代任務更高效。數據存儲:MapReduce依賴HDFS,Spark可直接操作HDFS、內存或外部數據庫。API易用性:Spark提供多語言API(Scala/Python/Java),支持DataFrame/Dataset等高級抽象,開發(fā)效率更高。優(yōu)勢場景:迭代計算(如機器學習模型訓練)、實時流處理(如電商實時推薦)、交互式數據分析(如BI即席查詢)。*3.說明數據清洗的常見問題及解決方法。*參考答案:常見問題包括缺失值(字段為空):數據量大時刪除,或用均值/中位數/模型預測填充;噪聲數據(異常值):通過3σ原則、聚類算法識別,后修正/刪除;重復數據:基于主鍵或特征字段去重;數據不一致(格式沖突):標準化格式(如日期統(tǒng)一為“YYYY-MM-DD”)。解決需結合業(yè)務邏輯,避免過度清洗丟失信息。*4.列舉三種常用的大數據可視化工具,并分析其適用場景。*參考答案:①Tableau:拖拽式操作,快速生成交互式可視化,支持多源數據,適配企業(yè)BI、業(yè)務報表場景;②PowerBI:與微軟Office生態(tài)集成,適合Windows環(huán)境下的部門級數據匯報;③ECharts:開源JavaScript庫,支持動態(tài)交互與大屏可視化,適配Web端數據看板、實時監(jiān)控(如工業(yè)物聯(lián)網);④Python可視化庫(Matplotlib/Seaborn/Plotly):代碼化定制,適配科研分析、復雜圖表開發(fā)(如學術論文、機器學習結果可視化)。(任選三種,需說明工具特性與場景匹配點)*三、綜合分析題(每題20分,共40分)1.某電商企業(yè)希望分析用戶購買行為,以優(yōu)化商品推薦策略。請設計完整的大數據分析方案,包括:(1)數據采集與預處理方案;(2)分析方法與模型選擇;(3)結果可視化與應用建議。*參考答案:(1)數據采集:從交易系統(tǒng)(訂單表)、用戶行為日志(瀏覽、收藏、加購)、用戶畫像(性別、年齡、地域)等多源采集數據,通過Kafka實時采集日志,HDFS存儲歷史數據。預處理:清洗訂單數據(去重、補全缺失商品ID),集成多源數據(用戶ID關聯(lián)行為與畫像),變換用戶行為序列(如時間差編碼),規(guī)約(抽樣高價值用戶子集加速分析)。(2)分析方法:①關聯(lián)規(guī)則挖掘(Apriori):發(fā)現(xiàn)商品購買關聯(lián)(如“手機→手機殼”);②協(xié)同過濾推薦(基于用戶/物品相似度):生成個性化推薦;③RFM模型(最近購買時間、頻率、金額):劃分用戶價值層級,針對性推薦。(3)可視化與應用:用熱力圖展示商品關聯(lián)強度,折線圖展示用戶購買周期,雷達圖展示用戶價值維度;應用建議:對高價值用戶推送專屬優(yōu)惠,對關聯(lián)商品組合促銷,基于RFM分層制定觸達策略。*2.針對“城市交通擁堵分析”場景,說明如何利用大數據技術完成以下任務:(1)數據來源與預處理;(2)分析模型與算法選擇;(3)結果輸出與決策支持。*參考答案:(1)數據來源:交通傳感器(車流量、速度)、GPS軌跡(出租車、網約車)、地圖導航數據(擁堵路段)、社交媒體(路況反饋)。預處理:清洗傳感器異常值(如速度為0但車流量大),集成多源數據(時間戳對齊),變換(經緯度轉換為路段ID),規(guī)約(降采樣高頻率軌跡數據)。(2)分析模型:①時空聚類(如DBSCAN):識別擁堵熱點區(qū)域;②時間序列預測(ARIMA/LSTM):預測路段擁堵趨勢;③圖算法(最短路徑優(yōu)化):結合實時路況推薦繞行路線。(3)結果輸出:用熱力圖動態(tài)展示擁堵區(qū)域(顏色深淺表示擁堵程度),折線圖展示擁堵時段

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論