《大數(shù)據(jù)分析入門》試題與答案_第1頁(yè)
《大數(shù)據(jù)分析入門》試題與答案_第2頁(yè)
《大數(shù)據(jù)分析入門》試題與答案_第3頁(yè)
《大數(shù)據(jù)分析入門》試題與答案_第4頁(yè)
《大數(shù)據(jù)分析入門》試題與答案_第5頁(yè)
已閱讀5頁(yè),還剩9頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

《大數(shù)據(jù)分析入門》試題與答案一、單項(xiàng)選擇題(每題2分,共20分)1.下列哪項(xiàng)不屬于大數(shù)據(jù)的“5V”特征?A.Volume(大量)B.Velocity(高速)C.Value(價(jià)值)D.Validity(有效性)2.以下哪個(gè)工具是Hadoop生態(tài)中用于結(jié)構(gòu)化數(shù)據(jù)查詢的組件?A.HBaseB.HiveC.SparkD.Flume3.關(guān)于數(shù)據(jù)清洗,下列描述錯(cuò)誤的是?A.處理缺失值時(shí)只能直接刪除缺失行B.異常值可能由測(cè)量誤差導(dǎo)致C.需要統(tǒng)一數(shù)據(jù)格式(如日期格式)D.重復(fù)數(shù)據(jù)會(huì)影響分析結(jié)果準(zhǔn)確性4.Spark的核心抽象是?A.DataFrameB.RDD(彈性分布式數(shù)據(jù)集)C.DataSetD.DStream5.以下哪種算法屬于無(wú)監(jiān)督學(xué)習(xí)?A.邏輯回歸B.K-means聚類C.決策樹D.支持向量機(jī)(SVM)6.數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的主要特點(diǎn)不包括?A.面向主題B.實(shí)時(shí)更新C.集成性D.歷史數(shù)據(jù)存儲(chǔ)7.關(guān)于HDFS(Hadoop分布式文件系統(tǒng)),下列說(shuō)法正確的是?A.適合存儲(chǔ)小文件B.數(shù)據(jù)存儲(chǔ)為多副本(默認(rèn)3副本)C.支持實(shí)時(shí)隨機(jī)讀寫D.僅支持文本格式數(shù)據(jù)8.若要分析用戶點(diǎn)擊流數(shù)據(jù)的實(shí)時(shí)趨勢(shì),最適合的計(jì)算框架是?A.MapReduceB.SparkCoreC.SparkStreamingD.Hive9.特征工程中“獨(dú)熱編碼(One-HotEncoding)”主要用于處理?A.連續(xù)型數(shù)值特征B.高維稀疏特征C.類別型特征D.時(shí)間序列特征10.關(guān)聯(lián)規(guī)則分析中,“支持度(Support)”的計(jì)算公式是?A.包含A和B的事務(wù)數(shù)/總事務(wù)數(shù)B.包含A的事務(wù)中包含B的比例C.實(shí)際包含B的事務(wù)數(shù)/預(yù)測(cè)包含B的事務(wù)數(shù)D.(包含A和B的事務(wù)數(shù))/包含A的事務(wù)數(shù)二、填空題(每題2分,共20分)1.大數(shù)據(jù)分析的核心價(jià)值在于從海量數(shù)據(jù)中挖掘__________,驅(qū)動(dòng)決策優(yōu)化。2.Hadoop生態(tài)中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的組件是__________。3.數(shù)據(jù)采集階段常用的工具中,用于實(shí)時(shí)日志收集的是__________(填寫Flume或Sqoop)。4.數(shù)據(jù)可視化的作用是將抽象數(shù)據(jù)轉(zhuǎn)化為__________,幫助用戶快速理解數(shù)據(jù)規(guī)律。5.Spark相比HadoopMapReduce的主要優(yōu)勢(shì)是__________(填寫“內(nèi)存計(jì)算”或“磁盤計(jì)算”)。6.分類算法中,__________(填寫算法名稱)通過(guò)計(jì)算特征與類別的信息增益選擇分裂節(jié)點(diǎn)。7.數(shù)據(jù)倉(cāng)庫(kù)的分層架構(gòu)中,ODS層的全稱是__________。8.處理缺失值的常用方法包括刪除法、__________和插值法(如均值填充)。9.分布式計(jì)算中,“分片(Partition)”的作用是將大文件分割為小數(shù)據(jù)塊,便于__________。10.時(shí)間序列分析中,ARIMA模型的三個(gè)參數(shù)分別代表自回歸階數(shù)、差分階數(shù)和__________。三、簡(jiǎn)答題(每題8分,共40分)1.簡(jiǎn)述大數(shù)據(jù)分析的完整流程,并說(shuō)明各階段的核心任務(wù)。2.對(duì)比HadoopMapReduce與Spark的適用場(chǎng)景,舉例說(shuō)明。3.數(shù)據(jù)清洗需要處理哪些常見問(wèn)題?請(qǐng)分別給出解決方法。4.什么是特征工程?請(qǐng)列舉至少4種特征工程的常用技術(shù),并說(shuō)明其作用。5.假設(shè)你需要分析某電商平臺(tái)用戶的購(gòu)買行為,目標(biāo)是找出“高價(jià)值用戶”,請(qǐng)?jiān)O(shè)計(jì)分析思路(包括關(guān)鍵指標(biāo)、分析方法及輸出結(jié)果)。四、應(yīng)用題(共20分)1.(10分)給定某網(wǎng)站用戶訪問(wèn)日志數(shù)據(jù)(字段:用戶ID、訪問(wèn)時(shí)間、頁(yè)面ID、停留時(shí)長(zhǎng)),請(qǐng)用Python的Pandas庫(kù)完成以下操作:(1)篩選出停留時(shí)長(zhǎng)超過(guò)60秒的記錄;(2)按用戶ID分組,計(jì)算每個(gè)用戶的總停留時(shí)長(zhǎng);(3)將結(jié)果保存為CSV文件(路徑:./user_stay.csv)。2.(10分)使用SparkRDD實(shí)現(xiàn)“統(tǒng)計(jì)某社交平臺(tái)用戶的關(guān)注數(shù)”,輸入數(shù)據(jù)為文本文件,每行格式為“用戶ID,關(guān)注用戶ID1,關(guān)注用戶ID2,...”(示例:u1,u2,u3,u4)。要求輸出結(jié)果為(用戶ID,關(guān)注數(shù))的鍵值對(duì),按關(guān)注數(shù)降序排列。答案一、單項(xiàng)選擇題1.D(大數(shù)據(jù)的5V特征為Volume、Velocity、Variety、Value、Veracity,有效性不屬于)2.B(Hive通過(guò)HiveQL實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)查詢,類似SQL;HBase是NoSQL數(shù)據(jù)庫(kù),Spark是計(jì)算框架,F(xiàn)lume是日志采集工具)3.A(缺失值處理方法包括刪除、填充、插值等,并非只能刪除)4.B(RDD是Spark的核心抽象,支持分布式計(jì)算和容錯(cuò))5.B(K-means屬于無(wú)監(jiān)督學(xué)習(xí),無(wú)需標(biāo)簽;其余選項(xiàng)為監(jiān)督學(xué)習(xí))6.B(數(shù)據(jù)倉(cāng)庫(kù)通常存儲(chǔ)歷史數(shù)據(jù),更新頻率較低,并非實(shí)時(shí)更新)7.B(HDFS默認(rèn)3副本保證可靠性;不適合小文件,不支持隨機(jī)讀寫,支持多種數(shù)據(jù)格式)8.C(SparkStreaming用于實(shí)時(shí)流數(shù)據(jù)處理;MapReduce是批處理,Hive是離線查詢)9.C(獨(dú)熱編碼將類別型特征轉(zhuǎn)化為二進(jìn)制向量,解決類別間無(wú)序問(wèn)題)10.A(支持度=同時(shí)包含A和B的事務(wù)數(shù)/總事務(wù)數(shù);置信度=包含A的事務(wù)中包含B的比例)二、填空題1.隱含的有價(jià)值信息2.YARN(YetAnotherResourceNegotiator)3.Flume(Sqoop用于關(guān)系型數(shù)據(jù)庫(kù)與Hadoop間的批量數(shù)據(jù)遷移)4.直觀的圖形或圖表5.內(nèi)存計(jì)算(Spark將中間結(jié)果存儲(chǔ)在內(nèi)存,減少磁盤IO)6.決策樹(或C4.5、ID3算法)7.操作數(shù)據(jù)存儲(chǔ)層(OperationalDataStore)8.填充法(或均值/中位數(shù)填充、模型預(yù)測(cè)填充)9.分布式并行計(jì)算10.移動(dòng)平均階數(shù)三、簡(jiǎn)答題1.大數(shù)據(jù)分析完整流程及核心任務(wù):(1)數(shù)據(jù)采集:通過(guò)工具(如Flume、Sqoop)從日志、數(shù)據(jù)庫(kù)等多源獲取數(shù)據(jù),核心任務(wù)是確保數(shù)據(jù)完整性和實(shí)時(shí)性。(2)數(shù)據(jù)清洗:處理缺失值、異常值、重復(fù)數(shù)據(jù)等,核心任務(wù)是提升數(shù)據(jù)質(zhì)量,為后續(xù)分析提供可靠輸入。(3)數(shù)據(jù)存儲(chǔ):選擇合適存儲(chǔ)方案(如HDFS存非結(jié)構(gòu)化數(shù)據(jù),HBase存實(shí)時(shí)查詢數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存結(jié)構(gòu)化分析數(shù)據(jù)),核心任務(wù)是高效管理和訪問(wèn)數(shù)據(jù)。(4)數(shù)據(jù)分析:應(yīng)用統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)算法(如分類、聚類)挖掘規(guī)律,核心任務(wù)是提取有價(jià)值信息。(5)數(shù)據(jù)可視化:通過(guò)圖表(如折線圖、熱力圖)展示結(jié)果,核心任務(wù)是輔助用戶直觀理解分析結(jié)論。2.HadoopMapReduce與Spark的適用場(chǎng)景對(duì)比:MapReduce基于磁盤計(jì)算,適合處理海量離線數(shù)據(jù)(如日志批量處理),但迭代計(jì)算(如機(jī)器學(xué)習(xí))效率低,因?yàn)槊看蔚枳x寫磁盤。例如,計(jì)算年度用戶消費(fèi)總額,適合MapReduce。Spark基于內(nèi)存計(jì)算,支持RDD的持久化,適合迭代計(jì)算(如K-means聚類)、實(shí)時(shí)流處理(SparkStreaming)和交互式分析。例如,實(shí)時(shí)計(jì)算直播平臺(tái)的在線人數(shù)變化,適合Spark。3.數(shù)據(jù)清洗常見問(wèn)題及解決方法:(1)缺失值:少量缺失可刪除對(duì)應(yīng)行;大量缺失可用均值/中位數(shù)填充(數(shù)值型),或眾數(shù)填充(類別型);也可通過(guò)回歸模型預(yù)測(cè)填充。(2)異常值:通過(guò)箱線圖或Z-score識(shí)別,若為測(cè)量誤差則修正或刪除;若為真實(shí)值(如高消費(fèi)用戶)則保留并單獨(dú)分析。(3)重復(fù)數(shù)據(jù):使用去重函數(shù)(如Pandas的drop_duplicates)刪除完全重復(fù)記錄;部分重復(fù)(如同一用戶不同拼寫)需通過(guò)規(guī)則(如模糊匹配)合并。(4)數(shù)據(jù)格式不一致:統(tǒng)一日期格式(如“2023/10/1”轉(zhuǎn)為“2023-10-01”),數(shù)值單位(如“100cm”轉(zhuǎn)為“1m”)。4.特征工程是通過(guò)數(shù)據(jù)處理和轉(zhuǎn)換,構(gòu)建適合模型訓(xùn)練的特征集合的過(guò)程。常用技術(shù)及作用:(1)特征提取:從原始數(shù)據(jù)中抽取新特征(如從時(shí)間戳提取“小時(shí)”“星期”),增加模型可學(xué)習(xí)的信息。(2)特征縮放:對(duì)數(shù)值型特征進(jìn)行標(biāo)準(zhǔn)化(Z-score)或歸一化(Min-Max),避免模型受大數(shù)值特征主導(dǎo)。(3)特征分箱:將連續(xù)型特征離散化為區(qū)間(如年齡分為“0-18”“19-30”),減少噪聲影響,提升模型魯棒性。(4)特征組合:將多個(gè)特征相乘/相加生成新特征(如“單價(jià)×數(shù)量=總金額”),捕捉特征間的交互關(guān)系。5.電商平臺(tái)“高價(jià)值用戶”分析思路:(1)關(guān)鍵指標(biāo):消費(fèi)金額(總/年均)、購(gòu)買頻率(月均訂單數(shù))、客單價(jià)(總金額/訂單數(shù))、留存率(連續(xù)N月活躍)、復(fù)購(gòu)率(再次購(gòu)買用戶比例)。(2)分析方法:-數(shù)據(jù)清洗:處理缺失訂單、異常消費(fèi)記錄(如0元訂單)。-特征工程:計(jì)算用戶生命周期價(jià)值(LTV)、最近一次購(gòu)買時(shí)間(R)、購(gòu)買頻率(F)、消費(fèi)金額(M),構(gòu)建RFM模型。-聚類分析:使用K-means對(duì)用戶按RFM得分聚類,識(shí)別高價(jià)值(高R/F/M)、潛在價(jià)值(中R/F/M)、低價(jià)值(低R/F/M)群體。(3)輸出結(jié)果:高價(jià)值用戶清單(ID、基本屬性)、群體特征(如年齡分布、偏好品類)、運(yùn)營(yíng)建議(如專屬優(yōu)惠、會(huì)員權(quán)益)。四、應(yīng)用題1.PythonPandas實(shí)現(xiàn)代碼:```pythonimportpandasaspd讀取日志數(shù)據(jù)(假設(shè)文件路徑為./access_log.csv)df=pd.read_csv('./access_log.csv')(1)篩選停留時(shí)長(zhǎng)>60秒的記錄filtered_df=df[df['停留時(shí)長(zhǎng)']>60](2)按用戶ID分組,計(jì)算總停留時(shí)長(zhǎng)user_stay=filtered_df.groupby('用戶ID')['停留時(shí)長(zhǎng)'].sum().reset_index()user_stay.columns=['用戶ID','總停留時(shí)長(zhǎng)'](3)保存為CSVuser_stay.to_csv('./user_stay.csv',index=False)```2.SparkRDD實(shí)現(xiàn)步驟:```pythonfrompysparkimportSparkContextsc=SparkContext("local","FollowCount")讀取輸入文件lines=sc.textFile("path/to/input.txt")解析每行數(shù)據(jù),提取用戶ID和關(guān)注列表defparse_line(line):parts=line.split(',')user_id=parts[0]follows=pa

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論