長(zhǎng)春光華學(xué)院《大數(shù)據(jù)分析與應(yīng)用》2025 學(xué)年第二學(xué)期期末試卷_第1頁
長(zhǎng)春光華學(xué)院《大數(shù)據(jù)分析與應(yīng)用》2025 學(xué)年第二學(xué)期期末試卷_第2頁
長(zhǎng)春光華學(xué)院《大數(shù)據(jù)分析與應(yīng)用》2025 學(xué)年第二學(xué)期期末試卷_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

站名:站名:年級(jí)專業(yè):姓名:學(xué)號(hào):凡年級(jí)專業(yè)、姓名、學(xué)號(hào)錯(cuò)寫、漏寫或字跡不清者,成績(jī)按零分記?!堋狻€…………第1頁,共1頁長(zhǎng)春光華學(xué)院《大數(shù)據(jù)分析與應(yīng)用》2025學(xué)年第二學(xué)期期末試卷題號(hào)一二三四總分得分注意事項(xiàng)考生須在答題卡指定位置填寫姓名、學(xué)號(hào)、專業(yè)等信息,在試卷上作答無效。答題時(shí)須使用黑色簽字筆或鋼筆,字跡清晰,卷面整潔??荚嚱Y(jié)束后,將試卷、答題卡一并交回,不得攜帶出考場(chǎng)。一、選擇題(每題2分,共20分)大數(shù)據(jù)的核心特征“4V”不包括以下哪一項(xiàng)()A.Volume(規(guī)模大)B.Velocity(速度快)C.Variety(多樣性)D.Validity(有效性)Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)分布式存儲(chǔ)的核心組件是()A.MapReduceB.HDFSC.YARND.Spark下列數(shù)據(jù)預(yù)處理操作中,用于解決“數(shù)據(jù)重復(fù)”問題的是()A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約下列算法中,屬于“監(jiān)督學(xué)習(xí)”算法的是()A.K-Means聚類B.決策樹分類C.主成分分析(PCA)D.關(guān)聯(lián)規(guī)則挖掘(Apriori)Spark中用于表示分布式數(shù)據(jù)集的核心抽象是()A.DataFrameB.DatasetC.RDDD.Hive關(guān)聯(lián)規(guī)則挖掘中,“支持度”的計(jì)算公式是()A.包含項(xiàng)集A的事務(wù)數(shù)/總事務(wù)數(shù)B.包含項(xiàng)集A且包含項(xiàng)集B的事務(wù)數(shù)/包含項(xiàng)集A的事務(wù)數(shù)C.包含項(xiàng)集A且包含項(xiàng)集B的事務(wù)數(shù)/總事務(wù)數(shù)D.包含項(xiàng)集B的事務(wù)數(shù)/總事務(wù)數(shù)下列數(shù)據(jù)可視化工具中,不適合用于大規(guī)模大數(shù)據(jù)可視化的是()A.TableauB.EChartsC.ExcelD.PowerBIHadoopMapReduce編程模型中,“Map階段”的核心功能是()A.數(shù)據(jù)分片與并行處理B.結(jié)果匯總與輸出C.任務(wù)調(diào)度與資源分配D.數(shù)據(jù)存儲(chǔ)與讀取下列關(guān)于“特征工程”的說法,錯(cuò)誤的是()A.特征工程包括特征提取、特征選擇、特征轉(zhuǎn)換B.良好的特征工程可提升模型預(yù)測(cè)精度C.特征數(shù)量越多,模型性能一定越好D.特征標(biāo)準(zhǔn)化屬于特征轉(zhuǎn)換的常見操作大數(shù)據(jù)隱私保護(hù)中,“數(shù)據(jù)脫敏”技術(shù)的核心目的是()A.提高數(shù)據(jù)處理速度B.隱藏敏感信息(如身份證號(hào)、手機(jī)號(hào))C.減少數(shù)據(jù)存儲(chǔ)容量D.增強(qiáng)數(shù)據(jù)多樣性二、填空題(每題2分,共10分)HDFS采用“主從架構(gòu)”,其中______(英文縮寫NN)負(fù)責(zé)管理文件系統(tǒng)的元數(shù)據(jù),從節(jié)點(diǎn)負(fù)責(zé)存儲(chǔ)實(shí)際數(shù)據(jù)塊。數(shù)據(jù)預(yù)處理中,常用“均值填充”?“中位數(shù)填充”等方法處理______問題,確保數(shù)據(jù)完整性。決策樹分類算法中,用于衡量特征分裂效果的指標(biāo)主要有信息增益、信息增益比和______。Spark的運(yùn)行模式中,______模式適合單機(jī)開發(fā)與測(cè)試,無需搭建分布式集群。大數(shù)據(jù)分析的典型流程包括數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、______、模型評(píng)估與優(yōu)化、結(jié)果可視化與應(yīng)用。三、簡(jiǎn)答題(每題6分,共30分)簡(jiǎn)述大數(shù)據(jù)“4V”特征的具體含義,并舉例說明某一特征在實(shí)際應(yīng)用中的體現(xiàn)(如電商平臺(tái)的Velocity特征)。說明Hadoop生態(tài)系統(tǒng)中HDFS、MapReduce、YARN三者的功能分工及協(xié)同工作流程(以“處理海量日志數(shù)據(jù)”為例)。對(duì)比監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的核心區(qū)別,各列舉2種典型算法及對(duì)應(yīng)的應(yīng)用場(chǎng)景(如監(jiān)督學(xué)習(xí)的線性回歸用于銷量預(yù)測(cè))。簡(jiǎn)述數(shù)據(jù)預(yù)處理的主要步驟(至少4步),并說明每一步的核心作用(如數(shù)據(jù)清洗用于解決數(shù)據(jù)質(zhì)量問題)。分析Spark相比MapReduce的優(yōu)勢(shì)(至少3點(diǎn)),并說明Spark適合處理哪些類型的大數(shù)據(jù)任務(wù)(如實(shí)時(shí)流處理)。四、綜合應(yīng)用題(每題20分,共40分)某電商平臺(tái)收集了10萬條用戶購(gòu)物數(shù)據(jù)(包含用戶ID、瀏覽商品類別、購(gòu)買商品、消費(fèi)金額、購(gòu)物時(shí)間等字段),需通過大數(shù)據(jù)分析實(shí)現(xiàn)“用戶購(gòu)物偏好聚類”。請(qǐng)完成以下設(shè)計(jì):(1)明確數(shù)據(jù)預(yù)處理的核心步驟(需針對(duì)該場(chǎng)景說明數(shù)據(jù)清洗、特征提取、特征標(biāo)準(zhǔn)化的具體操作);(2)選擇合適的聚類算法(如K-Means),說明選擇理由,并闡述算法的核心實(shí)現(xiàn)步驟(如K值確定方法、距離計(jì)算方式);(3)設(shè)計(jì)聚類結(jié)果的評(píng)估指標(biāo)(至少2個(gè),如輪廓系數(shù)),并說明如何根據(jù)評(píng)估結(jié)果優(yōu)化聚類模型;(4)舉例說明聚類結(jié)果的實(shí)際應(yīng)用價(jià)值(如針對(duì)不同偏好用戶推送個(gè)性化商品)。某連鎖超市需基于過去3年的銷售數(shù)據(jù)(包含日期、商品類別、銷量、促銷活動(dòng)、天氣、節(jié)假日等字段),構(gòu)建“商品銷量預(yù)測(cè)模型”。請(qǐng)完成以下設(shè)計(jì):(1)選擇合適的預(yù)測(cè)算法(如線性回歸、隨機(jī)森林),說明選擇理由,并確定模型的輸入特征與輸出目標(biāo);(2)設(shè)計(jì)數(shù)據(jù)預(yù)處理流程:如何處理“節(jié)假日與非節(jié)假日”?“促銷與非促銷”等分類特征?如何處理銷量數(shù)據(jù)中的異常值(如極端高銷量或低銷量)?(3)闡述模型訓(xùn)練與評(píng)估的核心步驟:如何劃分訓(xùn)練集與測(cè)試集?選擇哪些評(píng)估指標(biāo)(如MAE、RMSE)?如何根據(jù)評(píng)估結(jié)果調(diào)整模型參數(shù)(如隨機(jī)森林的樹數(shù)量)?(4)說明預(yù)測(cè)模型的實(shí)際應(yīng)用場(chǎng)景:如何利用預(yù)測(cè)結(jié)果指導(dǎo)超市的庫(kù)存管理與促銷策略制定?參考答案一、選擇題D2.B3.A4.B5.C6.C7.C8.A9.C10.B二、填空題NameNode2.缺失值3.基尼系數(shù)4.本地(Local)5.模型構(gòu)建與訓(xùn)練三、簡(jiǎn)答題(要點(diǎn))4V特征含義:①Volume:數(shù)據(jù)規(guī)模龐大(如電商平臺(tái)單日交易數(shù)據(jù)達(dá)TB級(jí));②Velocity:數(shù)據(jù)產(chǎn)生與處理速度快(如實(shí)時(shí)推薦系統(tǒng)需毫秒級(jí)響應(yīng));③Variety:數(shù)據(jù)類型多樣(如文本、圖像、音頻、結(jié)構(gòu)化數(shù)據(jù)混合);④Value:數(shù)據(jù)價(jià)值密度低(如監(jiān)控視頻中有效信息僅占少量)。舉例:Velocity在直播電商中體現(xiàn)為實(shí)時(shí)處理用戶彈幕、下單數(shù)據(jù),動(dòng)態(tài)調(diào)整商品推薦列表。分工:①HDFS:存儲(chǔ)海量日志數(shù)據(jù)(將日志分片存儲(chǔ)在多個(gè)DataNode);②MapReduce:并行處理日志(Map階段拆分日志、提取關(guān)鍵詞,Reduce階段匯總統(tǒng)計(jì)結(jié)果);③YARN:負(fù)責(zé)為MapReduce任務(wù)分配CPU、內(nèi)存等資源,調(diào)度任務(wù)執(zhí)行。協(xié)同流程:日志數(shù)據(jù)上傳至HDFS→YARN分配資源啟動(dòng)MapReduce任務(wù)→Map階段并行處理日志分片→Reduce階段匯總結(jié)果→結(jié)果寫入HDFS。區(qū)別:監(jiān)督學(xué)習(xí)需標(biāo)注訓(xùn)練數(shù)據(jù)(輸入-輸出對(duì)應(yīng)),無監(jiān)督學(xué)習(xí)無需標(biāo)注(從數(shù)據(jù)中自動(dòng)挖掘規(guī)律)。監(jiān)督學(xué)習(xí)算法:①線性回歸(預(yù)測(cè)房?jī)r(jià)、銷量);②邏輯回歸(預(yù)測(cè)用戶是否流失)。無監(jiān)督學(xué)習(xí)算法:①K-Means(用戶分群、商品聚類);②Apriori(購(gòu)物籃分析,如“買面包的用戶常買牛奶”)。數(shù)據(jù)預(yù)處理步驟:①數(shù)據(jù)清洗(處理缺失值、重復(fù)值、異常值,如刪除重復(fù)的用戶購(gòu)物記錄);②數(shù)據(jù)集成(合并多源數(shù)據(jù),如將用戶瀏覽數(shù)據(jù)與購(gòu)買數(shù)據(jù)關(guān)聯(lián));③數(shù)據(jù)變換(標(biāo)準(zhǔn)化、歸一化,如將消費(fèi)金額轉(zhuǎn)換為[0,1]區(qū)間值);④數(shù)據(jù)歸約(減少特征或數(shù)據(jù)量,如刪除冗余的商品ID字段);⑤特征工程(提取有效特征,如從購(gòu)物時(shí)間中提取“是否周末”特征)。Spark優(yōu)勢(shì):①基于內(nèi)存計(jì)算,處理速度比MapReduce快10-100倍(避免頻繁磁盤I/O);②支持多計(jì)算模型(批處理、流處理、機(jī)器學(xué)習(xí)、圖計(jì)算),一站式解決大數(shù)據(jù)任務(wù);③API更簡(jiǎn)潔,支持Scala、Java、Python等多語言;④容錯(cuò)性強(qiáng)(RDDlineage機(jī)制可重建丟失數(shù)據(jù))。適合任務(wù):實(shí)時(shí)流處理(如實(shí)時(shí)監(jiān)控超市銷量)、機(jī)器學(xué)習(xí)(如用戶推薦模型訓(xùn)練)、交互式數(shù)據(jù)分析(如分析師實(shí)時(shí)查詢銷售數(shù)據(jù))。四、綜合應(yīng)用題(核心設(shè)計(jì)要點(diǎn))電商用戶購(gòu)物偏好聚類設(shè)計(jì):(1)數(shù)據(jù)預(yù)處理:①數(shù)據(jù)清洗:刪除重復(fù)購(gòu)物記錄、過濾無效用戶ID(如“-1”等異常值);②特征提?。簭摹盀g覽商品類別”提取“偏好類別頻次”(如用戶瀏覽家電類商品的次數(shù)),從“消費(fèi)金額”提取“平均消費(fèi)額”?“高消費(fèi)頻次”,從“購(gòu)物時(shí)間”提取“周末購(gòu)物占比”;③特征標(biāo)準(zhǔn)化:用Min-Max標(biāo)準(zhǔn)化將“頻次”?“金額”等特征轉(zhuǎn)換為[0,1]區(qū)間,避免量級(jí)差異影響聚類結(jié)果。(2)算法選擇:選K-Means,理由:①適合大規(guī)模數(shù)據(jù)(10萬條記錄),計(jì)算效率高;②聚類結(jié)果可解釋性強(qiáng),便于后續(xù)應(yīng)用。實(shí)現(xiàn)步驟:①確定K值:用“肘部法則”(計(jì)算不同K值的誤差平方和,選擇誤差驟降的K,如K=5);②距離計(jì)算:用歐氏距離衡量用戶特征向量相似度;③迭代訓(xùn)練:隨機(jī)選擇K個(gè)初始聚類中心→計(jì)算每個(gè)用戶到中心的距離并歸類→更新聚類中心→重復(fù)至中心穩(wěn)定;④輸出聚類結(jié)果(如“高頻家電消費(fèi)者”?“低頻零食消費(fèi)者”)。(3)評(píng)估指標(biāo):①輪廓系數(shù)(取值[-1,1],越接近1聚類效果越好,衡量簇內(nèi)相似度與簇間分離度);②Calinski-Harabasz指數(shù)(值越大越好,反映簇內(nèi)方差小、簇間方差大)。優(yōu)化方向:若輪廓系數(shù)低,可調(diào)整K值或增加有效特征(如“復(fù)購(gòu)率”)。(4)應(yīng)用價(jià)值:①個(gè)性化推薦:對(duì)“高頻家電消費(fèi)者”推送家電新品、折扣信息;②精準(zhǔn)營(yíng)銷:對(duì)“低頻消費(fèi)用戶”發(fā)送滿減優(yōu)惠券,提升活躍度;③店鋪布局:根據(jù)聚類結(jié)果調(diào)整線上商品分類頁面(如將高偏好類別置頂)。超市商品銷量預(yù)測(cè)模型設(shè)計(jì):(1)算法選擇:選隨機(jī)森林,理由:①可處理混合特征(數(shù)值型:銷量、天氣溫度;分類型:促銷、節(jié)假日),無需復(fù)雜特征轉(zhuǎn)換;②抗過擬合能力強(qiáng),適合多特征場(chǎng)景;③可評(píng)估特征重要性(如“促銷活動(dòng)”對(duì)銷量的影響權(quán)重)。輸入特征:①日期特征(是否節(jié)假日、星期幾);②商品特征(商品類別、單價(jià));③外部特征(天氣溫度、降雨量);④歷史銷量特征(過去7天平均銷量、上月同期銷量)。輸出目標(biāo):未來7天的商品日銷量。(2)數(shù)據(jù)預(yù)處理:①分類特征處理:對(duì)“是否節(jié)假日”?“是否促銷”用獨(dú)熱編碼(如節(jié)假日=1,非節(jié)假日=0;促銷=1,非促銷=0);對(duì)“商品類別”用標(biāo)簽編碼(如食品=0,日用品=1);②異常值處理:用“3σ原則”識(shí)別極端銷量(如銷量超過均值+3倍標(biāo)準(zhǔn)差),用該商品前7天的中位數(shù)替換異常值,避免影響模型。(3)模型訓(xùn)練與評(píng)估:①數(shù)據(jù)集劃分:按7:3比例劃分訓(xùn)練集(前2.1年數(shù)據(jù))與測(cè)試集(后0.9年數(shù)據(jù)),時(shí)間序列需保持順序(避免數(shù)據(jù)泄露);②評(píng)估指標(biāo):①M(fèi)AE(平均絕對(duì)誤差,衡量預(yù)測(cè)值與真實(shí)值的平均偏差);②RMSE(均方根誤差,懲罰大偏差,更關(guān)注極端值預(yù)測(cè)準(zhǔn)確性);③模型調(diào)參:用網(wǎng)格搜索調(diào)整“樹數(shù)量”(如100-50

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論