版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
2025年大數(shù)據(jù)與人工智能課程考試試題及答案一、單項選擇題(每題2分,共20分)1.以下哪項不屬于數(shù)據(jù)挖掘的核心步驟?A.數(shù)據(jù)清洗B.模型評估C.結果可視化D.數(shù)據(jù)采集答案:D(數(shù)據(jù)采集屬于數(shù)據(jù)預處理前的準備階段,核心步驟包括建模與評估)2.監(jiān)督學習中,若目標變量為連續(xù)值,應選擇以下哪種任務類型?A.分類B.回歸C.聚類D.降維答案:B(回歸任務處理連續(xù)目標變量,分類處理離散)3.分布式計算框架Hadoop中,負責資源管理的組件是?A.HDFSB.MapReduceC.YARND.HBase答案:C(YARN負責資源調度和管理,HDFS是存儲,MapReduce是計算框架)4.卷積神經(jīng)網(wǎng)絡(CNN)中,池化層的主要作用是?A.增加參數(shù)數(shù)量B.提取局部特征C.降低特征維度D.防止過擬合答案:C(池化通過下采樣降低維度,減少計算量,保留主要特征)5.以下哪種算法屬于無監(jiān)督學習?A.邏輯回歸B.Kmeans聚類C.隨機森林D.支持向量機(SVM)答案:B(Kmeans通過數(shù)據(jù)自身分布聚類,無標簽指導)6.大數(shù)據(jù)處理中,“數(shù)據(jù)傾斜”指的是?A.數(shù)據(jù)存儲位置分布不均B.不同特征的量綱差異大C.某一key的記錄數(shù)遠多于其他keyD.數(shù)據(jù)時間戳分布不均勻答案:C(數(shù)據(jù)傾斜通常指某些鍵值的數(shù)據(jù)量異常大,導致任務執(zhí)行不均)7.自然語言處理(NLP)中,Transformer模型的核心機制是?A.循環(huán)神經(jīng)網(wǎng)絡(RNN)B.自注意力(SelfAttention)C.門控循環(huán)單元(GRU)D.卷積核滑動窗口答案:B(Transformer通過自注意力機制捕捉長距離依賴關系)8.強化學習中,智能體(Agent)的目標是最大化?A.即時獎勵B.累計折扣獎勵C.狀態(tài)轉移概率D.動作空間維度答案:B(強化學習的核心是通過策略優(yōu)化最大化長期累積獎勵)9.以下哪種數(shù)據(jù)預處理方法可用于解決類別不平衡問題?A.標準化(Zscore)B.過采樣(Oversampling)C.主成分分析(PCA)D.獨熱編碼(OneHot)答案:B(過采樣通過復制少數(shù)類樣本平衡類別分布)10.決策樹算法中,若選擇基尼系數(shù)作為分裂指標,其取值范圍是?A.[0,1]B.[1,1]C.[0,∞)D.[1,2]答案:A(基尼系數(shù)衡量數(shù)據(jù)不純程度,取值0(純)到1(最不純))二、填空題(每題2分,共20分)1.大數(shù)據(jù)的4V特征包括規(guī)模性(Volume)、高速性(Velocity)、多樣性(Variety)和__________(Veracity)。答案:真實性2.機器學習中,將模型在新數(shù)據(jù)上的表現(xiàn)稱為__________。答案:泛化能力3.分布式文件系統(tǒng)HDFS的默認塊大小是__________。答案:128MB4.循環(huán)神經(jīng)網(wǎng)絡(RNN)的主要缺陷是難以捕捉__________依賴關系。答案:長距離5.支持向量機(SVM)中,核函數(shù)的作用是將低維數(shù)據(jù)映射到__________。答案:高維空間6.梯度下降算法中,學習率過大會導致__________。答案:無法收斂(或震蕩)7.自然語言處理中,詞嵌入(WordEmbedding)的典型模型包括Word2Vec和__________。答案:GloVe(或BERT)8.關聯(lián)規(guī)則挖掘中,衡量規(guī)則重要性的兩個關鍵指標是支持度和__________。答案:置信度9.強化學習的三要素包括狀態(tài)(State)、動作(Action)和__________。答案:獎勵(Reward)10.深度學習中,防止過擬合的常用方法包括正則化、早停法和__________。答案:dropout(隨機失活)三、簡答題(每題8分,共40分)1.簡述Hadoop與Spark在大數(shù)據(jù)處理中的適用場景差異。答案:Hadoop基于MapReduce框架,采用“磁盤計算磁盤”模式,適合離線批處理任務(如日志分析、歷史數(shù)據(jù)統(tǒng)計),但對迭代計算(如機器學習)和實時處理效率低。Spark基于內(nèi)存計算(RDD彈性分布式數(shù)據(jù)集),支持DAG執(zhí)行計劃,適合迭代計算(如Kmeans多次迭代)、流處理(SparkStreaming)和交互式查詢,實時性和計算效率更高。2.解釋遷移學習的核心思想,并舉例說明其應用場景。答案:遷移學習通過將源領域(已有知識)的知識遷移到目標領域(目標任務),解決目標領域數(shù)據(jù)不足的問題。例如,在醫(yī)療影像分類中,目標領域(特定疾病識別)樣本少,可利用源領域(大規(guī)模自然圖像)預訓練的CNN模型,凍結前幾層特征提取層,微調最后分類層,提升小樣本下的模型性能。3.數(shù)據(jù)預處理中,處理缺失值的常用方法有哪些?各適用于什么場景?答案:(1)刪除缺失值:適用于缺失比例低(如<5%)且數(shù)據(jù)量充足的場景;(2)均值/中位數(shù)填充:適用于數(shù)值型特征,數(shù)據(jù)分布較均勻;(3)眾數(shù)填充:適用于分類型特征;(4)模型預測填充:用其他特征訓練模型(如KNN、回歸)預測缺失值,適用于缺失值與其他特征相關性高的場景;(5)單獨編碼:將缺失值作為獨立類別(如“未知”),適用于缺失本身具有業(yè)務含義(如用戶未填寫信息)。4.簡述卷積神經(jīng)網(wǎng)絡(CNN)中卷積層的工作原理,并說明其為何適合圖像識別。答案:卷積層通過滑動卷積核(濾波器)在輸入圖像上進行局部感知,提取局部特征(如邊緣、紋理)。每個卷積核學習不同特征,輸出特征圖。CNN適合圖像識別的原因:(1)局部連接:圖像局部像素相關性高,局部感受野減少參數(shù);(2)權值共享:同一卷積核在圖像不同位置共享參數(shù),降低模型復雜度;(3)層級特征提?。簻\層提取邊緣,深層組合成物體部件、整體,符合視覺感知層次。5.什么是數(shù)據(jù)傾斜?在Spark中如何解決數(shù)據(jù)傾斜問題?答案:數(shù)據(jù)傾斜指數(shù)據(jù)集中某些key對應的記錄數(shù)遠多于其他key,導致任務執(zhí)行時間差異大(如某分區(qū)處理10GB數(shù)據(jù),其他分區(qū)處理100MB)。Spark中的解決方法:(1)加鹽哈希:對傾斜key添加隨機數(shù)后綴,分散到多個分區(qū);(2)增加并行度:提高分區(qū)數(shù),分散數(shù)據(jù);(3)過濾異常值:業(yè)務上確認傾斜key是否為異常數(shù)據(jù)(如測試數(shù)據(jù)),過濾后處理;(4)使用廣播變量:若小表與大表join傾斜,將小表廣播到所有節(jié)點,避免shuffle;(5)自定義分區(qū)器:根據(jù)業(yè)務規(guī)則設計分區(qū)策略,均衡數(shù)據(jù)分布。四、算法題(每題10分,共20分)1.給定如下訓練數(shù)據(jù)集(二分類,目標變量y=0或1):|特征x1|特征x2|y||||||1|2|0||3|4|0||2|5|1||4|1|1|假設使用樸素貝葉斯分類器(高斯分布假設),計算測試樣本(x1=3,x2=3)屬于y=1的后驗概率P(y=1|x1=3,x2=3),并判斷其類別(要求寫出計算步驟)。答案:步驟1:計算先驗概率P(y=0)和P(y=1)??倶颖緮?shù)N=4,y=0有2個,y=1有2個,故P(y=0)=0.5,P(y=1)=0.5。步驟2:計算y=0時,x1和x2的均值和方差。y=0的x1:[1,3],均值μ1_0=(1+3)/2=2,方差σ1_02=((12)2+(32)2)/2=1;y=0的x2:[2,4],均值μ2_0=(2+4)/2=3,方差σ2_02=((23)2+(43)2)/2=1。步驟3:計算y=1時,x1和x2的均值和方差。y=1的x1:[2,4],均值μ1_1=(2+4)/2=3,方差σ1_12=((23)2+(43)2)/2=1;y=1的x2:[5,1],均值μ2_1=(5+1)/2=3,方差σ2_12=((53)2+(13)2)/2=4。步驟4:計算似然度P(x1=3,x2=3|y=0)和P(x1=3,x2=3|y=1)(高斯概率密度函數(shù))。高斯公式:P(x|μ,σ2)=1/(√(2πσ2))exp((xμ)2/(2σ2))對于y=0:P(x1=3|y=0)=1/(√(2π1))exp((32)2/(21))=1/√(2π)exp(0.5)≈0.242;P(x2=3|y=0)=1/(√(2π1))exp((33)2/(21))=1/√(2π)1≈0.399;聯(lián)合似然度P(x|y=0)=0.2420.399≈0.0966。對于y=1:P(x1=3|y=1)=1/(√(2π1))exp((33)2/(21))=1/√(2π)≈0.399;P(x2=3|y=1)=1/(√(2π4))exp((33)2/(24))=1/(2√(2π))1≈0.1995;聯(lián)合似然度P(x|y=1)=0.3990.1995≈0.0796。步驟5:計算后驗概率。P(y=1|x)=[P(x|y=1)P(y=1)]/[P(x|y=0)P(y=0)+P(x|y=1)P(y=1)]分子=0.07960.5=0.0398;分母=0.09660.5+0.07960.5=0.0881;故P(y=1|x)=0.0398/0.0881≈0.452<0.5,因此預測類別為y=0。2.已知某線性回歸模型的損失函數(shù)為MSE(均方誤差),假設當前參數(shù)w=2,b=1,學習率α=0.01,訓練數(shù)據(jù)為(x=3,y=5),計算一次梯度下降后的參數(shù)更新值(要求寫出梯度計算過程)。答案:線性回歸模型:?=wx+b=23+1=7。MSE損失函數(shù):L=(?y)2/2=(75)2/2=2(除以2為簡化梯度計算)。計算梯度:?L/?w=(?y)x=(75)3=6;?L/?b=(?y)1=2。參數(shù)更新:w_new=wα?L/?w=20.016=1.94;b_new=bα?L/?b=10.012=0.98。五、綜合應用題(20分)設計一個基于大數(shù)據(jù)與人工智能的用戶畫像系統(tǒng),要求說明系統(tǒng)架構、核心模塊及關鍵技術(需結合具體業(yè)務場景,如電商用戶畫像)。答案:系統(tǒng)架構:采用“數(shù)據(jù)采集存儲處理建模應用”五層架構。核心模塊及關鍵技術:1.數(shù)據(jù)采集層:業(yè)務場景:電商用戶行為數(shù)據(jù)(瀏覽、點擊、購買、加購)、交易數(shù)據(jù)(訂單金額、品類)、用戶屬性(年齡、性別、地域)、外部數(shù)據(jù)(社交平臺興趣標簽)。關鍵技術:使用Flume(日志采集)、Kafka(實時流數(shù)據(jù)緩存)、Sqoop(關系型數(shù)據(jù)庫數(shù)據(jù)遷移),支持多源異構數(shù)據(jù)采集(結構化如MySQL、半結構化如JSON日志、非結構化如評論文本)。2.數(shù)據(jù)存儲層:冷數(shù)據(jù)(歷史交易)存儲于HDFS(分布式文件系統(tǒng)),支持TB級數(shù)據(jù)存儲;熱數(shù)據(jù)(實時行為)存儲于HBase(列式存儲)或ClickHouse(實時分析數(shù)據(jù)庫),支持低延遲查詢;元數(shù)據(jù)管理使用Atlas,記錄數(shù)據(jù)血緣和質量信息。3.數(shù)據(jù)處理層:數(shù)據(jù)清洗:使用SparkSQL過濾異常值(如支付金額為負)、填充缺失值(用戶年齡缺失時用眾數(shù)填充)、去重(同一用戶多次點擊同一商品);特征工程:構建用戶RFM(最近購買時間Recency、購買頻率Frequency、消費金額Monetary)、用戶偏好(高頻購買品類的TFIDF權重)、行為序列(點擊加購購買的轉化路徑);關鍵技術:SparkMLlib(特征提?。?、Pandas(離線特征處理)、FeatureStore(特征倉庫,統(tǒng)一管理特征)。4.建模層:分類模型:使用XGBoost預測用戶流失(標簽:30天未活躍),特征包括最近登錄時間、購物車留存率;聚類模型:Kmeans對用戶分群(高價值、潛力、流失),基于RFM和品類偏好;自然語言處理:LDA主題模型分析用戶評論,提取“物流慢”“質量差”等負面標簽;關鍵技術:TensorFlow(深度學習模型)、H2O.ai(自動化機器學習)、模型調優(yōu)(網(wǎng)格搜索、貝葉
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025年北京廣播電視臺校園招聘備考題庫完整答案詳解
- 廈門海峽投資有限公司2025年運營支持崗、軟件開發(fā)崗、商務崗社會招聘備考題庫及參考答案詳解
- 西南醫(yī)科大學附屬醫(yī)院2026年度第一輪人才招聘備考題庫及一套答案詳解
- 2025年生態(tài)實驗小學科技副校長招聘備考題庫完整參考答案詳解
- 2025年皖北煤電集團公司掘進工招聘備考題庫帶答案詳解
- 浙商銀行福州分行2025年招聘備考題庫附答案詳解
- 廣東省氣象部門2026年氣象類本科及以上高校畢業(yè)生廣州專場公開招聘備考題庫及參考答案詳解一套
- 2025年蓮湖區(qū)土門社區(qū)衛(wèi)生服務中心招聘備考題庫帶答案詳解
- 河北省2026年度定向選調生招錄備考題庫及一套參考答案詳解
- 理解寬容課件
- 冠心病的健康宣教及飲食指導
- 2025年全國礦山安全生產(chǎn)事故情況
- 船舶安全獎懲管理制度
- 印刷ctp制版管理制度
- T-CWAN 0063-2023 焊接數(shù)值模擬熱彈塑性有限元方法
- 2024鄂爾多斯市東勝國有資產(chǎn)投資控股集團有限公司招聘26人筆試參考題庫附帶答案詳解
- 外研版(三起)(2024)三年級下冊英語Unit 5 單元測試卷(含答案)
- 幼兒園防食物中毒安全主題
- 我的家鄉(xiāng)四川南充
- 市場拓展與銷售渠道拓展方案
- 工地大門施工協(xié)議書
評論
0/150
提交評論