版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
2025年大數(shù)據(jù)數(shù)學(xué)考試題及答案一、單項選擇題(每題4分,共40分。每題只有一個正確答案,請將正確選項字母填入括號內(nèi))1.設(shè)矩陣A=[[2,1],[1,3]],則A的跡為A.2??B.3??C.5??D.6答案:C2.給定隨機變量X~N(0,1),則P(|X|≤1.96)的近似值為A.0.90??B.0.95??C.0.975??D.0.99答案:B3.在Hadoop分布式文件系統(tǒng)HDFS中,默認(rèn)塊大小為A.32MB??B.64MB??C.128MB??D.256MB答案:C4.設(shè)向量v=[1,2,3],則其L2范數(shù)為A.3??B.6??C.sqrt(14)??D.14答案:C5.若邏輯回歸模型使用sigmoid函數(shù),則其輸出范圍是A.(∞,+∞)??B.[0,1]??C.[1,1]??D.[0,+∞)答案:B6.在Spark中,RDD的transformation操作的特點是A.立即執(zhí)行??B.惰性求值??C.觸發(fā)磁盤寫入??D.觸發(fā)網(wǎng)絡(luò)傳輸答案:B7.給定樣本{x1,x2,...,xn},其樣本方差的無偏估計公式中分母為A.n??B.n1??C.n+1??D.2n答案:B8.若關(guān)聯(lián)規(guī)則的支持度為5%,置信度為60%,則下列說法正確的是A.規(guī)則在5%的事務(wù)中同時出現(xiàn)前件和后件B.規(guī)則在60%的事務(wù)中出現(xiàn)前件C.規(guī)則在5%的事務(wù)中出現(xiàn)后件D.規(guī)則在60%的事務(wù)中同時出現(xiàn)前件和后件答案:A9.在PageRank算法中,阻尼系數(shù)d通常取A.0.5??B.0.65??C.0.85??D.0.95答案:C10.若時間序列模型ARIMA(1,1,1)中AR系數(shù)為0.6,MA系數(shù)為0.4,則其特征方程的常數(shù)項為A.0.6??B.0.4??C.1??D.0答案:D二、多項選擇題(每題5分,共30分。每題有兩個或兩個以上正確答案,請將所有正確選項字母填入括號內(nèi),漏選、錯選均不得分)11.下列屬于Hadoop生態(tài)圈的組件有A.Hive??B.HBase??C.Kafka??D.ZooKeeper??E.Spring答案:ABCD12.關(guān)于主成分分析PCA,下列說法正確的有A.主成分方向是協(xié)方差矩陣的特征向量B.主成分方差按降序排列C.主成分之間一定正交D.主成分?jǐn)?shù)量可以大于原始變量數(shù)E.主成分分析可用于降噪答案:ABCE13.在梯度下降優(yōu)化中,以下方法可以加速收斂的有A.動量法??B.AdaGrad??C.Adam??D.隨機梯度下降??E.批量梯度下降答案:ABC14.下列屬于NoSQL數(shù)據(jù)庫的有A.MongoDB??B.Redis??C.Neo4j??D.PostgreSQL??E.Cassandra答案:ABCE15.關(guān)于kmeans聚類,下列說法正確的有A.需要預(yù)先指定簇數(shù)kB.對初始中心點敏感C.使用歐氏距離度量D.對異常值魯棒E.可能收斂到局部最優(yōu)答案:ABCE16.在深度學(xué)習(xí)卷積神經(jīng)網(wǎng)絡(luò)中,以下操作可以減小特征圖尺寸的有A.卷積??B.池化??C.填充??D.步長大于1的卷積??E.反卷積答案:BD三、填空題(每題5分,共30分。請將最終答案填入橫線,無需給出中間過程)17.若矩陣B=[[4,2],[2,1]],則其行列式det(B)=______。答案:018.給定樣本均值x?=10,樣本標(biāo)準(zhǔn)差s=2,樣本量n=100,則其均值標(biāo)準(zhǔn)誤為______。答案:0.219.在Spark中,通過代碼行valrdd2=rdd1.map(x=>xx)得到的rdd2的分區(qū)數(shù)與rdd1的分區(qū)數(shù)關(guān)系為______(填“相等”或“不相等”)。答案:相等20.若邏輯回歸的似然函數(shù)為L(θ),則通常取其對數(shù)并最大化,等價于最小化負(fù)對數(shù)似然,該負(fù)對數(shù)似然常被稱為______損失。答案:交叉熵21.設(shè)隨機森林由500棵決策樹組成,對某樣本分類時,有400棵樹預(yù)測為類別A,100棵預(yù)測為類別B,則隨機森林最終預(yù)測概率P(A)=______。答案:0.822.在HiveQL中,將表employee按字段dept分區(qū)并創(chuàng)建外部表的語句中,關(guān)鍵字PARTITIONEDBY后應(yīng)寫______。答案:deptstring四、簡答題(封閉型,每題10分,共40分。請給出關(guān)鍵步驟與最終答案)23.給定二維數(shù)據(jù)集D={(1,2),(2,3),(3,5),(4,4),(5,6)},試用最小二乘法求線性回歸方程y=a+bx的系數(shù)a與b。答案:n=5,Σx=15,Σy=20,Σx2=55,Σxy=73x?=3,?=4b=(Σxynx??)/(Σx2nx?2)=(7360)/(5545)=13/10=1.3a=?bx?=41.33=0.1故回歸方程為y=0.1+1.3x24.說明MapReduce中combiner的作用,并指出其使用的前提條件。答案:combiner本質(zhì)為本地reducer,在map端局部聚合數(shù)據(jù),減少shuffle數(shù)據(jù)量;前提:聚合函數(shù)需滿足交換律與結(jié)合律,如sum、max,不適用于求均值。25.某電商用戶行為日志包含字段(user_id,item_id,behavior_type,timestamp),其中behavior_type含pv、buy、crt三類。請寫出HiveQL統(tǒng)計最近7天每個用戶的購買轉(zhuǎn)化率(購買次數(shù)/頁面瀏覽次數(shù)),要求過濾掉瀏覽次數(shù)小于10的用戶。答案:selectuser_id,sum(casewhenbehavior_type='buy'then1else0end)/sum(casewhenbehavior_type='pv'then1else0end)asbuy_ratefromuser_logwheretimestamp>=unix_timestamp(date_sub(current_date,7),'yyyyMMdd')groupbyuser_idhavingsum(casewhenbehavior_type='pv'then1else0end)>=10;26.設(shè)時間序列{x_t}滿足x_t=0.7x_{t1}+ε_t,其中ε_t~N(0,σ2)為白噪聲。求該AR(1)過程的自相關(guān)函數(shù)ρ(k)。答案:ρ(k)=0.7^|k|五、應(yīng)用題(計算類,每題15分,共45分。請給出詳細(xì)步驟、關(guān)鍵公式與最終數(shù)值結(jié)果)27.某社交平臺擁有1億用戶,好友關(guān)系存儲為無向圖,邊數(shù)50億?,F(xiàn)采用SparkGraphX計算每個用戶的二度鄰居數(shù)(即距離恰好為2的節(jié)點數(shù))。已知集群400核,內(nèi)存充足,GraphX采用邊分割。(1)寫出核心代碼片段;(2)估算迭代中shuffle數(shù)據(jù)量(以邊數(shù)為單位);(3)若每輪shuffle耗時3分鐘,迭代2輪,計算總耗時。答案:(1)importorg.apache.spark.graphx._valgraph:Graph[Int,Int]=GraphLoader.edgeListFile(sc,"hdfs://path/edges")valtwoHop=graph.aggregateMessages[Int](triplet=>{triplet.sendToDst(triplet.srcAttr);triplet.sendToSrc(triplet.dstAttr)},(a,b)=>a+b)valcounts=twoHop.join(graph.vertices).map{case(id,(twoHopCount,_))=>(id,twoHopCount)}(2)每點平均度d=25e9/1e8=100。二度鄰居上限d2=1e4,實際由于重疊約0.6d2=6000條消息/點,總消息量1e86000=6e11條,即6000億條消息,每條8字節(jié),約4.8TB。(3)兩輪shuffle耗時23=6分鐘。28.某城市出租車GPS數(shù)據(jù)每秒記錄一次,包含(taxi_id,timestamp,lon,lat,載客狀態(tài))。給定20250601全天數(shù)據(jù)2TB,存儲于HDFS,塊大小128MB,共16384塊。需計算每輛車的日運營里程(載客狀態(tài)=1的軌跡點間距之和)。(1)說明map與reduce的輸入輸出key/value設(shè)計;(2)給出map階段計算相鄰點距離的公式(使用Haversine,地球半徑R=6371km);(3)若采用512個reduce槽,預(yù)測reduce階段耗時(假設(shè)每處理1GB數(shù)據(jù)耗時1分鐘,reduce輸入壓縮比2:1)。答案:(1)map輸入:偏移量,行文本;輸出key:taxi_id,value:(timestamp,lon,lat,載客狀態(tài))。reduce輸入:taxi_id,列表[(ts,lon,lat,狀態(tài))];輸出:taxi_id,總里程。(2)對同一taxi_id按ts排序后,相鄰點(lat1,lon1),(lat2,lon2)距離d=2Rasin(sqrt(sin2((lat2lat1)/2)+cos(lat1)cos(lat2)sin2((lon2lon1)/2)))其中l(wèi)at、lon取弧度。(3)map輸出未壓縮約2TB,壓縮后reduce輸入1TB,512并發(fā),每reduce處理1TB/512≈1.95GB,耗時1.95分鐘,總耗時約2分鐘。29.某推薦系統(tǒng)使用隱語義模型ALS預(yù)測評分,已知用戶因子矩陣U∈R^{m×k},物品因子矩陣V∈R^{n×k},正則化參數(shù)λ=0.1,迭代中需更新用戶因子u_i。給定觀測評分r_ij∈{1,2,3,4,5},損失函數(shù)L=Σ_{(i,j)∈K}(r_iju_i·v_j)^2+λ||u_i||2求u_i的解析更新公式,并給出當(dāng)k=2,λ=0.1,用戶i有3條記錄:(j=10,r=4,v_10=[1,1]),(j=20,r=5,v_20=[2,0]),(j=30,r=3,v_30=[0,2])時,更新后的u_i數(shù)值結(jié)果(保留3位小數(shù))。答案:令V_i∈R^{k×|K_i|}為物品因子矩陣,R_i為評分向量,則u_i=(V_iV_i^T+λI)^{1}V_iR_i代入數(shù)據(jù):V_i=[[1,2,0],[1,0,2]],R_i=[4,5,3]^TV_iV_i^T=[[5,1],[1,5]]加正則:[[5.1,1],[1,5.1]]逆矩陣:1/(5.121)[[5.1,1],[1,5.1]]≈0.0406[[5.1,1],[1,5.1]]V_iR_i=[14,10]^Tu_i=0.0406[[5.11410],[14+5.110]]=0.0406[61.4,37]≈[2.493,1.502]故更新后u_i≈[2.493,1.502]六、應(yīng)用題(分析類,每題15分,共45分。請給出分析思路、關(guān)鍵圖表說明與結(jié)論)30.某視頻平臺每日新增50TB播放日志,字段含(user_id,video_id,play_duration,total_duration,dt)。運營方欲識別“刷量”行為,定義為:同一用戶單日對同一視頻播放次數(shù)≥100且平均播放完成度≤10%。(1)給出基于SQL的檢測邏輯;(2)說明如何在SparkSQL中避免數(shù)據(jù)傾斜;(3)若20250610檢測到異常記錄120萬條,涉及用戶3萬,視頻1萬,估算這些異常記錄占當(dāng)日總?cè)罩镜谋壤ūA?位小數(shù))。答案:(1)selectuser_id,video_id,dtfromlogsgroupbyuser_id,video_id,dthavingcount()>=100andavg(play_duration/total_duration)<=0.1;(2)加鹽:對(user_id,video_id)拼接隨機后綴[0,9]作為臨時鍵,先局部聚合,再去鹽二次聚合;或開啟SparkSQL的adaptivequeryexecution,自動拆分傾斜分區(qū)。(3)50TB≈5e10條記錄(假設(shè)每條1KB),異常1.2e6條,占比1.2e6/5e10=0.000024,即0.0024%。31.某市政府開放2025年公交IC卡數(shù)據(jù),字段(card_id,line_id,bus_id,swipe_time,station_id)。試設(shè)計一套大數(shù)據(jù)方案,估算任意兩站點間早高峰(7:009:00)平均旅行時間,要求:(1)給出數(shù)據(jù)清洗規(guī)則;(2)說明如何利用滑動窗口匹配同一卡號的上下車記錄;(3)給出最終輸出表schema與分區(qū)策略。答案:(1)清洗:過濾swipe_time非法格式;剔除station_id為null;按line_id、bus_id、swipe_time排序,去除重復(fù)記錄;剔除單次刷卡記錄(無法配對)。(2)對同一card_id按swipe_time排序,使用90分鐘滑動窗口,若相鄰記錄line_id相同且方向相反(上車→下車),則視為一對;計算時間差作為旅行時間。(3)輸出表schema:travel_time_fact(start_station_idstring,end_station_idstring,line_idstring,periodstring,'morning'avg_travel_mindouble,sample_sizebigint)分區(qū):按line_id、period二級分區(qū),桶按start_station_id分128桶,便于查詢。32.某金融機構(gòu)使用XGBoost訓(xùn)練信用卡欺詐檢測模型,正負(fù)樣本比例1:99,訓(xùn)練集1億條,特征500維。(1)說明如何調(diào)整scale_pos_weight以處理類別不平衡;(2)給出基于Spark分布式訓(xùn)練的參數(shù)設(shè)置(executor內(nèi)存、核心數(shù)、樹深度、節(jié)點數(shù));(3)若模型在測試集上AUC=0.97,但精確率僅5%,分析可能原因并提出改進(jìn)措施。答案:(1)scale_pos_weight=負(fù)樣本數(shù)/正樣本數(shù)=99。(2)參數(shù):executor內(nèi)存16GB,核心4,樹深度6,最大節(jié)點數(shù)2^6=64,使用200executors,subsample=0.8,colsample_bytree=0.8,learning_rate=0.1,rounds=200。(3)原因:閾值默認(rèn)0.5導(dǎo)致極低的precision;改進(jìn):調(diào)整閾值使precisionrecall曲線上recall=80%處取閾值,或采用代價敏感學(xué)習(xí),將欺詐誤判代價權(quán)重設(shè)為99,或使用FocalLoss重訓(xùn),或采用集成代價矩陣的自定義評估指標(biāo)earlystopping。七、綜合設(shè)計題(25分)33.某跨國電商計劃構(gòu)
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鞋類設(shè)計師操作規(guī)范知識考核試卷含答案
- 自來水筆制造工安全培訓(xùn)效果模擬考核試卷含答案
- 巷道掘砌工崗前決策判斷考核試卷含答案
- 自然水域救生員崗前工作標(biāo)準(zhǔn)化考核試卷含答案
- 煉焦工安全宣貫?zāi)M考核試卷含答案
- 玻璃及玻璃制品成型工創(chuàng)新意識競賽考核試卷含答案
- 2024年鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院輔導(dǎo)員考試參考題庫附答案
- 氧化擴(kuò)散工安全宣貫評優(yōu)考核試卷含答案
- 2025呼和浩特托克托縣招聘社區(qū)工作者及儲備人員筆試通知備考題庫附答案
- 燒結(jié)球團(tuán)原料工崗前基礎(chǔ)實戰(zhàn)考核試卷含答案
- 2026年重慶市江津區(qū)社區(qū)專職人員招聘(642人)筆試備考試題及答案解析
- 2026年思明區(qū)公開招聘社區(qū)工作者考試備考題庫及完整答案詳解1套
- 【四年級】【數(shù)學(xué)】【秋季上】期末家長會:數(shù)海引航愛伴成長【課件】
- 小學(xué)音樂教師年度述職報告范本
- 設(shè)備設(shè)施風(fēng)險分級管控清單
- 河南交通職業(yè)技術(shù)學(xué)院教師招聘考試歷年真題
- 污水管網(wǎng)工程監(jiān)理規(guī)劃修改
- (機構(gòu)動態(tài)仿真設(shè)計)adams
- 北京市社保信息化發(fā)展評估研究報告
- GB/T 8336-2011氣瓶專用螺紋量規(guī)
- GB/T 1048-2019管道元件公稱壓力的定義和選用
評論
0/150
提交評論