版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)專業(yè)考試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.在Hadoop生態(tài)中,負(fù)責(zé)資源管理與任務(wù)調(diào)度的組件是A.HDFS?B.YARN?C.MapReduce?D.Hive答案:B2.下列關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)湖的描述,正確的是A.數(shù)據(jù)湖只支持結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)倉庫SchemaonWrite,數(shù)據(jù)湖SchemaonReadC.數(shù)據(jù)湖必須基于關(guān)系型數(shù)據(jù)庫實(shí)現(xiàn)D.數(shù)據(jù)倉庫不支持ETL過程答案:B3.給定連續(xù)隨機(jī)變量X的密度函數(shù)f(x)=2x,0≤x≤1,則P(0.25≤X≤0.75)為A.0.25?B.0.375?C.0.5?D.0.625答案:B解析:∫0.25^0.752xdx=x^2|0.25^0.75=0.56250.0625=0.54.在Spark中,下列哪種操作屬于窄依賴A.groupByKey?B.reduceByKey?C.map?D.sortByKey答案:C5.使用Kmeans聚類時(shí),若初始中心點(diǎn)選擇不當(dāng),最可能導(dǎo)致的后果是A.收斂速度加快?B.聚類簇?cái)?shù)減少?C.陷入局部最優(yōu)?D.輪廓系數(shù)增大答案:C6.在Pythonpandas中,對(duì)DataFramedf按列col升序排序并返回新對(duì)象的正確寫法是A.df.sort("col")?B.df.sort_values("col",inplace=True)C.df_sorted=df.sort_values("col")?D.df.order("col")答案:C7.下列關(guān)于L1與L2正則化的說法,錯(cuò)誤的是A.L1可產(chǎn)生稀疏解?B.L2對(duì)異常值更魯棒C.L2正則項(xiàng)為λ∑|βj|?D.彈性網(wǎng)絡(luò)同時(shí)包含L1與L2答案:C8.在HiveQL中,用于將多行合并成一行的聚合函數(shù)是A.COLLECT_LIST?B.CONCAT?C.EXPLODE?D.LATERALVIEW答案:A9.若某頻繁項(xiàng)集的支持度計(jì)數(shù)為50,總事務(wù)數(shù)為1000,則支持度為A.0.02?B.0.05?C.0.1?D.0.5答案:B10.在TensorFlow2.x中,關(guān)閉eagerexecution的代碼是A.tf.disable_eager()?B.pat.v1.disable_eager_execution()C.tf.eager=False?D.無法關(guān)閉答案:B二、多項(xiàng)選擇題(每題3分,共15分,多選少選均不得分)11.下列屬于NoSQL數(shù)據(jù)庫的有A.MongoDB?B.HBase?C.Neo4j?D.PostgreSQL答案:ABC12.關(guān)于梯度消失問題,正確的緩解措施包括A.使用ReLU激活?B.采用BatchNorm?C.增大學(xué)習(xí)率?D.使用殘差連接答案:ABD13.在數(shù)據(jù)清洗過程中,處理缺失值可采用A.均值填充?B.前向填充?C.刪除缺失行?D.插值法答案:ABCD14.下列屬于時(shí)間序列預(yù)測(cè)評(píng)價(jià)指標(biāo)的有A.MAPE?B.RMSE?C.AUC?D.SMAPE答案:ABD15.在Kafka中,保證消息ExactlyOnce語義需依賴A.冪等Producer?B.事務(wù)API?C.消費(fèi)者異步提交?D.消費(fèi)者組重平衡答案:AB三、填空題(每空2分,共20分)16.在Linux中,查看當(dāng)前目錄下各子目錄磁盤使用情況的命令是________。答案:duhmaxdepth=117.若某決策樹使用基尼系數(shù)作為劃分標(biāo)準(zhǔn),則節(jié)點(diǎn)基尼系數(shù)計(jì)算公式為Gini=1∑(pi^2),其中pi表示第i類樣本占________的比例。答案:當(dāng)前節(jié)點(diǎn)18.在SQL中,窗口函數(shù)ROW_NUMBER()必須與________子句配合才能生成唯一序號(hào)。答案:OVER19.給定向量x=[1,2,3,4],其L2范數(shù)為________。答案:sqrt(1^2+2^2+3^2+4^2)=sqrt(30)20.在SparkMLlib中,使用________算法可自動(dòng)選擇最優(yōu)桶數(shù)進(jìn)行特征離散化。答案:QuantileDiscretizer21.若某電商網(wǎng)站日均PV為1億,保留30天原始日志,采用Snappy壓縮后單條日志平均0.5KB,則所需存儲(chǔ)空間約為________TB。答案:1e80.5KB30≈1.5e9KB≈1.4TB22.在Python中,使用________庫可調(diào)用C++編寫的CUDA核函數(shù)實(shí)現(xiàn)GPU加速。答案:Numba23.若隨機(jī)變量X~N(0,1),則P(|X|≤1.96)≈________。答案:0.9524.在HDFS中,默認(rèn)塊大小為________MB。答案:12825.在Elasticsearch中,實(shí)現(xiàn)近似聚合去重的數(shù)據(jù)結(jié)構(gòu)是________。答案:HyperLogLog四、判斷題(每題1分,共10分,正確寫“T”,錯(cuò)誤寫“F”)26.數(shù)據(jù)挖掘中的“過擬合”指模型在訓(xùn)練集上誤差較大。?答案:F27.Flink的Checkpoint機(jī)制基于ChandyLamport算法實(shí)現(xiàn)。?答案:T28.在PCA中,主成分方向?qū)?yīng)協(xié)方差矩陣特征值最小的特征向量。?答案:F29.GBDT與XGBoost均屬于Boosting家族算法。?答案:T30.Hive支持行級(jí)更新刪除從1.0版本開始。?答案:F31.在Python中,list的append操作時(shí)間復(fù)雜度為O(1)。?答案:T32.使用OneHot編碼后,特征維度一定等于原始類別數(shù)。?答案:F33.在Kafka中,partition數(shù)一旦創(chuàng)建不可動(dòng)態(tài)增加。?答案:F34.邏輯回歸使用sigmoid函數(shù)主要為了將輸出映射到0~1概率區(qū)間。?答案:T35.在Spark中,RDD的cache()默認(rèn)存儲(chǔ)級(jí)別為MEMORY_ONLY。?答案:T五、簡(jiǎn)答題(共25分)36.(封閉型,6分)簡(jiǎn)述MapReduce編程模型中Combiner的作用及使用條件。答案:Combiner是本地化的reduce操作,作用是在map端先做一次局部聚合,減少shuffle數(shù)據(jù)量,提升性能;使用條件:聚合函數(shù)必須滿足交換律和結(jié)合律,如sum、max,不適用于求均值等依賴全局分母的場(chǎng)景。37.(開放型,9分)某航空公司擁有過去5年乘客訂票、值機(jī)、延誤、投訴等數(shù)據(jù),請(qǐng)?jiān)O(shè)計(jì)一套旅客忠誠(chéng)度評(píng)分框架,說明數(shù)據(jù)來源、特征構(gòu)造、模型選擇及評(píng)估方法。答案:1)數(shù)據(jù)來源:CRM系統(tǒng)、航班動(dòng)態(tài)庫、會(huì)員系統(tǒng)、社交媒體文本;2)特征構(gòu)造:RFM(最近乘機(jī)間隔R、年乘機(jī)頻次F、年票價(jià)總額M)、延誤體驗(yàn)(平均延誤時(shí)長(zhǎng)、被延誤次數(shù))、服務(wù)互動(dòng)(投訴次數(shù)、表揚(yáng)次數(shù)、升艙次數(shù))、情感得分(NLP分析微博提及);3)模型選擇:采用XGBoost回歸預(yù)測(cè)未來一年乘機(jī)價(jià)值,輸出0~100忠誠(chéng)度分;4)評(píng)估:使用RMSE、MAE評(píng)價(jià)回歸精度;按忠誠(chéng)度分位分組,觀察未來一年實(shí)際乘機(jī)次數(shù)與金額的Lift曲線,驗(yàn)證模型區(qū)分度;結(jié)合SHAP值解釋關(guān)鍵影響因子,指導(dǎo)運(yùn)營(yíng)策略。38.(封閉型,5分)寫出使用Scala在Spark中讀取Parquet文件并統(tǒng)計(jì)某一列缺失值比例的代碼片段。答案:valdf=spark.read.parquet("hdfs://path/to/data.parquet")valnullCnt=df.selectExpr("sum(casewhencol_nameisnullthen1else0end)ascnt").first().getLong(0)valtotal=df.count()valratio=nullCnt.toDouble/total39.(開放型,5分)解釋“數(shù)據(jù)漂移”與“概念漂移”的區(qū)別,并給出各一種檢測(cè)方法。答案:數(shù)據(jù)漂移指輸入特征分布P(X)發(fā)生變化,但決策邊界不變;概念漂移指P(Y|X)發(fā)生變化,即特征與標(biāo)簽關(guān)系改變。檢測(cè)方法:數(shù)據(jù)漂移可用KolmogorovSmirnov檢驗(yàn)連續(xù)變量分布差異;概念漂移可用在線誤差率監(jiān)控,當(dāng)滑動(dòng)窗口內(nèi)分類錯(cuò)誤率顯著上升即觸發(fā)警報(bào)。六、計(jì)算與分析題(共40分)40.(計(jì)算類,10分)給定線性回歸模型y=β0+β1x1+β2x2,使用最小二乘法求解。已知設(shè)計(jì)矩陣X為[121;143;165],觀測(cè)向量y=[1;2;3]。求β=(X^TX)^(1)X^Ty。答案:X^TX=[3129;125642;94235](X^TX)^(1)=[5.251.1250.375;1.1250.31250.0625;0.3750.06250.0625]X^Ty=[6;26;20]β=[0;0.5;0.5]41.(分析類,10分)某電商推薦系統(tǒng)離線評(píng)估得到如下混淆矩陣:實(shí)際\預(yù)測(cè)正負(fù)正???400100負(fù)???2009300計(jì)算Precision、Recall、F1,并分析是否適合直接上線。答案:Precision=400/(400+200)=0.667Recall=400/(400+100)=0.8F1=20.6670.8/(0.667+0.8)=0.727雖然F1尚可,但負(fù)樣本極多,假正率FPR=200/(200+9300)=0.021,業(yè)務(wù)上若推薦位稀缺,需更高Precision,建議繼續(xù)優(yōu)化模型或調(diào)整閾值。42.(綜合類,20分)某市共享單車公司提供2024年全年訂單數(shù)據(jù)(字段:order_id,bike_id,user_id,start_time,start_lat,start_lng,end_time,end_lat,end_lng,price)。任務(wù):1)構(gòu)建“工作日早高峰(7:009:00)”出發(fā)熱點(diǎn)區(qū)域(500m×500m網(wǎng)格)識(shí)別流程,寫出PySpark核心代碼;2)給出熱點(diǎn)區(qū)域評(píng)價(jià)指標(biāo)并解釋;3)若發(fā)現(xiàn)熱點(diǎn)區(qū)域與地鐵口分布不一致,請(qǐng)分析可能原因并提出數(shù)據(jù)驗(yàn)證方案。答案:1)PySpark代碼:df=spark.read.csv("orders.csv",header=True,inferSchema=True)df=df.filter("dayofweek(start_time)between2and6")\.filter("hour(start_time)between7and8")df=df.withColumn("start_x",(col("start_lng")1000).cast("int")/500)\.withColumn("start_y",(col("start_lat")1000).cast("int")/500)hot=df.groupBy("start_x","start_y").count().orderBy(desc("count"))hot.write.csv("morning_hotspots")2)評(píng)價(jià)指標(biāo):a)訂單密度=網(wǎng)格訂單數(shù)/網(wǎng)格面積;b)滲透率=網(wǎng)格獨(dú)立用戶數(shù)/網(wǎng)格常住人口(需外部人口柵格數(shù)據(jù));c)潮汐指數(shù)=早高峰出發(fā)訂單數(shù)/晚高峰到達(dá)訂單數(shù),衡量供需平衡。3)不一致原因:數(shù)據(jù)漂移導(dǎo)致用戶習(xí)慣改變;地鐵口數(shù)據(jù)更新滯后;封閉施工導(dǎo)致臨時(shí)繞行。驗(yàn)證方案:a)采集地鐵閘機(jī)出站人數(shù)作為真值,計(jì)算熱點(diǎn)與出站人流的Pearson相關(guān);b)使用時(shí)空KDE對(duì)比連續(xù)三個(gè)月熱點(diǎn)演變,觀察是否向地鐵口回歸;c)問卷調(diào)查熱點(diǎn)區(qū)域用戶出發(fā)目的,驗(yàn)證通勤占比。七、編程與實(shí)現(xiàn)題(共20分)43.(編程類,20分)使用Python實(shí)現(xiàn)一個(gè)基于Streaming的實(shí)時(shí)WordCount,數(shù)據(jù)源為Kafka主題“news”,要求:1)采用Kafkapy或confluent庫消費(fèi);2)每10秒輸出一次窗口統(tǒng)計(jì)結(jié)果到控制臺(tái);3)過濾長(zhǎng)度小于3的單詞;4)給出完整可運(yùn)行代碼及運(yùn)行說明。答案:```pythonfromkafkaimportKafkaConsumerimportjsonfromcollectionsimportdefaultdictimporttimeconsumer=KafkaConsumer('news',bootstrap_servers='localhost:9092',value_deserializer=lambdam:json.loads(m.decode('utf8')),auto_offset_reset='latest')window=10secondscounter=defaultdict(int)start=time.time()formsginconsumer:te
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026廣西防城港市婦幼保健院人才招聘11人筆試參考題庫及答案解析
- 2025山東宋江武校招聘教師考試歷年真題匯編附答案
- 2025年安徽省瑯琊山礦業(yè)所屬子公司第一次招聘12人考前自測(cè)高頻考點(diǎn)模擬試題附答案
- 2025年中國(guó)郵政儲(chǔ)蓄銀行河北省分行社會(huì)招聘?jìng)淇碱}庫附答案
- 2025年大慶肇源縣上半年人才引進(jìn)50人 (公共基礎(chǔ)知識(shí))綜合能力測(cè)試題附答案
- 2025江蘇省蘇豪控股集團(tuán)招聘考試題庫附答案
- 2025廣東湛江市坡頭區(qū)乾塘鎮(zhèn)人民政府招聘編外人員1人(公共基礎(chǔ)知識(shí))綜合能力測(cè)試題附答案
- 2025年舟山市定海區(qū)醫(yī)療集團(tuán)赴浙江中醫(yī)藥大學(xué)招聘醫(yī)學(xué)類畢業(yè)生2人備考題庫附答案
- 2025廣東惠州市龍門縣退役軍人事務(wù)局招聘編外人員2人(公共基礎(chǔ)知識(shí))綜合能力測(cè)試題附答案
- 2026中國(guó)建筑一局(集團(tuán))有限公司華中分局投資專員招聘1人筆試備考題庫及答案解析
- 消防維保計(jì)劃實(shí)施方案
- 有子女離婚協(xié)議書
- 北京市2025-2026學(xué)年高二(上)期末物理適應(yīng)卷C(含答案)
- 2026年黑龍江高職單招考試高考語文試卷試題(含答案)
- 完整版老舊小區(qū)改造工程施工組織設(shè)計(jì)方案
- 全球隱球菌病指南(2024版):診斷與管理課件
- 市場(chǎng)營(yíng)銷策劃實(shí)踐實(shí)習(xí)報(bào)告范例
- 山西省2026屆高三第一次八省聯(lián)考地理(T8聯(lián)考)(含答案)
- 2026年中央廣播電視總臺(tái)招聘124人備考筆試題庫及答案解析
- 四川水利安全b證考試試題及答案
- 2626《藥事管理與法規(guī)》國(guó)家開放大學(xué)期末考試題庫
評(píng)論
0/150
提交評(píng)論