版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025年數(shù)據(jù)科學與工程專升本大數(shù)據(jù)分析試卷(含答案)一、單項選擇題(每題2分,共20分。每題只有一個正確答案,請將正確選項字母填入括號內(nèi))1.在HDFS中,默認的塊大小為A.32MB?B.64MB?C.128MB?D.256MB答案:C2.下列關(guān)于MapReduceshuffle階段的說法正確的是A.所有map輸出直接寫入磁盤?B.reduce任務從本地磁盤拉取數(shù)據(jù)C.combiner一定在map端執(zhí)行?D.partitioner決定哪條記錄進入哪個reduce答案:D3.在Spark中,下列哪種操作屬于窄依賴A.groupByKey?B.distinct?C.map?D.sortByKey答案:C4.若某電商用戶行為日志包含字段(user_id,item_id,behavior,ts),現(xiàn)需統(tǒng)計每個用戶最后一次行為的時間,SQL寫法正確的是A.selectuser_id,max(ts)fromloggroupbyuser_idB.selectuser_id,tsfromlogorderbytsdesclimit1C.selectuser_id,last(ts)fromloggroupbyuser_idD.selectuser_id,top(1,ts)fromloggroupbyuser_id答案:A5.在Pythonpandas中,對DataFramedf按列col升序排序并返回新DataFrame的語句是A.df.sort('col')?B.df.sort_values('col')?C.df.order('col')?D.df.sorted('col')答案:B6.使用Kmeans時,若初始中心點選擇不當導致空簇,可采取的補救措施是A.降低k值?B.隨機重選一個非空簇中心替代?C.增加迭代次數(shù)?D.提高收斂閾值答案:B7.在Hive中,下列函數(shù)可用于將字符串轉(zhuǎn)為時間戳的是A.to_date?B.unix_timestamp?C.from_unixtime?D.date_format答案:B8.若某分類模型在測試集上召回率為0.9,精確率為0.8,則F1值為A.0.72?B.0.85?C.0.81?D.0.84答案:B解析:F1=20.90.8/(0.9+0.8)≈0.859.在Kafka中,負責將消息均衡地分發(fā)到各個分區(qū)的組件是A.Producer?B.Consumer?C.Broker?D.ZooKeeper答案:A10.下列關(guān)于HBase的描述錯誤的是A.列式存儲?B.強一致性?C.支持SQL全文索引?D.自動分區(qū)答案:C二、多項選擇題(每題3分,共15分。每題有兩個或兩個以上正確答案,多選少選均不得分)11.下列屬于NoSQL數(shù)據(jù)庫的有A.MongoDB?B.Redis?C.Oracle?D.Cassandra答案:ABD12.在特征工程中,可用于處理高基數(shù)類別變量的方法有A.目標編碼?B.留一編碼?C.獨熱編碼?D.哈希編碼答案:ABD13.下列哪些指標可用于評估回歸模型A.MAE?B.RMSE?C.AUC?D.R2答案:ABD14.關(guān)于SparkSQL的Catalyst優(yōu)化器,正確的有A.使用規(guī)則優(yōu)化?B.支持代價估算?C.生成Java字節(jié)碼?D.支持列式存儲下推答案:ABD15.在Pythonsklearn中,可用于防止過擬合的策略有A.增加max_depth?B.減小min_samples_split?C.使用min_samples_leaf?D.采用交叉驗證答案:CD三、填空題(每空2分,共20分)16.在Linux中,查看當前目錄下各子目錄磁盤使用情況的命令是duhmaxdepth=117.在SQL中,窗口函數(shù)row_number()over(partitionbyuser_idorderbytsdesc)的作用是為每個用戶按時間倒序生成行號18.若某決策樹使用基尼系數(shù)作為劃分標準,則節(jié)點基尼系數(shù)計算公式為1Σ(p_i2),其中p_i為第i類樣本占比19.在Spark中,將RDD轉(zhuǎn)為DataFrame需導入SparkSession并調(diào)用createDataFrame方法20.若某電商訂單表order(o_id,u_id,amt,dt)需計算2024年累計銷售額,可用SQL:selectsum(amt)fromorderwheredtbetween'20240101'and'20241231'21.在Hive中,設(shè)置動態(tài)分區(qū)模式為非嚴格模式的語句是sethive.exec.dynamic.partition.mode=nonstrict22.在Python中,使用numpy將數(shù)組a按行標準化的代碼為(aa.mean(axis=1,keepdims=True))/a.std(axis=1,keepdims=True)23.若某GBDT模型學習率為0.05,共迭代200棵樹,則整體Shrinkage因子為0.0524.在Kafka中,消費者組重新均衡的觸發(fā)條件之一是新消費者加入或離開25.在HBase中,RowKey設(shè)計應避免熱點現(xiàn)象,常用手段是加鹽或反轉(zhuǎn)時間戳四、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)26.HDFS的NameNode內(nèi)存大小與文件數(shù)量無關(guān)。?×27.Spark的DAG調(diào)度器在遇到shuffle寬依賴時會劃分Stage。?√28.在邏輯回歸中,使用L2正則化可以得到稀疏解。?×29.時間序列分解中,乘法模型適用于季節(jié)波動隨趨勢增長而增大的場景。?√30.Hive支持事務的表必須分桶且存儲格式為ORC。?√31.在Python中,pandas的merge函數(shù)默認采用inner連接。?√32.Kafka的partition數(shù)一旦創(chuàng)建便不可擴容。?×33.在Kudu中,主鍵列可以更新。?×34.使用PCA降維時,主成分方向由協(xié)方差矩陣的特征向量決定。?√35.在SparkStreaming中,DStream的滑動窗口寬度必須是批間隔的整數(shù)倍。?√五、簡答題(共25分)36.(封閉型,6分)簡述MapReduce中combiner與reducer的區(qū)別,并給出適用條件。答案:1.執(zhí)行位置:combiner在map端本地執(zhí)行,reducer在reduce端全局執(zhí)行。2.輸入數(shù)據(jù):combiner輸入為單個map輸出,reducer輸入為所有map輸出經(jīng)分區(qū)后的數(shù)據(jù)。3.功能:combiner為局部聚合,減少網(wǎng)絡(luò)IO;reducer為全局聚合,產(chǎn)生最終結(jié)果。適用條件:聚合函數(shù)滿足交換律和結(jié)合律,如sum、max;平均值不適用,除非特殊處理。37.(開放型,7分)某視頻平臺每日新增播放日志約500GB,需實時統(tǒng)計過去1小時各頻道播放量Top10。請給出技術(shù)選型與核心實現(xiàn)思路。答案:技術(shù)選型:Kafka+Flink+Redis。實現(xiàn)思路:1.日志經(jīng)Filebeat采集寫入Kafka,partition按頻道ID哈希,保證同一頻道數(shù)據(jù)有序。2.Flink作業(yè)使用滾動窗口(長度1小時,滑動步長1分鐘),窗口函數(shù)采用AggregateFunction預聚合,狀態(tài)存儲在RocksDB。3.窗口觸發(fā)后,將各頻道播放量寫入RedisSortedSet,key為“channel_top10:窗口結(jié)束時間”,score為播放量,利用zrevrange獲取Top10。4.提供REST接口讀取Redis,延遲控制在秒級。5.容錯:Flink啟用checkpoint,Kafka啟用冪等寫入,保證ExactlyOnce。38.(封閉型,6分)給出使用Pythonsklearn構(gòu)建隨機森林并輸出特征重要性的完整代碼片段(含訓練、預測、評估)。答案:fromsklearn.ensembleimportRandomForestClassifierfromsklearn.metricsimportaccuracy_scoreimportpandasaspdX_train=pd.read_csv('x_train.csv')y_train=pd.read_csv('y_train.csv').values.ravel()X_test=pd.read_csv('x_test.csv')y_test=pd.read_csv('y_test.csv').values.ravel()clf=RandomForestClassifier(n_estimators=300,max_depth=10,random_state=42,n_jobs=1)clf.fit(X_train,y_train)y_pred=clf.predict(X_test)print('Accuracy:',accuracy_score(y_test,y_pred))importances=clf.feature_importances_pd.Series(importances,index=X_train.columns).sort_values(ascending=False).to_csv('feat_importance.csv')39.(開放型,6分)說明冷啟動場景下如何為無行為的新用戶推薦商品,并給出可落地的數(shù)據(jù)方案。答案:1.利用注冊信息:性別、年齡、地域、設(shè)備、渠道,構(gòu)建用戶畫像向量。2.內(nèi)容畫像:商品類別、品牌、價格段、關(guān)鍵詞標簽,用TFIDF或BERT編碼。3.計算畫像相似:將用戶畫像與商品畫像做余弦相似,取TopN。4.利用外部數(shù)據(jù):手機號段推測消費能力,天氣API推測需求(如羽絨服)。5.探索策略:多臂老虎機εgreedy,初始用相似推薦,后續(xù)根據(jù)點擊反饋更新。6.數(shù)據(jù)方案:注冊日志→Kafka→FlinkCEP→實時寫入Redis畫像表;商品畫像每日批量更新;推薦服務調(diào)用Redis與畫像服務,延遲<100ms。六、計算與分析題(共30分)40.(計算題,10分)某電商2024年3月銷售數(shù)據(jù)如下表(單位:萬元):日期?銷售額3.1?1203.2?1323.3?1453.4?1383.5?1553.6?1703.7?185采用3日移動平均法預測3.8銷售額,并計算平均絕對誤差(MAE)作為3.13.7的擬合評估。答案:預測3.8=(155+170+185)/3=170擬合值:3.4預測=(120+132+145)/3=132,誤差|138132|=63.5預測=(132+145+138)/3=138.3,誤差|155138.3|=16.73.6預測=(145+138+155)/3=146,誤差|170146|=243.7預測=(138+155+170)/3=154.3,誤差|185154.3|=30.7MAE=(6+16.7+24+30.7)/4=77.4/4=19.35萬元41.(分析題,10分)給定用戶購買流水(user_id,sku_id,qty,price,order_date),請用SQL計算2024年每個用戶的首單與末單間隔天數(shù)、首單金額、末單金額,并指出如何優(yōu)化大表(10億行)計算性能。答案:SQL:selectuser_id,datediff(max(order_date),min(order_date))asspan_days,sum(casewhenorder_date=first_datethenqtypriceelse0end)asfirst_amt,sum(casewhenorder_date=last_datethenqtypriceelse0end)aslast_amtfrom(select,min(order_date)over(partitionbyuser_id)asfirst_date,max(order_date)over(partitionbyuser_id)aslast_datefromorder_detailwhereyear(order_date)=2024)tgroupbyuser_id;優(yōu)化:1.分區(qū)表:按order_date做范圍分區(qū),按user_id做哈希分桶。2.列式存儲:ORC+bloomfilteronuser_id。3.統(tǒng)計信息:ANALYZETABLE收集min/max。4.并行度:sethive.exec.reducers.bytes.per.reducer=256MB。5.中間結(jié)果壓縮:snappy。42.(綜合題,10分)某市地鐵閘機每分鐘上報一次乘客進出站記錄(card_id,station,status,ts)。請設(shè)計離線+實時混合架構(gòu),計算任意兩站間高峰期(7:009:00)平均行程時間,并給出核心公式、離線表結(jié)構(gòu)、實時狀態(tài)管理、最終合并邏輯。答案:1.核心公式:行程時間=出站ts進站ts,按(進站站,出站站)分組求平均。2.離線表結(jié)構(gòu):trip_fact(enter_station,exit_station,enter_ts,exit_ts,travel_sec)分區(qū):dtstring,hourstring,存儲格式ORC。3.離線計算:每日T+1用SparkSQL清洗:selecta.stationasenter_station,b.stationasexit_station,a.tsasenter_ts,b.tsasexit_ts,unix_timestamp(b.ts)unix_timestamp(a.ts)astravel_secfromswipeajoinswipebona.card_id=b.card_idwherea.status='in'andb.status='out'anda.tsbetween'yyyymmdd07:00:00'and'yyyymmdd09:00:00'andb.tsbetweena.tsanda.ts+interval3hours;結(jié)果寫入trip_fact。4.實時狀態(tài)管理:FlinkCEP維護MapState<card_id,enter_info>,keyBycard_id,收到出站記錄即計算travel_sec,輸出到Kafkatopic:realtime_trip。5.實時表:trip_rt(enter_station,exit_station,travel_sec,proc_time)存儲于Redisstream,窗口1分鐘聚合平均。6.合并邏輯:API層按(enter,exit)查詢:if當日then取trip_rt實時平均+歷史同期trip_fact加權(quán)平均;else取trip_fact。權(quán)重:實時樣本數(shù)/(實時樣本數(shù)+100),保證冷啟動平滑。七、設(shè)計題(共20分)43.(系統(tǒng)設(shè)計,20分)某頭部社交平臺擬建設(shè)“用戶興趣圖譜”中臺,支持億級用戶、千萬級標簽,提供<50ms的實時查詢。請完成:(1)給出整體架構(gòu)圖文字描述(禁止插圖);(2)說明圖存儲模型、點邊設(shè)計、權(quán)重更新公式;(3)給出實時導入與批量補全的兩條數(shù)據(jù)流;(4)說明如何支持多跳查詢(如用戶A→興趣→用戶B)并保證延遲;(5)給出容災與擴容方案。答案:(1)架構(gòu):LogAgent→Kafka→Flink→NebulaGraph集群;離線Hive數(shù)倉每日Snapshot→SparkGraphX→NebulaGraphBulkLoad;查詢層:GraphService
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年餐廳主管筆試餐廳員工獎懲制度制定與執(zhí)行實務練習題及答案
- 2026年高危行業(yè)安全生產(chǎn)管理制度考核實施重難點辦法及解析
- 護肝知識科普
- 人工智能A股投資機會與風險
- 企業(yè)網(wǎng)絡(luò)安全防護技術(shù)產(chǎn)業(yè)生態(tài)建設(shè)指南
- 2026年口腔醫(yī)療管理公司員工晉升與調(diào)崗管理制度
- 軟環(huán)境集中整治活動整改方案
- 2026年劇本殺運營公司品牌故事傳播管理制度
- 環(huán)保包裝設(shè)備生產(chǎn)項目2025年智能化環(huán)保包裝機械技術(shù)創(chuàng)新可行性分析報告
- 2026年教育行業(yè)智慧校園建設(shè)報告
- 教育培訓行業(yè)培訓師績效考核表
- 2026年度哈爾濱市第一專科醫(yī)院公開招聘編外合同制工作人員51人筆試備考試題及答案解析
- 中國外運招聘筆試題庫2026
- 2026年戶外綠化養(yǎng)護合同協(xié)議
- 賽事委托協(xié)議書
- 農(nóng)資聘用合同范本
- 2025年度呼吸內(nèi)科護士長述職報告
- 內(nèi)蒙古鄂爾多斯一中2026屆高一化學第一學期期末聯(lián)考模擬試題含解析
- 醫(yī)療器械研究者手冊模板
- 射孔取心工崗前理論評估考核試卷含答案
- 二十屆四中全會測試題及參考答案
評論
0/150
提交評論