2025年大數(shù)據(jù)分析師專業(yè)素質測評試題及答案_第1頁
2025年大數(shù)據(jù)分析師專業(yè)素質測評試題及答案_第2頁
2025年大數(shù)據(jù)分析師專業(yè)素質測評試題及答案_第3頁
2025年大數(shù)據(jù)分析師專業(yè)素質測評試題及答案_第4頁
2025年大數(shù)據(jù)分析師專業(yè)素質測評試題及答案_第5頁
已閱讀5頁,還剩17頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025年大數(shù)據(jù)分析師專業(yè)素質測評試題及答案一、單項選擇題(每題1分,共20分。每題只有一個正確答案,請將正確選項字母填入括號內)1.在Hadoop生態(tài)中,負責資源管理與任務調度的組件是()A.HDFS??B.YARN??C.MapReduce??D.Hive答案:B2.下列關于數(shù)據(jù)倉庫與數(shù)據(jù)湖的說法,正確的是()A.數(shù)據(jù)倉庫只能存儲結構化數(shù)據(jù)B.數(shù)據(jù)湖不支持SchemaonReadC.數(shù)據(jù)倉庫通常采用星型或雪花模型D.數(shù)據(jù)湖不支持事務一致性答案:C3.在Spark中,RDD的哪一類操作會觸發(fā)實際的分布式計算()A.map??B.filter??C.reduceByKey??D.persist答案:C4.使用Python進行缺失值處理時,pandas中dropna方法默認刪除()A.含有任何缺失值的行??B.含有任何缺失值的列C.全為缺失值的行??D.全為缺失值的列答案:A5.在Kafka中,負責持久化消息并保證順序的單元是()A.Broker??B.Topic??C.Partition??D.ConsumerGroup答案:C6.下列算法中,屬于無監(jiān)督學習的是()A.XGBoost??B.KMeans??C.RandomForest??D.LogisticRegression答案:B7.在SQL優(yōu)化中,最能夠顯著減少磁盤I/O的索引類型是()A.Bitmap索引??B.B+樹索引??C.Hash索引??D.聚簇索引答案:D8.使用Flink實現(xiàn)ExactlyOnce語義的核心機制是()A.異步快照+狀態(tài)回滾??B.兩階段提交??C.冪等寫入??D.事件時間窗口答案:A9.在A/B測試中,若顯著性水平α=0.05,檢驗功效1β=0.8,則第二類錯誤概率為()A.0.05??B.0.2??C.0.8??D.0.95答案:B10.下列關于數(shù)據(jù)傾斜的描述,錯誤的是()A.表現(xiàn)為少數(shù)節(jié)點處理大量數(shù)據(jù)B.可通過加鹽技術緩解C.必然導致內存溢出D.在Join階段易發(fā)生答案:C11.在Python中,使用sklearn的StandardScaler對訓練集fit后,對測試集應()A.重新fit??B.使用transform??C.同時fit_transform??D.不做處理答案:B12.在Hive中,開啟向量查詢執(zhí)行的核心參數(shù)是()A.hive.execution.engine??B.hive.vectorized.execution.enabledC.hive.cbo.enable??D.hive.optimize.index.filter答案:B13.下列關于ROC曲線的說法,正確的是()A.曲線越靠近左上角模型越差B.AUC=0.5表示模型無區(qū)分能力C.適用于多分類評估D.橫軸為召回率答案:B14.在Elasticsearch中,實現(xiàn)父子文檔關聯(lián)的字段類型是()A.nested??B.object??C.join??D.geo_point答案:C15.使用HBaseRowKey設計時,為避免熱點應優(yōu)先采用()A.自增ID??B.哈希前綴+時間戳??C.倒序時間戳??D.固定長度字符串答案:B16.在數(shù)據(jù)治理成熟度模型DAMADMBOK中,最高級是()A.Managed??B.Defined??C.Optimized??D.Repeatable答案:C17.下列關于L1與L2正則的描述,正確的是()A.L1更易產生稀疏解??B.L2又稱LassoC.L1不可用于特征選擇??D.L2對異常值更敏感答案:A18.在Airflow中,任務實例狀態(tài)為upstream_failed表示()A.自身代碼報錯??B.上游任務失敗C.被手動跳過??D.被調度器取消答案:B19.使用Tableau計算同比增長率時,應優(yōu)先使用表計算函數(shù)()A.LOOKUP??B.WINDOW_SUM??C.RUNNING_SUM??D.RANK答案:A20.在數(shù)據(jù)倫理審查中,GDPR提出的“被遺忘權”對應法律條款是()A.Article5??B.Article6??C.Article17??D.Article30答案:C二、多項選擇題(每題2分,共20分。每題有兩個或兩個以上正確答案,多選、少選、錯選均不得分)21.下列屬于SparkSQL優(yōu)化策略的有()A.謂詞下推??B.列式存儲??C.代碼生成??D.動態(tài)資源池答案:A、B、C22.在Kafka中,保證消息順序需滿足的條件包括()A.單Partition??B.單Consumer實例C.生產者指定Key??D.開啟冪等生產者答案:A、C、D23.以下屬于時間序列異常檢測算法的有()A.SHESD??B.IsolationForest??C.Prophet+殘差控制圖??D.DBSCAN答案:A、B、C24.使用pandas進行數(shù)據(jù)合并時,支持的方式有()A.merge??B.join??C.concat??D.append答案:A、B、C、D25.在HDFS高可用架構中,ZKFC的作用包括()A.監(jiān)控NameNode健康??B.觸發(fā)主備切換C.管理JournalNode同步??D.維護Zookeeper分布式鎖答案:A、B、D26.下列屬于Flink窗口類型的有()A.Tumbling??B.Sliding??C.Session??D.Global答案:A、B、C、D27.在機器學習特征工程中,處理高基數(shù)類別變量的方法有()A.目標編碼??B.留一編碼??C.哈希編碼??D.Word2Vec答案:A、B、C28.下列關于數(shù)據(jù)血緣的說法,正確的有()A.可用于影響分析??B.支持字段級追溯C.依賴主動解析SQL??D.無法跨平臺采集答案:A、B、C29.在Python中,可用來實現(xiàn)模型解釋性可視化的庫有()A.SHAP??B.LIME??C.ELI5??D.Yellowbrick答案:A、B、C、D30.以下屬于數(shù)據(jù)安全脫敏技術的有()A.掩碼??B.加密??C.數(shù)據(jù)置換??D.差分隱私答案:A、B、C、D三、填空題(每空2分,共20分)31.在Hive中,將查詢結果保存為ORC格式并啟用壓縮的參數(shù)是___press___。答案:press32.使用sklearn.metrics計算F1分數(shù)時,若類別不平衡應設置參數(shù)___average='weighted'___。答案:average='weighted'33.在FlinkCEP中,定義連續(xù)事件模式的關鍵詞是___next___。答案:next34.在PostgreSQL中,實現(xiàn)遞歸查詢的關鍵字是___withrecursive___。答案:withrecursive35.在Linux中,查看磁盤I/O使用情況的常用命令是___iostatx1___。答案:iostatx136.在Scala中,Spark累加器的初始化函數(shù)為___SparkContext.accumulator(0)___。答案:SparkContext.accumulator(0)37.在Tableau中,將維度字段轉換為度量字段的快捷操作為___拖拽至度量區(qū)域或右鍵>轉換為度量___。答案:拖拽至度量區(qū)域或右鍵>轉換為度量38.在Elasticsearch集群中,默認發(fā)現(xiàn)機制使用端口號為___9300___。答案:930039.在Python中,使用joblib實現(xiàn)模型磁盤持久化的函數(shù)為___joblib.dump___。答案:joblib.dump40.在數(shù)據(jù)治理中,衡量數(shù)據(jù)準確性的指標通常用___ErrorRate=|錯誤記錄數(shù)|/|總記錄數(shù)|___表示。答案:ErrorRate=|錯誤記錄數(shù)|/|總記錄數(shù)|四、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)41.在Spark中,DataFrame的API性能一定低于RDD。(×)42.Kafka的ConsumerGroup內每個分區(qū)只能被一個消費者實例消費。(√)43.XGBoost不支持類別型特征直接輸入,必須做OneHot編碼。(×)44.在HBase中,刪除數(shù)據(jù)后立即執(zhí)行MajorCompaction可真正釋放磁盤空間。(√)45.使用Elasticsearch的match查詢時,默認運算符為OR。(√)46.在Python中,numpy的random.seed(42)可保證多線程結果可復現(xiàn)。(×)47.在Flink中,事件時間窗口必須搭配Watermark才能觸發(fā)計算。(√)48.數(shù)據(jù)湖一旦寫入就無法更新,只能追加。(×)49.在Tableau中,參數(shù)只能用于計算字段,不能作為篩選器。(×)50.在GDPR框架下,數(shù)據(jù)處理合法性的基礎包括“合法利益”。(√)五、簡答題(共30分)51.(封閉型,6分)簡述HDFS寫入流程中Packet隊列的作用,并說明其如何保障數(shù)據(jù)完整性。答案:客戶端將文件切分為Packet(默認64KB)后放入DataQueue隊列,DataStreamer線程異步將Packet發(fā)送給Pipeline中的第一個DataNode;每個DataNode收到后寫入本地磁盤并轉發(fā)給下游,同時把確認信息放入AckQueue。若某節(jié)點失敗,客戶端從AckQueue移除對應Packet并重新加入DataQueue,確保所有副本寫入成功后才從隊列移除,從而保障完整性。52.(開放型,8分)某電商公司日活2000萬,訂單表每日新增10億條,需構建實時數(shù)倉。請給出技術選型并說明理由,要求支持秒級延遲、可回滾、支持AdHoc查詢。答案:1.采集層:使用Kafka集群,按訂單ID哈希分區(qū),單Topic720Partition,保證并行度與順序。2.計算層:FlinkSQL提供ExactlyOnce,開啟Checkpoint到HDFS(10s間隔),使用RockDBStateBackend支持大狀態(tài)。3.存儲層:明細層寫入HBase+Phoenix,RowKey設計為哈希前綴+用戶ID+倒序時間戳,避免熱點;匯總層寫入ClickHouse,利用MergeTree引擎+物化視圖,實現(xiàn)秒級聚合;維度層用MySQL+Canal實時同步到Redis,提供低延遲維表Join。4.回滾機制:Flink保存點+Hive外部表分區(qū)回溯,重放Kafka指定位點。5.AdHoc:Presto統(tǒng)一查詢HBase、ClickHouse、Hive,通過自定義Connector下推謂詞,實現(xiàn)毫秒到秒級響應。6.資源隔離:使用YARN隊列+FlinkSlotGroup,保證實時任務與離線任務互不干擾。53.(封閉型,6分)給出一種在Spark中解決數(shù)據(jù)傾斜的加鹽方案,并說明如何還原結果。答案:對傾斜Key添加隨機前綴(0N),將原RDD拆分為N份,與同樣加鹽的維表擴容副本進行Join;Join完成后去掉前綴得到中間結果;對中間結果按原始Key聚合,若存在sum、count等場景,需二次聚合:sum(value)保持不變,count需累加;最終得到與未加鹽一致的結果。54.(開放型,10分)某金融風控模型訓練集正負樣本比例1:99,模型AUC=0.96,但上線后KS下降30%。請分析可能原因并提出改進方案。答案:原因:1.時間穿越:訓練集使用未來變量;2.樣本偏差:訓練集為人工審核樣本,分布與線上全量差異大;3.特征失效:關鍵變量在上線后被業(yè)務策略調整;4.標簽延遲:正樣本標簽未完全生成,導致線下虛高;5.概念漂移:宏觀經(jīng)濟變化導致用戶行為分布偏移。改進:1.重新采樣:采用時間外驗證(OOT),按月份滾動訓練驗證;2.拒絕推斷:對拒絕樣本使用HardNegativeMining+標簽擴散,修正分布;3.特征監(jiān)控:建立PSI(PopulationStabilityIndex)日報,PSI>0.2自動告警;4.模型更新:使用OnlineLearning(FTRL)每日增量更新;5.集成策略:XGBoost+深度學習Wide&Deep,融合后KS提升8%;6.灰度發(fā)布:采用ThompsonSampling動態(tài)探索,減少損失。六、應用題(共60分)55.(計算類,15分)某視頻平臺2024年12月1日全站DAU為1.2億,當日新增用戶180萬,次日留存率為46%,7日留存率為28%,30日留存率為14%。假設每日新增用戶恒定,且留存率穩(wěn)定。(1)計算2025年1月1日的DAU中,由2024年12月新增用戶貢獻的部分(精確到萬)。(2)若目標2025年1月整體DAU達到1.5億,且新增用戶不變,求平均30日留存率需提升多少個百分點。答案:(1)12月1日新增180萬,30日后即1月1日留存14%,貢獻180×0.14=25.2萬≈25萬。(2)設需提升x個百分點,則1月留存率為(14+x/100)。1月DAU=老用戶+新用戶。老用戶=1.2億180萬×14%=1.2億25.2萬≈1.1975億;新用戶貢獻=180萬×(14+x/100);總DAU=1.1975+0.018×(14+x)=1.5億解得x≈(1.51.1975)/0.01814≈16.814=2.8個百分點。56.(分析類,15分)給出某零售公司2024年四季度每日銷售額部分數(shù)據(jù)(單位:萬元):[3200,3100,3050,3000,2950,2980,3150,3400,3600,3800,4200,4500,4800,5100,5300,5500,5600,5400,5200,5000,4800,4600,4400,4300,4200,4100,4000,3900,3800,3700](1)使用3σ準則檢測異常日并列出日期索引(假設1日為起點)。(2)采用7日移動平均重新計算第15日銷售額預測值,并給出絕對誤差。答案:(1)均值μ=4333,σ≈753。上下界=4333±3×753→[2074,6592],所有數(shù)據(jù)均在界內,故無異常。(2)7日移動平均預測第15日=(8日到14日之和)/7=(3400+3600+3800+4200+4500+4800+5100)/7=4200;真實值5300,絕對誤差=|53004200|=1100萬元。57.(綜合類,30分)某市政府開放數(shù)據(jù)平臺提供出租車GPS與訂單數(shù)據(jù),字段包括:vehicle_id,order_id,lon,lat,timestamp,passenger_count,revenue。數(shù)據(jù)規(guī)模:2024年全年,約200億條,大小8TB,已存儲在HDFS(Parquet+Snappy)?,F(xiàn)需完成以下任務:a.計算每日早晚高峰(7:009:00,17:0019:00)平均載客里程與空駛率;b.識別并輸出2024年“黑車”嫌疑車輛Top100(定義:日均訂單>50且平均載客里程>40km,同時夜間(22:005:00)訂單占比>40%);c.將結果寫入ClickHouse并支持亞秒級可視化。請給出完整技術方案、核心SQL/代碼、性能優(yōu)化措施及資源評估。答案:1.技術方案:計算引擎:Spark3.4onYARN,動態(tài)資源分配,Executor4核16G×800,Driver16G;存儲:結果表ClickHouse本地MergeTree,分區(qū)字段dt+hour;調度:Airflow每日02:00啟動,依賴原始數(shù)據(jù)完整性信號。2.核心代碼:(1)讀取與過濾:df=spark.read.parquet("hdfs://ns/taxi/2024/.parquet")df=df.filter(hour("timestamp").isin([7,8,17,18]))(2)計算早晚高峰指標:frompyspark.sql.functionsimportrush=df.groupBy(to_date("timestamp").alias("dt"))\.agg(avg(when(passenger_count>0,sqrt(pow(lonlag(lon).over(Window.partitionBy("vehicle_id","order_id").orderBy("timestamp")),2)+pow(latlag(lat).over(...),2))111000)).alias("avg_dist_m"),sum(when(passenger_count==0,1).otherwise(0))/count("").alias("empty_rate"))(3)識別黑車:black=df.groupBy("vehicle_id")\.agg(countDistinct("order_id").alias("daily_order"),avg(when(hour("timestamp").isin([22,23,0,1,2,3,4,5]),1).otherwise(0)).alias("night_ratio"),

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論