版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年數(shù)據(jù)科學(xué)與大數(shù)據(jù)技術(shù)職業(yè)考試試題及答案一、單項(xiàng)選擇題(每題1分,共20分。每題只有一個(gè)正確答案,請(qǐng)將正確選項(xiàng)的字母填在括號(hào)內(nèi))1.在Hadoop生態(tài)中,負(fù)責(zé)資源管理與任務(wù)調(diào)度的組件是()A.HDFS??B.YARN??C.MapReduce??D.Hive答案:B2.下列關(guān)于數(shù)據(jù)湖描述正確的是()A.僅支持結(jié)構(gòu)化數(shù)據(jù)??B.schemaonwrite是其核心特征C.通常采用對(duì)象存儲(chǔ)保存原始數(shù)據(jù)??D.不支持流式數(shù)據(jù)攝入答案:C3.使用SparkSQL進(jìn)行連接操作時(shí),當(dāng)左表全部保留、右表無匹配時(shí)補(bǔ)NULL,應(yīng)選用的連接類型為()A.innerjoin??B.leftsemijoin??C.leftouterjoin??D.rightouterjoin答案:C4.在Pythonpandas中,對(duì)DataFramedf按列col升序排序并返回新對(duì)象的語句是()A.df.sort("col")??B.df.sort_values("col",inplace=True)C.df.sort_values("col")??D.df.order("col")答案:C5.下列算法中,屬于集成學(xué)習(xí)Bagging思想的是()A.AdaBoost??B.RandomForest??C.XGBoost??D.LightGBM答案:B6.在Kafka中,負(fù)責(zé)持久化消息并以順序?qū)懛绞奖WC高吞吐量的機(jī)制是()A.Partition??B.Segment??C.Offset??D.ISR答案:B7.若某電商用戶行為日志文件大小為2.7TB,采用HDFS默認(rèn)塊大小128MB存儲(chǔ),理論切塊數(shù)量約為()A.16875??B.21504??C.27000??D.13500答案:B8.在特征縮放中,RobustScaler相較于StandardScaler的優(yōu)勢(shì)在于()A.保留稀疏性??B.對(duì)異常值不敏感??C.計(jì)算速度更快??D.結(jié)果范圍固定在[0,1]答案:B9.使用Flink實(shí)現(xiàn)ExactlyOnce語義時(shí),關(guān)鍵機(jī)制不包括()A.Checkpoint??B.Twophasecommit??C.Statesnapshot??D.Atleastoncedelivery答案:D10.在Hive中,將分區(qū)表table_a的dt='20250501'分區(qū)刪除的語句為()A.DROPPARTITIONtable_a(dt='20250501');B.ALTERTABLEtable_aDROPPARTITION(dt='20250501');C.DELETEFROMtable_aWHEREdt='20250501';D.TRUNCATEtable_aPARTITION(dt='20250501');答案:B11.下列關(guān)于PCA說法錯(cuò)誤的是()A.主成分方向由協(xié)方差矩陣特征向量決定B.各主成分之間線性無關(guān)C.保留主成分?jǐn)?shù)量k越大,重構(gòu)誤差越大D.可用于高維數(shù)據(jù)可視化答案:C12.在Airflow中,用于等待外部任務(wù)觸發(fā)信號(hào)的對(duì)象是()A.BashOperator??B.Sensor??C.DAG??D.XCom答案:B13.當(dāng)使用LightGBM訓(xùn)練模型時(shí),為了處理類別特征,應(yīng)設(shè)置的參數(shù)為()A.categorical_feature??B.is_unbalance??C.max_cat_to_onehot??D.feature_fraction答案:A14.在SQL優(yōu)化中,能夠減少數(shù)據(jù)傾斜的Join技術(shù)是()A.Mapsidejoin??B.Shufflejoin??C.Broadcastjoin??D.Sortmergejoin答案:C15.某時(shí)間序列采用ARIMA(1,1,1)模型,其d=1表示()A.自回歸階數(shù)??B.移動(dòng)平均階數(shù)??C.差分次數(shù)??D.季節(jié)周期答案:C16.在Elasticsearch中,用于對(duì)text字段進(jìn)行中文分詞并支持自定義詞典的插件是()A.IK??B.Whitespace??C.Standard??D.Keyword答案:A17.下列關(guān)于數(shù)據(jù)倉(cāng)庫(kù)星型模型描述正確的是()A.事實(shí)表引用維度表主鍵??B.維度表必須規(guī)范化到3NFC.不存在退化維度??D.查詢性能通常低于雪花模型答案:A18.在Python中,使用multiprocessing模塊時(shí),能夠避免GIL限制并真正利用多核的類是()A.ThreadPool??B.ProcessPool??C.Queue??D.Lock答案:B19.在推薦系統(tǒng)冷啟動(dòng)問題中,利用用戶注冊(cè)信息(年齡、性別)進(jìn)行推薦屬于()A.物品冷啟動(dòng)??B.系統(tǒng)冷啟動(dòng)??C.用戶冷啟動(dòng)??D.模型冷啟動(dòng)答案:C20.在數(shù)據(jù)治理元數(shù)據(jù)管理中,描述“字段含義、業(yè)務(wù)口徑”的元數(shù)據(jù)屬于()A.技術(shù)元數(shù)據(jù)??B.操作元數(shù)據(jù)??C.業(yè)務(wù)元數(shù)據(jù)??D.管理元數(shù)據(jù)答案:C二、多項(xiàng)選擇題(每題2分,共20分。每題有兩個(gè)或兩個(gè)以上正確答案,多選、少選、錯(cuò)選均不得分)21.下列屬于NoSQL數(shù)據(jù)庫(kù)CAP理論中“分區(qū)容錯(cuò)性”實(shí)際必須滿足的原因包括()A.網(wǎng)絡(luò)故障不可避免??B.硬件故障常態(tài)化??C.一致性可事后補(bǔ)償??D.可用性可降級(jí)答案:AB22.在Spark作業(yè)提交參數(shù)中,能夠控制Executor內(nèi)存大小的參數(shù)有()A.spark.executor.memory??B.spark.executor.coresC.spark.driver.memory??D.spark.default.parallelism答案:AC23.下列屬于FlinkTime概念的有()A.ProcessingTime??B.EventTime??C.IngestionTime??D.WindowTime答案:ABC24.關(guān)于數(shù)據(jù)傾斜,下列緩解手段正確的有()A.兩階段聚合(局部聚合+全局聚合)??B.增加Reduce并行度C.使用隨機(jī)前綴拼接key??D.將熱點(diǎn)key單獨(dú)處理答案:ACD25.在Pythonsklearn中,可用于特征選擇的模塊包括()A.SelectKBest??B.RFE??C.VarianceThreshold??D.PCA答案:ABC26.下列屬于Hive文件格式且支持列式存儲(chǔ)的有()A.TextFile??B.ORC??C.Parquet??D.SequenceFile答案:BC27.在數(shù)據(jù)安全脫敏技術(shù)中,能夠保持?jǐn)?shù)據(jù)分布特征的技術(shù)有()A.掩碼??B.哈希??C.擾動(dòng)??D.同態(tài)加密答案:CD28.下列屬于Docker核心概念的有()A.Image??B.Container??C.Registry??D.Namespace答案:ABC29.在A/B測(cè)試評(píng)估指標(biāo)中,屬于比率型指標(biāo)的有()A.點(diǎn)擊率??B.人均GMV??C.轉(zhuǎn)化率??D.留存率答案:ACD30.下列關(guān)于數(shù)據(jù)資產(chǎn)目錄功能描述正確的有()A.數(shù)據(jù)血緣展示??B.權(quán)限申請(qǐng)入口??C.質(zhì)量評(píng)分可視化??D.數(shù)據(jù)成本分?jǐn)偞鸢福篈BCD三、填空題(每空1分,共20分)31.在Linux中,查看當(dāng)前目錄下各子目錄磁盤占用大小的命令是duhmaxdepth=132.HDFS默認(rèn)副本數(shù)為333.在SQL窗口函數(shù)中,用于指定分組后排序的關(guān)鍵詞是PARTITIONBY34.在Python中,使用pandas將字符串轉(zhuǎn)為日期類型的函數(shù)是to_datetime35.在機(jī)器學(xué)習(xí)評(píng)價(jià)指標(biāo)中,F(xiàn)1score的數(shù)學(xué)表達(dá)式為2(precisionrecall)/(precision+recall)36.SparkRDD的五大特征包括:分區(qū)列表、計(jì)算函數(shù)、依賴關(guān)系、分區(qū)器、首選位置37.KafkaConsumer采用pull模式獲取消息38.在數(shù)據(jù)可視化中,表示數(shù)據(jù)分布偏態(tài)的三階矩稱為偏度39.使用Elasticsearch創(chuàng)建索引時(shí),設(shè)置分片數(shù)量的參數(shù)為number_of_shards40.在Git中,將暫存區(qū)文件提交到本地倉(cāng)庫(kù)的命令是gitcommitm"message"41.在數(shù)據(jù)質(zhì)量管理中,Completeness指標(biāo)用于衡量數(shù)據(jù)缺失程度42.在Python中,使用conda創(chuàng)建名為env_ds的虛擬環(huán)境的命令是condacreatenenv_dspython=3.1043.在Hive中,將查詢結(jié)果插入本地目錄的語法關(guān)鍵詞為L(zhǎng)OCAL44.在FlinkCEP庫(kù)中,定義連續(xù)事件模式的核心類是Pattern45.在推薦系統(tǒng)FM模型中,特征交互項(xiàng)的隱向量維度由超參數(shù)k控制46.在SQL中,將多行字符串聚合為一行,MySQL使用的函數(shù)為GROUP_CONCAT47.在數(shù)據(jù)治理中,識(shí)別個(gè)人敏感信息常用的正則匹配字段名稱包括phone、id_card、email等48.在Linux定時(shí)任務(wù)中,每天凌晨2點(diǎn)執(zhí)行腳本的任務(wù)時(shí)間表達(dá)式為0249.在sklearn中,用于計(jì)算ROC曲線的函數(shù)為roc_curve50.在數(shù)據(jù)倉(cāng)庫(kù)緩慢變化維Type2策略中,新增版本記錄時(shí)通常需要額外字段生效時(shí)間與失效時(shí)間四、判斷題(每題1分,共10分。正確打“√”,錯(cuò)誤打“×”)51.SparkStreaming的DStream本質(zhì)上是一系列連續(xù)的RDD。(√)52.在HBase中,列族的數(shù)量越多,掃描性能越高。(×)53.XGBoost的目標(biāo)函數(shù)由損失函數(shù)與正則化項(xiàng)兩部分組成。(√)54.數(shù)據(jù)倉(cāng)庫(kù)分層模型中,DWD層通常保留原始數(shù)據(jù)不做任何清洗。(×)55.在Elasticsearch中,text類型字段默認(rèn)啟用doc_values以提升排序性能。(×)56.在Python中,GIL的存在使得多線程無法并發(fā)執(zhí)行CPU密集型任務(wù)。(√)57.使用FlinkCheckpoint時(shí),必須依賴外部存儲(chǔ)如HDFS或S3保存狀態(tài)快照。(√)58.在Hive中,分區(qū)字段可以作為SELECT的返回列。(√)59.在推薦系統(tǒng)協(xié)同過濾中,用戶物品交互矩陣稀疏性越高,推薦效果一定越差。(×)60.數(shù)據(jù)血緣追蹤的最終目的是定位數(shù)據(jù)質(zhì)量問題根源。(√)五、簡(jiǎn)答題(共30分)61.(封閉型,6分)簡(jiǎn)述MapReduce中Shuffle階段的具體流程,并指出其對(duì)性能影響最大的兩個(gè)內(nèi)部環(huán)節(jié)。答案:Shuffle階段指從Map輸出到Reduce輸入的全過程,包括:(1)Map端:分區(qū)(partition)、內(nèi)存緩沖區(qū)(spill)、排序(sort)、合并(combiner)、溢寫磁盤、合并溢寫文件;(2)Reduce端:拉取(fetch)、合并(merge)、排序(finalsort)。對(duì)性能影響最大的兩個(gè)環(huán)節(jié)是:1.Map端溢寫磁盤次數(shù)過多導(dǎo)致IO放大;2.Reduce端拉取數(shù)據(jù)跨節(jié)點(diǎn)網(wǎng)絡(luò)傳輸,網(wǎng)絡(luò)帶寬成為瓶頸。62.(開放型,6分)某電商公司“618”大促期間,實(shí)時(shí)訂單寫入Kafka后出現(xiàn)消費(fèi)延遲,請(qǐng)從參數(shù)調(diào)優(yōu)、資源擴(kuò)容、業(yè)務(wù)邏輯三方面給出可落地的優(yōu)化方案。答案:參數(shù)調(diào)優(yōu):增大Kafka分區(qū)數(shù)至集群broker倍數(shù),提高并行度;調(diào)優(yōu)fetch.min.bytes與max.poll.records減少拉取次數(shù);調(diào)大Consumergroup實(shí)例數(shù)并保證實(shí)例數(shù)≤分區(qū)數(shù)。資源擴(kuò)容:臨時(shí)增加broker節(jié)點(diǎn),提升網(wǎng)絡(luò)出口帶寬;Consumer端增加pod副本,利用KubernetesHPA根據(jù)lag指標(biāo)自動(dòng)擴(kuò)容。業(yè)務(wù)邏輯:訂單消息瘦身,剔除非必要字段,壓縮采用lz4;將非關(guān)鍵統(tǒng)計(jì)任務(wù)降級(jí)到離線,減輕實(shí)時(shí)鏈路壓力;對(duì)熱點(diǎn)品類采用keyby策略打散分區(qū),避免單分區(qū)堆積。63.(封閉型,6分)寫出使用pandas完成以下操作的完整代碼:讀取CSV、按user_id分組計(jì)算消費(fèi)金額均值、將結(jié)果寫入Parquet并保留分區(qū)。答案:importpandasaspddf=pd.read_csv("input.csv")mean_df=df.groupby("user_id",as_index=False)["amount"].mean()mean_df.to_parquet("output/",partition_cols=["user_id"],engine="pyarrow")64.(開放型,6分)描述數(shù)據(jù)資產(chǎn)定價(jià)的三種主流思路,并指出各自適用場(chǎng)景。答案:成本法:以采集、存儲(chǔ)、計(jì)算、治理、人力等成本加和定價(jià),適用于內(nèi)部成本分?jǐn)?、預(yù)算編制。收益法:評(píng)估數(shù)據(jù)帶來的增量收益或節(jié)約成本并折現(xiàn),適用于可直接變現(xiàn)的數(shù)據(jù)產(chǎn)品,如征信報(bào)告。市場(chǎng)法:參考公開交易或同類數(shù)據(jù)市場(chǎng)價(jià)格,適用于成熟數(shù)據(jù)交易市場(chǎng),如廣告受眾包、地理POI數(shù)據(jù)。65.(封閉型,6分)給出SparkSQL中創(chuàng)建桶表bucketed_table,按user_id分32桶、存儲(chǔ)格式為Parquet、分區(qū)字段為dt的完整DDL。答案:CREATETABLEbucketed_table(user_idBIGINT,event_typeSTRING,amountDOUBLE)USINGPARQUETPARTITIONEDBY(dtSTRING)CLUSTEREDBY(user_id)INTO32BUCKETS;六、應(yīng)用題(共50分)66.(計(jì)算類,10分)某短視頻平臺(tái)日活1000萬,平均每人上傳5個(gè)短視頻,每個(gè)視頻文件200MB,HDFS采用三副本,塊大小256MB,忽略元數(shù)據(jù)開銷,計(jì)算:(1)日新增存儲(chǔ)裸容量(單位TB);(2)理論塊數(shù)量;(3)若壓縮率0.3,壓縮后實(shí)際存儲(chǔ)容量。答案:(1)1000萬5200MB=10PB,三副本后30PB=30720TB(2)每塊256MB,塊數(shù)量=30PB/256MB=3010241024/256=1228800塊(3)壓縮后容量=30720TB0.3=9216TB67.(分析類,15分)給定用戶行為表user_log(user_id,item_id,category,behavior,ts),行為包括pv、buy、cart、fav。任務(wù):使用SQL計(jì)算每個(gè)品類carttobuy轉(zhuǎn)化率,要求排除購(gòu)物車記錄數(shù)<100的品類,輸出字段:category,cart_cnt,buy_cnt,conversion_rate。答案:SELECTcategory,SUM(CASEWHENbehavior='cart'THEN1ELSE0END)AScart_cnt,SUM(CASEWHENbehavior='buy'THEN1ELSE0END)ASbuy_cnt,ROUND(SUM(CASEWHENbehavior='buy'THEN1ELSE0END)/SUM(CASEWHENbehavior='cart'THEN1ELSE0END),4)ASconversion_rateFROMuser_logGROUPBYcategoryHAVINGcart_cnt>=100ORDERBYconversion_rateDESC;68.(綜合類,25分)某銀行擬構(gòu)建實(shí)時(shí)反欺詐模型,數(shù)據(jù)包括:A.交易流:tx_id,user_id,amount,merchant,mcc,ts,duration,ipB.用戶畫像:user_id,age,gender,register_ts,credit_scoreC.設(shè)備指紋:tx_id,device_id,os,root_flag,proxy_flag要求:(1)畫出實(shí)時(shí)特征計(jì)算鏈路架構(gòu)圖(文字描述即可);(2)給出3個(gè)關(guān)鍵特征的業(yè)務(wù)含義與實(shí)現(xiàn)邏輯;(3)選擇模型并說明理由;(4)給出模型上線后的監(jiān)控指標(biāo)。答案:(1)架構(gòu):交易流→Kafka→FlinkCEP→Redis緩存特征→FlinkML預(yù)測(cè)→Kafka結(jié)果→規(guī)則引擎→告警推送。(2)特征:a.近5分鐘同一IP卡號(hào)數(shù):Flink滑動(dòng)窗口統(tǒng)計(jì)distinctcard_id;b.近30天用戶夜間交易占比:離線日批寫入HBase,F(xiàn)link異步j(luò)oin;c.設(shè)備首次出現(xiàn)標(biāo)志:Redissetnxdevice_id,返回1表示新設(shè)備。(3)模型:選用XGBoost,理由:可解釋性強(qiáng),支持類別特征,處理非線性關(guān)系,分布式訓(xùn)練成熟。(4)監(jiān)控:a.模型PSI>0.2觸發(fā)重訓(xùn);b.特征缺失率>5%報(bào)警;c.精確率、召回率、F1下降超閾值自動(dòng)回滾上一版本;d.預(yù)測(cè)延遲P99>100ms擴(kuò)容FlinkTaskManager。七、編程題(共30分)69.(15分)使用PySpark實(shí)現(xiàn)WordCount,并完成以下擴(kuò)展:a.過濾長(zhǎng)度<3的單詞;b.輸出前10高頻單詞及其次數(shù);c.結(jié)果寫入HDFS文本文件,單文件輸出。答案:frompyspark.sqlimportSparkSessionspark=SparkSession.builder.appName("WordCount").getOrCreate()sc=spark.sparkContextlines=sc.textFile("hdfs:///input")counts=lines.flatMap(lambdax:x.split())\.filter(lambdaw:len(w)>=3)\.map(lambdaw:(w.lower(),1))\.reduceByKey(lambdaa,b:a+b)\.sortBy(lambdax:x[1],ascending=False)top10=counts.take(10)sc.parallelize(top10).saveAsTextFile("hdfs:///output")spark.stop()70.(15分)使用Pythonscikitlearn完成鳶尾花數(shù)據(jù)集的分類任務(wù),要求:a.采用Pipeline集成StandardScaler、PCA(n=2)、LogisticRegression;b.使用GridSearchCV調(diào)優(yōu)C參數(shù),候選[0.1,1,10,100];c.輸出最佳參數(shù)、交叉驗(yàn)證平均準(zhǔn)確率、分類報(bào)告。答案:fromsklearn.datasetsimportload_irisfromsklearn.preprocessingimportStandardScalerfromsklearn.decompositionimportPCAfromsklearn.linear_modelimportLogisticRegressionfromsklearn.pipelineimportPipelinefromsklearn.model_selectionimportGridSearchCVfromsklearn.metricsimportclassification_reportX,y=load_iris(return_X_y=True)pipe=Pipeline([("scaler",StandardScaler()),("pca",PCA(n_components=2)),("clf",LogisticRegression(max_iter=1000))])param_grid={"clf__C":[0.1,1,10,100]}gs=GridSearchCV(pipe,param_grid,cv=5,scoring="accuracy")gs.fit(X,y)print("bestparams:",gs.best_params_)print("cvmeanscore:",gs.best_score_.r
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 養(yǎng)老機(jī)構(gòu)后勤管理制度
- 2025 小學(xué)四年級(jí)科學(xué)下冊(cè)土壤有機(jī)質(zhì)來源與作用講解課件
- 零配件技術(shù)型銷售
- 2026年聊城東阿縣初級(jí)綜合類事業(yè)單位公開招聘人員(37人)備考考試試題附答案解析
- 2026廣西防城港市東興市商務(wù)和口岸管理局、東興海關(guān)招聘1人(第二批)參考考試題庫(kù)附答案解析
- 2026浙江臺(tái)州玉環(huán)農(nóng)商銀行招聘17人參考考試題庫(kù)附答案解析
- 2026年亳州利辛縣中醫(yī)院招聘護(hù)士8名參考考試題庫(kù)附答案解析
- 2026湖南懷化溆浦縣衛(wèi)生健康局公益性崗位招聘?jìng)淇伎荚囶}庫(kù)附答案解析
- 2026湖北省奕派科技高級(jí)管理崗位招聘參考考試試題附答案解析
- 2026年杭州市拱墅區(qū)人民政府武林街道辦事處公開招聘編外工作人員4人備考考試試題附答案解析
- 初三期末藏文試卷及答案
- 暫緩行政拘留申請(qǐng)書
- 小學(xué)班主任經(jīng)驗(yàn)交流課件
- 變配電室工程施工質(zhì)量控制流程及控制要點(diǎn)
- 國(guó)有企業(yè)合規(guī)管理
- 膀胱全切回腸代膀胱護(hù)理
- 公司個(gè)人征信合同申請(qǐng)表
- 示波器說明書
- 談心談話記錄100條范文(6篇)
- 微電影投資合作協(xié)議書
- 排水管道溝槽土方開挖專項(xiàng)方案
評(píng)論
0/150
提交評(píng)論