版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
2025年大數(shù)據(jù)職稱(chēng)評(píng)審題庫(kù)及答案一、單項(xiàng)選擇題(每題1分,共20分)1.在Hadoop生態(tài)中,負(fù)責(zé)資源管理與任務(wù)調(diào)度的組件是A.HDFS??B.YARN??C.MapReduce??D.Hive答案:B2.下列關(guān)于KafkaPartition的描述,正確的是A.一個(gè)Topic只能有一個(gè)PartitionB.Partition數(shù)量一旦創(chuàng)建不可修改C.每個(gè)Partition內(nèi)部消息有序D.ConsumerGroup內(nèi)所有Consumer訂閱不同Topic答案:C3.Spark中觸發(fā)Job提交的算子是A.map??B.filter??C.reduceByKey??D.collect答案:D4.在Hive執(zhí)行計(jì)劃優(yōu)化階段,PredicatePushdown主要解決A.數(shù)據(jù)傾斜??B.網(wǎng)絡(luò)I/O??C.磁盤(pán)I/O??D.CPU計(jì)算答案:C5.使用Flink實(shí)現(xiàn)ExactlyOnce語(yǔ)義的核心機(jī)制是A.異步快照Checkpoint??B.事件時(shí)間??C.窗口函數(shù)??D.并行度答案:A6.數(shù)據(jù)倉(cāng)庫(kù)分層模型中,DWD層主要存儲(chǔ)A.原始日志??B.明細(xì)事實(shí)數(shù)據(jù)??C.匯總指標(biāo)??D.維度編碼表答案:B7.在PythonPandas中,將DataFramedf的列名改為col_dict映射,正確語(yǔ)句是A.df.columns=col_dict??B.df.rename(columns=col_dict,inplace=True)C.df.set_axis(col_dict)??D.df.map(col_dict)答案:B8.下列算法屬于集成學(xué)習(xí)Bagging思想的是A.AdaBoost??B.RandomForest??C.XGBoost??D.LightGBM答案:B9.在數(shù)據(jù)治理成熟度模型DGI中,最高等級(jí)是A.Managed??B.Defined??C.Optimized??D.Adhoc答案:C10.使用Scala編寫(xiě)SparkStructuredStreaming,輸出模式Complete要求A.必須包含聚合操作??B.必須包含排序??C.必須包含Watermark??D.必須包含Join答案:A11.在HDFS3.x中,Block默認(rèn)副本數(shù)為A.2??B.3??C.4??D.1答案:B12.下列關(guān)于數(shù)據(jù)湖說(shuō)法錯(cuò)誤的是A.支持結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)??B.強(qiáng)調(diào)SchemaonReadC.必須基于HDFS實(shí)現(xiàn)??D.通常與對(duì)象存儲(chǔ)結(jié)合答案:C13.在SQL優(yōu)化中,利用Bitmap索引最適用的場(chǎng)景是A.高基數(shù)列等值查詢(xún)??B.低基數(shù)列等值查詢(xún)??C.范圍查詢(xún)??D.模糊匹配答案:B14.使用Elasticsearch7.x創(chuàng)建索引時(shí),默認(rèn)分片數(shù)為A.1??B.3??C.5??D.7答案:C15.在數(shù)據(jù)安全分級(jí)中,PII是指A.公共信息接口??B.個(gè)人身份信息??C.主鍵索引??D.圖片識(shí)別接口答案:B16.在FlinkCEP庫(kù)中,定義連續(xù)事件模式應(yīng)使用A.Pattern.begin()??B.Pattern.where()??C.Pattern.followedBy()??D.Pattern.oneOrMore()答案:A17.下列關(guān)于數(shù)據(jù)血緣描述正確的是A.只能追蹤表級(jí)依賴(lài)??B.無(wú)法展示字段級(jí)轉(zhuǎn)換邏輯C.可用于影響分析??D.無(wú)法與元數(shù)據(jù)系統(tǒng)集成答案:C18.在Airflow中,Sensor類(lèi)型的Task作用是A.執(zhí)行Shell命令??B.等待某一條件滿足??C.發(fā)送郵件??D.觸發(fā)DAG答案:B19.使用Redis實(shí)現(xiàn)分布式鎖,解決死鎖的關(guān)鍵參數(shù)是A.ttl??B.nx??C.ex??D.px答案:A20.在數(shù)據(jù)質(zhì)量評(píng)估維度中,Completeness用于衡量A.數(shù)據(jù)是否及時(shí)??B.數(shù)據(jù)是否缺失??C.數(shù)據(jù)是否一致??D.數(shù)據(jù)是否準(zhǔn)確答案:B二、多項(xiàng)選擇題(每題2分,共20分,多選少選均不得分)21.下列屬于NoSQL數(shù)據(jù)庫(kù)CAP權(quán)衡中放棄Consistency的系統(tǒng)有A.MongoDB??B.Cassandra??C.HBase??D.DynamoDB答案:B、D22.在Spark中可能導(dǎo)致數(shù)據(jù)傾斜的操作包括A.groupByKey??B.reduceByKey??C.join??D.mapPartitions答案:A、B、C23.以下屬于數(shù)據(jù)脫敏常用算法A.掩碼??B.哈希??C.加密??D.隨機(jī)化答案:A、B、D24.在Kafka0.11之后支持的事務(wù)特性包括A.跨Partition原子提交??B.跨Session冪等??C.消費(fèi)生產(chǎn)原子性??D.跨Topic全局排序答案:A、C25.使用HBaseRowKey設(shè)計(jì)原則包括A.避免熱點(diǎn)??B.長(zhǎng)度固定??C.包含時(shí)間戳倒序??D.包含散列前綴答案:A、C、D26.以下屬于FlinkTime類(lèi)型A.ProcessingTime??B.IngestionTime??C.EventTime??D.SystemTime答案:A、B、C27.在數(shù)據(jù)倉(cāng)庫(kù)緩慢變化維SCD類(lèi)型中,可保留歷史版本的方案A.Type0??B.Type2??C.Type4??D.Type6答案:B、C、D28.下列屬于Python內(nèi)存優(yōu)化技巧A.使用category類(lèi)型??B.使用iterator替代list??C.使用copy.deepcopy??D.使用memory_profiler答案:A、B、D29.在機(jī)器學(xué)習(xí)模型評(píng)估中,可用于不平衡數(shù)據(jù)集的指標(biāo)A.AUCROC??B.F1score??C.Accuracy??D.AUCPR答案:A、B、D30.以下屬于云原生數(shù)據(jù)倉(cāng)庫(kù)特點(diǎn)A.存算分離??B.Serverless彈性??C.強(qiáng)制本地磁盤(pán)??D.按量計(jì)費(fèi)答案:A、B、D三、填空題(每空1分,共20分)31.在Linux中,查看當(dāng)前文件夾下各子目錄磁盤(pán)使用情況的命令是duhmaxdepth=132.HDFS中,NameNode內(nèi)存主要保存Block與DataNode的映射關(guān)系,該數(shù)據(jù)結(jié)構(gòu)稱(chēng)為FsImage33.Spark默認(rèn)的序列化方式是Java序列化,官方推薦使用Kryo34.在MySQL8.0中,支持原生JSON數(shù)據(jù)類(lèi)型的二進(jìn)制存儲(chǔ)格式為BSON35.FlinkCheckpoint的存儲(chǔ)后端可配置為Memory、FileSystem和RocksDB36.數(shù)據(jù)治理中,元數(shù)據(jù)分為業(yè)務(wù)元數(shù)據(jù)、技術(shù)元數(shù)據(jù)與操作元數(shù)據(jù)37.在Python中,使用pandas.read_csv讀取大文件時(shí),可添加參數(shù)chunksize實(shí)現(xiàn)分塊讀取38.Elasticsearch集群發(fā)現(xiàn)機(jī)制默認(rèn)使用Zen協(xié)議,7.x之后替換為ClusterBootstrap39.在數(shù)據(jù)倉(cāng)庫(kù)中,事實(shí)表分為事務(wù)型、周期快照型與累積快照型40.XGBoost的目標(biāo)函數(shù)由損失函數(shù)與正則項(xiàng)兩部分組成41.在Kafka中,消費(fèi)者位移保存在內(nèi)部主題__consumer_offsets42.數(shù)據(jù)質(zhì)量規(guī)則庫(kù)通常包含規(guī)則編號(hào)、規(guī)則名稱(chēng)、規(guī)則類(lèi)型、閾值、責(zé)任人字段43.在Scala中,使用lazy關(guān)鍵字修飾變量可實(shí)現(xiàn)延遲加載44.Hive3.x默認(rèn)執(zhí)行引擎為T(mén)ez,可通過(guò)sethive.execution.engine=spark切換45.在數(shù)據(jù)湖架構(gòu)中,提供統(tǒng)一元數(shù)據(jù)層并實(shí)現(xiàn)事務(wù)支持的開(kāi)源項(xiàng)目是ApacheIceberg46.使用RedisCluster時(shí),數(shù)據(jù)分片采用16384個(gè)哈希槽47.在機(jī)器學(xué)習(xí)特征工程中,對(duì)高基數(shù)類(lèi)別變量進(jìn)行編碼可采用TargetEncoding48.數(shù)據(jù)資產(chǎn)目錄的核心功能包括搜索、血緣、權(quán)限與標(biāo)簽49.在Airflow中,通過(guò)XCom機(jī)制實(shí)現(xiàn)跨Task數(shù)據(jù)傳遞50.在BI工具Tableau中,將多個(gè)工作表合并展示的功能稱(chēng)為Dashboard四、簡(jiǎn)答題(共6題,每題8分,共48分)51.封閉型:簡(jiǎn)述MapReduce中Shuffle階段的具體流程,并指出優(yōu)化數(shù)據(jù)傾斜的兩種策略。答案:Shuffle包括Map端溢寫(xiě)、分區(qū)、排序、合并、壓縮,Reduce端拷貝、歸并排序。優(yōu)化傾斜:1.自定義Partitioner打散熱點(diǎn)Key;2.在Map端加入隨機(jī)前綴,Reduce后再二次聚合。52.開(kāi)放型:結(jié)合業(yè)務(wù)場(chǎng)景,說(shuō)明如何在Lambda架構(gòu)基礎(chǔ)上演進(jìn)為Kappa架構(gòu),并給出至少兩點(diǎn)代價(jià)。答案:Lambda維護(hù)批、速兩層代碼,Kappa通過(guò)統(tǒng)一流層消除批層。演進(jìn)步驟:1.確認(rèn)事件可重放,Kafka保留期足夠;2.用Flink實(shí)現(xiàn)離線同等計(jì)算邏輯;3.下線批層集群。代價(jià):1.流處理資源消耗上升;2.歷史數(shù)據(jù)重放耗時(shí)增加;3.對(duì)實(shí)時(shí)計(jì)算穩(wěn)定性要求更高。53.封閉型:列出數(shù)據(jù)質(zhì)量維度至少五項(xiàng),并給出對(duì)應(yīng)量化公式或SQL示例。答案:Completeness:select1count(cust_id)/count()fromuserConsistency:selectcount()fromajoinbona.key=b.keywherea.status<>b.statusTimeliness:selectavg(unix_timestamp(current_timestamp)unix_timestamp(update_time))/3600fromtableValidity:selectcount()whereage<0orage>120Uniqueness:selectcount()count(distinctid)fromtableAccuracy:selectsum(abs(predictedactual))/count()fromresult54.開(kāi)放型:說(shuō)明在多云環(huán)境下,如何設(shè)計(jì)跨云數(shù)據(jù)同步方案,需考慮網(wǎng)絡(luò)、安全、一致性三點(diǎn)。答案:網(wǎng)絡(luò):使用云廠商專(zhuān)線或VPN打通VPC,同步任務(wù)走內(nèi)網(wǎng)地址;安全:數(shù)據(jù)先在上云KMS加密,跨云傳輸采用TLS1.3,桶策略限制源IP;一致性:采用事件時(shí)間+校驗(yàn)和,同步后對(duì)比行級(jí)CRC,差異觸發(fā)重傳,利用斷點(diǎn)續(xù)傳與冪等寫(xiě)入保證最終一致。55.封閉型:解釋Flink中Watermark生成機(jī)制,并給出延遲亂序數(shù)據(jù)超過(guò)允許延遲時(shí)的處理代碼片段。答案:Watermark隨事件時(shí)間推進(jìn),允許最大延遲5秒:.assignTimestampsAndWatermarks(WatermarkStrategy.forBoundedOutOfOrderness(Duration.ofSeconds(5)))超延遲數(shù)據(jù)使用sideOutput:vallateTag=OutputTagTstream.getSideOutput(lateTag).addSink(lateDataSink)56.開(kāi)放型:描述一次A/B測(cè)試完整流程,并指出大數(shù)據(jù)平臺(tái)在其中的三項(xiàng)關(guān)鍵支撐。答案:流程:1.設(shè)定目標(biāo)與假設(shè);2.分流與實(shí)驗(yàn)設(shè)計(jì);3.數(shù)據(jù)收集;4.指標(biāo)計(jì)算;5.顯著性檢驗(yàn);6.決策與復(fù)盤(pán)。大數(shù)據(jù)支撐:1.實(shí)時(shí)分流日志采集(Kafka+Flink);2.離線指標(biāo)聚合(SparkSQL);3.可視化與顯著性檢驗(yàn)平臺(tái)(Jupyter+自研API)。五、應(yīng)用題(共4題,共62分)57.計(jì)算類(lèi)(15分)某電商公司日活1000萬(wàn),用戶平均訪問(wèn)時(shí)長(zhǎng)10分鐘,每分鐘產(chǎn)生日志0.5MB。計(jì)算:(1)每日原始日志量(GB);(2)若采用LZO壓縮比3:1,壓縮后存儲(chǔ)量;(3)若保存30天,需多少塊4TB硬盤(pán)(副本因子3)。答案:(1)1000萬(wàn)100.5MB=50000000MB≈46.6TB(2)46.6/3≈15.5TB(3)15.5330/4≈348.75→349塊58.分析類(lèi)(16分)給定用戶標(biāo)簽表user_tag(user_idstring,tag_idstring,update_timetimestamp),數(shù)據(jù)量20億行,存儲(chǔ)格式ORC,壓縮率5:1。要求:1.計(jì)算每個(gè)tag的當(dāng)日新增用戶數(shù);2.輸出格式tag_id,new_user_cnt;3.執(zhí)行時(shí)間不超過(guò)5分鐘。請(qǐng)給出表設(shè)計(jì)、分區(qū)策略、SQL及資源估算。答案:分區(qū):dtstring,tag_idstring,桶列user_id桶數(shù)1024。SQL:insertoverwritetabletag_new_userpartition(dt='20250620')selecttag_id,count(distinctuser_id)asnew_user_cntfromuser_tagwheredt='20250620'anduser_idnotin(selectuser_idfromuser_tagwheredt<'20250620')groupbytag_id;資源:Spark動(dòng)態(tài)資源,executor200個(gè),內(nèi)存8G,并行度2048,預(yù)估4分鐘完成。59.綜合類(lèi)(15分)某視頻App擬構(gòu)建實(shí)時(shí)熱度榜,指標(biāo)含播放量、點(diǎn)贊量、評(píng)論量,要求5秒更新一次,Top100準(zhǔn)確率>99%。請(qǐng)給出技術(shù)選型、端到端架構(gòu)圖文字描述、ExactlyOnce保證措施。答案:選型:Kafka→Flink→Redis→APIGateway。架構(gòu):客戶端埋點(diǎn)→KafkaTopic三分區(qū)→Flink作業(yè)keyBy視頻ID,窗口5秒,使用ValueState累加三個(gè)指標(biāo),觸發(fā)TopN算法(最小堆維護(hù)100),結(jié)果寫(xiě)RedisSortedSet,API輪詢(xún)Redis。ExactlyOnce:Flink開(kāi)啟Checkpoint,KafkaProducer冪等+事務(wù),Redis采用Lua腳本覆蓋寫(xiě),保證原子。60.設(shè)計(jì)類(lèi)(16分)設(shè)計(jì)一套支持千億級(jí)日志、保存90天、冷熱分層、支持秒級(jí)關(guān)鍵字查詢(xún)的日志平臺(tái),需包含:1.數(shù)據(jù)流圖;2.存儲(chǔ)層表結(jié)構(gòu);3.冷熱遷移策略;4.成本估算(0.08元/GB/月冷,0.35元/GB/月熱)。答案:1.數(shù)據(jù)流:Filebeat→Kafka→Logstash→Iceberg表(HDFS)→冷備OSS。2.表結(jié)構(gòu):日志
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 幼兒培訓(xùn)機(jī)構(gòu)責(zé)任制度
- 設(shè)計(jì)院培訓(xùn)制度
- 培訓(xùn)機(jī)構(gòu)服務(wù)中心制度
- 企業(yè)培訓(xùn)課件評(píng)比制度
- 醫(yī)院后勤定期培訓(xùn)制度
- 修補(bǔ)輪胎人員培訓(xùn)制度
- 如何制定員工培訓(xùn)制度
- 商業(yè)培訓(xùn)管理制度
- 協(xié)會(huì)會(huì)議培訓(xùn)制度
- 順豐公司培訓(xùn)制度
- 煙花爆竹經(jīng)營(yíng)零售申請(qǐng)書(shū)
- 《鯉魚(yú)的遇險(xiǎn)》讀書(shū)分享
- 融媒體中心黨支部2025年前三季度黨建工作總結(jié)范文
- 提升施工企業(yè)安全管理水平的關(guān)鍵措施與路徑探索
- 自動(dòng)扶梯應(yīng)急預(yù)案演練計(jì)劃(3篇)
- GB/T 16271-2025鋼絲繩吊索插編索扣
- 暴盲的中醫(yī)護(hù)理方案
- GB/T 20871.62-2025有機(jī)發(fā)光二極管顯示器件第6-2部分:測(cè)試方法視覺(jué)質(zhì)量和亮室性能
- 旋挖鉆機(jī)地基承載力驗(yàn)算2017.7
- 輪機(jī)管理題庫(kù)(助理管輪)
- 基于深度學(xué)習(xí)的妊娠期糖尿病早期篩查策略?xún)?yōu)化-洞察闡釋
評(píng)論
0/150
提交評(píng)論