2025年(完整)大數(shù)據(jù)試題及答案_第1頁(yè)
2025年(完整)大數(shù)據(jù)試題及答案_第2頁(yè)
2025年(完整)大數(shù)據(jù)試題及答案_第3頁(yè)
2025年(完整)大數(shù)據(jù)試題及答案_第4頁(yè)
2025年(完整)大數(shù)據(jù)試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩12頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年(完整)大數(shù)據(jù)試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.以下關(guān)于大數(shù)據(jù)平臺(tái)架構(gòu)的描述中,錯(cuò)誤的是()。A.數(shù)據(jù)湖(DataLake)通常存儲(chǔ)原始數(shù)據(jù),支持多格式存儲(chǔ)B.數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)以關(guān)系模型為主,強(qiáng)調(diào)結(jié)構(gòu)化數(shù)據(jù)C.實(shí)時(shí)數(shù)倉(cāng)(Real-timeDataWarehouse)的典型技術(shù)棧包括Flink+ClickHouseD.湖倉(cāng)一體(LakeHouse)架構(gòu)中,數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)需通過ETL完全隔離答案:D2.某電商平臺(tái)需對(duì)用戶行為日志(日均10TB,格式為JSON)進(jìn)行實(shí)時(shí)分析,要求延遲低于1秒,最適合的計(jì)算框架是()。A.HadoopMapReduceB.SparkBatchC.FlinkD.Hive答案:C3.在HDFS(HadoopDistributedFileSystem)中,若一個(gè)文件大小為300MB,默認(rèn)塊大小為128MB,副本數(shù)為3,則HDFS會(huì)提供()個(gè)數(shù)據(jù)塊。A.2B.3C.6D.9答案:B(300/128≈2.34,向上取整為3個(gè)塊)4.關(guān)于SparkRDD(ResilientDistributedDataset)的特性,以下描述錯(cuò)誤的是()。A.RDD是不可變的分布式數(shù)據(jù)集B.RDD支持基于內(nèi)存的計(jì)算,提高迭代計(jì)算效率C.RDD的持久化(Persist)操作會(huì)將數(shù)據(jù)存儲(chǔ)到磁盤,而緩存(Cache)僅存儲(chǔ)到內(nèi)存D.RDD通過血緣(Lineage)信息實(shí)現(xiàn)容錯(cuò)答案:C(Cache是Persist的特例,默認(rèn)存儲(chǔ)級(jí)別為MEMORY_ONLY)5.某企業(yè)需構(gòu)建用戶畫像系統(tǒng),要求支持高并發(fā)查詢(QPS≥10萬)和快速更新(秒級(jí)),最適合的存儲(chǔ)引擎是()。A.HBaseB.HiveC.MySQLD.Redis答案:A(HBase基于HDFS,支持高并發(fā)隨機(jī)讀寫,適合實(shí)時(shí)查詢場(chǎng)景)6.以下不屬于數(shù)據(jù)清洗主要任務(wù)的是()。A.處理缺失值(MissingValues)B.檢測(cè)并修正異常值(Outliers)C.對(duì)數(shù)據(jù)進(jìn)行特征提?。‵eatureExtraction)D.統(tǒng)一數(shù)據(jù)格式(如日期格式Y(jié)YYY-MM-DD)答案:C(特征提取屬于特征工程,非數(shù)據(jù)清洗核心任務(wù))7.在聯(lián)邦學(xué)習(xí)(FederatedLearning)中,“橫向聯(lián)邦”與“縱向聯(lián)邦”的主要區(qū)別是()。A.橫向聯(lián)邦共享樣本特征,縱向聯(lián)邦共享樣本IDB.橫向聯(lián)邦樣本重疊多、特征重疊少,縱向聯(lián)邦特征重疊多、樣本重疊少C.橫向聯(lián)邦適用于跨機(jī)構(gòu)協(xié)作,縱向聯(lián)邦適用于單機(jī)構(gòu)內(nèi)部D.橫向聯(lián)邦需要中心服務(wù)器,縱向聯(lián)邦不需要答案:B(橫向聯(lián)邦(水平聯(lián)邦):樣本重疊多,特征空間相同但用戶不同;縱向聯(lián)邦(垂直聯(lián)邦):特征重疊多,樣本空間不同但用戶相同)8.某實(shí)時(shí)數(shù)據(jù)流需計(jì)算“過去1小時(shí)內(nèi)每個(gè)商品的點(diǎn)擊次數(shù)”,且要求窗口可滑動(dòng)(如每5分鐘輸出一次),最適合的窗口類型是()。A.滾動(dòng)窗口(TumblingWindow)B.滑動(dòng)窗口(SlidingWindow)C.會(huì)話窗口(SessionWindow)D.全局窗口(GlobalWindow)答案:B(滑動(dòng)窗口允許窗口重疊,通過設(shè)置窗口大小和滑動(dòng)間隔實(shí)現(xiàn)滑動(dòng)輸出)9.關(guān)于DataOps(數(shù)據(jù)運(yùn)營(yíng))的核心目標(biāo),以下描述最準(zhǔn)確的是()。A.提高數(shù)據(jù)存儲(chǔ)容量B.加速數(shù)據(jù)從開發(fā)到生產(chǎn)的交付流程,保障數(shù)據(jù)質(zhì)量與可靠性C.替代數(shù)據(jù)工程師的手動(dòng)操作D.優(yōu)化數(shù)據(jù)可視化效果答案:B(DataOps通過自動(dòng)化、協(xié)作和流程優(yōu)化,縮短數(shù)據(jù)價(jià)值交付周期)10.以下關(guān)于DeltaLake的描述中,錯(cuò)誤的是()。A.支持ACID事務(wù)(原子性、一致性、隔離性、持久性)B.僅支持Parquet格式存儲(chǔ)C.提供時(shí)間旅行(TimeTravel)功能,可訪問歷史數(shù)據(jù)版本D.適用于數(shù)據(jù)湖與數(shù)據(jù)倉(cāng)庫(kù)的融合場(chǎng)景答案:B(DeltaLake支持Parquet、ORC等多種格式,核心是元數(shù)據(jù)管理與事務(wù)支持)二、填空題(每題2分,共10分)1.大數(shù)據(jù)處理的典型流程包括數(shù)據(jù)采集、______、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)處理、數(shù)據(jù)分析與數(shù)據(jù)應(yīng)用。答案:數(shù)據(jù)清洗2.Spark中,______是任務(wù)調(diào)度的基本單位,一個(gè)Stage由多個(gè)該單位組成,其數(shù)量等于RDD的分區(qū)數(shù)。答案:Task(任務(wù))3.Flink的時(shí)間類型包括事件時(shí)間(EventTime)、攝入時(shí)間(IngestionTime)和______。答案:處理時(shí)間(ProcessingTime)4.數(shù)據(jù)湖倉(cāng)一體(LakeHouse)架構(gòu)的核心是通過______層統(tǒng)一管理元數(shù)據(jù)、事務(wù)和權(quán)限,實(shí)現(xiàn)湖與倉(cāng)的無縫融合。答案:元數(shù)據(jù)(或“事務(wù)元數(shù)據(jù)”)5.在Hive中,______表(ManagedTable)的數(shù)據(jù)由Hive完全管理(包括刪除表時(shí)刪除數(shù)據(jù)),而______表(ExternalTable)的數(shù)據(jù)存儲(chǔ)在外部路徑,刪除表時(shí)僅刪除元數(shù)據(jù)。答案:管理(或“內(nèi)部”);外部三、簡(jiǎn)答題(每題8分,共40分)1.簡(jiǎn)述HDFS的架構(gòu)設(shè)計(jì)及各組件的核心功能。答案:HDFS采用主從(Master-Slave)架構(gòu),核心組件包括NameNode、DataNode和SecondaryNameNode(或CheckpointNode)。NameNode(主節(jié)點(diǎn)):管理文件系統(tǒng)元數(shù)據(jù)(如文件目錄、塊與DataNode的映射關(guān)系),處理客戶端的文件操作請(qǐng)求,是系統(tǒng)的邏輯中心。DataNode(從節(jié)點(diǎn)):存儲(chǔ)實(shí)際數(shù)據(jù)塊(默認(rèn)128MB),執(zhí)行數(shù)據(jù)塊的讀寫操作,并定期向NameNode匯報(bào)塊狀態(tài)(如心跳機(jī)制)。SecondaryNameNode(或CheckpointNode):輔助NameNode進(jìn)行元數(shù)據(jù)檢查點(diǎn)(Checkpoint)提供,定期合并FsImage(內(nèi)存元數(shù)據(jù)快照)和EditLog(操作日志),降低NameNode重啟時(shí)的恢復(fù)時(shí)間。2.對(duì)比SparkRDD與FlinkDataStream的異同。答案:相同點(diǎn):均為分布式數(shù)據(jù)集抽象,支持鏈?zhǔn)讲僮鳎ㄈ鏼ap、filter),具備容錯(cuò)機(jī)制(RDD通過血緣,DataStream通過檢查點(diǎn))。不同點(diǎn):計(jì)算模型:RDD基于批量處理(Batch),適合離線計(jì)算;DataStream基于流處理(Stream),適合實(shí)時(shí)計(jì)算。狀態(tài)管理:DataStream內(nèi)置狀態(tài)后端(如RocksDB、內(nèi)存),支持復(fù)雜狀態(tài)操作;RDD需通過累加器(Accumulator)或廣播變量(Broadcast)間接管理狀態(tài)。時(shí)間語(yǔ)義:DataStream支持事件時(shí)間、水?。╓atermark)等精確時(shí)間處理;RDD無原生時(shí)間概念,需通過窗口函數(shù)模擬。延遲:DataStream延遲通常為毫秒級(jí),RDD批量處理延遲為分鐘級(jí)或更高。3.設(shè)計(jì)一個(gè)電商用戶行為數(shù)據(jù)(包含用戶ID、商品ID、行為類型(點(diǎn)擊/加購(gòu)/下單)、時(shí)間戳)的實(shí)時(shí)ETL流程,需說明關(guān)鍵步驟及技術(shù)選型。答案:關(guān)鍵步驟及技術(shù)選型:(1)數(shù)據(jù)采集:使用Kafka作為消息隊(duì)列,接收來自客戶端的行為日志(如Flume或Logstash采集后發(fā)送至Kafka),利用Kafka的高吞吐量(百萬級(jí)TPS)和持久化存儲(chǔ)特性緩沖數(shù)據(jù)。(2)實(shí)時(shí)清洗:通過Flink或SparkStructuredStreaming消費(fèi)Kafka數(shù)據(jù),進(jìn)行清洗操作(如過濾無效行為、處理缺失的用戶ID、統(tǒng)一時(shí)間戳格式)。例如,使用Flink的ProcessFunction檢測(cè)異常IP(如短時(shí)間內(nèi)大量點(diǎn)擊)并過濾。(3)維度關(guān)聯(lián):將清洗后的數(shù)據(jù)與用戶維度表(如用戶等級(jí)、注冊(cè)時(shí)間)和商品維度表(如商品類目、價(jià)格)關(guān)聯(lián)。維度表可存儲(chǔ)于HBase或Redis(支持快速查詢),通過Flink的AsyncI/O實(shí)現(xiàn)異步關(guān)聯(lián),避免阻塞流處理。(4)數(shù)據(jù)輸出:清洗關(guān)聯(lián)后的數(shù)據(jù)寫入實(shí)時(shí)數(shù)倉(cāng)(如ClickHouse或Hologres),支持秒級(jí)查詢;同時(shí)寫入數(shù)據(jù)湖(如DeltaLake)用于離線分析。4.簡(jiǎn)述數(shù)據(jù)脫敏(DataMasking)的常見方法及其適用場(chǎng)景。答案:常見方法及適用場(chǎng)景:(1)替換(Replacement):將敏感字段替換為固定值(如將真實(shí)姓名替換為“用戶_XXX”),適用于需要保留數(shù)據(jù)格式但隱藏真實(shí)信息的場(chǎng)景(如測(cè)試環(huán)境數(shù)據(jù))。(2)隨機(jī)化(Randomization):對(duì)數(shù)值型敏感數(shù)據(jù)(如年齡、收入)添加隨機(jī)偏移(如±5%),適用于統(tǒng)計(jì)分析場(chǎng)景(需保持?jǐn)?shù)據(jù)分布特征)。(3)脫敏(Anonymization):通過哈希(Hash)或加密(如AES)處理敏感信息(如手機(jī)號(hào)、身份證號(hào)),適用于需要數(shù)據(jù)可用但不可逆的場(chǎng)景(如第三方數(shù)據(jù)共享)。(4)截?cái)啵═runcation):保留部分敏感信息(如將截?cái)酁椤?385678”),適用于展示類場(chǎng)景(如用戶個(gè)人中心)。(5)差分隱私(DifferentialPrivacy):在數(shù)據(jù)中添加可控噪聲,保證單個(gè)記錄的隱私不被泄露,適用于高精度統(tǒng)計(jì)需求(如政府人口數(shù)據(jù)發(fā)布)。5.說明實(shí)時(shí)數(shù)倉(cāng)(如Flink+ClickHouse架構(gòu))與傳統(tǒng)離線數(shù)倉(cāng)(Hive+MySQL架構(gòu))的核心差異。答案:核心差異體現(xiàn)在以下方面:(1)數(shù)據(jù)時(shí)效性:實(shí)時(shí)數(shù)倉(cāng)支持秒級(jí)/分鐘級(jí)數(shù)據(jù)更新(如Flink實(shí)時(shí)計(jì)算后直接寫入ClickHouse);離線數(shù)倉(cāng)通常為T+1(次日)或小時(shí)級(jí)更新(如Hive每天凌晨執(zhí)行ETL)。(2)計(jì)算模型:實(shí)時(shí)數(shù)倉(cāng)基于流處理(如Flink的EventTime+Watermark),支持窗口計(jì)算、狀態(tài)管理;離線數(shù)倉(cāng)基于批量處理(如Hive的MapReduce),適合大規(guī)模歷史數(shù)據(jù)計(jì)算。(3)存儲(chǔ)結(jié)構(gòu):實(shí)時(shí)數(shù)倉(cāng)采用列式存儲(chǔ)(如ClickHouse的MergeTree),支持高并發(fā)點(diǎn)查和聚合查詢;離線數(shù)倉(cāng)多采用行式存儲(chǔ)(如Hive的TextFile)或列式存儲(chǔ)(ORC/Parquet),但更側(cè)重批量讀寫。(4)應(yīng)用場(chǎng)景:實(shí)時(shí)數(shù)倉(cāng)用于實(shí)時(shí)監(jiān)控(如雙11訂單量實(shí)時(shí)大屏)、實(shí)時(shí)推薦(如用戶點(diǎn)擊后立即更新推薦結(jié)果);離線數(shù)倉(cāng)用于歷史趨勢(shì)分析(如年度銷售報(bào)表)、數(shù)據(jù)挖掘(如用戶分群模型訓(xùn)練)。四、應(yīng)用題(每題15分,共30分)1.某電商平臺(tái)需分析“2025年Q1用戶復(fù)購(gòu)行為”,數(shù)據(jù)包括:用戶表(user):user_id(主鍵)、register_time(注冊(cè)時(shí)間)、city(城市)訂單表(order):order_id(主鍵)、user_id(外鍵)、order_time(下單時(shí)間)、amount(金額)、status(狀態(tài),1=有效,0=無效)要求:(1)寫出HiveSQL查詢,計(jì)算每個(gè)城市的用戶復(fù)購(gòu)率(復(fù)購(gòu)用戶數(shù)/總用戶數(shù),保留4位小數(shù))。(2)說明復(fù)購(gòu)用戶的定義(如:在Q1內(nèi)下單≥2次且至少1次有效訂單的用戶)。答案:(1)復(fù)購(gòu)用戶定義:2025年Q1(1月1日-3月31日)內(nèi),user_id對(duì)應(yīng)的有效訂單(status=1)數(shù)量≥2的用戶。(2)HiveSQL實(shí)現(xiàn):```sqlWITH-篩選Q1有效訂單,計(jì)算每個(gè)用戶的有效訂單數(shù)user_order_cntAS(SELECTu.city,o.user_id,COUNT(1)ASvalid_order_cntFROMuseruJOINorderoONu.user_id=o.user_idWHEREo.order_timeBETWEEN'2025-01-01'AND'2025-03-31'ANDo.status=1GROUPBYu.city,o.user_id),-計(jì)算各城市總用戶數(shù)(Q1內(nèi)有至少1次有效訂單的用戶)city_total_usersAS(SELECTcity,COUNT(DISTINCTuser_id)AStotal_usersFROMuser_order_cntGROUPBYcity),-計(jì)算各城市復(fù)購(gòu)用戶數(shù)(有效訂單數(shù)≥2)city_rebuy_usersAS(SELECTcity,COUNT(DISTINCTuser_id)ASrebuy_usersFROMuser_order_cntWHEREvalid_order_cnt>=2GROUPBYcity)-計(jì)算復(fù)購(gòu)率SELECTctu.city,ROUND(cre.rebuy_users/ctu.total_users,4)ASrebuy_rateFROMcity_total_usersctuJOINcity_rebuy_userscreONctu.city=cre.city;```2.某視頻平臺(tái)需實(shí)時(shí)計(jì)算“每分鐘新增UV(獨(dú)立訪客數(shù))”,數(shù)據(jù)流為用戶播放日志(字段:user_id、device_id、event_time(事件時(shí)間)、video_id),要求:(1)設(shè)計(jì)基于Flink的實(shí)時(shí)計(jì)算方案,說明關(guān)鍵步驟及窗口、時(shí)間語(yǔ)義的選擇。(2)針對(duì)大流量場(chǎng)景(如百萬級(jí)QPS),提出2種優(yōu)化UV計(jì)算的方法。答案:(1)Flink實(shí)時(shí)計(jì)算方案:關(guān)鍵步驟:①數(shù)據(jù)源:從Kafka消費(fèi)用戶播放日志,指定event_time作為時(shí)間屬性(使用事件時(shí)間,避免處理時(shí)間帶來的延遲誤差)。②時(shí)間戳分配與水印(Watermark):使用BoundedOutOfOrdernessTimestampExtractor,設(shè)置最大延遲為5秒(允許事件亂序),提取event_time作為時(shí)間戳。③窗口定義:

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論