2025年公需科目《大數(shù)據(jù)》考核題庫(kù)(含參考答案)_第1頁(yè)
2025年公需科目《大數(shù)據(jù)》考核題庫(kù)(含參考答案)_第2頁(yè)
2025年公需科目《大數(shù)據(jù)》考核題庫(kù)(含參考答案)_第3頁(yè)
2025年公需科目《大數(shù)據(jù)》考核題庫(kù)(含參考答案)_第4頁(yè)
2025年公需科目《大數(shù)據(jù)》考核題庫(kù)(含參考答案)_第5頁(yè)
已閱讀5頁(yè),還剩8頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年公需科目《大數(shù)據(jù)》考核題庫(kù)(含參考答案)一、單項(xiàng)選擇題(每題2分,共40分)1.下列哪項(xiàng)不屬于大數(shù)據(jù)的"4V"特征?A.Volume(大量)B.Value(價(jià)值)C.Veracity(真實(shí)性)D.Vision(可視)答案:D2.Hadoop生態(tài)中負(fù)責(zé)分布式存儲(chǔ)的核心組件是?A.MapReduceB.HBaseC.HDFSD.Spark答案:C3.以下哪種數(shù)據(jù)庫(kù)適合處理海量非結(jié)構(gòu)化數(shù)據(jù)?A.關(guān)系型數(shù)據(jù)庫(kù)(如MySQL)B.鍵值數(shù)據(jù)庫(kù)(如Redis)C.列存儲(chǔ)數(shù)據(jù)庫(kù)(如HBase)D.文檔型數(shù)據(jù)庫(kù)(如MongoDB)答案:D4.實(shí)時(shí)數(shù)據(jù)處理框架ApacheFlink的核心優(yōu)勢(shì)是?A.基于內(nèi)存計(jì)算,支持毫秒級(jí)延遲B.適合離線批量處理C.僅支持批處理模式D.依賴Hadoop集群運(yùn)行答案:A5.數(shù)據(jù)清洗中處理缺失值的常用方法不包括?A.刪除缺失值所在行B.用均值/中位數(shù)填充C.用隨機(jī)數(shù)填充D.基于模型預(yù)測(cè)填充答案:C6.下列哪項(xiàng)屬于非結(jié)構(gòu)化數(shù)據(jù)?A.財(cái)務(wù)報(bào)表Excel文件B.監(jiān)控視頻C.客戶登記表D.銷售數(shù)據(jù)庫(kù)記錄答案:B7.大數(shù)據(jù)分析的核心目標(biāo)是?A.存儲(chǔ)更多數(shù)據(jù)B.發(fā)現(xiàn)數(shù)據(jù)中的隱藏模式C.提高數(shù)據(jù)傳輸速度D.減少數(shù)據(jù)存儲(chǔ)成本答案:B8.隱私計(jì)算技術(shù)中,"聯(lián)邦學(xué)習(xí)"的主要特點(diǎn)是?A.集中所有數(shù)據(jù)進(jìn)行訓(xùn)練B.在數(shù)據(jù)不出域的前提下聯(lián)合建模C.僅使用明文數(shù)據(jù)計(jì)算D.要求參與方共享原始數(shù)據(jù)答案:B9.數(shù)據(jù)生命周期管理的關(guān)鍵階段不包括?A.數(shù)據(jù)采集B.數(shù)據(jù)銷毀C.數(shù)據(jù)可視化D.數(shù)據(jù)歸檔答案:C10.以下哪項(xiàng)屬于大數(shù)據(jù)應(yīng)用中的倫理風(fēng)險(xiǎn)?A.數(shù)據(jù)存儲(chǔ)成本過(guò)高B.算法歧視C.網(wǎng)絡(luò)帶寬不足D.服務(wù)器故障答案:B11.分布式計(jì)算框架Spark的核心抽象是?A.RDD(彈性分布式數(shù)據(jù)集)B.DataFrameC.DatasetD.DStream答案:A12.數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的主要區(qū)別是?A.數(shù)據(jù)湖僅存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)倉(cāng)庫(kù)支持原始數(shù)據(jù)存儲(chǔ)C.數(shù)據(jù)湖存儲(chǔ)多類型原始數(shù)據(jù)D.兩者無(wú)本質(zhì)區(qū)別答案:C13.下列哪項(xiàng)技術(shù)用于解決大數(shù)據(jù)的"Velocity(高速)"特征?A.離線批處理B.實(shí)時(shí)流處理C.關(guān)系型數(shù)據(jù)庫(kù)D.數(shù)據(jù)歸檔答案:B14.數(shù)據(jù)質(zhì)量的關(guān)鍵維度不包括?A.準(zhǔn)確性B.完整性C.多樣性D.一致性答案:C15.區(qū)塊鏈技術(shù)與大數(shù)據(jù)結(jié)合的主要應(yīng)用場(chǎng)景是?A.提高數(shù)據(jù)計(jì)算速度B.保障數(shù)據(jù)可信存證C.減少數(shù)據(jù)存儲(chǔ)量D.替代傳統(tǒng)數(shù)據(jù)庫(kù)答案:B16.以下哪種數(shù)據(jù)挖掘方法屬于分類任務(wù)?A.客戶分群(聚類)B.預(yù)測(cè)用戶是否會(huì)流失C.關(guān)聯(lián)規(guī)則挖掘(如購(gòu)物籃分析)D.趨勢(shì)預(yù)測(cè)(如銷售額預(yù)測(cè))答案:B17.邊緣計(jì)算在大數(shù)據(jù)處理中的主要作用是?A.將所有計(jì)算集中到云端B.在數(shù)據(jù)源附近進(jìn)行實(shí)時(shí)處理C.替代云計(jì)算D.僅處理結(jié)構(gòu)化數(shù)據(jù)答案:B18.數(shù)據(jù)要素市場(chǎng)化的核心是?A.提高數(shù)據(jù)存儲(chǔ)效率B.實(shí)現(xiàn)數(shù)據(jù)的價(jià)值流通C.增加數(shù)據(jù)采集量D.降低數(shù)據(jù)處理成本答案:B19.下列哪項(xiàng)屬于大數(shù)據(jù)安全的技術(shù)措施?A.數(shù)據(jù)脫敏B.增加服務(wù)器數(shù)量C.提高網(wǎng)絡(luò)帶寬D.優(yōu)化數(shù)據(jù)可視化答案:A20.人工智能與大數(shù)據(jù)的關(guān)系是?A.人工智能是大數(shù)據(jù)的基礎(chǔ)B.大數(shù)據(jù)為AI提供訓(xùn)練數(shù)據(jù)C.兩者完全獨(dú)立D.AI僅需少量數(shù)據(jù)即可工作答案:B二、判斷題(每題1分,共10分)1.大數(shù)據(jù)分析必須依賴超級(jí)計(jì)算機(jī),普通服務(wù)器無(wú)法處理。(×)解析:分布式計(jì)算框架可通過(guò)普通服務(wù)器集群處理海量數(shù)據(jù)。2.數(shù)據(jù)可視化的主要目的是讓數(shù)據(jù)更美觀,不影響分析結(jié)果。(×)解析:可視化幫助發(fā)現(xiàn)數(shù)據(jù)模式,直接影響分析深度。3.NoSQL數(shù)據(jù)庫(kù)完全替代了關(guān)系型數(shù)據(jù)庫(kù)。(×)解析:兩者適用場(chǎng)景不同,關(guān)系型數(shù)據(jù)庫(kù)仍用于結(jié)構(gòu)化事務(wù)處理。4.實(shí)時(shí)數(shù)據(jù)處理要求處理延遲必須低于1秒。(√)解析:實(shí)時(shí)處理通常指毫秒到秒級(jí)延遲。5.數(shù)據(jù)清洗可以在數(shù)據(jù)分析完成后進(jìn)行。(×)解析:需在分析前完成,否則影響結(jié)果準(zhǔn)確性。6.隱私計(jì)算技術(shù)可以完全消除數(shù)據(jù)泄露風(fēng)險(xiǎn)。(×)解析:降低風(fēng)險(xiǎn)但無(wú)法完全消除。7.大數(shù)據(jù)時(shí)代,數(shù)據(jù)量越大分析結(jié)果一定越準(zhǔn)確。(×)解析:需結(jié)合數(shù)據(jù)質(zhì)量,低質(zhì)量海量數(shù)據(jù)可能導(dǎo)致錯(cuò)誤結(jié)論。8.區(qū)塊鏈技術(shù)可以實(shí)現(xiàn)數(shù)據(jù)的可追溯性。(√)解析:區(qū)塊鏈的鏈?zhǔn)浇Y(jié)構(gòu)和哈希算法保證數(shù)據(jù)可追溯。9.數(shù)據(jù)湖適合存儲(chǔ)經(jīng)過(guò)清洗和結(jié)構(gòu)化的數(shù)據(jù)。(×)解析:數(shù)據(jù)湖存儲(chǔ)原始多類型數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。10.聯(lián)邦學(xué)習(xí)需要參與方共享模型參數(shù)而非原始數(shù)據(jù)。(√)解析:聯(lián)邦學(xué)習(xí)通過(guò)交換模型更新參數(shù)實(shí)現(xiàn)聯(lián)合訓(xùn)練。三、簡(jiǎn)答題(每題8分,共40分)1.簡(jiǎn)述大數(shù)據(jù)處理的典型技術(shù)架構(gòu)層次。答案:典型架構(gòu)分為五層:(1)數(shù)據(jù)采集層(ETL工具、流采集工具);(2)數(shù)據(jù)存儲(chǔ)層(分布式文件系統(tǒng)如HDFS、NoSQL數(shù)據(jù)庫(kù)、關(guān)系型數(shù)據(jù)庫(kù));(3)數(shù)據(jù)處理層(批處理框架Hadoop/Spark、流處理框架Flink/KafkaStreams);(4)數(shù)據(jù)分析層(數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)平臺(tái));(5)數(shù)據(jù)應(yīng)用層(可視化工具、業(yè)務(wù)系統(tǒng)接口)。2.說(shuō)明數(shù)據(jù)脫敏的主要方法及其適用場(chǎng)景。答案:主要方法包括:(1)替換(如將真實(shí)姓名替換為"用戶A"),適用于身份信息保護(hù);(2)掩碼(如身份證號(hào)顯示前6位和后4位),適用于部分敏感信息展示;(3)加密(如AES加密),適用于需要保留數(shù)據(jù)可用性的場(chǎng)景;(4)泛化(如將具體年齡替換為"20-30歲"),適用于統(tǒng)計(jì)分析場(chǎng)景。3.對(duì)比傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)與大數(shù)據(jù)平臺(tái)的差異。答案:(1)數(shù)據(jù)類型:傳統(tǒng)倉(cāng)庫(kù)僅支持結(jié)構(gòu)化數(shù)據(jù),大數(shù)據(jù)平臺(tái)支持結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù);(2)擴(kuò)展性:傳統(tǒng)倉(cāng)庫(kù)縱向擴(kuò)展(升級(jí)硬件),大數(shù)據(jù)平臺(tái)橫向擴(kuò)展(增加節(jié)點(diǎn));(3)處理模式:傳統(tǒng)倉(cāng)庫(kù)以離線批處理為主,大數(shù)據(jù)平臺(tái)支持實(shí)時(shí)/準(zhǔn)實(shí)時(shí)處理;(4)成本:傳統(tǒng)倉(cāng)庫(kù)硬件成本高,大數(shù)據(jù)平臺(tái)基于普通服務(wù)器集群,成本更低;(5)分析深度:大數(shù)據(jù)平臺(tái)支持機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等復(fù)雜分析,傳統(tǒng)倉(cāng)庫(kù)以O(shè)LAP為主。4.簡(jiǎn)述實(shí)時(shí)流處理的關(guān)鍵技術(shù)挑戰(zhàn)及解決方案。答案:挑戰(zhàn)包括:(1)數(shù)據(jù)亂序(網(wǎng)絡(luò)延遲導(dǎo)致數(shù)據(jù)到達(dá)順序與產(chǎn)生順序不一致),解決方案:設(shè)置水?。╓atermark)機(jī)制標(biāo)記事件時(shí)間;(2)狀態(tài)管理(需維護(hù)長(zhǎng)時(shí)間窗口的計(jì)算狀態(tài)),解決方案:使用狀態(tài)后端(如RocksDB)進(jìn)行高效存儲(chǔ);(3)容錯(cuò)恢復(fù)(處理過(guò)程中節(jié)點(diǎn)故障),解決方案:通過(guò)檢查點(diǎn)(Checkpoint)機(jī)制定期持久化狀態(tài);(4)資源分配(動(dòng)態(tài)調(diào)整計(jì)算資源),解決方案:采用自動(dòng)擴(kuò)縮容技術(shù)(如Kubernetes集成)。5.說(shuō)明大數(shù)據(jù)在智慧城市中的典型應(yīng)用場(chǎng)景及需注意的問(wèn)題。答案:應(yīng)用場(chǎng)景:(1)交通管理(實(shí)時(shí)路況分析、智能信號(hào)燈調(diào)度);(2)公共安全(視頻監(jiān)控智能分析、異常事件預(yù)警);(3)環(huán)境監(jiān)測(cè)(空氣質(zhì)量實(shí)時(shí)監(jiān)測(cè)、污染源追蹤);(4)公共服務(wù)(政務(wù)數(shù)據(jù)共享、便民服務(wù)優(yōu)化)。需注意的問(wèn)題:(1)數(shù)據(jù)隱私保護(hù)(涉及大量個(gè)人位置、行為數(shù)據(jù));(2)系統(tǒng)集成(多部門數(shù)據(jù)孤島問(wèn)題);(3)算法公平性(避免因數(shù)據(jù)偏差導(dǎo)致決策不公);(4)網(wǎng)絡(luò)安全(關(guān)鍵基礎(chǔ)設(shè)施數(shù)據(jù)易受攻擊)。四、案例分析題(共10分)某電商企業(yè)計(jì)劃構(gòu)建用戶行為分析系統(tǒng),需處理每天約50TB的用戶點(diǎn)擊日志、交易記錄和評(píng)價(jià)數(shù)據(jù)。請(qǐng)?jiān)O(shè)計(jì)該系統(tǒng)的技術(shù)方案,包括:(1)數(shù)據(jù)采集方式;(2)存儲(chǔ)架構(gòu)選擇;(3)實(shí)時(shí)分析場(chǎng)景(至少2個(gè));(4)需關(guān)注的數(shù)據(jù)安全措施。答案要點(diǎn):(1)數(shù)據(jù)采集:使用Flume/Kafka采集用戶點(diǎn)擊流數(shù)據(jù)(實(shí)時(shí)),通過(guò)ETL工具(如Sqoop)從業(yè)務(wù)數(shù)據(jù)庫(kù)抽取交易記錄(準(zhǔn)實(shí)時(shí)),通過(guò)API接口獲取評(píng)價(jià)數(shù)據(jù)(批量+實(shí)時(shí))。(2)存儲(chǔ)架構(gòu):采用"數(shù)據(jù)湖+數(shù)據(jù)倉(cāng)庫(kù)"混合架構(gòu)。原始日志存儲(chǔ)于HDFS/對(duì)象存儲(chǔ)(如阿里云OSS)作為數(shù)據(jù)湖;清洗后的結(jié)構(gòu)化數(shù)據(jù)(用戶基本信息、交易明細(xì))存儲(chǔ)于HBase/ClickHouse作為實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù);聚合后的統(tǒng)計(jì)數(shù)據(jù)存儲(chǔ)于關(guān)系型數(shù)據(jù)庫(kù)(如PostgreSQL)供前端調(diào)用。(3)實(shí)時(shí)分析場(chǎng)景:①實(shí)時(shí)營(yíng)銷(用戶瀏覽商品后30秒內(nèi)推送相關(guān)優(yōu)惠券);②異常交易監(jiān)測(cè)(檢測(cè)同一用戶短時(shí)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論