2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第1頁(yè)
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第2頁(yè)
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第3頁(yè)
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第4頁(yè)
2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025繼續(xù)教育公需科目大數(shù)據(jù)技術(shù)及應(yīng)用試題及答案一、單項(xiàng)選擇題(共15題,每題2分,共30分)1.以下哪項(xiàng)不屬于大數(shù)據(jù)的“4V”特征?A.大量(Volume)B.高速(Velocity)C.多樣(Variety)D.高價(jià)(Value)2.Hadoop分布式文件系統(tǒng)(HDFS)的默認(rèn)塊大小是?A.32MBB.64MBC.128MBD.256MB3.以下哪種技術(shù)用于解決大數(shù)據(jù)的實(shí)時(shí)計(jì)算需求?A.HadoopMapReduceB.ApacheSparkStreamingC.HiveD.HBase4.數(shù)據(jù)清洗的主要目的是?A.增加數(shù)據(jù)量B.消除數(shù)據(jù)中的錯(cuò)誤、缺失或冗余C.轉(zhuǎn)換數(shù)據(jù)格式D.提升數(shù)據(jù)存儲(chǔ)效率5.以下哪項(xiàng)是NoSQL數(shù)據(jù)庫(kù)的典型應(yīng)用場(chǎng)景?A.需要嚴(yán)格事務(wù)性的銀行交易系統(tǒng)B.高并發(fā)、非結(jié)構(gòu)化數(shù)據(jù)的社交平臺(tái)用戶行為日志C.企業(yè)資源計(jì)劃(ERP)系統(tǒng)的關(guān)系型數(shù)據(jù)存儲(chǔ)D.政府公文的結(jié)構(gòu)化數(shù)據(jù)管理6.機(jī)器學(xué)習(xí)中,“過擬合”現(xiàn)象指的是?A.模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)差,在測(cè)試數(shù)據(jù)上表現(xiàn)好B.模型在訓(xùn)練數(shù)據(jù)上表現(xiàn)好,在測(cè)試數(shù)據(jù)上表現(xiàn)差C.模型無法處理大規(guī)模數(shù)據(jù)D.模型訓(xùn)練時(shí)間過長(zhǎng)7.數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)與數(shù)據(jù)湖(DataLake)的核心區(qū)別在于?A.數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)湖存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)倉(cāng)庫(kù)支持實(shí)時(shí)查詢,數(shù)據(jù)湖僅支持批量處理C.數(shù)據(jù)倉(cāng)庫(kù)面向分析,數(shù)據(jù)湖面向事務(wù)D.數(shù)據(jù)倉(cāng)庫(kù)需要提前定義模式(SchemaonWrite),數(shù)據(jù)湖支持靈活模式(SchemaonRead)8.ApacheKafka的主要功能是?A.分布式數(shù)據(jù)庫(kù)B.分布式計(jì)算框架C.分布式消息隊(duì)列D.分布式文件系統(tǒng)9.以下哪項(xiàng)屬于大數(shù)據(jù)分析中的“預(yù)測(cè)分析”技術(shù)?A.客戶分群(聚類分析)B.銷量趨勢(shì)預(yù)測(cè)(時(shí)間序列分析)C.用戶評(píng)論情感分析(文本挖掘)D.網(wǎng)站訪問路徑分析(關(guān)聯(lián)規(guī)則)10.數(shù)據(jù)脫敏技術(shù)的主要目的是?A.提升數(shù)據(jù)壓縮率B.保護(hù)數(shù)據(jù)隱私,避免敏感信息泄露C.優(yōu)化數(shù)據(jù)存儲(chǔ)結(jié)構(gòu)D.加速數(shù)據(jù)查詢速度11.以下哪項(xiàng)不屬于Spark的核心組件?A.SparkCoreB.SparkSQLC.SparkMLlibD.SparkRDD12.大數(shù)據(jù)處理流程的正確順序是?A.數(shù)據(jù)采集→數(shù)據(jù)存儲(chǔ)→數(shù)據(jù)清洗→數(shù)據(jù)分析→數(shù)據(jù)應(yīng)用B.數(shù)據(jù)存儲(chǔ)→數(shù)據(jù)采集→數(shù)據(jù)清洗→數(shù)據(jù)分析→數(shù)據(jù)應(yīng)用C.數(shù)據(jù)采集→數(shù)據(jù)清洗→數(shù)據(jù)存儲(chǔ)→數(shù)據(jù)分析→數(shù)據(jù)應(yīng)用D.數(shù)據(jù)采集→數(shù)據(jù)存儲(chǔ)→數(shù)據(jù)分析→數(shù)據(jù)清洗→數(shù)據(jù)應(yīng)用13.邊緣計(jì)算在大數(shù)據(jù)場(chǎng)景中的主要作用是?A.將所有數(shù)據(jù)集中到云端處理B.在數(shù)據(jù)產(chǎn)生的源頭附近進(jìn)行實(shí)時(shí)處理,減少傳輸延遲C.替代云計(jì)算D.僅處理結(jié)構(gòu)化數(shù)據(jù)14.以下哪種算法屬于監(jiān)督學(xué)習(xí)?A.Kmeans聚類B.決策樹分類C.關(guān)聯(lián)規(guī)則挖掘(Apriori)D.主成分分析(PCA)降維15.大數(shù)據(jù)倫理問題不包括?A.數(shù)據(jù)壟斷導(dǎo)致的市場(chǎng)不公平B.數(shù)據(jù)泄露引發(fā)的隱私侵犯C.數(shù)據(jù)驅(qū)動(dòng)決策的算法偏見D.數(shù)據(jù)存儲(chǔ)硬件的能耗問題二、多項(xiàng)選擇題(共10題,每題3分,共30分,多選、少選、錯(cuò)選均不得分)1.以下屬于大數(shù)據(jù)存儲(chǔ)技術(shù)的有?A.HDFSB.HBaseC.RedisD.MongoDB2.數(shù)據(jù)預(yù)處理的主要步驟包括?A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)歸約3.實(shí)時(shí)數(shù)據(jù)處理框架的典型代表有?A.ApacheFlinkB.ApacheStormC.ApacheSparkStreamingD.ApacheHive4.大數(shù)據(jù)在智慧城市中的應(yīng)用場(chǎng)景包括?A.交通擁堵預(yù)測(cè)與調(diào)度B.智能電網(wǎng)負(fù)荷管理C.垃圾清運(yùn)路徑優(yōu)化D.醫(yī)院患者候診時(shí)間預(yù)測(cè)5.以下關(guān)于Hadoop生態(tài)系統(tǒng)的描述正確的有?A.Hive用于將SQL查詢轉(zhuǎn)換為MapReduce任務(wù)B.ZooKeeper用于分布式系統(tǒng)的協(xié)調(diào)與管理C.Sqoop用于關(guān)系型數(shù)據(jù)庫(kù)與HDFS之間的數(shù)據(jù)遷移D.Oozie用于工作流調(diào)度6.數(shù)據(jù)生命周期管理(DLM)的階段包括?A.數(shù)據(jù)生成與采集B.數(shù)據(jù)存儲(chǔ)與維護(hù)C.數(shù)據(jù)歸檔與銷毀D.數(shù)據(jù)備份與恢復(fù)7.隱私計(jì)算技術(shù)包括?A.聯(lián)邦學(xué)習(xí)B.安全多方計(jì)算(MPC)C.同態(tài)加密D.數(shù)據(jù)脫敏8.以下屬于非結(jié)構(gòu)化數(shù)據(jù)的有?A.社交媒體用戶評(píng)論B.監(jiān)控視頻C.企業(yè)ERP系統(tǒng)中的訂單表D.傳感器采集的實(shí)時(shí)溫度數(shù)據(jù)(無固定格式)9.大數(shù)據(jù)分析的價(jià)值體現(xiàn)在?A.優(yōu)化業(yè)務(wù)流程,降低運(yùn)營(yíng)成本B.支持精準(zhǔn)營(yíng)銷與個(gè)性化推薦C.輔助決策,提升預(yù)測(cè)準(zhǔn)確性D.完全替代人工決策10.以下關(guān)于SparkRDD(彈性分布式數(shù)據(jù)集)的特點(diǎn)描述正確的有?A.不可變(Immutable)B.支持內(nèi)存計(jì)算,提升速度C.自動(dòng)容錯(cuò)(通過血統(tǒng)機(jī)制)D.僅支持批量處理,不支持實(shí)時(shí)計(jì)算三、判斷題(共10題,每題1分,共10分,正確填“√”,錯(cuò)誤填“×”)1.大數(shù)據(jù)的“價(jià)值密度低”是指數(shù)據(jù)本身沒有價(jià)值。()2.HBase是一種基于列存儲(chǔ)的NoSQL數(shù)據(jù)庫(kù),適合實(shí)時(shí)讀寫場(chǎng)景。()3.數(shù)據(jù)倉(cāng)庫(kù)(DW)和數(shù)據(jù)庫(kù)(DB)的核心目標(biāo)都是支持事務(wù)處理。()4.機(jī)器學(xué)習(xí)模型訓(xùn)練需要大量標(biāo)注數(shù)據(jù),標(biāo)注質(zhì)量直接影響模型效果。()5.實(shí)時(shí)數(shù)據(jù)處理要求延遲在秒級(jí)或毫秒級(jí),而批量處理通常以小時(shí)或天為單位。()6.數(shù)據(jù)湖可以存儲(chǔ)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉(cāng)庫(kù)主要存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)。()7.ApacheKafka的消息持久化機(jī)制依賴于磁盤存儲(chǔ),因此不支持高吞吐量。()8.數(shù)據(jù)清洗中的“缺失值處理”只能通過刪除缺失記錄解決。()9.聯(lián)邦學(xué)習(xí)允許不同機(jī)構(gòu)在不共享原始數(shù)據(jù)的前提下聯(lián)合訓(xùn)練模型,保護(hù)隱私。()10.大數(shù)據(jù)分析中,相關(guān)關(guān)系的挖掘比因果關(guān)系更重要,因此無需關(guān)注因果邏輯。()四、簡(jiǎn)答題(共5題,每題6分,共30分)1.簡(jiǎn)述Hadoop生態(tài)系統(tǒng)的主要組件及其核心功能。2.數(shù)據(jù)清洗的主要步驟包括哪些?請(qǐng)舉例說明常見的數(shù)據(jù)質(zhì)量問題。3.對(duì)比實(shí)時(shí)數(shù)據(jù)處理與批量數(shù)據(jù)處理的特點(diǎn),各列舉一個(gè)典型應(yīng)用場(chǎng)景。4.大數(shù)據(jù)在醫(yī)療領(lǐng)域有哪些具體應(yīng)用?請(qǐng)至少說明3個(gè)場(chǎng)景。5.什么是“數(shù)據(jù)孤島”?如何解決數(shù)據(jù)孤島問題?五、案例分析題(共1題,20分)背景:某電商平臺(tái)計(jì)劃通過大數(shù)據(jù)技術(shù)優(yōu)化用戶購(gòu)物體驗(yàn),具體需求包括:(1)實(shí)時(shí)監(jiān)控用戶瀏覽、加購(gòu)、支付等行為數(shù)據(jù);(2)分析用戶偏好,實(shí)現(xiàn)個(gè)性化商品推薦;(3)預(yù)測(cè)大促期間的訂單量,優(yōu)化庫(kù)存調(diào)度。問題:(1)請(qǐng)?jiān)O(shè)計(jì)該平臺(tái)的數(shù)據(jù)處理流程(從數(shù)據(jù)采集到應(yīng)用的完整鏈路)。(2)針對(duì)每個(gè)需求,推薦合適的大數(shù)據(jù)技術(shù)或工具,并說明理由。參考答案一、單項(xiàng)選擇題1.D2.C3.B4.B5.B6.B7.D8.C9.B10.B11.D12.A13.B14.B15.D二、多項(xiàng)選擇題1.ABCD2.ABCD3.ABC4.ABCD5.ABCD6.ABC7.ABCD8.ABD9.ABC10.ABC三、判斷題1.×2.√3.×4.√5.√6.√7.×8.×9.√10.×四、簡(jiǎn)答題1.Hadoop生態(tài)系統(tǒng)主要組件及功能:HDFS(Hadoop分布式文件系統(tǒng)):分布式存儲(chǔ),支持海量數(shù)據(jù)存儲(chǔ),提供高容錯(cuò)性。MapReduce:分布式計(jì)算框架,將任務(wù)分解為Map(映射)和Reduce(歸約)階段,處理批量數(shù)據(jù)。Hive:數(shù)據(jù)倉(cāng)庫(kù)工具,支持通過類SQL語言(HiveQL)查詢HDFS數(shù)據(jù),底層轉(zhuǎn)換為MapReduce任務(wù)。HBase:基于HDFS的分布式列存儲(chǔ)數(shù)據(jù)庫(kù),支持實(shí)時(shí)讀寫和隨機(jī)訪問,適合高并發(fā)場(chǎng)景。ZooKeeper:分布式協(xié)調(diào)服務(wù),用于管理集群節(jié)點(diǎn)狀態(tài)、配置同步和分布式鎖。Sqoop:用于關(guān)系型數(shù)據(jù)庫(kù)(如MySQL)與HDFS之間的數(shù)據(jù)遷移,支持批量導(dǎo)入/導(dǎo)出。Oozie:工作流調(diào)度系統(tǒng),管理Hadoop任務(wù)的依賴關(guān)系和執(zhí)行順序。2.數(shù)據(jù)清洗步驟及常見質(zhì)量問題:步驟:①缺失值處理(填充、刪除或插值);②異常值檢測(cè)(如通過Zscore或箱線圖);③重復(fù)值刪除;④格式標(biāo)準(zhǔn)化(如統(tǒng)一日期格式);⑤邏輯檢查(如年齡為負(fù)數(shù))。常見問題舉例:用戶表中“手機(jī)號(hào)”字段存在缺失(缺失值)、“年齡”字段出現(xiàn)150歲(異常值)、兩條記錄的用戶ID完全相同(重復(fù)值)、“注冊(cè)時(shí)間”字段格式混亂(有的為“2024/01/01”,有的為“202411”)(格式問題)。3.實(shí)時(shí)與批量處理對(duì)比及場(chǎng)景:特點(diǎn)對(duì)比:實(shí)時(shí)處理:延遲低(毫秒/秒級(jí)),處理流數(shù)據(jù)(如用戶實(shí)時(shí)點(diǎn)擊事件),需支持高并發(fā);批量處理:延遲高(分鐘/小時(shí)級(jí)),處理靜態(tài)數(shù)據(jù)集(如每日訂單匯總),適合復(fù)雜計(jì)算。場(chǎng)景舉例:實(shí)時(shí)處理:電商大促期間實(shí)時(shí)監(jiān)控頁(yè)面訪問量,動(dòng)態(tài)調(diào)整服務(wù)器資源(使用Flink/Storm);批量處理:每日凌晨計(jì)算用戶昨日購(gòu)物偏好,生成推薦列表(使用SparkBatch/MapReduce)。4.醫(yī)療領(lǐng)域大數(shù)據(jù)應(yīng)用場(chǎng)景:疾病預(yù)測(cè):基于患者歷史病歷、基因數(shù)據(jù)、生活習(xí)慣等,預(yù)測(cè)糖尿病、心血管疾病風(fēng)險(xiǎn)(如通過機(jī)器學(xué)習(xí)模型)。精準(zhǔn)用藥:分析藥物反應(yīng)與患者基因的關(guān)聯(lián)(如腫瘤靶向藥),避免無效用藥或副作用。醫(yī)學(xué)影像分析:利用深度學(xué)習(xí)識(shí)別CT/MRI圖像中的病灶(如肺結(jié)節(jié)、腫瘤),輔助醫(yī)生診斷。公共衛(wèi)生管理:追蹤傳染病傳播路徑(如通過手機(jī)定位數(shù)據(jù)+就診記錄),優(yōu)化隔離策略。5.數(shù)據(jù)孤島定義與解決方法:定義:指不同部門、系統(tǒng)或機(jī)構(gòu)之間的數(shù)據(jù)無法共享,形成孤立的“數(shù)據(jù)池”,導(dǎo)致信息無法流通、重復(fù)存儲(chǔ)和分析效率低下。解決方法:技術(shù)層面:建立統(tǒng)一的數(shù)據(jù)標(biāo)準(zhǔn)(如元數(shù)據(jù)管理、接口規(guī)范),通過數(shù)據(jù)中臺(tái)或湖倉(cāng)一體架構(gòu)整合多源數(shù)據(jù);管理層面:制定跨部門數(shù)據(jù)共享機(jī)制,明確數(shù)據(jù)所有權(quán)與使用權(quán)限;工具層面:使用ETL工具(如Kettle)或數(shù)據(jù)集成平臺(tái),實(shí)現(xiàn)不同系統(tǒng)間的數(shù)據(jù)同步與轉(zhuǎn)換。五、案例分析題(1)數(shù)據(jù)處理流程設(shè)計(jì):數(shù)據(jù)采集→數(shù)據(jù)存儲(chǔ)→數(shù)據(jù)清洗→數(shù)據(jù)處理(實(shí)時(shí)/批量)→數(shù)據(jù)分析→應(yīng)用輸出。具體鏈路:①采集:通過埋點(diǎn)工具(如GoogleAnalytics、神策數(shù)據(jù))收集用戶行為日志(瀏覽、加購(gòu)、支付),通過API接口獲取訂單、商品等業(yè)務(wù)系統(tǒng)數(shù)據(jù);②存儲(chǔ):實(shí)時(shí)行為數(shù)據(jù)寫入Kafka消息隊(duì)列暫存,批量業(yè)務(wù)數(shù)據(jù)存入HDFS或數(shù)據(jù)湖(如AWSS3);③清洗:實(shí)時(shí)數(shù)據(jù)通過Flink清洗(過濾無效事件、修正格式),批量數(shù)據(jù)通過Spark清洗(處理缺失值、去重);④處理:實(shí)時(shí)數(shù)據(jù)由Flink計(jì)算用戶實(shí)時(shí)偏好(如最近1小時(shí)瀏覽品類),批量數(shù)據(jù)由Spark計(jì)算用戶長(zhǎng)期偏好(如月度購(gòu)買習(xí)慣);⑤分析:實(shí)時(shí)分析用于動(dòng)態(tài)推薦(如“當(dāng)前瀏覽商品的相似款”),批量分析用于用戶分群(如高價(jià)值用戶、潛在流失用戶);⑥應(yīng)用:將推薦結(jié)果寫入緩存(Redis)供前端調(diào)用,將預(yù)測(cè)訂單量輸出至庫(kù)存管理系統(tǒng)(如ERP)。(

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論