2025年公需科目大數(shù)據(jù)培訓(xùn)考試題目及答案_第1頁(yè)
2025年公需科目大數(shù)據(jù)培訓(xùn)考試題目及答案_第2頁(yè)
2025年公需科目大數(shù)據(jù)培訓(xùn)考試題目及答案_第3頁(yè)
2025年公需科目大數(shù)據(jù)培訓(xùn)考試題目及答案_第4頁(yè)
2025年公需科目大數(shù)據(jù)培訓(xùn)考試題目及答案_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

公需科目大數(shù)據(jù)培訓(xùn)考試題目及答案一、單項(xiàng)選擇題(每題2分,共30分)1.下列哪項(xiàng)不屬于大數(shù)據(jù)的“4V”特征?A.大量(Volume)B.高速(Velocity)C.多樣(Variety)D.高價(jià)(Value)答案:D(大數(shù)據(jù)的“4V”特征為大量、高速、多樣、低價(jià)值密度,核心價(jià)值在于挖掘后的高價(jià)值)2.Hadoop分布式文件系統(tǒng)(HDFS)的默認(rèn)塊大小是?A.32MBB.64MBC.128MBD.256MB答案:C(HDFS默認(rèn)塊大小為128MB,設(shè)計(jì)目的是減少NameNode內(nèi)存占用,適合大文件存儲(chǔ))3.數(shù)據(jù)清洗的主要目的是?A.增加數(shù)據(jù)量B.消除數(shù)據(jù)中的噪聲和不一致C.轉(zhuǎn)換數(shù)據(jù)格式D.壓縮數(shù)據(jù)存儲(chǔ)答案:B(數(shù)據(jù)清洗通過(guò)處理缺失值、錯(cuò)誤值、重復(fù)值等,提升數(shù)據(jù)質(zhì)量)4.以下哪種技術(shù)屬于分布式計(jì)算框架?A.HBaseB.SparkC.HDFSD.Kafka答案:B(Spark是基于內(nèi)存的分布式計(jì)算框架,HBase是分布式數(shù)據(jù)庫(kù),HDFS是文件系統(tǒng),Kafka是消息隊(duì)列)5.大數(shù)據(jù)分析中,“關(guān)聯(lián)規(guī)則挖掘”屬于以下哪類(lèi)任務(wù)?A.分類(lèi)B.聚類(lèi)C.預(yù)測(cè)D.關(guān)聯(lián)分析答案:D(關(guān)聯(lián)規(guī)則挖掘用于發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的關(guān)聯(lián)關(guān)系,如“啤酒與尿布”案例)6.流處理(StreamProcessing)與批處理(BatchProcessing)的主要區(qū)別在于?A.流處理處理實(shí)時(shí)數(shù)據(jù),批處理處理歷史數(shù)據(jù)B.流處理使用內(nèi)存計(jì)算,批處理使用磁盤(pán)存儲(chǔ)C.流處理結(jié)果更準(zhǔn)確,批處理速度更快D.流處理適用于小數(shù)據(jù),批處理適用于大數(shù)據(jù)答案:A(流處理強(qiáng)調(diào)實(shí)時(shí)性,處理持續(xù)到達(dá)的數(shù)據(jù)流;批處理處理靜態(tài)的批量數(shù)據(jù))7.數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的主要區(qū)別是?A.數(shù)據(jù)湖存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖在存儲(chǔ)時(shí)不定義模式(SchemaonRead),數(shù)據(jù)倉(cāng)庫(kù)在存儲(chǔ)前定義模式(SchemaonWrite)C.數(shù)據(jù)湖僅用于分析,數(shù)據(jù)倉(cāng)庫(kù)用于事務(wù)處理D.數(shù)據(jù)湖成本更高,數(shù)據(jù)倉(cāng)庫(kù)成本更低答案:B(數(shù)據(jù)湖采用“讀時(shí)模式”,支持多種數(shù)據(jù)類(lèi)型;數(shù)據(jù)倉(cāng)庫(kù)采用“寫(xiě)時(shí)模式”,需提前定義結(jié)構(gòu))8.以下哪類(lèi)數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù)?A.關(guān)系型數(shù)據(jù)庫(kù)中的表B.日志文件C.財(cái)務(wù)報(bào)表D.客戶(hù)信息表答案:B(非結(jié)構(gòu)化數(shù)據(jù)無(wú)固定格式,如文本、圖片、視頻、日志;結(jié)構(gòu)化數(shù)據(jù)如數(shù)據(jù)庫(kù)表)9.MapReduce計(jì)算模型中,核心步驟是?A.輸入分片(Split)和輸出合并(Merge)B.映射(Map)和歸約(Reduce)C.排序(Sort)和分組(Group)D.緩存(Cache)和持久化(Persist)答案:B(MapReduce通過(guò)Map函數(shù)處理輸入鍵值對(duì),Reduce函數(shù)合并中間結(jié)果)10.大數(shù)據(jù)在智慧城市中的典型應(yīng)用不包括?A.交通擁堵預(yù)測(cè)B.智能電表數(shù)據(jù)采集C.個(gè)人隱私泄露監(jiān)控D.環(huán)境質(zhì)量實(shí)時(shí)監(jiān)測(cè)答案:C(智慧城市應(yīng)用包括交通、能源、環(huán)境等,隱私監(jiān)控不屬于典型應(yīng)用)11.以下哪種技術(shù)用于解決大數(shù)據(jù)的實(shí)時(shí)查詢(xún)需求?A.HiveB.ImpalaC.HBaseD.Pig答案:B(Impala是Hadoop生態(tài)中的實(shí)時(shí)查詢(xún)引擎,Hive是批處理數(shù)據(jù)倉(cāng)庫(kù)工具,HBase是NoSQL數(shù)據(jù)庫(kù),Pig是腳本語(yǔ)言)12.數(shù)據(jù)脫敏技術(shù)的主要目的是?A.壓縮數(shù)據(jù)大小B.保護(hù)敏感信息C.提升數(shù)據(jù)傳輸速度D.統(tǒng)一數(shù)據(jù)格式答案:B(數(shù)據(jù)脫敏通過(guò)替換、混淆等方式隱藏隱私信息,如將身份證號(hào)部分替換為“”)13.以下哪項(xiàng)是機(jī)器學(xué)習(xí)中的監(jiān)督學(xué)習(xí)任務(wù)?A.聚類(lèi)分析B.關(guān)聯(lián)規(guī)則挖掘C.圖像分類(lèi)D.異常檢測(cè)答案:C(監(jiān)督學(xué)習(xí)需要標(biāo)簽數(shù)據(jù),如圖像分類(lèi);聚類(lèi)、關(guān)聯(lián)、異常檢測(cè)屬于無(wú)監(jiān)督學(xué)習(xí))14.分布式系統(tǒng)中,“CAP定理”指的是?A.一致性(Consistency)、可用性(Availability)、分區(qū)容錯(cuò)性(PartitionTolerance)B.計(jì)算(Compute)、存儲(chǔ)(Storage)、網(wǎng)絡(luò)(Network)C.容量(Capacity)、速度(Velocity)、準(zhǔn)確性(Precision)D.成本(Cost)、可用性(Availability)、性能(Performance)答案:A(CAP定理指出分布式系統(tǒng)無(wú)法同時(shí)滿(mǎn)足一致性、可用性和分區(qū)容錯(cuò)性,需權(quán)衡)15.大數(shù)據(jù)平臺(tái)的核心層不包括?A.數(shù)據(jù)采集層B.數(shù)據(jù)存儲(chǔ)層C.數(shù)據(jù)展示層D.數(shù)據(jù)計(jì)算層答案:C(大數(shù)據(jù)平臺(tái)通常包括采集、存儲(chǔ)、計(jì)算、分析、應(yīng)用層,展示層屬于應(yīng)用層的一部分)二、多項(xiàng)選擇題(每題3分,共30分,多選、少選、錯(cuò)選均不得分)1.大數(shù)據(jù)的關(guān)鍵技術(shù)包括?A.分布式存儲(chǔ)(如HDFS)B.分布式計(jì)算(如Spark)C.流處理(如Flink)D.消息隊(duì)列(如Kafka)答案:ABCD(以上均為大數(shù)據(jù)處理的核心技術(shù))2.數(shù)據(jù)預(yù)處理的主要步驟包括?A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)轉(zhuǎn)換D.數(shù)據(jù)規(guī)約答案:ABCD(預(yù)處理包括清洗、集成、轉(zhuǎn)換、規(guī)約,旨在提升數(shù)據(jù)質(zhì)量和可用性)3.分布式計(jì)算框架的特點(diǎn)包括?A.并行處理海量數(shù)據(jù)B.高容錯(cuò)性(節(jié)點(diǎn)故障時(shí)自動(dòng)恢復(fù))C.可擴(kuò)展性(支持水平擴(kuò)展)D.單節(jié)點(diǎn)處理所有任務(wù)答案:ABC(分布式框架通過(guò)多節(jié)點(diǎn)協(xié)作實(shí)現(xiàn)并行、容錯(cuò)和擴(kuò)展,D為集中式特點(diǎn))4.大數(shù)據(jù)安全面臨的主要風(fēng)險(xiǎn)包括?A.數(shù)據(jù)泄露(如用戶(hù)隱私信息)B.數(shù)據(jù)篡改(如交易記錄被修改)C.分布式拒絕服務(wù)攻擊(DDoS)D.數(shù)據(jù)冗余(存儲(chǔ)重復(fù)數(shù)據(jù))答案:ABC(數(shù)據(jù)冗余是存儲(chǔ)問(wèn)題,不屬于安全風(fēng)險(xiǎn))5.以下哪些屬于機(jī)器學(xué)習(xí)中的分類(lèi)算法?A.決策樹(shù)(DecisionTree)B.K均值(KMeans)C.邏輯回歸(LogisticRegression)D.支持向量機(jī)(SVM)答案:ACD(KMeans是聚類(lèi)算法,屬于無(wú)監(jiān)督學(xué)習(xí))6.數(shù)據(jù)可視化的常用工具包括?A.TableauB.PowerBIC.EChartsD.D3.js答案:ABCD(以上均為主流可視化工具,前兩者為商業(yè)工具,后兩者為開(kāi)源庫(kù))7.HBase的特性包括?A.列式存儲(chǔ)(ColumnOriented)B.支持高并發(fā)實(shí)時(shí)讀寫(xiě)C.基于HDFS存儲(chǔ)D.適用于關(guān)系型數(shù)據(jù)查詢(xún)答案:ABC(HBase是NoSQL數(shù)據(jù)庫(kù),列式存儲(chǔ),支持實(shí)時(shí)讀寫(xiě),底層用HDFS,不適合復(fù)雜關(guān)系查詢(xún))8.流處理框架(如Flink)的典型應(yīng)用場(chǎng)景包括?A.實(shí)時(shí)推薦系統(tǒng)(如電商商品推薦)B.網(wǎng)絡(luò)流量監(jiān)控預(yù)警C.歷史銷(xiāo)售數(shù)據(jù)統(tǒng)計(jì)(按月/年)D.日志實(shí)時(shí)分析(如服務(wù)器異常檢測(cè))答案:ABD(歷史數(shù)據(jù)統(tǒng)計(jì)屬于批處理場(chǎng)景)9.大數(shù)據(jù)在醫(yī)療行業(yè)的應(yīng)用包括?A.基于病歷數(shù)據(jù)的精準(zhǔn)診療B.疫情傳播趨勢(shì)預(yù)測(cè)C.藥物研發(fā)中的基因數(shù)據(jù)分析D.醫(yī)院人力資源管理系統(tǒng)答案:ABC(人力資源管理屬于傳統(tǒng)信息化,非大數(shù)據(jù)典型應(yīng)用)10.數(shù)據(jù)治理的核心內(nèi)容包括?A.元數(shù)據(jù)管理(記錄數(shù)據(jù)來(lái)源、結(jié)構(gòu))B.數(shù)據(jù)質(zhì)量管控(準(zhǔn)確性、完整性)C.數(shù)據(jù)權(quán)限管理(訪問(wèn)控制)D.數(shù)據(jù)生命周期管理(存儲(chǔ)、歸檔、刪除)答案:ABCD(數(shù)據(jù)治理涵蓋元數(shù)據(jù)、質(zhì)量、權(quán)限、生命周期等全流程管理)三、判斷題(每題1分,共10分,正確打“√”,錯(cuò)誤打“×”)1.大數(shù)據(jù)的核心是數(shù)據(jù)量大,因此數(shù)據(jù)量越大價(jià)值越高。()答案:×(大數(shù)據(jù)的核心是通過(guò)分析挖掘數(shù)據(jù)中的隱藏價(jià)值,數(shù)據(jù)量并非唯一關(guān)鍵)2.HDFS適合存儲(chǔ)大量小文件(如1KB的文本文件)。()答案:×(HDFS設(shè)計(jì)為存儲(chǔ)大文件,小文件會(huì)占用NameNode大量?jī)?nèi)存,降低性能)3.數(shù)據(jù)清洗僅需處理缺失值,無(wú)需處理錯(cuò)誤值和重復(fù)值。()答案:×(數(shù)據(jù)清洗需處理缺失值、錯(cuò)誤值、重復(fù)值、不一致值等多種問(wèn)題)4.Spark基于內(nèi)存計(jì)算,因此比HadoopMapReduce處理速度更快。()答案:√(Spark通過(guò)內(nèi)存緩存中間結(jié)果,減少磁盤(pán)IO,速度通??煊贛apReduce)5.非結(jié)構(gòu)化數(shù)據(jù)(如文本、圖片)無(wú)法進(jìn)行大數(shù)據(jù)分析。()答案:×(可通過(guò)自然語(yǔ)言處理(NLP)、計(jì)算機(jī)視覺(jué)等技術(shù)分析非結(jié)構(gòu)化數(shù)據(jù))6.數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)主要用于支持實(shí)時(shí)事務(wù)處理(如用戶(hù)下單)。()答案:×(數(shù)據(jù)倉(cāng)庫(kù)用于分析決策,支持批量數(shù)據(jù)寫(xiě)入;事務(wù)處理由OLTP系統(tǒng)支持)7.Kafka是一種流處理框架,可直接完成數(shù)據(jù)計(jì)算。()答案:×(Kafka是分布式消息隊(duì)列,用于數(shù)據(jù)實(shí)時(shí)傳輸,流處理需結(jié)合Flink等框架)8.數(shù)據(jù)可視化的目的僅是將數(shù)據(jù)轉(zhuǎn)化為圖表,無(wú)需關(guān)注信息傳遞效果。()答案:×(可視化核心是清晰、高效地傳遞數(shù)據(jù)背后的信息,而非單純畫(huà)圖)9.隱私計(jì)算(如聯(lián)邦學(xué)習(xí))可以在不共享原始數(shù)據(jù)的情況下完成聯(lián)合建模。()答案:√(隱私計(jì)算通過(guò)加密技術(shù)實(shí)現(xiàn)“數(shù)據(jù)可用不可見(jiàn)”,保護(hù)隱私)10.大數(shù)據(jù)應(yīng)用只需關(guān)注技術(shù)實(shí)現(xiàn),無(wú)需考慮倫理問(wèn)題(如算法歧視)。()答案:×(需關(guān)注數(shù)據(jù)隱私、算法公平性、社會(huì)影響等倫理問(wèn)題)四、簡(jiǎn)答題(每題6分,共30分)1.簡(jiǎn)述大數(shù)據(jù)“4V”特征的具體內(nèi)容。答案:①大量(Volume):數(shù)據(jù)規(guī)模巨大,從TB級(jí)躍升至PB、EB級(jí);②高速(Velocity):數(shù)據(jù)產(chǎn)生和處理速度快,需實(shí)時(shí)或準(zhǔn)實(shí)時(shí)分析;③多樣(Variety):數(shù)據(jù)類(lèi)型復(fù)雜,包括結(jié)構(gòu)化(數(shù)據(jù)庫(kù)表)、半結(jié)構(gòu)化(JSON)、非結(jié)構(gòu)化(文本、視頻);④低價(jià)值密度(Value):海量數(shù)據(jù)中有效信息占比低,需通過(guò)分析挖掘價(jià)值。2.說(shuō)明Hadoop生態(tài)中HDFS、MapReduce、Hive的作用及關(guān)系。答案:HDFS(Hadoop分布式文件系統(tǒng))負(fù)責(zé)海量數(shù)據(jù)的分布式存儲(chǔ),提供高容錯(cuò)性;MapReduce是分布式計(jì)算框架,通過(guò)Map和Reduce函數(shù)處理海量數(shù)據(jù);Hive是基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù)工具,支持通過(guò)類(lèi)SQL語(yǔ)言(HiveQL)查詢(xún)數(shù)據(jù),底層將SQL轉(zhuǎn)換為MapReduce任務(wù)執(zhí)行。三者協(xié)同:HDFS存儲(chǔ)數(shù)據(jù),MapReduce計(jì)算數(shù)據(jù),Hive簡(jiǎn)化數(shù)據(jù)查詢(xún)操作。3.數(shù)據(jù)清洗的常見(jiàn)方法有哪些?請(qǐng)舉例說(shuō)明。答案:①處理缺失值:刪除缺失記錄(如某條用戶(hù)記錄90%字段缺失)、均值/中位數(shù)填充(如用年齡平均值填充缺失的年齡)、插值法(如時(shí)間序列數(shù)據(jù)用前后值插值);②處理錯(cuò)誤值:根據(jù)業(yè)務(wù)規(guī)則修正(如“年齡200歲”修正為“20歲”)、標(biāo)記異常值(如通過(guò)Zscore識(shí)別離群點(diǎn));③處理重復(fù)值:刪除完全重復(fù)的記錄(如兩條用戶(hù)信息完全一致);④處理不一致值:統(tǒng)一單位(如“1米”和“100厘米”統(tǒng)一為“100厘米”)。4.對(duì)比流處理與批處理的區(qū)別,并說(shuō)明各自適用場(chǎng)景。答案:區(qū)別:①數(shù)據(jù)處理方式:流處理處理實(shí)時(shí)、持續(xù)到達(dá)的數(shù)據(jù)流(如傳感器實(shí)時(shí)數(shù)據(jù));批處理處理靜態(tài)、批量的歷史數(shù)據(jù)(如每日訂單數(shù)據(jù))。②時(shí)效性:流處理延遲低(毫秒級(jí)),批處理延遲高(分鐘至小時(shí)級(jí))。③資源使用:流處理需持續(xù)占用資源,批處理按需啟動(dòng)。適用場(chǎng)景:流處理適用于實(shí)時(shí)監(jiān)控(如服務(wù)器異常告警)、實(shí)時(shí)推薦(如電商商品實(shí)時(shí)推薦);批處理適用于離線報(bào)表(如月度銷(xiāo)

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論