2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會(huì)招聘筆試及筆試歷年典型考點(diǎn)題庫附帶答案詳解2套試卷_第1頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會(huì)招聘筆試及筆試歷年典型考點(diǎn)題庫附帶答案詳解2套試卷_第2頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會(huì)招聘筆試及筆試歷年典型考點(diǎn)題庫附帶答案詳解2套試卷_第3頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會(huì)招聘筆試及筆試歷年典型考點(diǎn)題庫附帶答案詳解2套試卷_第4頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會(huì)招聘筆試及筆試歷年典型考點(diǎn)題庫附帶答案詳解2套試卷_第5頁
已閱讀5頁,還剩46頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會(huì)招聘筆試及筆試歷年典型考點(diǎn)題庫附帶答案詳解(第1套)一、單項(xiàng)選擇題下列各題只有一個(gè)正確答案,請(qǐng)選出最恰當(dāng)?shù)倪x項(xiàng)(共30題)1、在大數(shù)據(jù)存儲(chǔ)系統(tǒng)中,以下哪種技術(shù)最適合處理海量非結(jié)構(gòu)化數(shù)據(jù)的高并發(fā)讀寫需求?A.MySQLB.MongoDBC.RedisD.SQLite2、在Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的核心組件是?A.HDFSB.MapReduceC.YARND.Hive3、下列哪種數(shù)據(jù)清洗方法主要用于識(shí)別并處理數(shù)據(jù)中的異常值?A.均值填充B.標(biāo)準(zhǔn)化C.箱線圖分析D.去重4、在數(shù)據(jù)可視化中,最適合展示變量之間相關(guān)性的是?A.柱狀圖B.折線圖C.散點(diǎn)圖D.餅圖5、以下哪項(xiàng)是保障大數(shù)據(jù)平臺(tái)數(shù)據(jù)安全的基礎(chǔ)技術(shù)?A.?dāng)?shù)據(jù)脫敏B.?dāng)?shù)據(jù)聚合C.?dāng)?shù)據(jù)緩存D.?dāng)?shù)據(jù)分片6、在構(gòu)建數(shù)據(jù)倉庫時(shí),星型模型的主要特點(diǎn)是?A.多層規(guī)范化B.事實(shí)表與維度表直接連接C.僅包含維度表D.無主鍵約束7、下列哪項(xiàng)技術(shù)可用于實(shí)現(xiàn)大數(shù)據(jù)實(shí)時(shí)流處理?A.HBaseB.KafkaC.SparkStreamingD.Hive8、在數(shù)據(jù)分析中,以下哪項(xiàng)屬于描述性統(tǒng)計(jì)的主要任務(wù)?A.預(yù)測未來趨勢(shì)B.檢驗(yàn)變量關(guān)系C.計(jì)算均值與標(biāo)準(zhǔn)差D.構(gòu)建回歸模型9、下列哪種壓縮格式在Hadoop中具有較高的壓縮比和良好的讀寫性能?A.GzipB.Bzip2C.SnappyD.LZO10、在數(shù)據(jù)治理中,元數(shù)據(jù)的主要作用是?A.提升數(shù)據(jù)存儲(chǔ)容量B.記錄數(shù)據(jù)的來源、結(jié)構(gòu)和用途C.加速數(shù)據(jù)計(jì)算D.加密敏感數(shù)據(jù)11、在Hadoop生態(tài)系統(tǒng)中,主要用于分布式存儲(chǔ)的核心組件是:

A.YARN

B.MapReduce

C.HDFS

D.Hive12、下列哪項(xiàng)技術(shù)主要用于實(shí)現(xiàn)數(shù)據(jù)倉庫中的聯(lián)機(jī)分析處理(OLAP)?

A.MySQL

B.Redis

C.Kafka

D.Kylin13、在數(shù)據(jù)清洗過程中,處理缺失值的常見方法不包括:

A.刪除含有缺失值的記錄

B.使用均值/中位數(shù)填充

C.使用模型預(yù)測缺失值

D.將缺失值保留為NULL以便后續(xù)分析14、下列關(guān)于數(shù)據(jù)脫敏的說法,正確的是:

A.數(shù)據(jù)脫敏會(huì)提升數(shù)據(jù)計(jì)算精度

B.脫敏后的數(shù)據(jù)可逆還原

C.脫敏用于保護(hù)敏感信息,防止泄露

D.脫敏僅適用于非結(jié)構(gòu)化數(shù)據(jù)15、在SQL查詢中,用于對(duì)分組結(jié)果進(jìn)行篩選的關(guān)鍵詞是:

A.WHERE

B.GROUPBY

C.HAVING

D.ORDERBY16、下列哪種數(shù)據(jù)模型最適用于描述多對(duì)多關(guān)系?

A.層次模型

B.網(wǎng)狀模型

C.關(guān)系模型

D.面向?qū)ο竽P?7、在大數(shù)據(jù)處理中,Spark相較于MapReduce的主要優(yōu)勢(shì)是:

A.更強(qiáng)的磁盤I/O能力

B.支持更多編程語言

C.基于內(nèi)存的計(jì)算引擎,處理速度快

D.更高的數(shù)據(jù)安全性18、下列指標(biāo)中,用于衡量分類模型準(zhǔn)確性的最常用指標(biāo)是:

A.均方誤差(MSE)

B.精確率(Precision)

C.準(zhǔn)確率(Accuracy)

D.輪廓系數(shù)(SilhouetteScore)19、在數(shù)據(jù)可視化中,適合展示時(shí)間序列趨勢(shì)的圖表類型是:

A.餅圖

B.散點(diǎn)圖

C.折線圖

D.箱線圖20、下列哪項(xiàng)不屬于數(shù)據(jù)治理的核心內(nèi)容?

A.數(shù)據(jù)質(zhì)量管理

B.數(shù)據(jù)安全管理

C.數(shù)據(jù)存儲(chǔ)硬件選型

D.元數(shù)據(jù)管理21、在大數(shù)據(jù)處理架構(gòu)中,以下哪項(xiàng)技術(shù)主要用于分布式存儲(chǔ)海量非結(jié)構(gòu)化數(shù)據(jù)?A.MySQLB.HDFSC.RedisD.Oracle22、在數(shù)據(jù)分析中,以下哪種方法常用于發(fā)現(xiàn)數(shù)據(jù)集中變量之間的潛在關(guān)系?A.聚類分析B.回歸分析C.主成分分析D.分類算法23、下列哪項(xiàng)是保障大數(shù)據(jù)平臺(tái)數(shù)據(jù)安全的核心措施之一?A.?dāng)?shù)據(jù)可視化B.?dāng)?shù)據(jù)備份C.?dāng)?shù)據(jù)脫敏D.?dāng)?shù)據(jù)聚合24、在SQL查詢中,用于去除重復(fù)記錄的關(guān)鍵字是?A.ORDERBYB.DISTINCTC.GROUPBYD.HAVING25、以下哪種數(shù)據(jù)類型最適合使用NoSQL數(shù)據(jù)庫存儲(chǔ)?A.銀行交易記錄B.用戶行為日志C.財(cái)務(wù)報(bào)表D.員工考勤表26、在數(shù)據(jù)清洗過程中,處理缺失值的常見方法不包括?A.刪除含有缺失值的記錄B.用均值填充C.用回歸預(yù)測填充D.增加新特征27、以下哪項(xiàng)屬于大數(shù)據(jù)“4V”特征之一?A.可視化(Visualization)B.價(jià)值(Value)C.驗(yàn)證(Validation)D.版本(Version)28、在Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的組件是?A.HDFSB.MapReduceC.YARND.Hive29、以下哪種圖表最適合展示連續(xù)時(shí)間序列數(shù)據(jù)的趨勢(shì)變化?A.餅圖B.散點(diǎn)圖C.折線圖D.柱狀圖30、數(shù)據(jù)倉庫與操作型數(shù)據(jù)庫的主要區(qū)別在于?A.?dāng)?shù)據(jù)倉庫支持事務(wù)處理B.?dāng)?shù)據(jù)倉庫面向分析應(yīng)用C.?dāng)?shù)據(jù)倉庫強(qiáng)調(diào)實(shí)時(shí)更新D.?dāng)?shù)據(jù)倉庫用于日常業(yè)務(wù)操作二、多項(xiàng)選擇題下列各題有多個(gè)正確答案,請(qǐng)選出所有正確選項(xiàng)(共15題)31、大數(shù)據(jù)處理中常用的技術(shù)框架包括以下哪些?A.HadoopB.SparkC.MySQLD.Kafka32、下列屬于數(shù)據(jù)預(yù)處理步驟的有?A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.模型訓(xùn)練33、關(guān)于云計(jì)算服務(wù)模式的描述,正確的有?A.IaaS提供基礎(chǔ)設(shè)施資源B.PaaS包含操作系統(tǒng)與開發(fā)環(huán)境C.SaaS用戶可管理底層硬件D.云存儲(chǔ)屬于SaaS34、下列屬于非關(guān)系型數(shù)據(jù)庫的是?A.MongoDBB.RedisC.OracleD.HBase35、數(shù)據(jù)安全保護(hù)措施包括哪些?A.數(shù)據(jù)加密B.訪問控制C.數(shù)據(jù)脫敏D.日志審計(jì)36、以下關(guān)于數(shù)據(jù)倉庫的描述,正確的有?A.面向主題B.集成性C.實(shí)時(shí)更新D.時(shí)間變異性37、大數(shù)據(jù)的“4V”特征包含?A.Volume(數(shù)據(jù)量大)B.Velocity(處理速度快)C.Variety(數(shù)據(jù)類型多)D.Validity(數(shù)據(jù)有效性)38、以下可用于數(shù)據(jù)可視化的工具是?A.TableauB.EChartsC.MatplotlibD.TensorFlow39、下列屬于機(jī)器學(xué)習(xí)任務(wù)類型的有?A.分類B.聚類C.回歸D.數(shù)據(jù)清洗40、關(guān)于HDFS的描述,正確的有?A.適合存儲(chǔ)大量小文件B.采用主從架構(gòu)C.默認(rèn)塊大小為128MBD.具有高容錯(cuò)性41、大數(shù)據(jù)系統(tǒng)中常用的分布式存儲(chǔ)技術(shù)包括以下哪些?A.HDFSB.MySQLC.HBaseD.Redis42、以下屬于數(shù)據(jù)預(yù)處理常見步驟的有哪些?A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.模型訓(xùn)練43、在大數(shù)據(jù)分析中,MapReduce適用于哪些場景?A.實(shí)時(shí)流數(shù)據(jù)處理B.大規(guī)模離線批處理C.日志分析D.圖計(jì)算44、以下哪些是保障數(shù)據(jù)安全的基本措施?A.數(shù)據(jù)加密B.訪問控制C.數(shù)據(jù)備份D.數(shù)據(jù)可視化45、下列技術(shù)中屬于大數(shù)據(jù)生態(tài)系統(tǒng)組件的有哪些?A.SparkB.KafkaC.NginxD.Zookeeper三、判斷題判斷下列說法是否正確(共10題)46、大數(shù)據(jù)處理中,Hadoop的核心組件包括HDFS和MapReduce,前者負(fù)責(zé)存儲(chǔ),后者負(fù)責(zé)計(jì)算。A.正確B.錯(cuò)誤47、數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),主要目的是刪除重復(fù)數(shù)據(jù)、糾正錯(cuò)誤數(shù)據(jù)并填補(bǔ)缺失值。A.正確B.錯(cuò)誤48、在關(guān)系型數(shù)據(jù)庫中,主鍵(PrimaryKey)可以為空,且允許重復(fù)值。A.正確B.錯(cuò)誤49、云計(jì)算的三種服務(wù)模式分別為IaaS、PaaS和SaaS,其中SaaS提供的是應(yīng)用程序服務(wù)。A.正確B.錯(cuò)誤50、數(shù)據(jù)可視化的主要目的僅是為了美化圖表,提升視覺效果。A.正確B.錯(cuò)誤51、在SQL語句中,GROUPBY通常與聚合函數(shù)(如COUNT、SUM)一起使用,用于分組統(tǒng)計(jì)。A.正確B.錯(cuò)誤52、非關(guān)系型數(shù)據(jù)庫(NoSQL)適用于需要強(qiáng)事務(wù)一致性的銀行交易系統(tǒng)。A.正確B.錯(cuò)誤53、K-means是一種常用的聚類算法,屬于無監(jiān)督學(xué)習(xí)范疇。A.正確B.錯(cuò)誤54、數(shù)據(jù)脫敏是指對(duì)敏感信息進(jìn)行加密處理,確保數(shù)據(jù)在傳輸過程中的安全性。A.正確B.錯(cuò)誤55、ETL過程包括數(shù)據(jù)抽?。‥xtract)、轉(zhuǎn)換(Transform)和加載(Load),是數(shù)據(jù)倉庫建設(shè)的關(guān)鍵步驟。A.正確B.錯(cuò)誤

參考答案及解析1.【參考答案】B【解析】MongoDB是一種面向文檔的NoSQL數(shù)據(jù)庫,支持水平擴(kuò)展(分片),能高效處理海量非結(jié)構(gòu)化數(shù)據(jù)的讀寫操作。MySQL和SQLite是關(guān)系型數(shù)據(jù)庫,適用于結(jié)構(gòu)化數(shù)據(jù),難以應(yīng)對(duì)高并發(fā)非結(jié)構(gòu)化場景;Redis雖支持高并發(fā),但主要用于緩存,持久化能力有限。因此,MongoDB是最合適的選擇。2.【參考答案】C【解析】YARN(YetAnotherResourceNegotiator)是Hadoop2.0以后的核心組件,負(fù)責(zé)集群資源的統(tǒng)一管理和任務(wù)調(diào)度。HDFS負(fù)責(zé)分布式存儲(chǔ),MapReduce是計(jì)算框架,Hive用于SQL查詢轉(zhuǎn)換。YARN將資源調(diào)度與計(jì)算分離,提高了系統(tǒng)效率和多任務(wù)支持能力,是資源管理的核心。3.【參考答案】C【解析】箱線圖(Boxplot)通過四分位距(IQR)識(shí)別異常值,常用于數(shù)據(jù)清洗中的異常檢測。均值填充用于缺失值處理,標(biāo)準(zhǔn)化用于數(shù)據(jù)歸一化,去重用于消除重復(fù)記錄。只有箱線圖分析能有效識(shí)別偏離正常范圍的異常數(shù)據(jù)點(diǎn),是異常值處理的典型方法。4.【參考答案】C【解析】散點(diǎn)圖通過點(diǎn)的分布展示兩個(gè)變量之間的關(guān)系,能直觀反映正相關(guān)、負(fù)相關(guān)或無相關(guān)性。柱狀圖用于類別對(duì)比,折線圖展示趨勢(shì)變化,餅圖顯示占比結(jié)構(gòu)。只有散點(diǎn)圖專門用于分析變量間的相關(guān)性,是統(tǒng)計(jì)分析中的常用工具。5.【參考答案】A【解析】數(shù)據(jù)脫敏通過對(duì)敏感信息進(jìn)行變形、屏蔽或替換,防止數(shù)據(jù)泄露,是數(shù)據(jù)安全保護(hù)的重要手段。數(shù)據(jù)聚合、緩存和分片主要用于性能優(yōu)化和存儲(chǔ)管理,不直接提供安全防護(hù)。脫敏技術(shù)在數(shù)據(jù)共享、測試等場景中廣泛應(yīng)用,是安全體系的基礎(chǔ)環(huán)節(jié)。6.【參考答案】B【解析】星型模型由一個(gè)中心事實(shí)表和多個(gè)維度表組成,維度表直接連接事實(shí)表,不形成層級(jí)。該模型結(jié)構(gòu)簡單、查詢效率高,適合OLAP分析。規(guī)范化多用于操作型數(shù)據(jù)庫,星型模型通常非規(guī)范化。主鍵與外鍵關(guān)系明確,B項(xiàng)正確描述其核心結(jié)構(gòu)特征。7.【參考答案】C【解析】SparkStreaming是基于微批處理的實(shí)時(shí)計(jì)算框架,可處理實(shí)時(shí)數(shù)據(jù)流。Kafka是消息隊(duì)列,用于數(shù)據(jù)傳輸;HBase是列式數(shù)據(jù)庫,支持隨機(jī)讀寫;Hive用于離線批處理。只有SparkStreaming具備實(shí)時(shí)流式計(jì)算能力,能實(shí)現(xiàn)低延遲處理,適用于實(shí)時(shí)分析場景。8.【參考答案】C【解析】描述性統(tǒng)計(jì)旨在總結(jié)和呈現(xiàn)數(shù)據(jù)特征,常用指標(biāo)包括均值、中位數(shù)、標(biāo)準(zhǔn)差、頻數(shù)分布等。預(yù)測趨勢(shì)和構(gòu)建回歸模型屬于推斷性統(tǒng)計(jì)或預(yù)測分析,變量關(guān)系檢驗(yàn)涉及假設(shè)檢驗(yàn)。C項(xiàng)屬于典型的數(shù)據(jù)概括方法,是數(shù)據(jù)分析的基礎(chǔ)步驟。9.【參考答案】C【解析】Snappy由Google開發(fā),壓縮速度和解壓速度極快,壓縮比適中,適合大數(shù)據(jù)場景下的高性能需求。Gzip壓縮比高但速度慢,Bzip2更慢且資源消耗大,LZO雖快但壓縮率較低。Snappy在Hadoop、HBase中廣泛應(yīng)用,平衡了性能與壓縮效率,是優(yōu)選方案。10.【參考答案】B【解析】元數(shù)據(jù)是“關(guān)于數(shù)據(jù)的數(shù)據(jù)”,用于描述數(shù)據(jù)的來源、格式、結(jié)構(gòu)、更新頻率、業(yè)務(wù)含義等信息,是數(shù)據(jù)治理的核心內(nèi)容。它支持?jǐn)?shù)據(jù)發(fā)現(xiàn)、理解、質(zhì)量和安全管理。元數(shù)據(jù)不直接提升存儲(chǔ)、計(jì)算或安全功能,而是為數(shù)據(jù)管理提供基礎(chǔ)支撐,B項(xiàng)準(zhǔn)確反映其核心作用。11.【參考答案】C【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的核心存儲(chǔ)組件,專為大規(guī)模數(shù)據(jù)提供高吞吐量的分布式文件存儲(chǔ)服務(wù)。YARN負(fù)責(zé)資源調(diào)度,MapReduce是計(jì)算框架,Hive用于SQL查詢,均非存儲(chǔ)核心。12.【參考答案】D【解析】ApacheKylin是一個(gè)開源的分布式OLAP引擎,專為大數(shù)據(jù)場景提供多維分析(MOLAP)能力。MySQL是關(guān)系型數(shù)據(jù)庫,Redis是內(nèi)存數(shù)據(jù)庫,Kafka是消息隊(duì)列,均不直接支持高效OLAP查詢。13.【參考答案】D【解析】保留NULL雖在存儲(chǔ)階段常見,但在清洗階段屬于未處理狀態(tài)。標(biāo)準(zhǔn)清洗方法包括刪除、填充(均值、眾數(shù)等)及模型預(yù)測(如回歸、KNN),以確保數(shù)據(jù)質(zhì)量滿足分析要求。14.【參考答案】C【解析】數(shù)據(jù)脫敏通過加密、遮蔽、替換等方式隱藏敏感信息(如身份證號(hào)),保障隱私安全。脫敏通常不可逆,適用于結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù),不影響計(jì)算精度,核心目的是安全防護(hù)。15.【參考答案】C【解析】WHERE用于篩選行,HAVING用于篩選分組后的結(jié)果。GROUPBY進(jìn)行分組,ORDERBY排序。HAVING必須與GROUPBY配合使用,如“SELECTdept,AVG(salary)FROMempGROUPBYdeptHAVINGAVG(salary)>5000”。16.【參考答案】C【解析】關(guān)系模型通過中間關(guān)聯(lián)表可清晰表達(dá)多對(duì)多關(guān)系(如學(xué)生與課程)。層次模型僅支持一對(duì)多,網(wǎng)狀模型雖支持多對(duì)多但結(jié)構(gòu)復(fù)雜,關(guān)系模型因結(jié)構(gòu)清晰、操作簡便成為主流。17.【參考答案】C【解析】Spark將中間數(shù)據(jù)存儲(chǔ)在內(nèi)存中,避免頻繁磁盤讀寫,顯著提升迭代計(jì)算和交互查詢速度。MapReduce基于磁盤,適合批處理但延遲高。Spark支持Scala、Java、Python等,但核心優(yōu)勢(shì)在于內(nèi)存計(jì)算。18.【參考答案】C【解析】準(zhǔn)確率表示分類正確的樣本占總樣本的比例,是分類任務(wù)中最直觀的評(píng)價(jià)指標(biāo)。MSE用于回歸,精確率關(guān)注正類預(yù)測的準(zhǔn)確性,輪廓系數(shù)用于聚類評(píng)估,非分類任務(wù)。19.【參考答案】C【解析】折線圖通過連接數(shù)據(jù)點(diǎn)展示變量隨時(shí)間變化的趨勢(shì),適用于連續(xù)時(shí)間序列分析。餅圖展示占比,散點(diǎn)圖反映變量相關(guān)性,箱線圖顯示數(shù)據(jù)分布和異常值,均不適合時(shí)間趨勢(shì)表達(dá)。20.【參考答案】C【解析】數(shù)據(jù)治理涵蓋數(shù)據(jù)質(zhì)量、安全、元數(shù)據(jù)、主數(shù)據(jù)管理等,強(qiáng)調(diào)數(shù)據(jù)的合規(guī)性與可用性。硬件選型屬于基礎(chǔ)設(shè)施建設(shè),雖重要,但不屬治理范疇,而是技術(shù)實(shí)施層面的決策。21.【參考答案】B【解析】HDFS(HadoopDistributedFileSystem)是專為大數(shù)據(jù)環(huán)境設(shè)計(jì)的分布式文件系統(tǒng),能夠高效存儲(chǔ)和管理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)。MySQL和Oracle屬于傳統(tǒng)關(guān)系型數(shù)據(jù)庫,適用于結(jié)構(gòu)化數(shù)據(jù);Redis是內(nèi)存鍵值數(shù)據(jù)庫,主要用于緩存場景。因此,B項(xiàng)正確。22.【參考答案】B【解析】回歸分析用于研究變量間的依賴關(guān)系,尤其適用于預(yù)測和因果推斷。聚類分析用于分組相似樣本,主成分分析用于降維,分類算法用于標(biāo)簽預(yù)測。發(fā)現(xiàn)變量間關(guān)系最直接的方法是回歸分析,故選B。23.【參考答案】C【解析】數(shù)據(jù)脫敏通過隱藏敏感信息(如身份證號(hào)、手機(jī)號(hào))保障數(shù)據(jù)隱私,是安全共享和測試的重要手段。數(shù)據(jù)備份用于容災(zāi),數(shù)據(jù)聚合和可視化不涉及安全防護(hù)。故C為正確答案。24.【參考答案】B【解析】DISTINCT用于返回唯一不同的值,可直接去除查詢結(jié)果中的重復(fù)行。GROUPBY用于分組統(tǒng)計(jì),HAVING過濾分組結(jié)果,ORDERBY排序。因此,B項(xiàng)是實(shí)現(xiàn)去重的最直接方式。25.【參考答案】B【解析】用戶行為日志具有高并發(fā)、非結(jié)構(gòu)化、寫入頻繁等特點(diǎn),NoSQL(如MongoDB、Cassandra)擅長處理此類數(shù)據(jù)。銀行交易、財(cái)務(wù)報(bào)表等結(jié)構(gòu)化強(qiáng)、一致性要求高的場景更適合關(guān)系型數(shù)據(jù)庫。故選B。26.【參考答案】D【解析】缺失值處理常用方法包括刪除、均值/中位數(shù)填充、回歸或模型預(yù)測填充等。增加新特征屬于特征工程,不直接解決缺失問題。故D不屬于缺失值處理方法。27.【參考答案】B【解析】大數(shù)據(jù)4V特征為:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)。可視化、驗(yàn)證、版本不屬于核心特征。因此,B為正確選項(xiàng)。28.【參考答案】C【解析】YARN(YetAnotherResourceNegotiator)是Hadoop2.0后引入的資源管理框架,負(fù)責(zé)集群資源分配與作業(yè)調(diào)度。HDFS負(fù)責(zé)存儲(chǔ),MapReduce為計(jì)算模型,Hive用于SQL查詢。故選C。29.【參考答案】C【解析】折線圖通過連接數(shù)據(jù)點(diǎn)呈現(xiàn)趨勢(shì)變化,特別適合時(shí)間序列數(shù)據(jù)的動(dòng)態(tài)展示。餅圖顯示占比,散點(diǎn)圖反映相關(guān)性,柱狀圖比較分類數(shù)據(jù)。因此,C為最佳選擇。30.【參考答案】B【解析】數(shù)據(jù)倉庫用于集成、存儲(chǔ)歷史數(shù)據(jù),支持復(fù)雜查詢和決策分析;操作型數(shù)據(jù)庫面向事務(wù)處理,強(qiáng)調(diào)實(shí)時(shí)性和并發(fā)控制。數(shù)據(jù)倉庫不頻繁更新,不用于日常事務(wù)操作。故B正確。31.【參考答案】A、B、D【解析】Hadoop是分布式存儲(chǔ)與計(jì)算框架,Spark提供高效內(nèi)存計(jì)算,Kafka是分布式消息系統(tǒng),均用于大數(shù)據(jù)處理。MySQL是傳統(tǒng)關(guān)系型數(shù)據(jù)庫,不適合海量數(shù)據(jù)實(shí)時(shí)處理,故不選C。32.【參考答案】A、B、C【解析】數(shù)據(jù)預(yù)處理包括清洗(去噪、補(bǔ)缺)、集成(合并多源數(shù)據(jù))、變換(歸一化、標(biāo)準(zhǔn)化)等,為建模做準(zhǔn)備。模型訓(xùn)練屬于后續(xù)分析階段,不屬于預(yù)處理,故D不選。33.【參考答案】A、B【解析】IaaS提供虛擬機(jī)、存儲(chǔ)等基礎(chǔ)資源;PaaS提供開發(fā)平臺(tái)與環(huán)境;SaaS用戶不可管理硬件,僅使用應(yīng)用,云存儲(chǔ)屬于IaaS,故C、D錯(cuò)誤。34.【參考答案】A、B、D【解析】MongoDB是文檔型數(shù)據(jù)庫,Redis是內(nèi)存鍵值數(shù)據(jù)庫,HBase是列式數(shù)據(jù)庫,均屬NoSQL。Oracle是典型關(guān)系型數(shù)據(jù)庫,故C不選。35.【參考答案】A、B、C、D【解析】數(shù)據(jù)加密防止泄露,訪問控制限制權(quán)限,數(shù)據(jù)脫敏保護(hù)敏感信息,日志審計(jì)追蹤操作行為,四項(xiàng)均為關(guān)鍵安全措施,全部正確。36.【參考答案】A、B、D【解析】數(shù)據(jù)倉庫是面向主題、集成、非易失、隨時(shí)間變化的數(shù)據(jù)集合,通常定期更新而非實(shí)時(shí),故C錯(cuò)誤。37.【參考答案】A、B、C【解析】大數(shù)據(jù)4V指Volume、Velocity、Variety、Veracity(真實(shí)性),Validity非標(biāo)準(zhǔn)特征,D錯(cuò)誤,故選A、B、C。38.【參考答案】A、B、C【解析】Tableau、ECharts、Matplotlib均為可視化工具,TensorFlow是機(jī)器學(xué)習(xí)框架,不用于可視化,故D不選。39.【參考答案】A、B、C【解析】分類、回歸屬監(jiān)督學(xué)習(xí),聚類屬無監(jiān)督學(xué)習(xí),均為典型任務(wù)。數(shù)據(jù)清洗是預(yù)處理步驟,不屬于學(xué)習(xí)任務(wù),故D不選。40.【參考答案】B、C、D【解析】HDFS采用NameNode-DataNode主從結(jié)構(gòu),塊大小默認(rèn)128MB,通過副本機(jī)制實(shí)現(xiàn)高容錯(cuò)。但不適合小文件存儲(chǔ),會(huì)加重NameNode負(fù)擔(dān),故A錯(cuò)誤。41.【參考答案】A、C【解析】HDFS是Hadoop分布式文件系統(tǒng),適用于大規(guī)模數(shù)據(jù)存儲(chǔ);HBase是構(gòu)建在HDFS之上的分布式列式數(shù)據(jù)庫。MySQL是傳統(tǒng)關(guān)系型數(shù)據(jù)庫,不具備分布式擴(kuò)展能力;Redis是內(nèi)存數(shù)據(jù)庫,主要用于緩存場景,非主存儲(chǔ)系統(tǒng)。因此正確答案為A、C。42.【參考答案】A、B、C【解析】數(shù)據(jù)預(yù)處理主要包括清洗(去除噪聲和缺失值)、集成(合并多源數(shù)據(jù))、變換(歸一化、離散化)等步驟,為后續(xù)分析提供高質(zhì)量數(shù)據(jù)。模型訓(xùn)練屬于建模階段,不在預(yù)處理范疇。故正確答案為A、B、C。43.【參考答案】B、C【解析】MapReduce適合處理靜態(tài)的大規(guī)模數(shù)據(jù)集,廣泛用于離線批處理和日志分析。但其延遲高,不適用于實(shí)時(shí)處理或復(fù)雜圖計(jì)算任務(wù)。實(shí)時(shí)處理常用Flink/Storm,圖計(jì)算多用GraphX/Pegasus。因此選B、C。44.【參考答案】A、B、C【解析】數(shù)據(jù)加密防止信息泄露,訪問控制限制權(quán)限,數(shù)據(jù)備份保障災(zāi)后恢復(fù),三者均為核心安全措施。數(shù)據(jù)可視化屬于分析展示手段,與安全無關(guān)。故正確答案為A、B、C。45.【參考答案】A、B、D【解析】Spark用于快速數(shù)據(jù)處理,Kafka是分布式消息隊(duì)列,Zookeeper提供分布式協(xié)調(diào)服務(wù),三者均為大數(shù)據(jù)生態(tài)關(guān)鍵組件。Nginx是Web服務(wù)器,主要用于負(fù)載均衡,不屬于大數(shù)據(jù)核心框架。因此選A、B、D。46.【參考答案】A【解析】HDFS(Hadoop分布式文件系統(tǒng))用于海量數(shù)據(jù)的分布式存儲(chǔ),MapReduce是編程模型,負(fù)責(zé)并行處理大規(guī)模數(shù)據(jù)集。二者構(gòu)成Hadoop核心,分工明確,廣泛應(yīng)用于大數(shù)據(jù)平臺(tái)基礎(chǔ)架構(gòu)中。47.【參考答案】A【解析】數(shù)據(jù)清洗旨在提升數(shù)據(jù)質(zhì)量,確保分析結(jié)果的準(zhǔn)確性。常見操作包括去重、格式標(biāo)準(zhǔn)化、異常值處理、缺失值填補(bǔ)等,是大數(shù)據(jù)分析前不可或缺的步驟。48.【參考答案】B【解析】主鍵用于唯一標(biāo)識(shí)表中每條記錄,必須滿足非空(NOTNULL)和唯一性(UNIQUE)兩個(gè)條件,因此不能為空,也不允許重復(fù)。49.【參考答案】A【解析】SaaS(軟件即服務(wù))通過網(wǎng)絡(luò)提供可直接使用的應(yīng)用軟件,用戶無需管理底層架構(gòu);IaaS提供基礎(chǔ)設(shè)施,PaaS提供開發(fā)平臺(tái),三者層次分明,廣泛應(yīng)用在云環(huán)境中。50.【參考答案】B【解析】數(shù)據(jù)可視化核心在于將復(fù)雜數(shù)據(jù)轉(zhuǎn)化為直觀圖形,幫助用戶快速理解趨勢(shì)、發(fā)現(xiàn)規(guī)律、支持決策,功能遠(yuǎn)超視覺美化,強(qiáng)調(diào)信息傳達(dá)的有效性。51.【參考答案】A【解析】GROUPBY將數(shù)據(jù)按指定列分組,配合COUNT、SUM、AVG等聚合函數(shù)可實(shí)現(xiàn)分組匯總分析,是數(shù)據(jù)分析中常用的查詢手段。52.【參考答案】B【解析】NoSQL數(shù)據(jù)庫通常強(qiáng)調(diào)高可用性和擴(kuò)展性,犧牲強(qiáng)一致性,適合海量非結(jié)構(gòu)化數(shù)據(jù)處理;銀行交易系統(tǒng)更依賴關(guān)系型數(shù)據(jù)庫的ACID特性保障事務(wù)安全。53.【參考答案】A【解析】K-means通過計(jì)算樣本距離將數(shù)據(jù)劃分為K個(gè)簇,無需標(biāo)簽,廣泛應(yīng)用于客戶分群、圖像壓縮等領(lǐng)域,是典型的無監(jiān)督學(xué)習(xí)算法。54.【參考答案】B【解析】數(shù)據(jù)脫敏是對(duì)敏感信息進(jìn)行變形、屏蔽或替換(如身份證號(hào)部分打星),用于保護(hù)隱私,常用于測試或展示環(huán)境;加密則側(cè)重?cái)?shù)據(jù)傳輸與存儲(chǔ)的安全防護(hù)。55.【參考答案】A【解析】ETL負(fù)責(zé)從異構(gòu)源系統(tǒng)提取數(shù)據(jù),清洗轉(zhuǎn)換為統(tǒng)一格式后加載至數(shù)據(jù)倉庫,保障數(shù)據(jù)一致性與可用性,是構(gòu)建數(shù)據(jù)分析體系的基礎(chǔ)流程。

2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會(huì)招聘筆試及筆試歷年典型考點(diǎn)題庫附帶答案詳解(第2套)一、單項(xiàng)選擇題下列各題只有一個(gè)正確答案,請(qǐng)選出最恰當(dāng)?shù)倪x項(xiàng)(共30題)1、在大數(shù)據(jù)處理架構(gòu)中,以下哪項(xiàng)技術(shù)主要用于分布式存儲(chǔ)與計(jì)算?A.MySQLB.HadoopC.RedisD.Nginx2、下列哪項(xiàng)是數(shù)據(jù)清洗過程中常見的操作?A.?dāng)?shù)據(jù)加密B.刪除重復(fù)記錄C.?dāng)?shù)據(jù)可視化D.模型訓(xùn)練3、在SQL中,用于對(duì)查詢結(jié)果進(jìn)行分組的關(guān)鍵詞是?A.ORDERBYB.WHEREC.GROUPBYD.HAVING4、以下哪種數(shù)據(jù)類型最適合存儲(chǔ)用戶的注冊(cè)時(shí)間?A.VARCHARB.INTC.DATETIMED.BOOLEAN5、在數(shù)據(jù)分析中,以下哪項(xiàng)屬于描述性統(tǒng)計(jì)的范疇?A.回歸分析B.假設(shè)檢驗(yàn)C.平均數(shù)計(jì)算D.聚類分析6、以下哪項(xiàng)是大數(shù)據(jù)“4V”特征之一?A.可視化(Visualization)B.真實(shí)性(Veracity)C.虛擬化(Virtualization)D.有效性(Validity)7、在Python中,用于數(shù)據(jù)處理和分析的主要第三方庫是?A.DjangoB.NumPyC.FlaskD.Requests8、以下哪種圖表最適合展示變量之間的相關(guān)性?A.餅圖B.折線圖C.散點(diǎn)圖D.柱狀圖9、數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的主要區(qū)別在于?A.?dāng)?shù)據(jù)倉庫支持事務(wù)處理B.?dāng)?shù)據(jù)倉庫面向分析應(yīng)用C.?dāng)?shù)據(jù)倉庫數(shù)據(jù)實(shí)時(shí)更新頻繁D.?dāng)?shù)據(jù)倉庫用于日常業(yè)務(wù)操作10、在Linux系統(tǒng)中,查看當(dāng)前目錄下文件和子目錄的命令是?A.cdB.lsC.pwdD.mkdir11、在大數(shù)據(jù)處理架構(gòu)中,以下哪項(xiàng)技術(shù)主要用于分布式存儲(chǔ)和批處理計(jì)算?A.KafkaB.HDFSC.SparkStreamingD.Redis12、在數(shù)據(jù)分析中,以下哪種方法適用于發(fā)現(xiàn)數(shù)據(jù)中的潛在模式或分組?A.回歸分析B.決策樹C.聚類分析D.時(shí)間序列分析13、以下哪項(xiàng)是數(shù)據(jù)清洗過程中常見的操作?A.數(shù)據(jù)建模B.特征工程C.去除重復(fù)記錄D.可視化分析14、在數(shù)據(jù)庫設(shè)計(jì)中,第三范式(3NF)要求消除哪種依賴?A.部分函數(shù)依賴B.傳遞函數(shù)依賴C.多值依賴D.外鍵依賴15、在大數(shù)據(jù)平臺(tái)中,Zookeeper主要提供什么服務(wù)?A.數(shù)據(jù)存儲(chǔ)B.實(shí)時(shí)計(jì)算C.分布式協(xié)調(diào)D.數(shù)據(jù)采集16、下列哪種圖表最適合展示兩個(gè)變量之間的相關(guān)性?A.餅圖B.折線圖C.散點(diǎn)圖D.柱狀圖17、在SQL查詢中,以下哪個(gè)子句用于對(duì)分組后的結(jié)果進(jìn)行條件篩選?A.WHEREB.HAVINGC.GROUPBYD.ORDERBY18、以下哪項(xiàng)屬于數(shù)據(jù)脫敏的主要目的?A.提升數(shù)據(jù)處理速度B.減少存儲(chǔ)空間C.保護(hù)敏感信息D.增強(qiáng)數(shù)據(jù)可視化效果19、在數(shù)據(jù)倉庫架構(gòu)中,ODS層的主要功能是?A.存儲(chǔ)原始操作數(shù)據(jù)B.提供最終分析報(bào)表C.執(zhí)行復(fù)雜數(shù)據(jù)挖掘D.管理元數(shù)據(jù)20、以下哪種算法屬于監(jiān)督學(xué)習(xí)?A.K-meansB.AprioriC.支持向量機(jī)(SVM)D.PCA21、在大數(shù)據(jù)處理架構(gòu)中,以下哪項(xiàng)技術(shù)主要用于分布式存儲(chǔ)海量結(jié)構(gòu)化數(shù)據(jù)?A.Hive

B.HBase

C.Kafka

D.Spark22、在數(shù)據(jù)分析中,以下哪種方法常用于處理缺失值?A.主成分分析

B.線性插值

C.聚類分析

D.決策樹23、以下哪項(xiàng)是MapReduce編程模型的核心特點(diǎn)?A.支持實(shí)時(shí)流處理

B.基于內(nèi)存計(jì)算

C.分“Map”和“Reduce”兩個(gè)階段

D.適用于圖計(jì)算24、在數(shù)據(jù)庫設(shè)計(jì)中,第三范式(3NF)要求消除什么依賴?A.部分函數(shù)依賴

B.傳遞函數(shù)依賴

C.多值依賴

D.外鍵依賴25、下列哪項(xiàng)指標(biāo)最能反映數(shù)據(jù)集的離散程度?A.均值

B.中位數(shù)

C.標(biāo)準(zhǔn)差

D.眾數(shù)26、在Linux系統(tǒng)中,查看當(dāng)前工作目錄的命令是?A.cd

B.ls

C.pwd

D.mkdir27、以下哪種數(shù)據(jù)結(jié)構(gòu)遵循“先進(jìn)先出”原則?A.棧

B.隊(duì)列

C.鏈表

D.樹28、在Python中,以下哪個(gè)函數(shù)用于讀取一行用戶輸入?A.input()

B.print()

C.read()

D.get()29、下列哪項(xiàng)屬于非關(guān)系型數(shù)據(jù)庫?A.MySQL

B.Oracle

C.MongoDB

D.SQLServer30、在數(shù)據(jù)可視化中,箱線圖主要用于展示?A.?dāng)?shù)據(jù)分布與異常值

B.時(shí)間趨勢(shì)

C.類別占比

D.變量相關(guān)性二、多項(xiàng)選擇題下列各題有多個(gè)正確答案,請(qǐng)選出所有正確選項(xiàng)(共15題)31、在大數(shù)據(jù)系統(tǒng)架構(gòu)中,以下哪些組件通常用于實(shí)現(xiàn)分布式數(shù)據(jù)存儲(chǔ)與處理?A.HDFSB.SparkC.KafkaD.MySQL32、下列哪些屬于數(shù)據(jù)治理的核心內(nèi)容?A.數(shù)據(jù)質(zhì)量管理B.數(shù)據(jù)安全管理C.數(shù)據(jù)血緣分析D.數(shù)據(jù)可視化設(shè)計(jì)33、在Python中,以下哪些方法可用于數(shù)據(jù)清洗?A.dropna()B.fillna()C.groupby()D.replace()34、以下哪些技術(shù)常用于大數(shù)據(jù)實(shí)時(shí)計(jì)算場景?A.FlinkB.StormC.HiveD.Impala35、關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)湖的區(qū)別,以下說法正確的有?A.數(shù)據(jù)倉庫存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖支持多種數(shù)據(jù)格式C.數(shù)據(jù)湖無需建模即可存儲(chǔ)D.數(shù)據(jù)倉庫更新頻率更高36、以下哪些指標(biāo)可用于評(píng)估分類模型性能?A.準(zhǔn)確率B.召回率C.RMSED.F1值37、在Linux系統(tǒng)中,以下哪些命令可用于查看文件內(nèi)容?A.catB.grepC.lsD.tail38、以下哪些屬于數(shù)據(jù)脫敏的常用方法?A.數(shù)據(jù)掩碼B.數(shù)據(jù)加密C.數(shù)據(jù)泛化D.數(shù)據(jù)刪除39、在SQL中,以下哪些操作可能影響查詢性能?A.使用LIKE'%關(guān)鍵詞%'B.在大表上未建索引的字段查詢C.使用LIMIT限制返回行數(shù)D.多表JOIN無關(guān)聯(lián)條件40、以下哪些是大數(shù)據(jù)平臺(tái)安全防護(hù)的常見措施?A.訪問控制B.數(shù)據(jù)加密C.日志審計(jì)D.數(shù)據(jù)備份41、下列關(guān)于大數(shù)據(jù)采集技術(shù)的說法中,正確的有:A.網(wǎng)絡(luò)爬蟲可用于非結(jié)構(gòu)化數(shù)據(jù)的采集;B.Flume適用于日志數(shù)據(jù)的實(shí)時(shí)采集;C.Kafka是一種批處理數(shù)據(jù)采集工具;D.Sqoop主要用于關(guān)系型數(shù)據(jù)庫與Hadoop之間的數(shù)據(jù)傳輸42、在Hadoop生態(tài)系統(tǒng)中,以下組件功能匹配正確的有:A.HDFS——分布式文件存儲(chǔ);B.MapReduce——分布式計(jì)算框架;C.YARN——資源調(diào)度管理;D.HBase——批處理分析引擎43、下列屬于數(shù)據(jù)治理核心內(nèi)容的有:A.數(shù)據(jù)標(biāo)準(zhǔn)管理;B.數(shù)據(jù)質(zhì)量管理;C.數(shù)據(jù)安全管理;D.數(shù)據(jù)可視化展示44、關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)湖的區(qū)別,正確的是:A.數(shù)據(jù)倉庫主要存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù);B.數(shù)據(jù)湖支持結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);C.數(shù)據(jù)湖通常采用schema-on-write模式;D.數(shù)據(jù)倉庫查詢效率通常更高45、下列關(guān)于ETL過程的描述,正確的有:A.ETL包括抽取、轉(zhuǎn)換、加載三個(gè)階段;B.數(shù)據(jù)清洗屬于轉(zhuǎn)換環(huán)節(jié);C.ETL通常在數(shù)據(jù)倉庫建設(shè)中使用;D.實(shí)時(shí)數(shù)據(jù)處理無需ETL過程三、判斷題判斷下列說法是否正確(共10題)46、大數(shù)據(jù)處理中,批處理適用于實(shí)時(shí)性要求高的場景。A.正確B.錯(cuò)誤47、Hadoop生態(tài)系統(tǒng)中的HDFS主要用于分布式計(jì)算。A.正確B.錯(cuò)誤48、數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),可提升數(shù)據(jù)質(zhì)量。A.正確B.錯(cuò)誤49、在關(guān)系型數(shù)據(jù)庫中,主鍵可以取空值。A.正確B.錯(cuò)誤50、數(shù)據(jù)可視化的主要目的是美化圖表。A.正確B.錯(cuò)誤51、云計(jì)算的IaaS服務(wù)可為用戶提供操作系統(tǒng)和應(yīng)用程序。A.正確B.錯(cuò)誤52、數(shù)據(jù)庫事務(wù)的ACID特性中,“C”代表一致性。A.正確B.錯(cuò)誤53、K-means算法屬于監(jiān)督學(xué)習(xí)方法。A.正確B.錯(cuò)誤54、數(shù)據(jù)脫敏的主要目的是保護(hù)敏感信息不被泄露。A.正確B.錯(cuò)誤55、在SQL中,GROUPBY子句用于對(duì)查詢結(jié)果進(jìn)行排序。A.正確B.錯(cuò)誤

參考答案及解析1.【參考答案】B【解析】Hadoop是一個(gè)開源的分布式系統(tǒng)框架,核心包括HDFS(分布式文件系統(tǒng))和MapReduce(分布式計(jì)算模型),適用于海量數(shù)據(jù)的存儲(chǔ)與處理。MySQL是關(guān)系型數(shù)據(jù)庫,適用于結(jié)構(gòu)化數(shù)據(jù)管理;Redis是內(nèi)存數(shù)據(jù)庫,用于高速緩存;Nginx是Web服務(wù)器或反向代理工具,不參與數(shù)據(jù)計(jì)算。因此,正確答案為B。2.【參考答案】B【解析】數(shù)據(jù)清洗旨在提升數(shù)據(jù)質(zhì)量,常見操作包括處理缺失值、去除噪聲、糾正錯(cuò)誤及刪除重復(fù)數(shù)據(jù)。刪除重復(fù)記錄可避免分析偏差,是清洗關(guān)鍵步驟。數(shù)據(jù)加密屬于安全范疇,可視化是分析結(jié)果展示,模型訓(xùn)練在清洗之后進(jìn)行。故正確答案為B。3.【參考答案】C【解析】GROUPBY用于將數(shù)據(jù)按指定列分組,常與聚合函數(shù)(如COUNT、SUM)配合使用。WHERE篩選原始數(shù)據(jù),ORDERBY排序結(jié)果,HAVING過濾分組后的數(shù)據(jù)。例如統(tǒng)計(jì)各部門人數(shù)需用GROUPBY部門字段。因此,正確答案為C。4.【參考答案】C【解析】注冊(cè)時(shí)間包含日期與時(shí)間信息,應(yīng)使用DATETIME類型精確存儲(chǔ)。VARCHAR雖可存儲(chǔ)時(shí)間字符串,但不支持時(shí)間運(yùn)算;INT可存時(shí)間戳但可讀性差;BOOLEAN僅表示真假。DATETIME便于查詢、排序和計(jì)算時(shí)間差,是最佳選擇。故正確答案為C。5.【參考答案】C【解析】描述性統(tǒng)計(jì)用于總結(jié)和描述數(shù)據(jù)特征,如均值、中位數(shù)、標(biāo)準(zhǔn)差等。平均數(shù)反映數(shù)據(jù)集中趨勢(shì),是典型描述性指標(biāo)?;貧w分析和假設(shè)檢驗(yàn)屬于推斷性統(tǒng)計(jì),聚類分析屬于機(jī)器學(xué)習(xí)方法。因此,正確答案為C。6.【參考答案】B【解析】大數(shù)據(jù)4V特征包括:Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實(shí)性)。Veracity指數(shù)據(jù)的準(zhǔn)確性和可信度,對(duì)分析結(jié)果影響重大??梢暬菙?shù)據(jù)分析輸出方式,虛擬化是IT資源管理技術(shù),有效性非標(biāo)準(zhǔn)4V之一。故正確答案為B。7.【參考答案】B【解析】NumPy是Python科學(xué)計(jì)算基礎(chǔ)庫,提供多維數(shù)組和數(shù)學(xué)函數(shù),常與pandas配合用于數(shù)據(jù)分析。Django和Flask是Web開發(fā)框架,Requests用于網(wǎng)絡(luò)請(qǐng)求。雖然pandas未在選項(xiàng)中,但NumPy是數(shù)據(jù)處理核心基礎(chǔ)庫。因此,正確答案為B。8.【參考答案】C【解析】散點(diǎn)圖通過點(diǎn)的分布展示兩個(gè)變量間的相關(guān)趨勢(shì),如正相關(guān)、負(fù)相關(guān)或無相關(guān)。餅圖顯示比例,折線圖反映趨勢(shì)變化,柱狀圖比較類別數(shù)值。分析相關(guān)性時(shí),散點(diǎn)圖是最直觀有效的工具。故正確答案為C。9.【參考答案】B【解析】數(shù)據(jù)倉庫專為決策支持和數(shù)據(jù)分析設(shè)計(jì),集成多源數(shù)據(jù),支持復(fù)雜查詢和歷史分析。傳統(tǒng)數(shù)據(jù)庫(OLTP)側(cè)重事務(wù)處理,強(qiáng)調(diào)高并發(fā)、實(shí)時(shí)更新。數(shù)據(jù)倉庫通常定期批量更新,不用于日常操作。因此,正確答案為B。10.【參考答案】B【解析】ls命令用于列出當(dāng)前目錄內(nèi)容,顯示文件和子目錄名稱。cd用于切換目錄,pwd顯示當(dāng)前路徑,mkdir創(chuàng)建新目錄。這是Linux基本操作命令,掌握ls是進(jìn)行文件管理的前提。故正確答案為B。11.【參考答案】B【解析】HDFS(Hadoop分布式文件系統(tǒng))是Hadoop生態(tài)的核心組件,專為大規(guī)模數(shù)據(jù)集的高容錯(cuò)性存儲(chǔ)設(shè)計(jì),支持在廉價(jià)硬件上部署,適用于一次寫入、多次讀取的批處理場景。Kafka是分布式消息隊(duì)列,用于實(shí)時(shí)數(shù)據(jù)流傳輸;SparkStreaming支持微批處理流計(jì)算;Redis是內(nèi)存數(shù)據(jù)庫,用于高速緩存和實(shí)時(shí)訪問。因此,HDFS最符合題意。12.【參考答案】C【解析】聚類分析是一種無監(jiān)督學(xué)習(xí)方法,用于將相似的數(shù)據(jù)對(duì)象劃分為同一簇,常用于客戶細(xì)分、異常檢測等場景?;貧w分析用于預(yù)測連續(xù)值,決策樹用于分類與預(yù)測,時(shí)間序列分析用于處理按時(shí)間順序排列的數(shù)據(jù)。只有聚類分析能主動(dòng)發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu)和潛在模式,故選C。13.【參考答案】C【解析】數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟,目的是提高數(shù)據(jù)質(zhì)量。常見操作包括處理缺失值、糾正錯(cuò)誤數(shù)據(jù)、標(biāo)準(zhǔn)化格式和去除重復(fù)記錄。數(shù)據(jù)建模和可視化屬于后續(xù)分析階段,特征工程雖在預(yù)處理中,但更側(cè)重于變量構(gòu)造。去除重復(fù)記錄直接提升數(shù)據(jù)準(zhǔn)確性,是清洗的核心任務(wù)之一。14.【參考答案】B【解析】第三范式要求關(guān)系模式滿足第二范式(已消除部分函數(shù)依賴),并進(jìn)一步消除非主屬性對(duì)候選鍵的傳遞函數(shù)依賴。例如,若A→B且B→C,則A→C為傳遞依賴,應(yīng)拆分表以避免數(shù)據(jù)冗余和更新異常。多值依賴屬于第四范式的處理范疇,外鍵依賴是引用完整性機(jī)制,非范式主要解決對(duì)象。15.【參考答案】C【解析】Zookeeper是分布式系統(tǒng)中的協(xié)調(diào)服務(wù),用于維護(hù)配置信息、命名服務(wù)、分布式鎖和集群狀態(tài)管理。它不用于存儲(chǔ)大量業(yè)務(wù)數(shù)據(jù)或執(zhí)行計(jì)算任務(wù),而是保障系統(tǒng)一致性與高可用性。例如,Kafka依賴Zookeeper進(jìn)行Broker管理和消費(fèi)者組協(xié)調(diào),因此其核心功能是分布式協(xié)調(diào)。16.【參考答案】C【解析】散點(diǎn)圖通過在二維坐標(biāo)系中繪制數(shù)據(jù)點(diǎn),直觀反映兩個(gè)變量間的分布趨勢(shì)和相關(guān)程度,如正相關(guān)、負(fù)相關(guān)或無相關(guān)。餅圖展示分類占比,折線圖表現(xiàn)時(shí)間序列變化,柱狀圖比較類別數(shù)值大小。唯有散點(diǎn)圖專為相關(guān)性分析設(shè)計(jì),是統(tǒng)計(jì)分析中的常用工具。17.【參考答案】B【解析】HAVING子句用于在GROUPBY分組后,對(duì)聚合結(jié)果(如COUNT、SUM)設(shè)置篩選條件。WHERE用于分組前的行級(jí)過濾,不能作用于聚合函數(shù);GROUPBY用于分組;ORDERBY用于排序。例如,“SELECTdept,AVG(salary)FROMempGROUPBYdeptHAVINGAVG(salary)>5000”中HAVING篩選平均工資。18.【參考答案】C【解析】數(shù)據(jù)脫敏是通過替換、屏蔽、加密等方式隱藏敏感信息(如身份證號(hào)、手機(jī)號(hào)),在測試、開發(fā)或共享環(huán)境中防止數(shù)據(jù)泄露。其核心目標(biāo)是保障隱私與合規(guī),而非提升性能或節(jié)省空間。在大數(shù)據(jù)應(yīng)用中,脫敏是數(shù)據(jù)安全治理的重要措施。19.【參考答案】A【解析】ODS(OperationalDataStore)是操作數(shù)據(jù)存儲(chǔ)層,位于數(shù)據(jù)源與數(shù)據(jù)倉庫之間,用于集成、清洗和暫存來自多個(gè)系統(tǒng)的原始數(shù)據(jù),支持近實(shí)時(shí)查詢和基礎(chǔ)分析。它不同于DW(數(shù)據(jù)倉庫)和DM(數(shù)據(jù)集市),不直接面向最終報(bào)表。元數(shù)據(jù)管理由單獨(dú)模塊負(fù)責(zé)。因此ODS核心功能是原始數(shù)據(jù)整合。20.【參考答案】C【解析】監(jiān)督學(xué)習(xí)利用帶標(biāo)簽的數(shù)據(jù)訓(xùn)練模型,用于分類或回歸。支持向量機(jī)(SVM)是一種經(jīng)典的分類算法,屬于監(jiān)督學(xué)習(xí)。K-means是無監(jiān)督聚類算法,Apriori用于關(guān)聯(lián)規(guī)則挖掘,PCA是降維技術(shù),均無需標(biāo)簽。因此僅SVM符合監(jiān)督學(xué)習(xí)定義。21.【參考答案】B【解析】HBase是一個(gè)基于Hadoop的分布式、面向列的數(shù)據(jù)庫,適合存儲(chǔ)海量結(jié)構(gòu)化數(shù)據(jù),支持實(shí)時(shí)讀寫訪問。Hive用于數(shù)據(jù)倉庫和SQL查詢,Kafka是消息隊(duì)列系統(tǒng),Spark是內(nèi)存計(jì)算框架,均不直接提供持久化存儲(chǔ)功能。因此,正確答案為B。22.【參考答案】B【解析】線性插值通過已知數(shù)據(jù)點(diǎn)估算缺失值,適用于時(shí)間序列或有序數(shù)據(jù)。主成分分析用于降維,聚類分析用于分組,決策樹用于分類或回歸,均非直接填補(bǔ)缺失值的方法。因此,B項(xiàng)正確。23.【參考答案】C【解析】MapReduce將任務(wù)分為Map(映射)和Reduce(歸約)兩個(gè)階段,適合批處理大規(guī)模數(shù)據(jù)。它基于磁盤存儲(chǔ),不支持實(shí)時(shí)處理;內(nèi)存計(jì)算是Spark的特點(diǎn),圖計(jì)算常用Pregel模型。故選C。24.【參考答案】B【解析】第一范式消除重復(fù)組,第二范式消除部分函數(shù)依賴,第三范式進(jìn)一步消除非主屬性對(duì)候選鍵的傳遞函數(shù)依賴。多值依賴屬于第四范式范疇。因此,B正確。25.【參考答案】C【解析】標(biāo)準(zhǔn)差衡量數(shù)據(jù)偏離均值的程度,反映離散性。均值、中位數(shù)、眾數(shù)均為集中趨勢(shì)指標(biāo),無法體現(xiàn)波動(dòng)情況。因此,C為正確答案。26.【參考答案】C【解析】pwd(printworkingdirectory)用于顯示當(dāng)前所在目錄路徑。cd用于切換目錄,ls列出文件,mkdir創(chuàng)建目錄。因此,C項(xiàng)正確。27.【參考答案】B【解析】隊(duì)列允許在隊(duì)尾入隊(duì)、隊(duì)頭出隊(duì),符合先進(jìn)先出(FIFO)特性。棧是后進(jìn)先出(LIFO),鏈表和樹是通用結(jié)構(gòu),無固定存取順序。故選B。28.【參考答案】A【解析】input()函數(shù)從標(biāo)準(zhǔn)輸入讀取一行并返回字符串。print()用于輸出,read()是文件對(duì)象方法,get()常用于字典或請(qǐng)求庫中。因此,A正確。29.【參考答案】C【解析】MongoDB是文檔型NoSQL數(shù)據(jù)庫,適用于非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。MySQL、Oracle、SQLServer均為關(guān)系型數(shù)據(jù)庫,使用SQL語言管理結(jié)構(gòu)化數(shù)據(jù)。故選C。30.【參考答案】A【解析】箱線圖通過四分位數(shù)展示數(shù)據(jù)分布范圍,識(shí)別異常值。折線圖表現(xiàn)趨勢(shì),餅圖顯示占比,散點(diǎn)圖反映相關(guān)性。因此,A正確。31.【參考答案】A、B、C【解析】HDFS是Hadoop分布式文件系統(tǒng),用于海量數(shù)據(jù)存儲(chǔ);Spark是分布式計(jì)算框架,支持內(nèi)存計(jì)算,適用于大規(guī)模數(shù)據(jù)處理;Kafka是分布式消息隊(duì)列,常用于實(shí)時(shí)數(shù)據(jù)流處理。MySQL為傳統(tǒng)關(guān)系型數(shù)據(jù)庫,不適用于大規(guī)模分布式場景,故不選D。32.【參考答案】A、B、C【解析】數(shù)據(jù)治理涵蓋數(shù)據(jù)的可用性、安全性與可管理性。數(shù)據(jù)質(zhì)量、安全與血緣分析是關(guān)鍵環(huán)節(jié),分別保障準(zhǔn)確性、合規(guī)性與可追溯性。數(shù)據(jù)可視化屬于數(shù)據(jù)分析輸出層面,不屬于治理核心內(nèi)容,故D不選。33.【參考答案】A、B、D【解析】dropna()刪除缺失值,fillna()填充缺失值,replace()替換異常值,均為清洗常用操作。groupby()用于數(shù)據(jù)分組聚合,屬于分析階段操作,不直接用于清洗,故C不選。34.【參考答案】A、B【解析】Flink和Storm是流式計(jì)算框架,支持低延遲實(shí)時(shí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論