2025內(nèi)蒙古大數(shù)據(jù)產(chǎn)業(yè)發(fā)展集團(tuán)有限公司社會(huì)招聘22人筆試歷年參考題庫(kù)附帶答案詳解_第1頁(yè)
2025內(nèi)蒙古大數(shù)據(jù)產(chǎn)業(yè)發(fā)展集團(tuán)有限公司社會(huì)招聘22人筆試歷年參考題庫(kù)附帶答案詳解_第2頁(yè)
2025內(nèi)蒙古大數(shù)據(jù)產(chǎn)業(yè)發(fā)展集團(tuán)有限公司社會(huì)招聘22人筆試歷年參考題庫(kù)附帶答案詳解_第3頁(yè)
2025內(nèi)蒙古大數(shù)據(jù)產(chǎn)業(yè)發(fā)展集團(tuán)有限公司社會(huì)招聘22人筆試歷年參考題庫(kù)附帶答案詳解_第4頁(yè)
2025內(nèi)蒙古大數(shù)據(jù)產(chǎn)業(yè)發(fā)展集團(tuán)有限公司社會(huì)招聘22人筆試歷年參考題庫(kù)附帶答案詳解_第5頁(yè)
已閱讀5頁(yè),還剩23頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025內(nèi)蒙古大數(shù)據(jù)產(chǎn)業(yè)發(fā)展集團(tuán)有限公司社會(huì)招聘22人筆試歷年參考題庫(kù)附帶答案詳解一、選擇題從給出的選項(xiàng)中選擇正確答案(共100題)1、在大數(shù)據(jù)處理中,以下哪種技術(shù)主要用于分布式存儲(chǔ)?A.HadoopHDFSB.MySQLC.RedisD.Nginx【參考答案】A【解析】HadoopHDFS(HadoopDistributedFileSystem)是專(zhuān)為大數(shù)據(jù)設(shè)計(jì)的分布式文件系統(tǒng),支持高容錯(cuò)性和大規(guī)模數(shù)據(jù)存儲(chǔ)。MySQL是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),適用于結(jié)構(gòu)化數(shù)據(jù)管理;Redis是內(nèi)存數(shù)據(jù)庫(kù),用于高速緩存;Nginx是Web服務(wù)器與反向代理工具,不具備分布式存儲(chǔ)功能。因此,正確答案為A。2、下列哪項(xiàng)是數(shù)據(jù)清洗過(guò)程中常見(jiàn)的操作?A.刪除重復(fù)記錄B.?dāng)?shù)據(jù)可視化C.模型訓(xùn)練D.?dāng)?shù)據(jù)加密【參考答案】A【解析】數(shù)據(jù)清洗旨在提升數(shù)據(jù)質(zhì)量,常見(jiàn)操作包括處理缺失值、去除重復(fù)數(shù)據(jù)、糾正錯(cuò)誤格式等。刪除重復(fù)記錄是典型清洗步驟。數(shù)據(jù)可視化屬于分析階段,模型訓(xùn)練屬于建模環(huán)節(jié),數(shù)據(jù)加密屬于安全范疇,均不屬于清洗內(nèi)容。故選A。3、在Python中,用于數(shù)據(jù)分析最常用的庫(kù)是哪一個(gè)?A.pandasB.pygameC.requestsD.flask【參考答案】A【解析】pandas是Python中用于數(shù)據(jù)處理和分析的核心庫(kù),提供DataFrame結(jié)構(gòu),支持?jǐn)?shù)據(jù)讀取、清洗、轉(zhuǎn)換等操作。pygame用于游戲開(kāi)發(fā),requests用于HTTP請(qǐng)求,flask是Web框架,均不專(zhuān)注于數(shù)據(jù)分析。因此正確答案為A。4、以下哪種數(shù)據(jù)庫(kù)適用于存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)?A.MongoDBB.OracleC.SQLServerD.PostgreSQL【參考答案】A【解析】MongoDB是文檔型NoSQL數(shù)據(jù)庫(kù),支持JSON格式存儲(chǔ),適合處理非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)。Oracle、SQLServer和PostgreSQL均為關(guān)系型數(shù)據(jù)庫(kù),主要用于結(jié)構(gòu)化數(shù)據(jù)管理。因此選A。5、在數(shù)據(jù)可視化中,哪種圖表最適合展示變量之間的相關(guān)性?A.散點(diǎn)圖B.餅圖C.柱狀圖D.折線(xiàn)圖【參考答案】A【解析】散點(diǎn)圖通過(guò)點(diǎn)的分布反映兩個(gè)變量之間的趨勢(shì)和相關(guān)性,是分析相關(guān)關(guān)系的首選圖表。餅圖顯示比例構(gòu)成,柱狀圖比較分類(lèi)數(shù)據(jù),折線(xiàn)圖展示數(shù)據(jù)隨時(shí)間變化趨勢(shì)。故選A。6、以下哪項(xiàng)是大數(shù)據(jù)“4V”特征之一?A.VelocityB.ValidityC.VarietyD.以上都是【參考答案】D【解析】大數(shù)據(jù)的4V特征包括Volume(數(shù)據(jù)量大)、Velocity(處理速度快)、Variety(數(shù)據(jù)類(lèi)型多樣)和Veracity(數(shù)據(jù)真實(shí)性)。選項(xiàng)中Velocity和Variety屬于4V,Validity雖非標(biāo)準(zhǔn)V,但在擴(kuò)展討論中常涉及數(shù)據(jù)準(zhǔn)確性。綜合判斷,D最完整,符合現(xiàn)代解讀。7、在Linux系統(tǒng)中,查看當(dāng)前目錄下文件及權(quán)限的命令是?A.ls-lB.pwdC.cdD.mkdir【參考答案】A【解析】ls-l命令列出當(dāng)前目錄文件的詳細(xì)信息,包括權(quán)限、所有者、大小和時(shí)間等。pwd顯示當(dāng)前路徑,cd用于切換目錄,mkdir創(chuàng)建新目錄。因此正確答案為A。8、在SQL中,用于篩選分組后數(shù)據(jù)的子句是?A.HAVINGB.WHEREC.GROUPBYD.ORDERBY【參考答案】A【解析】HAVING子句用于對(duì)GROUPBY分組后的結(jié)果進(jìn)行條件篩選,而WHERE用于分組前的行過(guò)濾。GROUPBY實(shí)現(xiàn)分組,ORDERBY排序結(jié)果。因此,篩選分組后數(shù)據(jù)應(yīng)使用HAVING,選A。9、下列哪種算法屬于監(jiān)督學(xué)習(xí)?A.線(xiàn)性回歸B.K-meansC.PCAD.Apriori【參考答案】A【解析】監(jiān)督學(xué)習(xí)使用帶標(biāo)簽的數(shù)據(jù)進(jìn)行訓(xùn)練,線(xiàn)性回歸用于預(yù)測(cè)連續(xù)值,屬于典型監(jiān)督學(xué)習(xí)算法。K-means是聚類(lèi)算法,屬無(wú)監(jiān)督學(xué)習(xí);PCA是降維方法;Apriori用于關(guān)聯(lián)規(guī)則挖掘,均無(wú)需標(biāo)簽。故選A。10、在數(shù)據(jù)倉(cāng)庫(kù)中,星型模型的核心是?A.事實(shí)表B.維度表C.索引D.視圖【參考答案】A【解析】星型模型由一個(gè)中心事實(shí)表和多個(gè)維度表組成,事實(shí)表存儲(chǔ)度量值和業(yè)務(wù)事件數(shù)據(jù),維度表提供上下文信息。事實(shí)表是模型核心,通過(guò)外鍵關(guān)聯(lián)各維度表,支持高效查詢(xún)與分析。故選A。11、以下哪種技術(shù)可用于實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)流處理?A.ApacheKafkaB.HiveC.HBaseD.Sqoop【參考答案】A【解析】Kafka是分布式流處理平臺(tái),支持高吞吐量的實(shí)時(shí)數(shù)據(jù)傳輸與處理。Hive用于批處理查詢(xún),HBase是分布式列存儲(chǔ)數(shù)據(jù)庫(kù),Sqoop用于在Hadoop與關(guān)系數(shù)據(jù)庫(kù)間遷移數(shù)據(jù),均非流處理核心工具。故選A。12、在Python中,以下哪種數(shù)據(jù)結(jié)構(gòu)是可變的?A.列表B.元組C.字符串D.frozenset【參考答案】A【解析】列表是可變序列,支持增刪改操作。元組、字符串和frozenset均為不可變類(lèi)型,一旦創(chuàng)建無(wú)法修改內(nèi)容。因此,只有列表是可變的,選A。13、以下哪個(gè)指標(biāo)常用于評(píng)估分類(lèi)模型的準(zhǔn)確性?A.準(zhǔn)確率B.均方誤差C.R2D.平均絕對(duì)誤差【參考答案】A【解析】準(zhǔn)確率表示預(yù)測(cè)正確的樣本占比,是分類(lèi)任務(wù)的核心評(píng)估指標(biāo)。均方誤差、R2和平均絕對(duì)誤差用于回歸模型評(píng)估,衡量預(yù)測(cè)值與真實(shí)值的偏差。因此選A。14、在網(wǎng)絡(luò)安全中,防止SQL注入的有效措施是?A.使用預(yù)編譯語(yǔ)句B.增加密碼長(zhǎng)度C.啟用防火墻D.定期備份數(shù)據(jù)【參考答案】A【解析】SQL注入通過(guò)拼接惡意SQL語(yǔ)句攻擊數(shù)據(jù)庫(kù)。使用預(yù)編譯語(yǔ)句(參數(shù)化查詢(xún))可有效隔離代碼與數(shù)據(jù),防止注入。增加密碼長(zhǎng)度提升身份安全,防火墻控制網(wǎng)絡(luò)訪(fǎng)問(wèn),備份保障數(shù)據(jù)恢復(fù),均不直接防御SQL注入。故選A。15、下列哪項(xiàng)是數(shù)據(jù)治理的主要目標(biāo)?A.提升數(shù)據(jù)質(zhì)量B.加快數(shù)據(jù)傳輸速度C.降低硬件成本D.提高員工滿(mǎn)意度【參考答案】A【解析】數(shù)據(jù)治理旨在確保數(shù)據(jù)的可用性、一致性、完整性與安全性,核心目標(biāo)是提升數(shù)據(jù)質(zhì)量。傳輸速度、硬件成本和員工滿(mǎn)意度不屬于其直接管理范疇。因此選A。16、在Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的組件是?A.YARNB.MapReduceC.HDFSD.ZooKeeper【參考答案】A【解析】YARN(YetAnotherResourceNegotiator)是Hadoop的資源管理框架,負(fù)責(zé)集群資源分配與任務(wù)調(diào)度。MapReduce是計(jì)算模型,HDFS負(fù)責(zé)存儲(chǔ),ZooKeeper提供分布式協(xié)調(diào)服務(wù)。故選A。17、以下哪種文件格式適合用于大數(shù)據(jù)交換且具有高壓縮比?A.ParquetB.CSVC.TXTD.JSON【參考答案】A【解析】Parquet是列式存儲(chǔ)格式,支持高效壓縮與查詢(xún),適合大數(shù)據(jù)場(chǎng)景。CSV、TXT和JSON為文本格式,存儲(chǔ)效率低、壓縮比差,不適合大規(guī)模數(shù)據(jù)處理。因此選A。18、在數(shù)據(jù)分析中,以下哪項(xiàng)屬于描述性分析?A.計(jì)算平均值和標(biāo)準(zhǔn)差B.構(gòu)建預(yù)測(cè)模型C.進(jìn)行假設(shè)檢驗(yàn)D.聚類(lèi)分析【參考答案】A【解析】描述性分析用于總結(jié)數(shù)據(jù)特征,如均值、中位數(shù)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量。預(yù)測(cè)模型屬預(yù)測(cè)性分析,假設(shè)檢驗(yàn)屬推斷性分析,聚類(lèi)屬無(wú)監(jiān)督學(xué)習(xí)。故選A。19、Python中,以下哪個(gè)函數(shù)用于讀取CSV文件?A.pd.read_csv()B.open()C.json.load()D.np.loadtxt()【參考答案】A【解析】pandas庫(kù)的read_csv()函數(shù)專(zhuān)門(mén)用于讀取CSV文件并生成DataFrame。open()是基礎(chǔ)文件讀取函數(shù),json.load()處理JSON文件,np.loadtxt()適用于數(shù)值型文本文件。因此選A。20、在數(shù)據(jù)建模中,以下哪種關(guān)系描述兩個(gè)實(shí)體間“一對(duì)多”聯(lián)系?A.一名教師可教授多門(mén)課程B.一名學(xué)生選修一門(mén)課程C.一對(duì)一輔導(dǎo)D.課程與教材對(duì)應(yīng)【參考答案】A【解析】“一對(duì)多”指一個(gè)實(shí)體實(shí)例關(guān)聯(lián)多個(gè)另一實(shí)體實(shí)例。一名教師教授多門(mén)課程符合此關(guān)系。學(xué)生選課可能是多對(duì)多,一對(duì)一輔導(dǎo)是1:1,課程與教材可能為1:1或1:n,但A最典型明確。故選A。21、在大數(shù)據(jù)處理架構(gòu)中,以下哪項(xiàng)技術(shù)主要用于分布式存儲(chǔ)和批量計(jì)算?A.KafkaB.HadoopC.RedisD.Flink【參考答案】B【解析】Hadoop是一個(gè)支持海量數(shù)據(jù)分布式存儲(chǔ)與處理的框架,核心組件包括HDFS(存儲(chǔ))和MapReduce(計(jì)算),適用于批量數(shù)據(jù)處理。Kafka是消息隊(duì)列系統(tǒng),用于實(shí)時(shí)數(shù)據(jù)流傳輸;Redis是內(nèi)存數(shù)據(jù)庫(kù),用于高速緩存;Flink是流式計(jì)算框架。因此,適用于分布式存儲(chǔ)與批量計(jì)算的是Hadoop。22、下列哪項(xiàng)是數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)庫(kù)的主要區(qū)別?A.?dāng)?shù)據(jù)庫(kù)支持事務(wù)處理,數(shù)據(jù)倉(cāng)庫(kù)側(cè)重分析處理B.?dāng)?shù)據(jù)庫(kù)存儲(chǔ)量更大C.?dāng)?shù)據(jù)倉(cāng)庫(kù)響應(yīng)速度更快D.?dāng)?shù)據(jù)庫(kù)采用列式存儲(chǔ)【參考答案】A【解析】數(shù)據(jù)庫(kù)主要用于聯(lián)機(jī)事務(wù)處理(OLTP),強(qiáng)調(diào)事務(wù)一致性與快速讀寫(xiě);數(shù)據(jù)倉(cāng)庫(kù)用于聯(lián)機(jī)分析處理(OLAP),支持復(fù)雜查詢(xún)與歷史數(shù)據(jù)分析。數(shù)據(jù)庫(kù)通常為行式存儲(chǔ),面向業(yè)務(wù)操作;數(shù)據(jù)倉(cāng)庫(kù)多為列式存儲(chǔ),面向決策支持。因此,主要區(qū)別在于用途不同,A項(xiàng)正確。23、在數(shù)據(jù)清洗過(guò)程中,處理缺失值的常用方法不包括?A.刪除含有缺失值的記錄B.用均值填充C.用模型預(yù)測(cè)缺失值D.增加新數(shù)據(jù)源【參考答案】D【解析】數(shù)據(jù)清洗中處理缺失值的常見(jiàn)方法包括刪除記錄、均值/中位數(shù)/眾數(shù)填充、插值法或使用回歸、決策樹(shù)等模型預(yù)測(cè)。增加新數(shù)據(jù)源不屬于缺失值處理的技術(shù)手段,而是數(shù)據(jù)采集層面的操作,且無(wú)法保證覆蓋原有缺失項(xiàng)。因此D不屬于常規(guī)處理方法。24、以下哪種數(shù)據(jù)庫(kù)類(lèi)型最適合存儲(chǔ)社交網(wǎng)絡(luò)中的“關(guān)注”關(guān)系?A.關(guān)系型數(shù)據(jù)庫(kù)B.文檔數(shù)據(jù)庫(kù)C.圖數(shù)據(jù)庫(kù)D.時(shí)序數(shù)據(jù)庫(kù)【參考答案】C【解析】社交網(wǎng)絡(luò)中的關(guān)注關(guān)系具有高度連接性,如用戶(hù)A關(guān)注用戶(hù)B,B又關(guān)注C,形成復(fù)雜網(wǎng)絡(luò)。圖數(shù)據(jù)庫(kù)(如Neo4j)專(zhuān)為處理節(jié)點(diǎn)與邊的關(guān)系設(shè)計(jì),查詢(xún)路徑、推薦好友等操作效率遠(yuǎn)高于其他類(lèi)型。關(guān)系型數(shù)據(jù)庫(kù)雖可實(shí)現(xiàn),但多層關(guān)聯(lián)查詢(xún)性能差。因此圖數(shù)據(jù)庫(kù)最合適。25、在數(shù)據(jù)可視化中,以下哪種圖表最適合展示時(shí)間序列的趨勢(shì)變化?A.餅圖B.散點(diǎn)圖C.折線(xiàn)圖D.箱形圖【參考答案】C【解析】折線(xiàn)圖通過(guò)連接數(shù)據(jù)點(diǎn)展示變量隨時(shí)間的變化趨勢(shì),適用于連續(xù)時(shí)間序列數(shù)據(jù),如日銷(xiāo)售額、月用戶(hù)增長(zhǎng)等。餅圖用于顯示部分與整體的比例關(guān)系;散點(diǎn)圖用于觀察兩個(gè)變量之間的相關(guān)性;箱形圖用于展示數(shù)據(jù)分布與異常值。因此,表現(xiàn)趨勢(shì)變化應(yīng)選折線(xiàn)圖。26、下列哪項(xiàng)不屬于大數(shù)據(jù)的4V特征?A.Volume(數(shù)據(jù)量大)B.Velocity(處理速度快)C.Variety(數(shù)據(jù)類(lèi)型多樣)D.Validity(數(shù)據(jù)有效性)【參考答案】D【解析】大數(shù)據(jù)的4V特征由Gartner提出,包括Volume(大量)、Velocity(高速)、Variety(多樣)和Veracity(真實(shí)性)。Validity(有效性)雖與數(shù)據(jù)質(zhì)量相關(guān),但并非標(biāo)準(zhǔn)4V之一。因此D項(xiàng)不屬于原始定義。27、在機(jī)器學(xué)習(xí)中,以下哪種算法屬于無(wú)監(jiān)督學(xué)習(xí)?A.線(xiàn)性回歸B.決策樹(shù)C.K均值聚類(lèi)D.支持向量機(jī)【參考答案】C【解析】無(wú)監(jiān)督學(xué)習(xí)指在無(wú)標(biāo)簽數(shù)據(jù)中發(fā)現(xiàn)模式,K均值聚類(lèi)通過(guò)距離劃分?jǐn)?shù)據(jù)為K個(gè)簇,無(wú)需標(biāo)簽。線(xiàn)性回歸、決策樹(shù)和支持向量機(jī)均需標(biāo)簽進(jìn)行訓(xùn)練,屬于監(jiān)督學(xué)習(xí)。因此C為正確答案。28、以下哪種技術(shù)可用于實(shí)現(xiàn)數(shù)據(jù)脫敏?A.?dāng)?shù)據(jù)加密B.?dāng)?shù)據(jù)掩碼C.?dāng)?shù)據(jù)壓縮D.?dāng)?shù)據(jù)備份【參考答案】B【解析】數(shù)據(jù)脫敏是指對(duì)敏感信息進(jìn)行變形、隱藏或替換,以保護(hù)隱私。數(shù)據(jù)掩碼通過(guò)部分隱藏(如手機(jī)號(hào)顯示為138****1234)實(shí)現(xiàn)脫敏。數(shù)據(jù)加密雖可保護(hù)傳輸安全,但解密后仍可見(jiàn)原始數(shù)據(jù),不滿(mǎn)足脫敏“不可逆”或“不可識(shí)別”要求。壓縮和備份無(wú)脫敏功能。因此B正確。29、在Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的組件是?A.HDFSB.MapReduceC.YARND.Hive【參考答案】C【解析】YARN(YetAnotherResourceNegotiator)是Hadoop2.0引入的資源管理框架,負(fù)責(zé)集群資源分配與任務(wù)調(diào)度。HDFS負(fù)責(zé)分布式存儲(chǔ),MapReduce是計(jì)算模型,Hive是數(shù)據(jù)倉(cāng)庫(kù)工具。三者均依賴(lài)YARN進(jìn)行資源調(diào)度,故C正確。30、下列哪項(xiàng)是數(shù)據(jù)治理的核心目標(biāo)之一?A.提升數(shù)據(jù)存儲(chǔ)容量B.降低硬件成本C.確保數(shù)據(jù)質(zhì)量與合規(guī)性D.加快網(wǎng)絡(luò)傳輸速度【參考答案】C【解析】數(shù)據(jù)治理旨在建立數(shù)據(jù)管理規(guī)范,確保數(shù)據(jù)的準(zhǔn)確性、一致性、安全性與合規(guī)性。它涵蓋數(shù)據(jù)標(biāo)準(zhǔn)、元數(shù)據(jù)管理、數(shù)據(jù)生命周期控制等。提升存儲(chǔ)容量、降低成本、加快傳輸屬于基礎(chǔ)設(shè)施優(yōu)化,非治理核心目標(biāo)。因此C正確。31、在Python中,以下哪個(gè)庫(kù)常用于數(shù)據(jù)處理與分析?A.NumPyB.MatplotlibC.DjangoD.Requests【參考答案】A【解析】NumPy是Python中用于科學(xué)計(jì)算的基礎(chǔ)庫(kù),支持多維數(shù)組與矩陣運(yùn)算,是Pandas等數(shù)據(jù)分析庫(kù)的基礎(chǔ)。Matplotlib用于繪圖;Django是Web開(kāi)發(fā)框架;Requests用于HTTP請(qǐng)求。因此A最符合數(shù)據(jù)處理需求。32、以下哪種數(shù)據(jù)模型最適用于描述JSON格式數(shù)據(jù)?A.關(guān)系模型B.網(wǎng)狀模型C.文檔模型D.層次模型【參考答案】C【解析】JSON(JavaScriptObjectNotation)是一種輕量級(jí)數(shù)據(jù)交換格式,具有嵌套結(jié)構(gòu),適合用文檔模型存儲(chǔ)。文檔數(shù)據(jù)庫(kù)(如MongoDB)直接支持JSON或BSON格式,便于讀寫(xiě)。關(guān)系模型需將JSON展開(kāi)為表結(jié)構(gòu),效率低。因此C最適用。33、在數(shù)據(jù)安全中,以下哪項(xiàng)措施主要用于防止未授權(quán)訪(fǎng)問(wèn)?A.?dāng)?shù)據(jù)加密B.訪(fǎng)問(wèn)控制C.?dāng)?shù)據(jù)備份D.日志審計(jì)【參考答案】B【解析】訪(fǎng)問(wèn)控制通過(guò)身份認(rèn)證與權(quán)限管理,限制用戶(hù)僅能訪(fǎng)問(wèn)其授權(quán)資源,是防止未授權(quán)訪(fǎng)問(wèn)的直接手段。數(shù)據(jù)加密保護(hù)數(shù)據(jù)內(nèi)容,但不控制訪(fǎng)問(wèn)行為;備份保障可用性;日志審計(jì)用于事后追溯。因此B最符合題意。34、以下哪項(xiàng)是數(shù)據(jù)倉(cāng)庫(kù)中“維度表”的主要作用?A.存儲(chǔ)事實(shí)數(shù)據(jù)B.提供描述性信息用于分析C.提高數(shù)據(jù)寫(xiě)入速度D.實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)同步【參考答案】B【解析】在星型模型中,維度表存儲(chǔ)描述性屬性(如時(shí)間、地區(qū)、產(chǎn)品),用于分析時(shí)的分組與過(guò)濾;事實(shí)表存儲(chǔ)可度量的業(yè)務(wù)數(shù)據(jù)(如銷(xiāo)售額)。維度表幫助用戶(hù)從多角度理解事實(shí)數(shù)據(jù),提升分析靈活性。因此B正確。35、在數(shù)據(jù)采集過(guò)程中,API接口的主要優(yōu)勢(shì)是?A.采集數(shù)據(jù)量最大B.?dāng)?shù)據(jù)結(jié)構(gòu)清晰、實(shí)時(shí)性強(qiáng)C.無(wú)需編程即可使用D.支持所有數(shù)據(jù)格式【參考答案】B【解析】API(應(yīng)用程序接口)提供標(biāo)準(zhǔn)化的數(shù)據(jù)訪(fǎng)問(wèn)方式,返回結(jié)構(gòu)化數(shù)據(jù)(如JSON/XML),便于解析與集成,且支持實(shí)時(shí)或近實(shí)時(shí)獲取。相比網(wǎng)頁(yè)爬蟲(chóng),API更穩(wěn)定高效。但并非所有平臺(tái)開(kāi)放API,也無(wú)法保證支持所有格式。因此B最準(zhǔn)確。36、以下哪種指標(biāo)最能反映分類(lèi)模型的準(zhǔn)確性?A.均方誤差B.R2C.準(zhǔn)確率D.輪廓系數(shù)【參考答案】C【解析】準(zhǔn)確率表示分類(lèi)正確的樣本占總樣本的比例,是分類(lèi)模型的基本評(píng)價(jià)指標(biāo)。均方誤差和R2用于回歸模型;輪廓系數(shù)用于評(píng)估聚類(lèi)效果。因此C正確。37、在數(shù)據(jù)預(yù)處理中,對(duì)數(shù)值型特征進(jìn)行標(biāo)準(zhǔn)化的主要目的是?A.減少數(shù)據(jù)存儲(chǔ)空間B.消除量綱影響,提升模型收斂速度C.增加數(shù)據(jù)多樣性D.防止數(shù)據(jù)丟失【參考答案】B【解析】標(biāo)準(zhǔn)化將特征轉(zhuǎn)換為均值為0、標(biāo)準(zhǔn)差為1的分布,消除不同特征間量綱差異(如身高與收入),避免某些特征因數(shù)值大而主導(dǎo)模型訓(xùn)練。這有助于提升梯度下降等算法的收斂速度與穩(wěn)定性。不影響存儲(chǔ)空間或數(shù)據(jù)完整性。因此B正確。38、下列哪項(xiàng)技術(shù)可用于構(gòu)建推薦系統(tǒng)?A.聚類(lèi)分析B.協(xié)同過(guò)濾C.主成分分析D.時(shí)序預(yù)測(cè)【參考答案】B【解析】協(xié)同過(guò)濾通過(guò)用戶(hù)行為數(shù)據(jù)(如評(píng)分、點(diǎn)擊)挖掘用戶(hù)偏好,計(jì)算相似用戶(hù)或物品進(jìn)行推薦,是推薦系統(tǒng)核心技術(shù)之一。聚類(lèi)用于用戶(hù)分群;主成分分析用于降維;時(shí)序預(yù)測(cè)用于趨勢(shì)分析。因此B最直接相關(guān)。39、在數(shù)據(jù)庫(kù)設(shè)計(jì)中,第三范式(3NF)要求?A.每個(gè)字段不可再分B.消除非主屬性對(duì)候選鍵的傳遞依賴(lài)C.主鍵唯一標(biāo)識(shí)記錄D.所有字段均為數(shù)值類(lèi)型【參考答案】B【解析】第三范式要求在滿(mǎn)足第二范式基礎(chǔ)上,消除非主屬性對(duì)候選鍵的傳遞依賴(lài)。即非主屬性必須直接依賴(lài)于主鍵,不能依賴(lài)于其他非主屬性。A是第一范式要求;C是主鍵基本性質(zhì);D無(wú)此限制。因此B正確。40、以下哪種數(shù)據(jù)可視化工具屬于開(kāi)源軟件?A.TableauB.PowerBIC.SupersetD.FineReport【參考答案】C【解析】ApacheSuperset是由Apache基金會(huì)維護(hù)的開(kāi)源數(shù)據(jù)可視化平臺(tái),支持多種數(shù)據(jù)源和交互式儀表板。Tableau和PowerBI為商業(yè)軟件;FineReport為國(guó)產(chǎn)商業(yè)報(bào)表工具。因此C為唯一開(kāi)源選項(xiàng)。41、在大數(shù)據(jù)處理中,以下哪種技術(shù)主要用于分布式存儲(chǔ)海量數(shù)據(jù)?A.MySQLB.HDFSC.RedisD.MongoDB【參考答案】B【解析】HDFS(HadoopDistributedFileSystem)是專(zhuān)為大數(shù)據(jù)設(shè)計(jì)的分布式文件系統(tǒng),能夠存儲(chǔ)和管理大規(guī)模數(shù)據(jù)集,具有高容錯(cuò)性和高吞吐率,適用于跨集群存儲(chǔ)海量數(shù)據(jù)。MySQL是傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù),不支持大規(guī)模分布式存儲(chǔ);Redis是內(nèi)存數(shù)據(jù)庫(kù),適合緩存;MongoDB雖支持分布式,但存儲(chǔ)結(jié)構(gòu)和HDFS不同。因此,B為正確選項(xiàng)。42、下列哪項(xiàng)是數(shù)據(jù)清洗過(guò)程中常見(jiàn)的操作?A.?dāng)?shù)據(jù)可視化B.刪除重復(fù)記錄C.建立數(shù)據(jù)模型D.?dāng)?shù)據(jù)加密【參考答案】B【解析】數(shù)據(jù)清洗旨在提高數(shù)據(jù)質(zhì)量,包括處理缺失值、異常值和重復(fù)數(shù)據(jù)等。刪除重復(fù)記錄是典型操作,能避免分析偏差。數(shù)據(jù)可視化屬于分析階段,建模是后續(xù)步驟,數(shù)據(jù)加密屬于安全范疇。因此,B正確。43、在Python中,用于數(shù)據(jù)分析最常用的庫(kù)是?A.DjangoB.NumPyC.FlaskD.Requests【參考答案】B【解析】NumPy是Python中用于數(shù)值計(jì)算和數(shù)組操作的基礎(chǔ)庫(kù),廣泛應(yīng)用于數(shù)據(jù)分析、科學(xué)計(jì)算等領(lǐng)域。Django和Flask是Web開(kāi)發(fā)框架,Requests用于網(wǎng)絡(luò)請(qǐng)求。因此,B正確。44、下列關(guān)于云計(jì)算服務(wù)模式的描述,正確的是?A.SaaS提供硬件資源B.IaaS包含應(yīng)用軟件C.PaaS提供開(kāi)發(fā)平臺(tái)D.SaaS不包含用戶(hù)界面【參考答案】C【解析】PaaS(平臺(tái)即服務(wù))為開(kāi)發(fā)者提供開(kāi)發(fā)、測(cè)試和部署環(huán)境,如數(shù)據(jù)庫(kù)、中間件等。IaaS提供虛擬化硬件資源,SaaS提供可直接使用的軟件應(yīng)用,通常包含用戶(hù)界面。因此,C正確。45、以下哪種數(shù)據(jù)庫(kù)適合存儲(chǔ)非結(jié)構(gòu)化數(shù)據(jù)?A.OracleB.PostgreSQLC.HBaseD.SQLServer【參考答案】C【解析】HBase是基于Hadoop的列式數(shù)據(jù)庫(kù),支持海量非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)。Oracle、PostgreSQL、SQLServer均為關(guān)系型數(shù)據(jù)庫(kù),擅長(zhǎng)處理結(jié)構(gòu)化數(shù)據(jù)。因此,C正確。46、在數(shù)據(jù)可視化中,最適合展示趨勢(shì)變化的圖表類(lèi)型是?A.餅圖B.柱狀圖C.折線(xiàn)圖D.散點(diǎn)圖【參考答案】C【解析】折線(xiàn)圖通過(guò)連接數(shù)據(jù)點(diǎn)展示變量隨時(shí)間或其他連續(xù)變量的變化趨勢(shì),適合觀察趨勢(shì)。餅圖用于比例,柱狀圖用于類(lèi)別比較,散點(diǎn)圖用于相關(guān)性分析。因此,C正確。47、數(shù)據(jù)挖掘中的分類(lèi)任務(wù)主要用于?A.發(fā)現(xiàn)數(shù)據(jù)分組B.預(yù)測(cè)離散類(lèi)別C.填補(bǔ)缺失值D.降維處理【參考答案】B【解析】分類(lèi)是監(jiān)督學(xué)習(xí)任務(wù),目標(biāo)是根據(jù)已有標(biāo)簽數(shù)據(jù)預(yù)測(cè)新樣本的類(lèi)別,如判斷郵件是否為垃圾郵件。聚類(lèi)用于發(fā)現(xiàn)分組,填補(bǔ)缺失值屬于清洗,降維用于簡(jiǎn)化數(shù)據(jù)。因此,B正確。48、以下哪項(xiàng)是MapReduce的核心思想?A.實(shí)時(shí)處理B.內(nèi)存計(jì)算C.分而治之D.圖計(jì)算【參考答案】C【解析】MapReduce通過(guò)“Map”將任務(wù)分解,“Reduce”合并結(jié)果,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的并行處理,其核心是分而治之。它基于磁盤(pán),不適合實(shí)時(shí)或內(nèi)存計(jì)算。因此,C正確。49、在Linux系統(tǒng)中,查看當(dāng)前目錄下文件列表的命令是?A.cdB.lsC.pwdD.mkdir【參考答案】B【解析】ls命令用于列出當(dāng)前目錄中的文件和子目錄。cd用于切換目錄,pwd顯示當(dāng)前路徑,mkdir創(chuàng)建新目錄。因此,B正確。50、下列哪項(xiàng)不屬于數(shù)據(jù)安全的基本原則?A.保密性B.完整性C.可用性D.公開(kāi)性【參考答案】D【解析】信息安全的三大基本原則是CIA:保密性(防止未授權(quán)訪(fǎng)問(wèn))、完整性(防止篡改)、可用性(授權(quán)用戶(hù)可訪(fǎng)問(wèn))。公開(kāi)性與保密性相悖,不屬于安全原則。因此,D正確。51、在關(guān)系型數(shù)據(jù)庫(kù)中,主鍵的作用是?A.加速查詢(xún)B.唯一標(biāo)識(shí)記錄C.建立索引D.關(guān)聯(lián)多個(gè)表【參考答案】B【解析】主鍵用于唯一標(biāo)識(shí)表中每一行記錄,確保數(shù)據(jù)的唯一性。雖然主鍵自動(dòng)建立索引可提升查詢(xún)速度,但其核心作用是唯一標(biāo)識(shí)。外鍵用于表間關(guān)聯(lián)。因此,B正確。52、下列哪種算法屬于無(wú)監(jiān)督學(xué)習(xí)?A.決策樹(shù)B.支持向量機(jī)C.K-MeansD.邏輯回歸【參考答案】C【解析】K-Means是一種聚類(lèi)算法,無(wú)需標(biāo)簽數(shù)據(jù),屬于無(wú)監(jiān)督學(xué)習(xí)。決策樹(shù)、支持向量機(jī)、邏輯回歸均需標(biāo)簽,屬于監(jiān)督學(xué)習(xí)。因此,C正確。53、在Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)資源調(diào)度的組件是?A.HDFSB.MapReduceC.YARND.Hive【參考答案】C【解析】YARN(YetAnotherResourceNegotiator)是Hadoop的資源管理器,負(fù)責(zé)集群資源的分配與任務(wù)調(diào)度。HDFS負(fù)責(zé)存儲(chǔ),MapReduce負(fù)責(zé)計(jì)算,Hive用于SQL查詢(xún)。因此,C正確。54、以下關(guān)于數(shù)據(jù)倉(cāng)庫(kù)的描述,正確的是?A.主要用于事務(wù)處理B.?dāng)?shù)據(jù)實(shí)時(shí)更新頻繁C.面向主題組織數(shù)據(jù)D.?dāng)?shù)據(jù)量通常較小【參考答案】C【解析】數(shù)據(jù)倉(cāng)庫(kù)是面向主題、集成、非易失、隨時(shí)間變化的數(shù)據(jù)集合,用于支持決策分析。與OLTP系統(tǒng)不同,它不頻繁更新,數(shù)據(jù)量大,支持復(fù)雜查詢(xún)。因此,C正確。55、在Python中,下列哪種數(shù)據(jù)結(jié)構(gòu)是可變的?A.元組B.字符串C.列表D.?dāng)?shù)字【參考答案】C【解析】列表是有序可變序列,支持增刪改操作。元組、字符串和數(shù)字均為不可變類(lèi)型,一旦創(chuàng)建內(nèi)容不可更改。因此,C正確。56、下列哪項(xiàng)技術(shù)可用于實(shí)現(xiàn)數(shù)據(jù)的實(shí)時(shí)流處理?A.HadoopMapReduceB.ApacheSparkStreamingC.MySQLD.Hive【參考答案】B【解析】SparkStreaming支持微批處理,可實(shí)現(xiàn)近實(shí)時(shí)數(shù)據(jù)流處理。MapReduce和Hive適用于批處理,延遲高;MySQL是關(guān)系數(shù)據(jù)庫(kù),不支持流式計(jì)算。因此,B正確。57、在數(shù)據(jù)預(yù)處理中,標(biāo)準(zhǔn)化的主要目的是?A.刪除異常值B.統(tǒng)一量綱C.增加數(shù)據(jù)量D.填補(bǔ)缺失值【參考答案】B【解析】標(biāo)準(zhǔn)化將不同特征轉(zhuǎn)換為相同尺度(如均值為0,標(biāo)準(zhǔn)差為1),避免量綱差異影響模型效果。異常值處理、缺失值填補(bǔ)是其他步驟,標(biāo)準(zhǔn)化不增加數(shù)據(jù)量。因此,B正確。58、下列關(guān)于區(qū)塊鏈的描述,正確的是?A.?dāng)?shù)據(jù)可隨意修改B.中心化存儲(chǔ)C.具有不可篡改性D.僅用于加密貨幣【參考答案】C【解析】區(qū)塊鏈通過(guò)哈希鏈和共識(shí)機(jī)制確保數(shù)據(jù)一旦寫(xiě)入難以篡改,具有去中心化、可追溯、安全等特點(diǎn)。雖然起源于比特幣,但已應(yīng)用于金融、溯源等多個(gè)領(lǐng)域。因此,C正確。59、在SQL中,用于篩選分組后數(shù)據(jù)的子句是?A.WHEREB.ORDERBYC.HAVINGD.LIMIT【參考答案】C【解析】HAVING子句用于對(duì)GROUPBY后的分組結(jié)果進(jìn)行條件篩選,而WHERE用于分組前的行篩選。ORDERBY排序,LIMIT限制返回行數(shù)。因此,C正確。60、下列哪項(xiàng)是提升大數(shù)據(jù)系統(tǒng)性能的有效方法?A.減少數(shù)據(jù)備份B.增加數(shù)據(jù)冗余C.引入數(shù)據(jù)索引D.禁用日志記錄【參考答案】C【解析】數(shù)據(jù)索引可加快查詢(xún)速度,顯著提升系統(tǒng)性能。減少備份、禁用日志會(huì)降低可靠性;冗余雖有助于容錯(cuò),但不直接提升性能。因此,C正確。61、在大數(shù)據(jù)處理中,Hadoop的核心組件之一是用于分布式存儲(chǔ)的,該組件是:A.HiveB.HBaseC.HDFSD.MapReduce【參考答案】C【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件存儲(chǔ)系統(tǒng),負(fù)責(zé)將大文件分割存儲(chǔ)于多個(gè)節(jié)點(diǎn),具有高容錯(cuò)性和高吞吐量,適用于大規(guī)模數(shù)據(jù)集的存儲(chǔ)。Hive用于數(shù)據(jù)倉(cāng)庫(kù),HBase是分布式數(shù)據(jù)庫(kù),MapReduce是計(jì)算框架,均非存儲(chǔ)核心。62、下列哪種數(shù)據(jù)模型最適合表達(dá)實(shí)體之間的復(fù)雜關(guān)系?A.層次模型B.網(wǎng)狀模型C.關(guān)系模型D.面向?qū)ο竽P汀緟⒖即鸢浮緿【解析】面向?qū)ο竽P湍苤苯颖磉_(dá)實(shí)體的屬性和行為,并支持繼承、封裝和多態(tài),適合復(fù)雜關(guān)系建模。關(guān)系模型雖廣泛使用,但對(duì)復(fù)雜嵌套結(jié)構(gòu)支持較弱。層次和網(wǎng)狀模型靈活性不足。63、在數(shù)據(jù)清洗過(guò)程中,處理缺失值的常用方法不包括:A.刪除含有缺失值的記錄B.用均值填充C.用中位數(shù)填充D.增加新特征【參考答案】D【解析】缺失值處理常用方法包括刪除、均值/中位數(shù)/眾數(shù)填充、插值或模型預(yù)測(cè)。增加新特征并非處理缺失值的直接方法,而是特征工程的一部分,不能替代填充或刪除操作。64、以下哪項(xiàng)不屬于大數(shù)據(jù)的4V特征?A.VolumeB.VelocityC.VarietyD.Validity【參考答案】D【解析】大數(shù)據(jù)4V特征為Volume(大量)、Velocity(高速)、Variety(多樣)、Veracity(真實(shí)性)。Validity(有效性)雖重要,但非經(jīng)典4V之一。65、在Python中,用于數(shù)據(jù)分析的主要庫(kù)是:A.DjangoB.NumPyC.FlaskD.TensorFlow【參考答案】B【解析】NumPy提供多維數(shù)組和數(shù)學(xué)函數(shù),是數(shù)據(jù)分析基礎(chǔ)庫(kù)。Django和Flask為Web框架,TensorFlow用于深度學(xué)習(xí),非通用數(shù)據(jù)分析核心工具。66、數(shù)據(jù)倉(cāng)庫(kù)的主要用途是:A.支持事務(wù)處理B.支持實(shí)時(shí)交易C.支持決策分析D.支持用戶(hù)注冊(cè)【參考答案】C【解析】數(shù)據(jù)倉(cāng)庫(kù)用于集成、存儲(chǔ)歷史數(shù)據(jù),支持OLAP和決策分析。事務(wù)處理和實(shí)時(shí)交易由OLTP系統(tǒng)承擔(dān),用戶(hù)注冊(cè)屬于應(yīng)用功能。67、下列哪種算法屬于無(wú)監(jiān)督學(xué)習(xí)?A.線(xiàn)性回歸B.決策樹(shù)C.K均值聚類(lèi)D.邏輯回歸【參考答案】C【解析】K均值聚類(lèi)無(wú)需標(biāo)簽,基于相似性將數(shù)據(jù)分組,屬無(wú)監(jiān)督學(xué)習(xí)。線(xiàn)性回歸、邏輯回歸和決策樹(shù)均需標(biāo)簽,屬監(jiān)督學(xué)習(xí)。68、在數(shù)據(jù)庫(kù)中,主鍵的作用是:A.提高查詢(xún)速度B.唯一標(biāo)識(shí)每條記錄C.建立索引D.存儲(chǔ)大文本數(shù)據(jù)【參考答案】B【解析】主鍵確保記錄的唯一性,不允許空值和重復(fù)。索引可提升查詢(xún)速度,但主鍵的核心功能是唯一標(biāo)識(shí),非直接優(yōu)化性能。69、下列哪種技術(shù)可用于實(shí)現(xiàn)數(shù)據(jù)可視化?A.MySQLB.HadoopC.TableauD.Redis【參考答案】C【解析】Tableau是專(zhuān)業(yè)可視化工具,支持圖表、儀表盤(pán)制作。MySQL是數(shù)據(jù)庫(kù),Hadoop是大數(shù)據(jù)平臺(tái),Redis是內(nèi)存數(shù)據(jù)庫(kù),均非可視化工具。70、在數(shù)據(jù)挖掘中,關(guān)聯(lián)規(guī)則常用于:A.預(yù)測(cè)用戶(hù)評(píng)分B.發(fā)現(xiàn)商品購(gòu)買(mǎi)組合C.分類(lèi)郵件是否為垃圾郵件D.識(shí)別圖像內(nèi)容【參考答案】B【解析】關(guān)聯(lián)規(guī)則如Apriori算法用于發(fā)現(xiàn)項(xiàng)目間的共現(xiàn)關(guān)系,如“購(gòu)物籃分析”。預(yù)測(cè)評(píng)分屬回歸,郵件分類(lèi)為分類(lèi)任務(wù),圖像識(shí)別屬深度學(xué)習(xí)范疇。71、下列哪項(xiàng)是數(shù)據(jù)治理的核心目標(biāo)?A.降低服務(wù)器成本B.提升數(shù)據(jù)質(zhì)量與可用性C.加快網(wǎng)絡(luò)傳輸速度D.減少員工數(shù)量【參考答案】B【解析】數(shù)據(jù)治理旨在確保數(shù)據(jù)的準(zhǔn)確性、一致性、安全性和可用性,支持合規(guī)與決策。其他選項(xiàng)與數(shù)據(jù)管理無(wú)直接關(guān)聯(lián)。72、在SQL中,用于篩選分組后數(shù)據(jù)的子句是:A.WHEREB.HAVINGC.ORDERBYD.LIMIT【參考答案】B【解析】HAVING用于對(duì)GROUPBY后的分組結(jié)果進(jìn)行條件篩選。WHERE用于分組前的行過(guò)濾,ORDERBY排序,LIMIT限制返回行數(shù)。73、下列哪種文件格式最適合存儲(chǔ)結(jié)構(gòu)化數(shù)據(jù)?A.JPEGB.MP3C.CSVD.PDF【參考答案】C【解析】CSV以純文本存儲(chǔ)表格數(shù)據(jù),結(jié)構(gòu)清晰,易被程序解析。JPEG為圖像格式,MP3為音頻,PDF雖可含表格但不易提取結(jié)構(gòu)化數(shù)據(jù)。74、在分布式系統(tǒng)中,CAP定理中的“C”代表:A.一致性B.可用性C.分區(qū)容忍性D.持久性【參考答案】A【解析】CAP指一致性(Consistency)、可用性(Availability)、分區(qū)容忍性(PartitionTolerance),三者最多滿(mǎn)足其二。C強(qiáng)調(diào)所有節(jié)點(diǎn)數(shù)據(jù)一致。75、下列哪項(xiàng)是數(shù)據(jù)脫敏的主要目的?A.提升數(shù)據(jù)處理速度B.降低存儲(chǔ)成本C.保護(hù)敏感信息D.增強(qiáng)數(shù)據(jù)可視化效果【參考答案】C【解析】數(shù)據(jù)脫敏通過(guò)掩碼、替換等方式隱藏敏感字段(如身份證號(hào)),防止數(shù)據(jù)泄露,保障隱私安全,是數(shù)據(jù)安全的重要措施。76、在機(jī)器學(xué)習(xí)中,過(guò)擬合的表現(xiàn)是:A.訓(xùn)練誤差大,測(cè)試誤差小B.訓(xùn)練誤差小,測(cè)試誤差大C.訓(xùn)練和測(cè)試誤差都小D.模型無(wú)法訓(xùn)練【參考答案】B【解析】過(guò)擬合指模型在訓(xùn)練集上表現(xiàn)好(誤差?。?,但在新數(shù)據(jù)上表現(xiàn)差(測(cè)試誤差大),因過(guò)度學(xué)習(xí)噪聲或細(xì)節(jié),泛化能力弱。77、下列哪項(xiàng)技術(shù)常用于實(shí)時(shí)數(shù)據(jù)流處理?A.HDFSB.SparkStreamingC.MySQLD.Excel【參考答案】B【解析】SparkStreaming支持微批處理,可實(shí)時(shí)處理數(shù)據(jù)流。HDFS用于存儲(chǔ),MySQL是關(guān)系數(shù)據(jù)庫(kù),Excel為桌面工具,均不適合實(shí)時(shí)流處理。78、在數(shù)據(jù)建模中,星型模型的特點(diǎn)是:A.多個(gè)事實(shí)表連接多個(gè)維度表B.一個(gè)事實(shí)表連接多個(gè)維度表C.無(wú)事實(shí)表D.僅包含維度表【參考答案】B【解析】星型模型由一個(gè)中心事實(shí)表(存儲(chǔ)度量值)和多個(gè)維度表(描述屬性)組成,結(jié)構(gòu)簡(jiǎn)單,查詢(xún)效率高,常用于數(shù)據(jù)倉(cāng)庫(kù)。79、下列哪項(xiàng)不屬于數(shù)據(jù)質(zhì)量的維度?A.準(zhǔn)確性B.完整性C.及時(shí)性D.顏色豐富度【參考答案】D【解析】數(shù)據(jù)質(zhì)量包括準(zhǔn)確性、完整性、一致性、及時(shí)性等。顏色豐富度是圖像屬性,與數(shù)據(jù)質(zhì)量無(wú)關(guān)。80、在Python中,pandas庫(kù)中用于讀取CSV文件的函數(shù)是:A.read_json()B.read_csv()C.read_excel()D.load_data()【參考答案】B【解析】pandas提供read_csv()函數(shù)專(zhuān)門(mén)用于讀取CSV文件。read_json()讀JSON,read_excel()讀Excel,load_data()非pandas標(biāo)準(zhǔn)函數(shù)。81、在大數(shù)據(jù)處理架構(gòu)中,以下哪項(xiàng)技術(shù)主要用于分布式存儲(chǔ)和批量數(shù)據(jù)處理?A.KafkaB.HadoopC.RedisD.MongoDB【參考答案】B【解析】Hadoop是一個(gè)支持大規(guī)模數(shù)據(jù)分布式存儲(chǔ)與處理的開(kāi)源框架,其核心組件HDFS用于存儲(chǔ),MapReduce用于批量計(jì)算。Kafka是消息隊(duì)列系統(tǒng),Redis是內(nèi)存數(shù)據(jù)庫(kù),MongoDB是文檔型數(shù)據(jù)庫(kù),均不以批量處理為核心。82、下列哪項(xiàng)是衡量數(shù)據(jù)質(zhì)量的關(guān)鍵維度之一?A.?dāng)?shù)據(jù)容量B.?dāng)?shù)據(jù)時(shí)效性C.?dāng)?shù)據(jù)來(lái)源數(shù)量D.?dāng)?shù)據(jù)存儲(chǔ)格式【參考答案】B【解析】數(shù)據(jù)質(zhì)量的五大核心維度包括準(zhǔn)確性、完整性、一致性、唯一性和時(shí)效性。時(shí)效性指數(shù)據(jù)在特定時(shí)間內(nèi)的有效性,直接影響分析結(jié)果的可靠性。其他選項(xiàng)非標(biāo)準(zhǔn)質(zhì)量維度。83、在數(shù)據(jù)倉(cāng)庫(kù)中,星型模型的中心表通常是什么?A.維度表B.事實(shí)表C.索引表D.日志表【參考答案】B【解析】星型模型由一個(gè)事實(shí)表和多個(gè)維度表組成,事實(shí)表位于中心,存儲(chǔ)度量值和外鍵,維度表圍繞其提供描述性信息。該結(jié)構(gòu)簡(jiǎn)化查詢(xún),提升分析效率。84、以下哪種算法屬于無(wú)監(jiān)督學(xué)習(xí)?A.線(xiàn)性回歸B.決策樹(shù)C.K均值聚類(lèi)D.支持向量機(jī)【參考答案】C【解析】無(wú)監(jiān)督學(xué)習(xí)用于發(fā)現(xiàn)未標(biāo)記數(shù)據(jù)的內(nèi)在結(jié)構(gòu)。K均值聚類(lèi)通過(guò)距離劃分樣本為K個(gè)簇,無(wú)需標(biāo)簽。線(xiàn)性回歸、決策樹(shù)和支持向量機(jī)均需標(biāo)注數(shù)據(jù),屬監(jiān)督學(xué)習(xí)。85、數(shù)據(jù)治理的主要目標(biāo)不包括以下哪項(xiàng)?A.提升數(shù)據(jù)安全性B.降低數(shù)據(jù)存儲(chǔ)成本C.確保數(shù)據(jù)合規(guī)性D.增強(qiáng)數(shù)據(jù)可用性【參考答案】B【解析】數(shù)據(jù)治理聚焦數(shù)據(jù)的可用性、完整性、安全性和合規(guī)性管理,不直接以降低成本為目標(biāo)。存儲(chǔ)成本優(yōu)化屬于技術(shù)架構(gòu)或運(yùn)維范疇。86、下列哪項(xiàng)是ETL過(guò)程的正確順序?A.轉(zhuǎn)換、抽取、加載B.抽取、加載、轉(zhuǎn)換C.抽取、轉(zhuǎn)換、加載D.加載、轉(zhuǎn)換、抽取【參考答案】C【解析】ETL指從源系統(tǒng)抽取(Extract)數(shù)據(jù),進(jìn)行清洗轉(zhuǎn)換(Transform),最終加載(Load)至目標(biāo)數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù),是數(shù)據(jù)集成的核心流程。87、在Python中,以下哪個(gè)庫(kù)主要用于數(shù)據(jù)可視化?A.PandasB.NumPyC.MatplotlibD.Scikit-learn【參考答案】C【解析】Matplotlib是Python的基礎(chǔ)繪圖庫(kù),支持折線(xiàn)圖、柱狀圖等多種圖形。Pandas用于數(shù)據(jù)處理,NumPy用于數(shù)值計(jì)算,Scikit-learn用于機(jī)器學(xué)習(xí)。88、下列哪項(xiàng)技術(shù)可用于實(shí)時(shí)數(shù)據(jù)流處理?A.HiveB.SparkStreamingC.HBaseD.Sqoop【參考答案】B【解析】SparkStreaming是Spark的流處理模塊,支持微批處理實(shí)時(shí)數(shù)據(jù)。Hive用于離線(xiàn)SQL查詢(xún),HBase是列式數(shù)據(jù)庫(kù),Sqoop用于數(shù)據(jù)遷移。89、關(guān)于主鍵約束,以下說(shuō)法正確的是?A.主鍵可以為空B.主鍵值必須唯一C.一張表可有多個(gè)主鍵D.主鍵不能作為外鍵【參考答案】B【解析】主鍵用于唯

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論