版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025江西省云智大數(shù)據(jù)產(chǎn)業(yè)研究院工作人員招聘2人筆試歷年典型考點題庫附帶答案詳解(第1套)一、單項選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(共30題)1、在數(shù)據(jù)清洗過程中,對于一個數(shù)值型特征,若其數(shù)據(jù)分布較為均勻且無明顯偏態(tài),以下哪種方法最適合處理缺失值?A.刪除包含缺失值的整行記錄B.使用該特征的眾數(shù)進行填充C.使用該特征的平均值進行填充D.使用該特征的中位數(shù)進行填充2、在數(shù)據(jù)分析中,用于衡量兩個變量之間線性相關(guān)程度的統(tǒng)計量是?A.方差B.標準差C.相關(guān)系數(shù)D.四分位距3、在數(shù)據(jù)可視化中,為了清晰地展示一個分類變量在不同類別中的頻數(shù)分布,最合適的圖表類型是?A.折線圖B.散點圖C.餅圖D.柱狀圖4、在SQL查詢中,要從兩個表中獲取所有匹配的記錄(即兩個表的交集),應(yīng)使用哪個關(guān)鍵字?A.LEFTJOINB.RIGHTJOINC.FULLOUTERJOIND.INNERJOIN5、下列關(guān)于數(shù)據(jù)預(yù)處理中“異常值”的描述,哪一項是正確的?A.異常值總是由數(shù)據(jù)錄入錯誤導(dǎo)致,必須無條件刪除B.異常值對統(tǒng)計分析結(jié)果沒有影響,可以忽略C.異常值可能包含重要信息,應(yīng)結(jié)合業(yè)務(wù)背景進行分析和處理D.異常值只能通過標準差法(如3σ原則)來識別6、在SQL查詢中,若要獲取兩個表中所有匹配的記錄,即僅保留兩表交集部分的數(shù)據(jù),應(yīng)使用哪種連接類型?A.LEFTJOINB.RIGHTJOINC.INNERJOIND.FULLJOIN7、在數(shù)據(jù)分析中,若需對某銷售數(shù)據(jù)表按月份分組,并計算每個組內(nèi)銷售額的累計總和,應(yīng)優(yōu)先選用哪種SQL函數(shù)?A.COUNT()B.SUM()C.ROW_NUMBER()D.SUM()OVER(PARTITIONBY...)8、在數(shù)據(jù)清洗過程中,對于一個數(shù)值型變量,若發(fā)現(xiàn)其值遠高于或低于正常范圍,這類數(shù)據(jù)點通常被稱為?A.缺失值B.重復(fù)值C.異常值D.空值9、在數(shù)據(jù)可視化中,為了清晰地展示不同產(chǎn)品類別在近一年內(nèi)銷售額的月度變化趨勢,最合適的圖表類型是?A.餅圖B.柱狀圖C.折線圖D.熱力圖10、根據(jù)數(shù)據(jù)庫設(shè)計規(guī)范,一個學(xué)生信息表(包含學(xué)號、姓名、性別、院系、院系電話)中,院系電話字段直接依賴于院系,而非主鍵學(xué)號。這違反了數(shù)據(jù)庫設(shè)計的哪一范式?A.第一范式(1NF)B.第二范式(2NF)C.第三范式(3NF)D.巴科斯-科德范式(BCNF)11、在數(shù)據(jù)預(yù)處理階段,對于連續(xù)型變量的缺失值,下列哪種方法是通過利用已知數(shù)據(jù)點來估計未知值的?A.直接刪除含有缺失值的整行記錄B.將缺失值統(tǒng)一替換為0C.使用線性插值法根據(jù)相鄰數(shù)據(jù)點推算D.將缺失值標記為“未知”并保留12、在進行數(shù)據(jù)可視化時,為了清晰地展示某產(chǎn)品在近一年內(nèi)月度銷售額的變化趨勢,最適宜選用哪種圖表類型?A.餅圖B.柱狀圖C.折線圖D.熱力圖13、在Python數(shù)據(jù)分析中,哪個庫主要用于處理結(jié)構(gòu)化表格數(shù)據(jù),提供如數(shù)據(jù)清洗、過濾、聚合等核心功能?A.NumPyB.MatplotlibC.PandasD.Scikit-learn14、在數(shù)據(jù)清洗過程中,為了提高數(shù)據(jù)質(zhì)量,下列哪項操作屬于數(shù)據(jù)轉(zhuǎn)換的范疇?A.刪除重復(fù)的觀測記錄B.將“性別”字段的“男”、“女”統(tǒng)一編碼為1和0C.用均值填補年齡字段的缺失值D.識別并移除明顯錯誤的訂單金額(如負數(shù))15、在處理大規(guī)模數(shù)據(jù)集時,NumPy庫的核心優(yōu)勢主要體現(xiàn)在哪個方面?A.提供了強大的數(shù)據(jù)可視化功能B.實現(xiàn)了對文本數(shù)據(jù)的自然語言處理C.提供了高效的多維數(shù)組對象和快速的數(shù)值計算函數(shù)D.內(nèi)置了復(fù)雜的機器學(xué)習(xí)算法模型16、根據(jù)國家標準《信息技術(shù)數(shù)據(jù)質(zhì)量評價指標》(GB/T36344-2018),以下哪一項是評價數(shù)據(jù)質(zhì)量的核心維度之一?A.數(shù)據(jù)傳輸速率B.數(shù)據(jù)計算開銷C.數(shù)據(jù)規(guī)范性D.數(shù)據(jù)存儲成本17、在Hadoop生態(tài)系統(tǒng)中,主要負責(zé)分布式資源調(diào)度與管理的組件是?A.HDFSB.HiveC.YARND.HBase18、在需要強事務(wù)一致性和復(fù)雜關(guān)聯(lián)查詢的業(yè)務(wù)場景(如銀行核心系統(tǒng))中,優(yōu)先選擇的數(shù)據(jù)庫類型是?A.文檔型NoSQL數(shù)據(jù)庫B.鍵值型NoSQL數(shù)據(jù)庫C.列存儲型NoSQL數(shù)據(jù)庫D.關(guān)系型SQL數(shù)據(jù)庫19、依據(jù)《數(shù)據(jù)管理能力成熟度評估模型》(GB/T36073-2018,簡稱DCMM),以下哪項不屬于其定義的八大核心能力域?A.數(shù)據(jù)戰(zhàn)略B.數(shù)據(jù)治理C.數(shù)據(jù)可視化D.數(shù)據(jù)安全20、在數(shù)據(jù)治理實踐中,“數(shù)據(jù)字典”的主要作用是?A.加速數(shù)據(jù)庫的查詢響應(yīng)時間B.存儲原始業(yè)務(wù)數(shù)據(jù)的備份副本C.統(tǒng)一描述數(shù)據(jù)的業(yè)務(wù)含義、技術(shù)定義與管理規(guī)則D.執(zhí)行數(shù)據(jù)清洗與轉(zhuǎn)換的ETL流程21、在關(guān)系數(shù)據(jù)庫中,用于確保表中每一行數(shù)據(jù)唯一性的約束是?A.外鍵約束(ForeignKey)B.主鍵約束(PrimaryKey)C.檢查約束(Check)D.默認約束(Default)22、下列數(shù)據(jù)結(jié)構(gòu)中,屬于先進先出(FIFO)的是?A.棧B.隊列C.二叉樹D.哈希表23、在SQL中,用于從數(shù)據(jù)庫表中檢索數(shù)據(jù)的命令是?A.INSERTB.UPDATEC.DELETED.SELECT24、在數(shù)據(jù)庫規(guī)范化理論中,第二范式(2NF)要求消除哪種依賴?A.傳遞函數(shù)依賴B.非主屬性對候選鍵的部分函數(shù)依賴C.主屬性對候選鍵的依賴D.多值依賴25、下列關(guān)于大數(shù)據(jù)“4V”特征的描述,錯誤的是?A.Volume(數(shù)據(jù)量大)B.Velocity(處理速度快)C.Variety(數(shù)據(jù)類型多樣)D.Validity(數(shù)據(jù)有效性高)26、在大數(shù)據(jù)分析流程中,下列哪項是數(shù)據(jù)清洗階段的關(guān)鍵任務(wù)?A.使用SparkSQL進行復(fù)雜查詢B.將數(shù)據(jù)轉(zhuǎn)換為JSON格式C.刪除重復(fù)記錄并處理缺失值D.利用Echarts生成動態(tài)圖表27、下列哪種圖表最適合展示某產(chǎn)品在一年內(nèi)各月銷售額的變化趨勢?A.餅圖B.柱狀圖C.折線圖D.熱力圖28、在大數(shù)據(jù)處理框架中,相較于HadoopMapReduce,Spark的主要優(yōu)勢體現(xiàn)在哪個方面?A.僅支持批處理任務(wù)B.必須依賴HDFS存儲數(shù)據(jù)C.使用磁盤進行中間結(jié)果存儲D.支持內(nèi)存計算,處理速度更快29、在Python數(shù)據(jù)分析中,以下哪個庫主要用于數(shù)據(jù)處理與結(jié)構(gòu)化操作?A.MatplotlibB.Scikit-learnC.PandasD.TensorFlow30、下列哪項技術(shù)常用于在Spark環(huán)境中對結(jié)構(gòu)化數(shù)據(jù)進行查詢和分析?A.GraphXB.SparkStreamingC.SparkSQLD.MLlib二、多項選擇題下列各題有多個正確答案,請選出所有正確選項(共15題)31、在Python數(shù)據(jù)分析中,以下哪些庫常用于數(shù)據(jù)處理和分析?A.PandasB.NumPyC.MatplotlibD.Seaborn32、數(shù)據(jù)清洗是數(shù)據(jù)分析的關(guān)鍵步驟,其主要目標包括處理以下哪些常見問題?A.數(shù)據(jù)缺失值B.數(shù)據(jù)重復(fù)記錄C.數(shù)據(jù)格式不一致D.數(shù)據(jù)可視化樣式33、關(guān)于數(shù)據(jù)可視化圖表的適用場景,下列說法正確的有哪些?A.柱狀圖適用于比較不同類別的數(shù)值大小B.折線圖適用于展示數(shù)據(jù)隨時間變化的趨勢C.餅圖適用于展示各部分占總體的比例,且分類不宜過多D.散點圖適用于分析兩個數(shù)值型變量間的相關(guān)關(guān)系34、在Python數(shù)據(jù)分析流程中,以下哪些工具常被用作數(shù)據(jù)可視化庫?A.PandasB.NumPyC.MatplotlibD.Seaborn35、關(guān)于Pandas庫在數(shù)據(jù)分析中的作用,以下描述正確的是哪些?A.提供高效的數(shù)據(jù)結(jié)構(gòu)(如DataFrame)用于數(shù)據(jù)操作B.是進行數(shù)據(jù)清洗和轉(zhuǎn)換的核心工具C.主要用于底層數(shù)值計算和矩陣運算D.支持數(shù)據(jù)讀取、聚合和基本的可視化功能36、在處理數(shù)據(jù)分析中的異常值時,以下哪些方法是合理的?A.直接刪除所有異常值B.使用統(tǒng)計方法(如Z-score或IQR)識別異常值C.用中位數(shù)或均值替換異常值D.分析異常值產(chǎn)生的原因,再決定處理方式37、下列哪些是數(shù)據(jù)處理流程中常見的步驟?A.數(shù)據(jù)搜集與存儲B.數(shù)據(jù)清洗C.數(shù)據(jù)建模D.數(shù)據(jù)可視化38、以下關(guān)于NumPy庫的描述,哪些是正確的?A.它是Python進行科學(xué)計算的基礎(chǔ)庫B.其核心數(shù)據(jù)結(jié)構(gòu)是多維數(shù)組(ndarray)C.它主要用于數(shù)據(jù)可視化和繪圖D.Pandas庫是基于NumPy構(gòu)建的39、在進行數(shù)據(jù)清洗時,針對數(shù)據(jù)缺失值,可以采用哪些處理策略?A.直接刪除含有缺失值的整行數(shù)據(jù)B.用該列的平均值或中位數(shù)填充缺失值C.使用插值法估算缺失值D.忽略缺失值,直接進行后續(xù)分析40、關(guān)于Seaborn與Matplotlib的關(guān)系,以下說法正確的有哪些?A.Seaborn是基于Matplotlib構(gòu)建的高級可視化庫B.Seaborn的默認樣式比Matplotlib更美觀和現(xiàn)代C.Matplotlib提供了更強大的自定義能力D.Seaborn主要用于繪制基礎(chǔ)的柱狀圖和折線圖,功能比Matplotlib簡單41、在數(shù)據(jù)預(yù)處理階段,以下哪些操作屬于數(shù)據(jù)清洗的范疇?A.填補缺失值B.去除重復(fù)記錄C.對數(shù)值型變量進行標準化D.糾正明顯錯誤的數(shù)據(jù)(如年齡為200歲)42、關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別,以下說法正確的是?A.數(shù)據(jù)庫面向事務(wù)處理(OLTP),數(shù)據(jù)倉庫面向分析處理(OLAP)B.數(shù)據(jù)庫通常存儲當(dāng)前、詳細數(shù)據(jù);數(shù)據(jù)倉庫存儲歷史、匯總數(shù)據(jù)C.數(shù)據(jù)庫支持高并發(fā)的簡單讀寫;數(shù)據(jù)倉庫支持復(fù)雜查詢與聚合分析D.數(shù)據(jù)庫采用星型或雪花模型組織數(shù)據(jù)43、依據(jù)《數(shù)據(jù)安全法》,數(shù)據(jù)處理者在開展數(shù)據(jù)處理活動時,應(yīng)當(dāng)履行哪些法定義務(wù)?A.建立健全全流程數(shù)據(jù)安全管理制度B.組織開展數(shù)據(jù)安全教育培訓(xùn)C.采取相應(yīng)的技術(shù)措施保障數(shù)據(jù)安全D.向境外提供重要數(shù)據(jù)前需通過安全評估44、在機器學(xué)習(xí)模型評估中,以下哪些指標適用于評估二分類模型性能?A.準確率(Accuracy)B.召回率(Recall)C.均方誤差(MSE)D.F1分數(shù)45、數(shù)據(jù)治理(DataGovernance)的核心目標通常包括以下哪些方面?A.提升數(shù)據(jù)質(zhì)量B.確保數(shù)據(jù)合規(guī)性C.降低數(shù)據(jù)存儲的硬件成本D.明確數(shù)據(jù)資產(chǎn)權(quán)責(zé)三、判斷題判斷下列說法是否正確(共10題)46、大數(shù)據(jù)的“4V”特征通常指Volume(大量)、Velocity(高速)、Variety(多樣)和Veracity(真實性)。A.正確B.錯誤47、在理想情況下,哈希表的查找、插入和刪除操作的平均時間復(fù)雜度均為O(1)。A.正確B.錯誤48、云計算中的IaaS(基礎(chǔ)設(shè)施即服務(wù))主要向用戶提供虛擬化的計算資源,如虛擬機、存儲和網(wǎng)絡(luò)。A.正確B.錯誤49、Python語言不支持面向?qū)ο缶幊獭.正確B.錯誤50、大數(shù)據(jù)的“4V”特征通常指Volume(大量)、Velocity(高速)、Variety(多樣)和Veracity(真實性)。A.正確B.錯誤51、在關(guān)系型數(shù)據(jù)庫中,主鍵(PrimaryKey)的值可以為空(NULL)。A.正確B.錯誤52、TCP協(xié)議是一種面向連接的、可靠的傳輸層協(xié)議。A.正確B.錯誤53、在數(shù)據(jù)結(jié)構(gòu)中,棧(Stack)遵循“先進先出”(FIFO)的原則。A.正確B.錯誤54、機器學(xué)習(xí)中的過擬合(Overfitting)是指模型在訓(xùn)練集上表現(xiàn)差,但在測試集上表現(xiàn)好。A.正確B.錯誤55、IPv4地址由32位二進制數(shù)組成,通常以點分十進制形式表示。A.正確B.錯誤
參考答案及解析1.【參考答案】C【解析】當(dāng)數(shù)值型數(shù)據(jù)分布均勻、無明顯偏態(tài)時,使用平均值(均值)填充缺失值能較好地保持數(shù)據(jù)的整體中心趨勢和分布特性,是常用且合理的處理方法[[10]]。眾數(shù)適用于分類變量,中位數(shù)更適用于有偏態(tài)分布或存在異常值的數(shù)據(jù),而直接刪除記錄可能導(dǎo)致信息損失和樣本偏差[[8]]。2.【參考答案】C【解析】相關(guān)系數(shù)(如皮爾遜相關(guān)系數(shù))是量化兩個變量間線性相關(guān)強度和方向的標準化指標,其值介于-1到1之間。方差和標準差衡量單個變量的離散程度,四分位距衡量數(shù)據(jù)分布的中間50%的離散程度,均不直接反映兩個變量間的線性關(guān)系[[21]]。3.【參考答案】D【解析】柱狀圖(BarChart)通過不同高度的矩形條來直觀比較各類別間的頻數(shù)或計數(shù),是展示分類變量分布最常用且清晰的圖表[[32]]。餅圖雖可顯示比例,但類別過多時不易比較;折線圖適合展示趨勢,散點圖用于觀察兩個連續(xù)變量的關(guān)系[[27]]。4.【參考答案】D【解析】INNERJOIN用于返回兩個表中連接字段值相等的記錄,即只保留兩個表的交集部分[[42]]。LEFTJOIN會保留左表所有記錄,RIGHTJOIN保留右表所有記錄,F(xiàn)ULLOUTERJOIN則保留兩個表的所有記錄,均不符合“僅獲取匹配記錄”的要求[[37]]。5.【參考答案】C【解析】異常值并非一定是錯誤,有時可能代表罕見但重要的事件或現(xiàn)象[[13]]。處理異常值需謹慎,應(yīng)結(jié)合具體業(yè)務(wù)場景分析其成因,決定是修正、保留還是剔除,而非一概而論[[13]]。識別方法多樣,除3σ原則外,還有IQR(四分位距)法等[[13]]。6.【參考答案】C【解析】INNERJOIN(內(nèi)連接)用于返回兩個表中滿足連接條件的公共記錄,即只保留兩表的交集部分[[14]]。LEFTJOIN會保留左表所有記錄,RIGHTJOIN保留右表所有記錄,F(xiàn)ULLJOIN則保留兩表所有記錄,均不符合題干中“僅保留交集”的要求[[10]]。7.【參考答案】D【解析】SUM()是聚合函數(shù),只能返回每組的總和,無法實現(xiàn)累計。SUM()OVER(PARTITIONBY...)是窗口函數(shù),可在分組(PARTITIONBY)基礎(chǔ)上進行累計計算,符合“按組累計”的需求[[21]]。窗口函數(shù)能在不改變行數(shù)的前提下進行復(fù)雜統(tǒng)計,是處理此類問題的常用方法[[24]]。8.【參考答案】C【解析】異常值(Outlier)是指數(shù)據(jù)集中明顯偏離其他觀測值的數(shù)據(jù)點,其數(shù)值遠高于或遠低于正常范圍[[35]]。缺失值和空值指數(shù)據(jù)缺失,重復(fù)值指完全相同的記錄,均不符合“數(shù)值異?!钡亩x[[30]]。識別和處理異常值是數(shù)據(jù)清洗的關(guān)鍵步驟之一[[36]]。9.【參考答案】C【解析】折線圖(LineChart)擅長展示數(shù)據(jù)隨時間變化的趨勢和模式,特別適用于連續(xù)時間序列數(shù)據(jù)的分析[[43]]。餅圖用于顯示各部分占總體的比例,柱狀圖適合比較不同類別的數(shù)值,熱力圖則常用于展示二維數(shù)據(jù)的密度或強度[[41]]。題干強調(diào)“變化趨勢”,折線圖最為貼切。10.【參考答案】C【解析】第三范式(3NF)要求表中的非主屬性(如院系電話)必須直接依賴于主鍵(學(xué)號),不能依賴于其他非主屬性(院系)[[53]]。本例中院系電話依賴于院系,屬于傳遞依賴,違反了第三范式[[55]]。第一范式要求原子性,第二范式要求完全依賴主鍵,此處主鍵已滿足,問題在于傳遞依賴。11.【參考答案】C【解析】插值法是一種常用的數(shù)據(jù)清洗技術(shù),特別適用于連續(xù)型數(shù)據(jù)缺失值的處理。它利用數(shù)據(jù)序列中已知點的信息,通過數(shù)學(xué)方法(如線性插值)來估算缺失點的合理數(shù)值,從而保留數(shù)據(jù)的連續(xù)性和趨勢信息[[39]]。相比之下,刪除法會損失數(shù)據(jù)量,簡單替換為固定值(如0)或標記為“未知”則可能引入偏差或無法用于后續(xù)數(shù)值分析。12.【參考答案】C【解析】折線圖通過連接數(shù)據(jù)點的線條來展現(xiàn)數(shù)值隨時間變化的趨勢,是展示時間序列數(shù)據(jù)(如月度銷售額)變化規(guī)律的首選圖表[[23]]。餅圖適用于展示各部分占總體的比例,柱狀圖適合比較不同類別的數(shù)值大小,熱力圖則常用于顯示二維數(shù)據(jù)矩陣的強度分布,均不適用于表現(xiàn)連續(xù)時間趨勢。13.【參考答案】C【解析】Pandas是Python中專為數(shù)據(jù)處理和分析設(shè)計的核心庫,它提供了DataFrame和Series等數(shù)據(jù)結(jié)構(gòu),能夠高效地進行數(shù)據(jù)加載、清洗(如處理缺失值)、轉(zhuǎn)換、過濾和聚合等操作,是處理表格型數(shù)據(jù)的“瑞士軍刀”[[30]]。NumPy側(cè)重于數(shù)值計算和數(shù)組操作,Matplotlib用于繪圖,Scikit-learn用于機器學(xué)習(xí)建模。14.【參考答案】B【解析】數(shù)據(jù)轉(zhuǎn)換是指改變數(shù)據(jù)的表示形式或結(jié)構(gòu),使其更適合分析,例如將分類變量進行編碼(如獨熱編碼或數(shù)值編碼)[[13]]。選項B正是將文本標簽轉(zhuǎn)換為數(shù)值編碼,屬于典型的數(shù)據(jù)轉(zhuǎn)換。刪除重復(fù)記錄是數(shù)據(jù)清洗,填補缺失值是處理缺失值,移除異常值是數(shù)據(jù)清洗或異常檢測。15.【參考答案】C【解析】NumPy是Python科學(xué)計算的基礎(chǔ)庫,其核心是提供了高效的多維數(shù)組對象(ndarray)以及一系列針對數(shù)組的快速數(shù)學(xué)運算函數(shù)[[31]]。這使得NumPy在處理大規(guī)模數(shù)值型數(shù)據(jù)時,速度遠超Python原生列表,為后續(xù)的Pandas數(shù)據(jù)分析和機器學(xué)習(xí)提供了底層支持。它本身不直接提供可視化或機器學(xué)習(xí)功能。16.【參考答案】C【解析】國家標準GB/T36344-2018將數(shù)據(jù)質(zhì)量評價指標劃分為多個核心維度,主要包括:準確性、完整性、一致性、及時性、規(guī)范性和可用性等[[8]]。其中,“規(guī)范性”指數(shù)據(jù)是否符合預(yù)設(shè)的數(shù)據(jù)標準、格式或業(yè)務(wù)規(guī)則,是評估數(shù)據(jù)能否被有效集成與使用的關(guān)鍵指標。而傳輸速率、計算開銷、存儲成本屬于系統(tǒng)性能范疇,并非數(shù)據(jù)質(zhì)量本身的評價維度。因此,C項正確。17.【參考答案】C【解析】Hadoop生態(tài)系統(tǒng)中,YARN(YetAnotherResourceNegotiator)是第二代資源管理框架,核心功能是統(tǒng)一管理和調(diào)度集群中的計算資源(如CPU、內(nèi)存),支持多種計算框架(如MapReduce、Spark)并發(fā)運行[[18]]。HDFS負責(zé)分布式存儲,Hive是基于Hadoop的數(shù)據(jù)倉庫工具,用于SQL查詢;HBase是分布式NoSQL數(shù)據(jù)庫。三者均不承擔(dān)資源調(diào)度職能。因此,C項正確。18.【參考答案】D【解析】關(guān)系型SQL數(shù)據(jù)庫遵循ACID原則(原子性、一致性、隔離性、持久性),能確保數(shù)據(jù)在并發(fā)操作下的強一致性,并支持復(fù)雜的多表JOIN查詢與事務(wù)處理,適用于對數(shù)據(jù)完整性要求極高的場景(如金融、會計系統(tǒng))[[29]]。而各類NoSQL數(shù)據(jù)庫(文檔型、鍵值型、列存儲型)多為BASE模型(基本可用、軟狀態(tài)、最終一致),犧牲部分一致性以換取高擴展性與靈活性,不適用于強事務(wù)場景。因此,D項正確。19.【參考答案】C【解析】DCMM國家標準明確規(guī)定了八大核心能力域:數(shù)據(jù)戰(zhàn)略、數(shù)據(jù)治理、數(shù)據(jù)架構(gòu)、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全、數(shù)據(jù)質(zhì)量、數(shù)據(jù)標準、數(shù)據(jù)生存周期[[37]]。這些能力域覆蓋了數(shù)據(jù)從規(guī)劃到銷毀的全生命周期管理?!皵?shù)據(jù)可視化”屬于數(shù)據(jù)分析與呈現(xiàn)的技術(shù)手段,是“數(shù)據(jù)應(yīng)用”能力域中的具體技術(shù)環(huán)節(jié),并非獨立的能力域。因此,C項不屬于八大能力域,為正確答案。20.【參考答案】C【解析】數(shù)據(jù)字典是數(shù)據(jù)治理的核心工具之一,其核心功能是建立元數(shù)據(jù)的集中管理機制,對組織內(nèi)各類數(shù)據(jù)資產(chǎn)提供標準化的描述,包括字段名稱、數(shù)據(jù)類型、業(yè)務(wù)定義、取值范圍、責(zé)任部門、更新頻率等信息[[10]]。這有助于消除業(yè)務(wù)與技術(shù)部門間的語義鴻溝,保障數(shù)據(jù)的一致理解與規(guī)范使用。它不直接參與數(shù)據(jù)計算(A)、存儲(B)或處理(D)。因此,C項正確。21.【參考答案】B【解析】主鍵約束用于唯一標識表中的每一行記錄,其值不能為NULL且必須唯一。外鍵用于建立表間引用關(guān)系,檢查約束用于限制列的取值范圍,而默認約束用于在未提供值時自動填充默認值。因此,確保行數(shù)據(jù)唯一性的核心約束是主鍵約束[[1]]。22.【參考答案】B【解析】隊列是一種典型遵循先進先出(FirstInFirstOut,FIFO)原則的數(shù)據(jù)結(jié)構(gòu),即最先進入隊列的元素最先被移除。棧則遵循后進先出(LIFO)原則;二叉樹用于層次化或排序存儲;哈希表通過鍵值對實現(xiàn)快速查找,不涉及進出順序。因此正確答案為隊列。23.【參考答案】D【解析】SELECT語句是SQL中最核心的數(shù)據(jù)查詢命令,用于從一個或多個表中提取數(shù)據(jù)。INSERT用于插入新記錄,UPDATE用于修改已有數(shù)據(jù),DELETE用于刪除記錄。根據(jù)SQL標準語言的功能劃分,只有SELECT用于數(shù)據(jù)檢索[[1]]。24.【參考答案】B【解析】第二范式(2NF)建立在第一范式(1NF)基礎(chǔ)上,要求所有非主屬性完全函數(shù)依賴于整個候選鍵,而非僅依賴于候選鍵的一部分。即消除“部分函數(shù)依賴”。傳遞依賴的消除屬于第三范式(3NF)的范疇。因此B選項正確[[1]]。25.【參考答案】D【解析】大數(shù)據(jù)的“4V”特征通常指Volume(大量)、Velocity(高速)、Variety(多樣)和Veracity(真實性/準確性),有時也包含Value(價值)。Validity(有效性)并非標準4V之一,且大數(shù)據(jù)往往面臨數(shù)據(jù)質(zhì)量不高、噪聲多的問題,其有效性未必高。因此D選項表述錯誤。26.【參考答案】C【解析】數(shù)據(jù)清洗是預(yù)處理的核心環(huán)節(jié),旨在提升數(shù)據(jù)質(zhì)量,主要包括識別并刪除重復(fù)數(shù)據(jù)、處理缺失值(如用均值填充或刪除)、修正錯誤格式及去除異常值等步驟,確保后續(xù)分析的準確性[[18]]。選項A和D屬于分析與可視化階段,B是數(shù)據(jù)格式轉(zhuǎn)換,非清洗核心。27.【參考答案】C【解析】折線圖通過連接數(shù)據(jù)點的線條,清晰地展示數(shù)值隨時間或有序類別變化的趨勢[[37]]。月度銷售額屬于時間序列數(shù)據(jù),折線圖能直觀反映增長或下降的連續(xù)性。餅圖用于比例構(gòu)成,柱狀圖適用于類別間對比,熱力圖則用于展示二維矩陣的強度分布。28.【參考答案】D【解析】Spark通過內(nèi)存計算和有向無環(huán)圖(DAG)執(zhí)行引擎,可將中間數(shù)據(jù)緩存于內(nèi)存中進行反復(fù)迭代,顯著提升了處理效率,尤其適用于機器學(xué)習(xí)等需多次迭代的場景[[43]]。而HadoopMapReduce需頻繁讀寫磁盤,速度較慢。29.【參考答案】C【解析】Pandas是Python中用于數(shù)據(jù)分析的核心庫,專為處理結(jié)構(gòu)化數(shù)據(jù)(如表格、時間序列)設(shè)計,提供強大的數(shù)據(jù)清洗、轉(zhuǎn)換、聚合和分析功能[[10]]。Matplotlib用于繪圖,Scikit-learn用于機器學(xué)習(xí),TensorFlow用于深度學(xué)習(xí)。30.【參考答案】C【解析】SparkSQL是ApacheSpark的組件,專門用于處理結(jié)構(gòu)化數(shù)據(jù),允許用戶使用SQL語言或DataFrameAPI進行數(shù)據(jù)查詢、過濾和聚合,無縫集成于Spark應(yīng)用中[[14]]。GraphX用于圖計算,MLlib用于機器學(xué)習(xí),SparkStreaming用于實時流處理。31.【參考答案】A,B【解析】Pandas是Python中核心的數(shù)據(jù)處理和分析庫,提供了高效的數(shù)據(jù)結(jié)構(gòu)(如DataFrame)用于數(shù)據(jù)清洗、轉(zhuǎn)換和操作[[42]]。NumPy是科學(xué)計算的基礎(chǔ)庫,提供高性能的多維數(shù)組(ndarray)和數(shù)值計算功能,是Pandas等庫的底層支撐[[39]]。Matplotlib和Seaborn主要用于數(shù)據(jù)可視化,而非核心數(shù)據(jù)處理[[40]]。32.【參考答案】A,B,C【解析】數(shù)據(jù)清洗旨在識別并糾正數(shù)據(jù)中的錯誤和不一致性,確保數(shù)據(jù)質(zhì)量。其核心任務(wù)包括處理缺失值(如填充或刪除)、識別并刪除重復(fù)記錄、修正數(shù)據(jù)格式不一致(如日期、數(shù)值格式)等問題[[29]]。數(shù)據(jù)可視化是清洗后分析階段的任務(wù),不屬于清洗本身[[34]]。33.【參考答案】A,B,C,D【解析】柱狀圖常用于比較不同類別間的數(shù)值差異[[19]]。折線圖是展示數(shù)據(jù)隨時間或有序類別變化趨勢的理想選擇[[26]]。餅圖用于顯示部分與整體的比例關(guān)系,但為保證清晰,分類數(shù)量通常建議不超過5個[[25]]。散點圖通過點的分布來揭示兩個數(shù)值變量間是否存在關(guān)聯(lián)或模式[[28]]。34.【參考答案】C,D【解析】Matplotlib是Python最基礎(chǔ)和廣泛使用的數(shù)據(jù)可視化庫,能繪制多種圖表[[40]]。Seaborn是建立在Matplotlib之上的高級統(tǒng)計可視化庫,提供更美觀的默認樣式和更簡潔的API,用于繪制復(fù)雜的統(tǒng)計圖形[[45]]。Pandas和NumPy主要用于數(shù)據(jù)處理和數(shù)值計算,而非直接可視化[[40]]。35.【參考答案】A,B,D【解析】Pandas是Python數(shù)據(jù)分析的核心庫,提供了如DataFrame和Series等高效數(shù)據(jù)結(jié)構(gòu),用于數(shù)據(jù)的讀取、清洗、轉(zhuǎn)換、聚合和分析[[42]]。它內(nèi)置了豐富的數(shù)據(jù)處理接口,是數(shù)據(jù)清洗的利器[[10]]。雖然Pandas有簡單的繪圖功能,但復(fù)雜的可視化通常依賴Matplotlib或Seaborn。NumPy才是負責(zé)底層數(shù)值計算和矩陣運算的庫[[41]]。36.【參考答案】B,C,D【解析】處理異常值應(yīng)謹慎,首先需通過統(tǒng)計方法(如Z-score或四分位距IQR)識別潛在的異常值[[37]]。識別后,應(yīng)分析其成因(是數(shù)據(jù)錄入錯誤還是真實極端值),再決定是用中位數(shù)/均值替換、保留還是刪除[[33]]。直接刪除所有異常值可能丟失重要信息,屬于武斷做法[[35]]。37.【參考答案】A,B,C,D【解析】典型的數(shù)據(jù)分析流程包含多個步驟:首先是數(shù)據(jù)的搜集與存儲,獲取原始數(shù)據(jù)[[17]];接著是數(shù)據(jù)清洗,處理缺失、重復(fù)、格式錯誤等問題[[30]];然后是構(gòu)建模型或進行探索性分析;最后,通過數(shù)據(jù)可視化將分析結(jié)果以直觀方式呈現(xiàn)出來[[15]]。這些步驟環(huán)環(huán)相扣,構(gòu)成完整流程。38.【參考答案】A,B,D【解析】NumPy是Python科學(xué)計算的基石,提供了高效的多維數(shù)組(ndarray)對象和豐富的數(shù)學(xué)函數(shù)[[40]]。Pandas庫在設(shè)計上依賴于NumPy的數(shù)組結(jié)構(gòu),為處理結(jié)構(gòu)化數(shù)據(jù)提供了更高級的接口[[47]]。數(shù)據(jù)可視化是Matplotlib和Seaborn等庫的主要功能,而非NumPy[[40]]。39.【參考答案】A,B,C【解析】處理缺失值是數(shù)據(jù)清洗的關(guān)鍵環(huán)節(jié)。常用策略包括:刪除缺失率過高或不重要的行/列[[32]];用統(tǒng)計量(如均值、中位數(shù))進行填充[[31]];或使用插值法(如線性插值)根據(jù)相鄰數(shù)據(jù)點估算缺失值[[36]]。忽略缺失值直接分析可能導(dǎo)致結(jié)果偏差,是不推薦的做法[[34]]。40.【參考答案】A,B,C【解析】Seaborn是一個建立在Matplotlib之上的高級數(shù)據(jù)可視化庫,旨在提供更美觀的默認主題和調(diào)色板[[39]]。雖然Seaborn簡化了復(fù)雜統(tǒng)計圖表的創(chuàng)建,但Matplotlib作為底層庫,提供了無與倫比的圖形自定義靈活性[[45]]。Seaborn的功能遠不止基礎(chǔ)圖表,其優(yōu)勢在于統(tǒng)計圖形的便捷繪制[[43]]。41.【參考答案】A、B、D【解析】數(shù)據(jù)清洗的核心目標是提升數(shù)據(jù)質(zhì)量,主要包括處理缺失值(如均值填補、刪除)、識別并修正異常值或錯誤數(shù)據(jù)(如邏輯錯誤)、剔除重復(fù)觀測等。標準化(C項)屬于特征縮放,是后續(xù)建模前的特征工程步驟,而非清洗本身[[17]]。42.【參考答案】A、B、C【解析】A、B、C均準確描述了二者的核心差異。星型/雪花模型是數(shù)據(jù)倉庫為支持多維分析而采用的典型建模方式,數(shù)據(jù)庫則多采用規(guī)范化的三范式模型[[18]]。43.【參考答案】A、B、C、D【解析】《數(shù)據(jù)安全法》第二十七條明確規(guī)定:重要數(shù)據(jù)處理者應(yīng)建立全流程管理制度、開展教育培訓(xùn)、采取技術(shù)措施;第三十一條規(guī)定向境外提供重要數(shù)據(jù)應(yīng)經(jīng)安全評估[[20]]。44.【參考答案】A、B、D【解析】準確率、召回率、F1分數(shù)均為分類模型(尤其是二分類)的常用評估指標。均方誤差(MSE)是回歸模型的評估指標,用于衡量預(yù)測值與真實值的平方偏差[[16]]。45.【參考答案】A、B、D【解析】數(shù)據(jù)治理聚焦于數(shù)據(jù)的可用性、一致性、完整性、安全性與合規(guī)性,通過制定政策與流程來保障數(shù)據(jù)質(zhì)量并明確權(quán)責(zé)體系。降低成本(C)是數(shù)據(jù)管理的潛在收益之一,但非治理的直接目標[[18]]。46.【參考答案】A【解析】大數(shù)據(jù)的典型特征被廣泛概括為4V,即數(shù)據(jù)量大(Volume)、處理速度快(Velocity)、數(shù)據(jù)類型多樣(Variety)以及數(shù)據(jù)真實性或準確性(Veracity)[[9]]。Veracity強調(diào)數(shù)據(jù)質(zhì)量,是分析可靠性的基礎(chǔ),屬于核心特征之一。
2.【題干】在大數(shù)據(jù)處理流程中,數(shù)據(jù)清洗通常發(fā)生在數(shù)據(jù)采集之后、數(shù)據(jù)分析之前。
【選項】A.正確B.錯誤
【參考答案】A
【解析】標準的大數(shù)據(jù)處理流程包括數(shù)據(jù)采集、數(shù)據(jù)導(dǎo)入與清洗、數(shù)據(jù)分析與挖掘、結(jié)果可視化等步驟[[10]]。數(shù)據(jù)清洗是關(guān)鍵環(huán)節(jié),用于處理缺失值、異常值和格式不一致等問題,確保后續(xù)分析的準確性[[20]]。
3.【題干】SQL數(shù)據(jù)庫和NoSQL數(shù)據(jù)庫的主要區(qū)別之一在于SQL數(shù)據(jù)庫必須預(yù)先定義嚴格的表結(jié)構(gòu)。
【選項】A.正確B.錯誤
【參考答案】A
【解析】SQL數(shù)據(jù)庫屬于關(guān)系型數(shù)據(jù)庫,要求在寫入數(shù)據(jù)前必須定義好表結(jié)構(gòu)和字段類型[[17]]。而NoSQL數(shù)據(jù)庫則更加靈活,支持動態(tài)模式,能處理非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)[[16]]。
4.【題干】HBase是一種典型的NoSQL數(shù)據(jù)庫,主要用于存儲大規(guī)模的結(jié)構(gòu)化數(shù)據(jù)。
【選項】A.正確B.錯誤
【參考答案】A
【解析】HBase是基于Hadoop的分布式列式存儲數(shù)據(jù)庫,屬于NoSQL數(shù)據(jù)庫的一種,專為處理海量結(jié)構(gòu)化數(shù)據(jù)設(shè)計,支持高并發(fā)讀寫[[14]]。
5.【題干】數(shù)據(jù)可視化是大數(shù)據(jù)分析的最終環(huán)節(jié),其目的是將分析結(jié)果以圖表等形式直觀呈現(xiàn)。
【選項】A.正確B.錯誤
【參考答案】A
【解析】數(shù)據(jù)分析流程的最后一步通常是結(jié)果可視化,通過圖表、儀表盤等方式幫助決策者直觀理解復(fù)雜的數(shù)據(jù)分析結(jié)果[[10]],提升信息傳達效率。
6.【題干】數(shù)據(jù)挖掘和機器學(xué)習(xí)是完全獨立的兩個領(lǐng)域,彼此之間沒有交集。
【選項】A.正確B.錯誤
【參考答案】B
【解析】數(shù)據(jù)挖掘側(cè)重于從大量數(shù)據(jù)中發(fā)現(xiàn)隱藏模式,而機器學(xué)習(xí)是實現(xiàn)數(shù)據(jù)挖掘的重要技術(shù)手段之一,兩者在算法和應(yīng)用上有大量重疊[[7]]。
7.【題干】Sqoop是一種專門用于在Hadoop與關(guān)系型數(shù)據(jù)庫之間高效傳輸數(shù)據(jù)的工具。
【選項】A.正確B.錯誤
【參考答案】A
【解析】Sqoop是開源的數(shù)據(jù)遷移工具,常用于在Hadoop生態(tài)系統(tǒng)與傳統(tǒng)關(guān)系型數(shù)據(jù)庫(如MySQL、Oracle)之間進行數(shù)據(jù)導(dǎo)入導(dǎo)出[[12]]。
8.【題干】NoSQL數(shù)據(jù)庫的擴展方式通常是垂直擴展,即通過升級單臺服務(wù)器的硬件來提升性能。
【選項】A.正確B.錯誤
【參考答案】B
【解析】NoSQL數(shù)據(jù)庫主要采用水平擴展(Scale-out),即通過增加更多服務(wù)器節(jié)點來提升系統(tǒng)處理能力,而非依賴單機硬件升級[[19]]。
9.【題干】數(shù)據(jù)清洗的主要目的是提高數(shù)據(jù)質(zhì)量,從而提升后續(xù)數(shù)據(jù)分析的效率和準確性。
【選項】A.正確B.錯誤
【參考答案】A
【解析】數(shù)據(jù)清洗旨在處理缺失、錯誤或冗余的數(shù)據(jù),消除噪聲,確保數(shù)據(jù)的一致性和完整性,是保障分析結(jié)果可靠性的基礎(chǔ)步驟[[24]]。
10.【題干】在大數(shù)據(jù)分析中,Python和R是兩種最常用的編程語言,主要用于數(shù)據(jù)處理和統(tǒng)計建模。
【選項】A.正確B.錯誤
【參考答案】A
【解析】Python和R因其豐富的數(shù)據(jù)處理庫(如Pandas、NumPy、ggplot2)和強大的統(tǒng)計分析能力,被廣泛應(yīng)用于大數(shù)據(jù)分析領(lǐng)域,是行業(yè)主流工具[[2]]。47.【參考答案】A【解析】哈希表通過哈希函數(shù)將鍵(key)直接映射到數(shù)組的特定位置,從而實現(xiàn)常數(shù)時間的訪問。在哈希函數(shù)設(shè)計良好、沖突較少的理想情況下,其平均時間復(fù)雜度確實為O(1)。雖然極端情況下沖突會導(dǎo)致退化為鏈表(O(n)),但題目強調(diào)“平均”情況,因此正確[[18]][[20]]。48.【參考答案】A【解析】IaaS是云計算服務(wù)的基礎(chǔ)層,核心功能是提供虛擬化的底層硬件資源。用戶可以在這些資源上部署操作系統(tǒng)、中間件和應(yīng)用程序,而無需管理物理服務(wù)器,符合定義[[12]]。49.【參考答案】B【解析】Python是一門多范式編程語言,完全支持面向?qū)ο缶幊蹋∣OP),包括類、對象、繼承、封裝和多態(tài)等特性。該說法錯誤[[10]]。50.【參考答案】A【解析】“4V”是描述大數(shù)據(jù)核心特征的通用模型,其中Veracity(真實性/準確性)強調(diào)數(shù)據(jù)質(zhì)量與可信度,是大數(shù)據(jù)處理中的關(guān)鍵考量,該描述準確[[14]]。51.【參考答案】B【解析】主鍵用于唯一標識表中的每一行記錄,其核心約束包括唯一性和非空性(NOTNULL)。因此主鍵值絕不能為NULL,否則無法保證實體完整性。52.【參考答案】A【解析】TCP(傳輸控制協(xié)議)在數(shù)據(jù)傳輸前需建立連接(三次握手),并通過確認、重傳、流量控制等機制確保數(shù)據(jù)可靠、有序地傳輸,是典型的面向連接協(xié)議。53.【參考答案】B【解析】棧是一種后進先出(LIFO,LastInFirstOut)的線性數(shù)據(jù)結(jié)構(gòu),元素只能從棧頂進行插入和刪除。遵循“先進先出”原則的是隊列(Queue)。54.【參考答案】B【解析】過擬合是指模型在訓(xùn)練集上表現(xiàn)極好(如準確率高),但在未見過的測試集或新數(shù)據(jù)上表現(xiàn)顯著下降,說明模型過度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和細節(jié),泛化能力差。55.【參考答案】A【解析】IPv4地址長度為32比特,為便于人類閱讀,將其分為4個8位段,每段轉(zhuǎn)換為十進制數(shù)并用點號分隔,如,該描述正確。
2025江西省云智大數(shù)據(jù)產(chǎn)業(yè)研究院工作人員招聘2人筆試歷年典型考點題庫附帶答案詳解(第2套)一、單項選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(共30題)1、在數(shù)據(jù)結(jié)構(gòu)中,對于只在表的首尾進行插入和刪除操作的線性表,最適宜采用哪種存儲結(jié)構(gòu)?A.順序表B.雙向循環(huán)鏈表C.單向鏈表D.帶頭結(jié)點的單向循環(huán)鏈表2、在SQL查詢語句中,WHERE子句和HAVING子句的執(zhí)行順序及作用對象,下列說法正確的是?A.HAVING在WHERE之前執(zhí)行,作用于原始行數(shù)據(jù)B.WHERE在HAVING之前執(zhí)行,HAVING作用于分組后的結(jié)果C.WHERE和HAVING同時執(zhí)行,分別作用于行和分組D.HAVING在WHERE之前執(zhí)行,用于初步篩選行3、使用Python的pandas庫處理數(shù)據(jù)時,若要快速查看DataFrame的行數(shù)、列數(shù)、各列數(shù)據(jù)類型及非空值數(shù)量,應(yīng)使用下列哪個方法?A..describe()B..head()C..shapeD..info()4、關(guān)于數(shù)據(jù)庫(Database)與數(shù)據(jù)倉庫(DataWarehouse)的核心區(qū)別,以下描述準確的是?A.數(shù)據(jù)庫主要用于數(shù)據(jù)分析,數(shù)據(jù)倉庫用于實時事務(wù)處理B.數(shù)據(jù)庫面向主題設(shè)計,數(shù)據(jù)倉庫面向應(yīng)用設(shè)計C.數(shù)據(jù)庫通常存儲實時業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)倉庫主要存儲歷史集成數(shù)據(jù)D.數(shù)據(jù)庫設(shè)計允許大量冗余,數(shù)據(jù)倉庫則嚴格遵循范式以減少冗余5、對于輸入規(guī)模為n的算法,下列時間復(fù)雜度中,隨著n增大,算法執(zhí)行效率從高到低排序正確的是?A.O(n)>O(logn)>O(n2)B.O(logn)>O(n)>O(n2)C.O(n2)>O(n)>O(logn)D.O(n)>O(n2)>O(logn)6、在數(shù)據(jù)分析流程中,下列哪一項是數(shù)據(jù)預(yù)處理階段的核心任務(wù),旨在提高后續(xù)分析的準確性和效率?A.直接構(gòu)建預(yù)測模型B.進行數(shù)據(jù)可視化展示C.處理缺失值、去除重復(fù)數(shù)據(jù)、修正錯誤D.撰寫最終分析報告7、在數(shù)據(jù)可視化中,哪種圖表類型最適合用于展示某產(chǎn)品在一年內(nèi)各月份銷售額的變化趨勢?A.餅圖B.柱狀圖C.散點圖D.折線圖8、下列哪種算法主要用于發(fā)現(xiàn)數(shù)據(jù)集中不同項目之間的關(guān)聯(lián)關(guān)系,例如“購買了啤酒的顧客也常購買薯片”?A.K-Means聚類B.決策樹C.關(guān)聯(lián)規(guī)則挖掘D.線性回歸9、在對數(shù)值型數(shù)據(jù)進行標準化處理時,最小-最大縮放(Min-MaxScaling)的主要作用是什么?A.將數(shù)據(jù)轉(zhuǎn)換為均值為0,標準差為1的分布B.消除數(shù)據(jù)中的異常值C.將數(shù)據(jù)線性變換到一個特定的固定范圍,如[0,1]D.去除數(shù)據(jù)中的重復(fù)記錄10、數(shù)據(jù)分析流程中,數(shù)據(jù)清洗通常發(fā)生在哪個階段?A.在數(shù)據(jù)建模之后B.在明確分析目標之前C.在數(shù)據(jù)收集之后、數(shù)據(jù)分析和建模之前D.在數(shù)據(jù)可視化之后11、在關(guān)系數(shù)據(jù)庫設(shè)計中,第三范式(3NF)要求消除哪種類型的數(shù)據(jù)依賴?A.非主屬性對碼的部分函數(shù)依賴B.非主屬性對碼的傳遞函數(shù)依賴C.主屬性對碼的部分函數(shù)依賴D.所有函數(shù)依賴12、在Python的Pandas庫中,若要通過行和列的整數(shù)位置來選取DataFrame中的數(shù)據(jù),應(yīng)使用以下哪個屬性?A.locB.atC.iatD.iloc13、下列關(guān)于大數(shù)據(jù)“4V”特征的描述中,哪一項不屬于其核心特征?A.Volume(數(shù)據(jù)量大)B.Velocity(處理速度快)C.Variety(數(shù)據(jù)類型多樣)D.Verifiability(可驗證性)14、對于一個包含n個元素的數(shù)組,使用冒泡排序算法在最壞情況下的時間復(fù)雜度是?A.O(n)B.O(nlogn)C.O(n2)D.O(logn)15、在SQL語言中,用于從數(shù)據(jù)庫表中檢索數(shù)據(jù)的命令是?A.INSERTB.UPDATEC.SELECTD.DELETE16、在Hadoop生態(tài)系統(tǒng)中,負責(zé)分布式文件存儲與管理的核心組件是?A.YARNB.HBaseC.HDFSD.Hive17、在SQL查詢語句中,關(guān)于WHERE子句和HAVING子句,下列說法正確的是?A.WHERE和HAVING都可以在GROUPBY之前使用B.HAVING子句中可以使用聚合函數(shù),而WHERE子句中不可以C.WHERE子句用于對分組后的結(jié)果進行篩選D.HAVING子句的執(zhí)行效率通常高于WHERE子句18、在Python中,`list`(列表)與`tuple`(元組)最本質(zhì)的區(qū)別在于?A.列表使用方括號`[]`定義,元組使用圓括號`()`定義B.列表可以包含不同數(shù)據(jù)類型,元組只能包含同種數(shù)據(jù)類型C.列表是可變的(mutable),元組是不可變的(immutable)D.列表的訪問速度比元組快19、在關(guān)系數(shù)據(jù)庫設(shè)計中,滿足第二范式(2NF)的前提條件是?A.數(shù)據(jù)表中不存在任何函數(shù)依賴B.數(shù)據(jù)表中每個字段都是原子的,不可再分C.數(shù)據(jù)表中不存在非主屬性對主鍵的部分函數(shù)依賴D.數(shù)據(jù)表中主鍵為單一字段20、HTTP協(xié)議中,服務(wù)器返回狀態(tài)碼`500`代表的含義是?A.請求的資源未找到B.客戶端請求的語法錯誤C.服務(wù)器內(nèi)部發(fā)生錯誤,無法完成請求D.請求已成功,響應(yīng)體為空21、在Python數(shù)據(jù)分析中,用于高效處理結(jié)構(gòu)化數(shù)據(jù)、支持數(shù)據(jù)清洗和聚合操作的核心庫是?A.MatplotlibB.SeabornC.PandasD.NumPy22、在數(shù)據(jù)可視化中,若要清晰展示某產(chǎn)品在近一年內(nèi)月度銷售額的變化趨勢,最合適的圖表類型是?A.餅圖B.柱狀圖C.散點圖D.折線圖23、在使用Pandas進行數(shù)據(jù)清洗時,下列哪種方法常用于檢測數(shù)據(jù)集中缺失值的比例?A.df.dropna()B.df.fillna(0)C.df.isnull().mean()D.df.duplicated()24、相較于傳統(tǒng)的HadoopMapReduce,Spark框架在處理大數(shù)據(jù)時的主要優(yōu)勢體現(xiàn)在哪方面?A.僅支持批處理模式B.基于磁盤的順序處理C.基于內(nèi)存的迭代計算D.使用單一編程語言25、在Python中,Seaborn庫相較于Matplotlib,其主要優(yōu)勢在于?A.提供更基礎(chǔ)的繪圖APIB.更擅長創(chuàng)建高度定制化的學(xué)術(shù)圖表C.提供更高級的統(tǒng)計圖形函數(shù),便于快速探索數(shù)據(jù)D.僅能生成靜態(tài)圖表26、在數(shù)據(jù)結(jié)構(gòu)中,哪種結(jié)構(gòu)的特點是“先進后出”(LIFO)?A.隊列(Queue)B.棧(Stack)C.鏈表(LinkedList)D.數(shù)組(Array)27、在SQL中,用于從表中篩選出不重復(fù)記錄的關(guān)鍵字是?A.UNIQUEB.DISTINCTC.GROUPBYD.FILTER28、在Hadoop生態(tài)系統(tǒng)中,負責(zé)分布式存儲的核心組件是?A.MapReduceB.YARNC.HDFSD.Hive29、數(shù)據(jù)庫事務(wù)的ACID特性中,保證事務(wù)一旦提交,其結(jié)果就是永久性的特性是?A.原子性(Atomicity)B.一致性(Consistency)C.隔離性(Isolation)D.持久性(Durability)30、在Python的Pandas庫中,用于表示二維表格型數(shù)據(jù)的核心數(shù)據(jù)結(jié)構(gòu)是?A.ListB.NumPyArrayC.SeriesD.DataFrame二、多項選擇題下列各題有多個正確答案,請選出所有正確選項(共15題)31、在大數(shù)據(jù)分析中,以下哪些屬于ETL過程的關(guān)鍵步驟?A.數(shù)據(jù)抽取B.數(shù)據(jù)清洗C.數(shù)據(jù)轉(zhuǎn)換D.數(shù)據(jù)加載32、在數(shù)據(jù)結(jié)構(gòu)中,以下關(guān)于棧(Stack)和隊列(Queue)的描述,哪些是正確的?A.棧是一種先進先出(FIFO)的線性數(shù)據(jù)結(jié)構(gòu)B.隊列是一種先進先出(FIFO)的線性數(shù)據(jù)結(jié)構(gòu)C.棧的插入和刪除操作只能在一端進行D.隊列的插入操作在一端進行,刪除操作在另一端進行E.棧和隊列都只能用鏈表實現(xiàn)33、在數(shù)據(jù)庫系統(tǒng)中,關(guān)于事務(wù)(Transaction)的ACID特性,以下說法正確的有?A.原子性(Atomicity)指事務(wù)中的所有操作要么全部完成,要么全部不執(zhí)行B.一致性(Consistency)確保事務(wù)執(zhí)行前后數(shù)據(jù)庫從一個一致狀態(tài)轉(zhuǎn)移到另一個一致狀態(tài)C.隔離性(Isolation)要求多個并發(fā)事務(wù)的執(zhí)行結(jié)果與串行執(zhí)行結(jié)果相同D.持久性(Durability)指事務(wù)一旦提交,其對數(shù)據(jù)庫的修改就是永久的E.隔離性可以通過不加鎖的方式完全保證34、在TCP/IP協(xié)議棧中,以下關(guān)于OSI模型與TCP/IP模型對應(yīng)關(guān)系的描述,正確的有?A.TCP/IP的應(yīng)用層對應(yīng)OSI的應(yīng)用層、表示層和會話層B.TCP/IP的傳輸層對應(yīng)OSI的傳輸層C.TCP/IP的網(wǎng)際層對應(yīng)OSI的網(wǎng)絡(luò)層D.TCP/IP的網(wǎng)絡(luò)接口層對應(yīng)OSI的數(shù)據(jù)鏈路層和物理層E.OSI模型比TCP/IP模型少一層35、關(guān)于Python語言的特性,以下描述正確的有?A.Python是解釋型語言B.Python支持面向?qū)ο缶幊藽.Python變量需要顯式聲明類型D.Python使用縮進來表示代碼塊E.Python程序在運行前必須編譯成機器碼36、在關(guān)系型數(shù)據(jù)庫中,關(guān)于SQL的SELECT語句,以下說法正確的有?A.WHERE子句用于過濾行B.GROUPBY子句必須與聚合函數(shù)一起使用C.HAVING子句用于過濾分組后的結(jié)果D.ORDERBY默認按升序排列E.SELECT*會返回表中所有列,包括重復(fù)列37、以下關(guān)于哈希表(HashTable)的描述,正確的有?A.哈希表通過哈希函數(shù)將鍵映射到存儲位置B.哈希沖突是指兩個不同的鍵被映射到同一個位置C.鏈地址法和開放地址法是解決哈希沖突的常用方法D.哈希表的平均查找時間復(fù)雜度為O(1)E.哈希函數(shù)設(shè)計得好可以完全避免沖突38、在計算機網(wǎng)絡(luò)中,以下關(guān)于TCP協(xié)議的描述,正確的有?A.TCP是面向連接的傳輸層協(xié)議B.TCP提供可靠的數(shù)據(jù)傳輸服務(wù)C.TCP支持流量控制和擁塞控制D.TCP的首部最小長度為20字節(jié)E.TCP適用于實時音視頻傳輸39、關(guān)于二叉搜索樹(BinarySearchTree,BST),以下說法正確的有?A.左子樹中所有節(jié)點的值小于根節(jié)點的值B.右子樹中所有節(jié)點的值大于根節(jié)點的值C.中序遍歷BST可得到一個遞增序列D.BST的查找時間復(fù)雜度最壞為O(n)E.BST的結(jié)構(gòu)與插入順序無關(guān)40、在數(shù)據(jù)庫設(shè)計中,關(guān)于范式(Normalization)的描述,正確的有?A.第一范式(1NF)要求每個屬性都是不可再分的原子項B.第二范式(2NF)要求消除非主屬性對候選鍵的部分函數(shù)依賴C.第三范式(3NF)要求消除非主屬性對候選鍵的傳遞函數(shù)依賴D.滿足3NF的表一定滿足2NFE.范式級別越高,查詢性能一定越好41、以下關(guān)于時間復(fù)雜度的描述,正確的有?A.O(1)表示常數(shù)時間復(fù)雜度B.O(logn)通常出現(xiàn)在二分查找中C.O(n)表示線性時間復(fù)雜度D.O(n2)常見于雙重嵌套循環(huán)E.O(nlogn)比O(n2)增長更快42、在數(shù)據(jù)清洗過程中,以下哪些是處理缺失值的常用方法?A.使用該變量的均值進行填充B.使用該變量的中位數(shù)進行填充C.直接刪除包含缺失值的所有記錄D.將缺失值替換為043、在數(shù)據(jù)清洗過程中,以下哪些是處理缺失值的常用方法?A.刪除包含缺失值的整行數(shù)據(jù)B.使用該列的平均值進行填充C.使用插值法估算缺失值D.將缺失值統(tǒng)一替換為044、下列哪些工具常用于數(shù)據(jù)可視化,能夠通過拖拽操作生成交互式圖表?A.TableauB.PowerBIC.EChartsD.Excel45、在SQL查詢語句中,關(guān)于WHERE、GROUPBY和HAVING子句的使用,以下哪些描述是正確的?A.WHERE子句用于在分組前過濾行B.HAVING子句用于在分組后過濾組C.GROUPBY子句必須與聚合函數(shù)(如SUM,COUNT)一起使用D.WHERE子句可以引用聚合函數(shù)的結(jié)果三、判斷題判斷下列說法是否正確(共10題)46、HDFS(Hadoop分布式文件系統(tǒng))的設(shè)計目標之一是支持低延遲的數(shù)據(jù)訪問。A.正確B.錯誤47、在關(guān)系型數(shù)據(jù)庫中,SQL的DELETE語句和DROPTABLE語句都可以用來刪除表中的數(shù)據(jù),二者在功能上是等價的。A.正確B.錯誤48、數(shù)據(jù)湖主要用于存儲經(jīng)過清洗、轉(zhuǎn)換和建模后的結(jié)構(gòu)化數(shù)據(jù),以支持商業(yè)智能(BI)分析。A.正確B.錯誤49、在數(shù)據(jù)結(jié)構(gòu)中,棧(Stack)是一種遵循“先進先出”(FIFO)原則的線性數(shù)據(jù)結(jié)構(gòu)。A.正確B.錯誤50、大數(shù)據(jù)的“4V”特征通常指Volume(體量)、Velocity(速度)、Variety(多樣性)和Veracity(真實性)。A.正確B.錯誤51、在Hadoop生態(tài)系統(tǒng)中,Hive是一個建立在HDFS之上的數(shù)據(jù)倉庫工具,允許用戶使用類似SQL的HQL語言進行數(shù)據(jù)查詢。A.正確B.錯誤52、數(shù)據(jù)治理的核心目標之一是確保數(shù)據(jù)在整個生命周期中的質(zhì)量、安全、可用性和合規(guī)性。A.正確B.錯誤53、在算法分析中,時間復(fù)雜度O(n)表示算法的執(zhí)行時間與輸入數(shù)據(jù)規(guī)模n成線性關(guān)系。A.正確B.錯誤54、數(shù)據(jù)倉庫和數(shù)據(jù)湖是互斥的概念,一個企業(yè)只能選擇其中一種架構(gòu)來構(gòu)建其數(shù)據(jù)平臺。A.正確B.錯誤55、在關(guān)系數(shù)據(jù)庫設(shè)計中,第三范式(3NF)要求表中不存在非主屬性對候選鍵的傳遞函數(shù)依賴。A.正確B.錯誤
參考答案及解析1.【參考答案】B【解析】順序表在尾部操作效率高,但在頭部插入刪除需要移動大量元素,效率低。單向鏈表和帶頭結(jié)點的單向循環(huán)鏈表在頭部操作方便,但訪問尾部仍需遍歷。雙向循環(huán)鏈表在首尾兩端都能以O(shè)(1)時間復(fù)雜度完成插入和刪除操作,因此是最佳選擇。2.【參考答案】B【解析】SQL查詢的標準執(zhí)行順序為:FROM→WHERE→GROUPBY→HAVING→SELECT→ORDERBY。WHERE子句在分組前對原始行數(shù)據(jù)進行篩選,而HAVING子句在GROUPBY分組后對分組結(jié)果進行過濾,因此WHERE先于HAVING執(zhí)行,且作用對象不同[[10]]。3.【參考答案】D【解析】.info()方法能綜合展示DataFrame的基本信息,包括總行數(shù)、列數(shù)、每列名稱、非空值數(shù)量及數(shù)據(jù)類型。.describe()用于統(tǒng)計數(shù)值列的描述性統(tǒng)計量,.head()僅顯示前幾行數(shù)據(jù),.shape只返回行數(shù)和列數(shù)的元組,無法提供數(shù)據(jù)類型等詳細信息[[20]]。4.【參考答案】C【解析】數(shù)據(jù)庫是面向事務(wù)處理(OLTP)設(shè)計的,存儲當(dāng)前、實時的業(yè)務(wù)交易數(shù)據(jù);而數(shù)據(jù)倉庫是面向主題、用于分析處理(OLAP),集成并存儲來自多個源的歷史數(shù)據(jù),以支持決策分析。數(shù)據(jù)庫設(shè)計通常遵循范式減少冗余,而數(shù)據(jù)倉庫為提升查詢性能可能引入冗余[[37]]。5.【參考答案】B【解析】時間復(fù)雜度反映了算法執(zhí)行時間隨輸入規(guī)模增長的趨勢。O(logn)增長最慢(如二分查找),效率最高;O(n)為線性增長(如遍歷數(shù)組);O(n2)為平方增長(如冒泡排序),效率最低。因此,執(zhí)行效率從高到低為O(logn)>O(n)>O(n2)[[42]]。6.【參考答案】C【解析】數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析的關(guān)鍵前置步驟,其核心在于提升數(shù)據(jù)質(zhì)量,為后續(xù)建模和分析奠定基礎(chǔ)[[42]]。這包括識別并處理缺失值、刪除重復(fù)記錄、修正數(shù)據(jù)錯誤、統(tǒng)一數(shù)據(jù)格式以及清除噪音數(shù)據(jù)等[[15]]。直接建模、可視化或撰寫報告都是在數(shù)據(jù)清洗之后進行的步驟,因此C項最符合題意。7.【參考答案】D【解析】折線圖主要用于分析數(shù)據(jù)隨時間或有序類別(如月份、季度)變化的趨勢[[27]]。它通過連接各時間點數(shù)據(jù)的線條,清晰地反映出銷售額的上升、下降或波動情況。餅圖用于展示部分與整體的比例關(guān)系[[25]],柱狀圖適合比較不同類別的數(shù)值[[23]],散點圖則用于發(fā)現(xiàn)變量間的相關(guān)性[[21]],均不適用于展示時間序列趨勢。8.【參考答案】C【解析】關(guān)聯(lián)規(guī)則挖掘是一種數(shù)據(jù)挖掘算法,其核心目標是發(fā)現(xiàn)數(shù)據(jù)項之間的有趣關(guān)聯(lián)或共現(xiàn)模式[[30]],如市場籃子分析中的“啤酒-薯片”規(guī)則[[36]]。K-Means是聚類算法,用于將相似數(shù)據(jù)分組[[30]];決策樹和線性回歸屬于分類或預(yù)測算法[[34]],它們不專注于發(fā)現(xiàn)項目間的關(guān)聯(lián)關(guān)系。9.【參考答案】C【解析】最小-最大縮放是一種常用的數(shù)據(jù)標準化方法,它通過線性變換將原始數(shù)據(jù)的取值范圍壓縮或擴展到一個預(yù)設(shè)的區(qū)間內(nèi),最常見的是[0,1][[10]]。這種方法能消除不同特征間的量綱差異,使模型訓(xùn)練更穩(wěn)定。將數(shù)據(jù)轉(zhuǎn)換為均值為0、標準差為1的是Z-score標準化,消除異常值和去重屬于數(shù)據(jù)清洗的其他任務(wù)[[12]]。10.【參考答案】C【解析】標準的數(shù)據(jù)分析流程始于明確目標,接著是數(shù)據(jù)收集,然后必須進行數(shù)據(jù)清洗與預(yù)處理[[39]]。只有在數(shù)據(jù)被清洗、轉(zhuǎn)換為高質(zhì)量、結(jié)構(gòu)化的形式后,才能進行后續(xù)的數(shù)據(jù)建模、分析和可視化[[45]]。因此,數(shù)據(jù)清洗是連接數(shù)據(jù)收集與核心分析建模的必要環(huán)節(jié),發(fā)生在兩者之間[[43]]。11.【參考答案】B【解析】第三范式(3NF)是在第二范式(2NF)基礎(chǔ)上,進一步消除非主屬性對候選碼的傳遞函數(shù)依賴。若存在A→B,B→C,且B不包含于A,則C對A的依賴是傳遞的,這會導(dǎo)致數(shù)據(jù)冗余和更新異常。3NF要求所有非主屬性都直接依賴于候選碼,而非通過其他非主屬性間接依賴,從而提升數(shù)據(jù)一致性。12.【參考答案】D【解析】Pandas中,iloc是基于整數(shù)位置的索引器,用于通過行號和列號(從0開始)選取數(shù)據(jù);而loc是基于標簽的索引器。iat用于快速訪問單個標量值(整數(shù)位置),at用于基于標簽訪問單個值。題目要求通過“整數(shù)位置”選取數(shù)據(jù),無論單個還是多個,iloc是標準且通用的選擇,因此選D[[35]]。13.【參考答案】D【解析】大數(shù)據(jù)的經(jīng)典“4V”特征包括:Volume(海量數(shù)據(jù))、Velocity(高速生成與處理)、Variety(結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化等多種類型)和Value(價值密度低但總體價值高)。部分文獻也將Veracity(數(shù)據(jù)真實性)列為第五V,但“Verifiability(可驗證性)”并非公認的4V之一[[11]]。因此D項不符合標準定義。14.【參考答案】C【解析】冒泡排序通過多次遍歷數(shù)組,每次比較相鄰元素并交換順序不對的元素。最壞情況下(如數(shù)組完全逆序),需要進行n-1輪比較,每輪最多比較n-i次(i為輪數(shù)),總比較次數(shù)約為n(n-1)/2,其時間復(fù)雜度為O(n2)[[46]]。該復(fù)雜度在數(shù)據(jù)規(guī)模較大時效率較低,故實際應(yīng)用中較少使用。15.【參考答案】C【解析】SQL(結(jié)構(gòu)化查詢語言)中,SELECT語句專門用于查詢和檢索數(shù)據(jù)庫中的數(shù)據(jù),是數(shù)據(jù)查詢(DQL)的核心命令。INSERT用于插入新記錄,UPDATE用于修改現(xiàn)有數(shù)據(jù),DELETE用于刪除記錄,三者屬于數(shù)據(jù)操作語言(DML),但不用于“檢索”[[2]]。因此正確答案為C。16.【參考答案】C【解析】Hadoop生態(tài)系統(tǒng)的核心組件主要包括HDFS、MapReduce和YARN。其中,HDFS(HadoopDistributedFileSystem)是分布式文件系統(tǒng),負責(zé)將海量數(shù)據(jù)分布式存儲在集群的多個節(jié)點上,并提供高容錯性和高吞吐量的數(shù)據(jù)訪問能力[[27]]。YARN是資源調(diào)度框架,MapReduce是計算引擎,HBase和Hive則是構(gòu)建在其之上的上層應(yīng)用系統(tǒng)[[30]]。因此,負責(zé)存儲的核心組件是HDFS。17.【參考答案】B【解析】WHERE子句的作用是在數(shù)據(jù)分組(GROUPBY)和聚合計算之前,對原始數(shù)據(jù)行進行篩選,因此不能使用聚合函數(shù)(如COUNT、SUM等);而HAVING子句則是在GROUPBY分組完成、聚合函數(shù)計算之后,對分組結(jié)果進行再次篩選,因此可以使用聚合函數(shù)[[41]]。這是兩者最核心的區(qū)別。A、C項顛倒了執(zhí)行順序;D項無普遍依據(jù)。18.【參考答案】C【解析】列表和元組最根本的區(qū)別在于**可變性**:列表是可變對象,創(chuàng)建后可以增刪改其中的元素;元組是不可變對象,一旦創(chuàng)建,其內(nèi)容就不能被修改[[47]]。雖然A項描述的是語法差異,但這只是表象,而非本質(zhì)。B項錯誤,兩者均可容納異構(gòu)數(shù)據(jù);D項錯誤,通常元組因結(jié)構(gòu)固定,訪問速度略快于列表[[48]]。19.【參考答案】B【解析】范式之間是逐級遞進的關(guān)系,滿足高一級范式必須先滿足所有低一級范式。第二范式(2NF)的定義是:在滿足第一范式(1NF)的基礎(chǔ)上,消除非主屬性對主鍵的**部分函數(shù)依賴**。而第一范式(1NF)的核心要求是**表的每一列都是不可分割的原子數(shù)據(jù)項**[[58]]。因此,B項是滿足2NF的前提條件。20.【參考答案】C【解析】HTTP狀態(tài)碼`500`是“InternalServerError”(內(nèi)部服務(wù)器錯誤),表示服務(wù)器在處理請求的過程中遇到了未曾預(yù)料的狀況,導(dǎo)致其無法完成對請求的處理[[68]]。A選項對應(yīng)`404`(NotFound),B選項對應(yīng)`400`(BadRequest),D選項對應(yīng)`204`(NoContent)[[65]]。21.【參考答案】C【解析】Pandas庫專為處理結(jié)構(gòu)化數(shù)據(jù)(如表格數(shù)據(jù))設(shè)計,提供了DataFrame和Series等數(shù)據(jù)結(jié)構(gòu),能高效完成數(shù)據(jù)清洗(如處理缺失值、刪除重復(fù)項)、轉(zhuǎn)換、聚合和分析任務(wù)[[9]]。NumPy側(cè)重于數(shù)值計算,Matplotlib和Seaborn則主要用于數(shù)據(jù)可視化[[10]]。22.【參考答案】D【解析】折線圖通過連接數(shù)據(jù)點的線條,能直觀地展現(xiàn)數(shù)據(jù)隨時間或有序類別變化的趨勢和規(guī)律,非常適合用于展示銷售額、溫度等連續(xù)變量的時間序列變化[[31]]。柱狀圖更適合比較不同類別的數(shù)據(jù)[[28]],餅圖用于展示部分與整體的比例[[30]]。23.【參考答案】C【解析】`df.isnull()`方法返回一個與原DataFrame形狀相同的布爾型DataFrame,標識每個元素是否為缺失值。調(diào)用`.mean()`可計算每列缺失值的平均比例,從而得到各列缺失值的占比,這是分析缺失數(shù)據(jù)模式的關(guān)鍵步驟[[18]]。`dropna()`用于刪除,`fillna()`用于填充[[22]]。24.【參考答案】C【解析】Spark的核心優(yōu)勢在于其基于內(nèi)存(RAM)的計算模型,能夠?qū)⒅虚g計算結(jié)果緩存在內(nèi)存中,避免了MapReduce頻繁的磁盤I/O開銷,這使其在需要多次迭代的機器學(xué)習(xí)算法和交互式查詢等場景下性能遠超MapReduce[[37]]。25.【參考答案】C【解析】Seaborn是基于Matplotlib構(gòu)建的高級數(shù)據(jù)可視化庫,它封裝了復(fù)雜的統(tǒng)計圖形繪制過程,提供了更簡潔的接口和默認的美觀樣式,特別擅長快速創(chuàng)建統(tǒng)計圖表(如分布圖、關(guān)系圖、分類圖),便于進行數(shù)據(jù)的初步探索和分析[[8]]。Matplotlib則提供了更底層、更靈活的控制[[15]]。26.【參考答案】B【解析】棧是一種限定僅在表尾進行插入和刪除操作的線性表,其操作遵循“先進后出”(LastInFirstOut,LIFO)原則。隊列則是“先進先出”(FIFO)。鏈表和數(shù)組是基礎(chǔ)存儲結(jié)構(gòu),本身不規(guī)定操作順序。棧常用于函數(shù)調(diào)用、表達式求值等場景[[7]]。27.【參考答案】B【解析】DISTINCT是SQL中用于去除查詢結(jié)果中重復(fù)行的關(guān)鍵字,常用于SELECT語句中。UNIQUE是定義約束的關(guān)鍵字,用于確保列中數(shù)據(jù)的唯一性;GROUPBY用于分組聚合;SQL標準中并無FILTER作為去重關(guān)鍵字[[13]]。28.【參考答案】C【解析】HDFS(HadoopDistributedFileSystem)是Hadoop生態(tài)系統(tǒng)的底層存儲組件,負責(zé)將大數(shù)據(jù)分塊并分布式存儲在集群節(jié)點上,具有高容錯性和高吞吐量特點。MapReduce負責(zé)計算,YARN負責(zé)資源調(diào)度,Hive提供SQL-like查詢接口[[21]]。29.【參考答案】D【解析】持久性(Durability)指事務(wù)一旦提交,其所做的修改就會永久保存在數(shù)據(jù)庫中,即使系統(tǒng)發(fā)生故障也不會丟失。原子性確保操作整體完成或不完成;一致性保證數(shù)據(jù)狀態(tài)有效;隔離性處理并發(fā)事務(wù)間的干擾[[31]]。30.【參考答案】D【解析】DataFrame是Pandas中最核心的二維數(shù)據(jù)結(jié)構(gòu),類似于電子表格或SQL表,具有行索引和列名,可存儲不同數(shù)據(jù)類型。Series是一維帶標簽的數(shù)組。List和NumPyArray是Python及NumPy中的基礎(chǔ)結(jié)構(gòu),非Pandas特有[[41]]。31.【參考答案】A,C,D【解析】ETL是數(shù)據(jù)集成的核心流程,特指從源系統(tǒng)提?。‥xtract)數(shù)據(jù),經(jīng)過轉(zhuǎn)換(Transform)如格式標準化、去重、計算等,最終加載(Load)到目標數(shù)據(jù)倉庫或數(shù)據(jù)湖中[[21]]。數(shù)據(jù)清洗雖常在轉(zhuǎn)換階段進行,但并非ETL的獨立標準步驟,而是轉(zhuǎn)換的一部分。
2.【題干】關(guān)于數(shù)據(jù)倉庫的特點,以下描述正確的是?
【選項】A.主要用于支持日常事務(wù)處理B.數(shù)據(jù)通常按主題組織C.數(shù)據(jù)是集成的、相對穩(wěn)定的D.數(shù)據(jù)是歷史性的,用于分析決策
【參考答案】B,C,D
【解析】數(shù)據(jù)倉庫是面向主題(B)、集成(C)、非易失(穩(wěn)定)和時變(歷史性)的數(shù)據(jù)集合,專為支持管理決策和復(fù)雜分析而設(shè)計[[17]]。它不用于支持高頻的日常事務(wù)處理(OLTP),這是操作型數(shù)據(jù)庫的職責(zé)。
3.【題干】下列哪些技術(shù)或概念與數(shù)據(jù)治理相關(guān)?
【選項】A.數(shù)據(jù)質(zhì)量監(jiān)控B.數(shù)據(jù)標準制定C.數(shù)據(jù)生命周期管理D.數(shù)據(jù)挖掘算法
【參考答案】A,B,C
【解析】數(shù)據(jù)治理旨在確保數(shù)據(jù)的可用性、一致性、完整性和安全性,涵蓋數(shù)據(jù)質(zhì)量監(jiān)控(A)、統(tǒng)一數(shù)據(jù)標準(B)和管理數(shù)據(jù)從創(chuàng)建到銷毀的全過程(C)[[10]]。數(shù)據(jù)挖掘算法屬于數(shù)據(jù)分析技術(shù),是應(yīng)用層面的工具。
4.【題干】在數(shù)據(jù)安全領(lǐng)域,大數(shù)據(jù)面臨的主要挑戰(zhàn)包括?
【選項】A.數(shù)據(jù)存儲成本過高B.數(shù)據(jù)隱私泄露風(fēng)險C.數(shù)據(jù)處理時效性要求高D.數(shù)據(jù)來源多樣性導(dǎo)致的合規(guī)難題
【參考答案】B,C,D
【解析】大數(shù)據(jù)的海量性、多樣性和高速性帶來了數(shù)據(jù)隱私泄露(B)、實時處理的時效性挑戰(zhàn)(C)以及因來源廣泛而產(chǎn)生的合規(guī)性管理難題(D)[[8]]。存儲成本是經(jīng)濟問題,但非安全層面的核心挑戰(zhàn)。
5.【題干】以下關(guān)于數(shù)據(jù)挖掘的描述,哪些是準確的?
【選項】A.目的是發(fā)現(xiàn)隱藏在數(shù)據(jù)中的未知模式B.可以用于預(yù)測未來趨勢C.需要依賴統(tǒng)計學(xué)和機器學(xué)習(xí)方法D.主要用于實時事務(wù)處理
【參考答案】A,B,C
【解析】數(shù)據(jù)挖掘旨在從大量數(shù)據(jù)中發(fā)現(xiàn)隱含的、先前未知的模式和關(guān)系(A),并可用于預(yù)測(B),其核心方法包括統(tǒng)計分析和機器學(xué)習(xí)算法(C)[[12]]。實時事務(wù)處理是OLTP系統(tǒng)的功能,與數(shù)據(jù)挖掘的分析性目的不同。
6.【題干】在數(shù)據(jù)倉庫建設(shè)中,維度建模的主要優(yōu)點包括?
【選項】A.便于用戶理解和查詢B.支持復(fù)雜的多維分析C.數(shù)據(jù)冗余度高,占用空間大D.查詢性能通常較好
【參考答案】A,B,D
【解析】維度建模通過事實表和維度表的星型或雪花型結(jié)構(gòu),使數(shù)據(jù)結(jié)構(gòu)直觀,便于業(yè)務(wù)用戶理解(A)和進行多維分析(B),其優(yōu)化的查詢路徑通常能提供較好的查詢性能(D)。雖然存在冗余,但這并非其“優(yōu)點”,而是為了性能所做的權(quán)衡。
7.【題干】以下哪些屬于大數(shù)據(jù)的“4V”特征?
【選項】A.Volume(海量)B.Velocity(高速)C.Variety(多樣)D.Validity(有效)
【參考答案】A,B,C
【解析】大數(shù)據(jù)的典型特征通常概括為“4V”:Volume(海量數(shù)據(jù))、Velocity(高速產(chǎn)生和處理)、Variety(數(shù)據(jù)類型多樣)[[8]]。Validity(有效性)雖然是數(shù)據(jù)質(zhì)量的重要方面,但并非傳統(tǒng)“4V”模型的標準組成部分。
8.【題干】在SQL查詢中,以下哪些函數(shù)常用于數(shù)據(jù)分析場景?
【選項】A.SUM()B.COUNT()C.AVG()D.GROUPBY
【參考答案】A,B,C,D
【解析】SUM()、COUNT()、AVG()是常用的聚合函數(shù),用于計算總和、計數(shù)和平均值等統(tǒng)計指標。GROUPBY子句用于將數(shù)據(jù)分組,是聚合函數(shù)發(fā)揮作用的前提,這四者是數(shù)據(jù)分析中SQL查詢的核心要素[[20]]。
9.【題干】關(guān)于元數(shù)據(jù),以下說法正確的是?
【選項】A.描述數(shù)據(jù)的數(shù)據(jù)B.在數(shù)據(jù)倉庫中用于定義數(shù)據(jù)結(jié)構(gòu)和業(yè)務(wù)含義C.包括技術(shù)元數(shù)據(jù)和業(yè)務(wù)元數(shù)據(jù)D.是數(shù)據(jù)倉庫的“地圖”或“目錄”
【參考答案】A,B,C,D
【解析】元數(shù)據(jù)是關(guān)于數(shù)據(jù)的數(shù)據(jù)(A),在數(shù)據(jù)倉庫中至關(guān)重要,它定義了數(shù)據(jù)的結(jié)構(gòu)、來源、含義和轉(zhuǎn)換規(guī)則(B),可分為技術(shù)元數(shù)據(jù)(如表結(jié)構(gòu))和業(yè)務(wù)元數(shù)據(jù)(如指標定義)(C),是幫助用戶理解和使用數(shù)據(jù)的“地圖”或“目錄”(D)[[22]]。
10.【題干】在數(shù)據(jù)處理流程中,數(shù)據(jù)清洗的主要目的是?
【選項】A.去除重復(fù)記錄B.糾正錯誤數(shù)據(jù)C.補充缺失值D.將數(shù)據(jù)從一種格式轉(zhuǎn)換為另一種格式
【參考答案】A,B,C
【解析】數(shù)據(jù)清洗是ETL過程中的關(guān)鍵環(huán)節(jié),旨在提高數(shù)據(jù)質(zhì)量,主要任務(wù)包括識別并去除重復(fù)記錄(A)、修正錯誤或不一致的數(shù)據(jù)(B)以及處理缺失值(C)。數(shù)據(jù)格式轉(zhuǎn)換屬于“轉(zhuǎn)換”(Transform)階段,是更廣義的處理步驟,但通常不單獨歸類為“清洗”[[18]]。32.【參考答案】BCD【解析】棧是后進先出(LIFO)結(jié)構(gòu),操作僅在棧頂進行;隊列是先進先出(FIFO)結(jié)構(gòu),入隊在隊尾,出隊在隊首。兩者既可用數(shù)組也可用鏈表實現(xiàn),E錯誤。A將棧誤認為FIFO,故不正確。33.【參考答案】ABCD【解析】ACID是事務(wù)的核心特性。原子性保證操作完整性;一致性維護數(shù)據(jù)約束;隔離性防止并發(fā)干擾;持久性確保提交結(jié)果不丟失。E錯誤,不加鎖可能導(dǎo)致臟讀、不可重復(fù)讀等問題,無法保證隔離性。34.【參考答案】ABCD【解析】OSI為七層模型,TCP/IP為四層模型。TCP/IP的應(yīng)用層涵蓋OSI上三層;傳輸層對傳輸層;網(wǎng)際層對網(wǎng)絡(luò)層;網(wǎng)絡(luò)接口層對數(shù)據(jù)鏈路層和物理層。E錯誤,OSI比TCP/IP多三層。35.【參考答案】ABD【解析】Python是動態(tài)類型、解釋型語言,變量無需聲明類型,靠縮進定義代碼塊。C錯誤,類型在運行時確定;E錯誤,Python由解釋器逐行執(zhí)行,無需預(yù)先編譯成機器碼。36.【參考答案】ACD【解析】WHERE過濾行,HAVING過濾分組,ORDERBY默認ASC升序。B錯誤,GROUPBY可單獨使用但無實際聚合意義;E錯誤,SELECT*返回所有列,但表結(jié)構(gòu)本身不
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025廣東廣州生物院聯(lián)合生科院張笑人教授課題組科研助理招聘參考考試試題及答案解析
- 廣安市前鋒區(qū)就業(yè)保障中心2025年12月公開招聘公益性崗位備考筆試題庫及答案解析
- 2026遼寧本溪市教育系統(tǒng)冬季名校優(yōu)生引進急需緊缺人才4人(本溪市第一中學(xué))參考筆試題庫附答案解析
- 2025云南麗江市華坪縣擇優(yōu)招聘云南省職業(yè)教育省級公費師范畢業(yè)生4人備考考試試題及答案解析
- 2025貴州黔南州面向社會招聘國有企業(yè)工作人員考察(第三批)參考考試題庫及答案解析
- 2026甘肅甘南州夏河縣兵役登記暨征兵參考筆試題庫附答案解析
- 2026年玉溪澄江市教育體育系統(tǒng)招聘畢業(yè)生(20人)參考考試試題及答案解析
- 四川省大英中學(xué)2025年臨聘教師招聘備考筆試試題及答案解析
- 2026年莆田市荔城區(qū)公開考核新任教師招聘53人備考筆試題庫及答案解析
- 網(wǎng)址注冊合同范本
- 知識產(chǎn)權(quán)保護風(fēng)險排查清單模板
- 第一單元任務(wù)三《新聞寫作》教學(xué)設(shè)計-2025-2026學(xué)年統(tǒng)編版語文八年級上冊
- 2025年廣西高校教師資格崗前培訓(xùn)考試(高等教育學(xué))歷年參考題庫含答案詳解(5卷)
- 2025年嫩江市招聘農(nóng)墾社區(qū)工作者(88人)筆試備考試題附答案詳解(基礎(chǔ)題)
- 2025年駕考科目三安全考試題庫
- 熔鹽儲熱技術(shù)原理
- IATF16949中英文對照版2025-10-13新版
- 肩關(guān)節(jié)脫位的護理
- 電子商務(wù)數(shù)據(jù)分析-數(shù)據(jù)采集
- 2025年保安員資格考試題目及答案(共100題)
- 大學(xué)家屬院物業(yè)管理辦法
評論
0/150
提交評論