2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會招聘筆試及筆試歷年??键c試題專練附帶答案詳解試卷2套_第1頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會招聘筆試及筆試歷年??键c試題專練附帶答案詳解試卷2套_第2頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會招聘筆試及筆試歷年常考點試題專練附帶答案詳解試卷2套_第3頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會招聘筆試及筆試歷年??键c試題專練附帶答案詳解試卷2套_第4頁
2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會招聘筆試及筆試歷年??键c試題專練附帶答案詳解試卷2套_第5頁
已閱讀5頁,還剩53頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會招聘筆試及筆試歷年??键c試題專練附帶答案詳解(第1套)一、單項選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(共30題)1、在大數(shù)據(jù)處理技術(shù)中,以下哪項技術(shù)主要用于分布式存儲非結(jié)構(gòu)化數(shù)據(jù),并具有高容錯性和高吞吐量的特點?A.MySQL

B.HDFS

C.Redis

D.Kafka2、在數(shù)據(jù)清洗過程中,以下哪項操作不屬于處理缺失值的常用方法?A.刪除含有缺失值的記錄

B.使用平均值填充數(shù)值型變量

C.將缺失值標(biāo)記為“未知”類別

D.對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理3、下列關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)庫的描述,哪一項是正確的?A.?dāng)?shù)據(jù)庫主要用于支持事務(wù)處理,數(shù)據(jù)倉庫用于支持分析決策

B.?dāng)?shù)據(jù)倉庫的數(shù)據(jù)更新頻率高于數(shù)據(jù)庫

C.?dāng)?shù)據(jù)庫更適合存儲歷史數(shù)據(jù)進(jìn)行分析

D.?dāng)?shù)據(jù)倉庫通常采用OLTP系統(tǒng)進(jìn)行操作4、在Python中,以下哪個庫最常用于數(shù)據(jù)可視化?A.requests

B.pandas

C.matplotlib

D.scikit-learn5、在SQL查詢中,以下哪個子句用于對分組后的數(shù)據(jù)進(jìn)行條件篩選?A.WHERE

B.ORDERBY

C.HAVING

D.LIMIT6、在數(shù)據(jù)庫設(shè)計中,若要求每個學(xué)生只能選修一門課程,而每門課程可被多名學(xué)生選修,學(xué)生與課程之間的聯(lián)系屬于哪種類型?A.一對一聯(lián)系

B.一對多聯(lián)系

C.多對一聯(lián)系

D.多對多聯(lián)系7、在Excel中,若單元格A1的值為“江西省”,B1為“南昌市”,要在C1中合并并顯示為“江西省南昌市”,應(yīng)使用的公式是?A.=A1+B1

B.=A1&B1

C.=A1*B1

D.=A1@B18、下列哪項是云計算的基本特征之一?A.本地化部署

B.按需自助服務(wù)

C.固定資源分配

D.單機(jī)運行模式9、在數(shù)據(jù)可視化中,最適合展示某公司連續(xù)12個月銷售額變化趨勢的圖表類型是?A.餅圖

B.柱狀圖

C.折線圖

D.散點圖10、在計算機(jī)網(wǎng)絡(luò)中,IP地址屬于哪一類地址?A.A類

B.B類

C.C類

D.D類11、在關(guān)系型數(shù)據(jù)庫設(shè)計中,若一個表中的某字段能唯一標(biāo)識每條記錄,則該字段最適合作為:A.外鍵

B.索引

C.主鍵

D.約束12、下列關(guān)于Python中列表(list)與元組(tuple)的描述,錯誤的是:A.列表是可變對象,元組是不可變對象

B.兩者都支持切片操作

C.元組的訪問速度通常比列表快

D.列表和元組都可以作為字典的鍵13、在計算機(jī)網(wǎng)絡(luò)中,IP地址屬于哪一類地址?A.A類

B.B類

C.C類

D.D類14、下列排序算法中,平均時間復(fù)雜度為O(nlogn)且屬于不穩(wěn)定排序的是:A.歸并排序

B.快速排序

C.堆排序

D.冒泡排序15、在Excel中,若A1單元格值為80,B1為TRUE,C1為“優(yōu)秀”,則函數(shù)=AND(A1>=60,B1)的返回結(jié)果是:A.TRUE

B.FALSE

C.#VALUE!

D.016、在數(shù)據(jù)庫系統(tǒng)中,用于保證事務(wù)持久性的關(guān)鍵技術(shù)是:A.索引機(jī)制

B.視圖機(jī)制

C.日志文件

D.觸發(fā)器17、在TCP/IP協(xié)議棧中,負(fù)責(zé)將數(shù)據(jù)包從源主機(jī)路由到目標(biāo)主機(jī)的層次是:A.應(yīng)用層

B.傳輸層

C.網(wǎng)絡(luò)層

D.?dāng)?shù)據(jù)鏈路層18、下列排序算法中,時間復(fù)雜度在最壞情況下仍為O(nlogn)的是:A.快速排序

B.冒泡排序

C.歸并排序

D.插入排序19、在Python中,以下哪種數(shù)據(jù)結(jié)構(gòu)是可變的?A.元組

B.字符串

C.列表

D.凍結(jié)集合(frozenset)20、在關(guān)系型數(shù)據(jù)庫中,用于唯一標(biāo)識表中每條記錄的屬性或?qū)傩越M稱為:A.外鍵

B.候選鍵

C.主鍵

D.超鍵21、在關(guān)系型數(shù)據(jù)庫設(shè)計中,若要確保數(shù)據(jù)表中某列的值唯一且非空,應(yīng)使用哪種約束?A.CHECK約束

B.DEFAULT約束

C.UNIQUE約束

D.PRIMARYKEY約束22、在Python中,以下哪個方法可用于將列表中的元素按降序排列?A.list.sort(reverse=True)

B.list.sorted(reverse=False)

C.sorted(list,reverse=True)

D.list.order(desc=True)23、在計算機(jī)網(wǎng)絡(luò)中,IP地址00屬于哪一類地址?A.A類

B.B類

C.C類

D.D類24、下列哪項是大數(shù)據(jù)處理中MapReduce框架的核心思想?A.實時流處理

B.內(nèi)存計算

C.分而治之

D.圖計算25、在Excel中,若要對A1到A10單元格中大于80的數(shù)值進(jìn)行計數(shù),應(yīng)使用哪個函數(shù)?A.COUNT(A1:A10)

B.COUNTIF(A1:A10,">80")

C.SUMIF(A1:A10,">80")

D.COUNTA(A1:A10)26、在大數(shù)據(jù)處理中,以下哪項技術(shù)主要用于分布式文件存儲,能夠高效處理海量非結(jié)構(gòu)化數(shù)據(jù)?A.HBase

B.Kafka

C.HDFS

D.Spark27、在SQL查詢中,以下哪個子句用于對分組后的數(shù)據(jù)進(jìn)行條件篩選?A.WHERE

B.ORDERBY

C.HAVING

D.GROUPBY28、以下關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)庫的描述,正確的是哪一項?A.?dāng)?shù)據(jù)庫主要用于支持聯(lián)機(jī)分析處理(OLAP)

B.?dāng)?shù)據(jù)倉庫的數(shù)據(jù)通常是實時更新的

C.?dāng)?shù)據(jù)庫強(qiáng)調(diào)事務(wù)處理的高效性與一致性

D.?dāng)?shù)據(jù)倉庫不支持歷史數(shù)據(jù)存儲29、在Python中,以下哪種數(shù)據(jù)結(jié)構(gòu)是可變且無序的,常用于去重操作?A.List

B.Tuple

C.Set

D.Dict30、某數(shù)據(jù)集中,變量X與Y的相關(guān)系數(shù)為-0.86,說明二者之間存在何種關(guān)系?A.強(qiáng)正相關(guān)

B.弱正相關(guān)

C.強(qiáng)負(fù)相關(guān)

D.無明顯線性關(guān)系二、多項選擇題下列各題有多個正確答案,請選出所有正確選項(共15題)31、在數(shù)據(jù)庫系統(tǒng)中,關(guān)于事務(wù)的ACID特性,下列描述正確的有哪些?A.原子性指事務(wù)中的所有操作要么全部執(zhí)行成功,要么全部不執(zhí)行B.一致性要求事務(wù)執(zhí)行前后數(shù)據(jù)庫必須處于一致狀態(tài)C.隔離性意味著事務(wù)之間不能并發(fā)執(zhí)行D.持久性指事務(wù)一旦提交,其對數(shù)據(jù)庫的修改將永久保存32、下列關(guān)于大數(shù)據(jù)處理框架Hadoop的描述,正確的有哪些?A.HDFS是Hadoop的分布式文件系統(tǒng),適合存儲大量小文件B.MapReduce是一種并行計算模型,適用于批處理任務(wù)C.YARN負(fù)責(zé)集群資源管理和作業(yè)調(diào)度D.Hadoop支持實時數(shù)據(jù)流處理33、在Python編程中,關(guān)于列表(list)和元組(tuple)的區(qū)別,正確的說法包括哪些?A.列表是可變對象,元組是不可變對象B.元組的訪問速度通常比列表快C.列表和元組都可以作為字典的鍵D.元組支持更多的內(nèi)置方法34、以下關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)庫的比較,說法正確的有哪些?A.數(shù)據(jù)庫主要用于事務(wù)處理,數(shù)據(jù)倉庫用于分析處理B.數(shù)據(jù)庫強(qiáng)調(diào)數(shù)據(jù)的實時性和一致性,數(shù)據(jù)倉庫注重歷史數(shù)據(jù)整合C.數(shù)據(jù)倉庫的數(shù)據(jù)來源通常包括多個異構(gòu)數(shù)據(jù)庫D.數(shù)據(jù)庫和數(shù)據(jù)倉庫都適合高頻率的增刪改操作35、在數(shù)據(jù)可視化中,以下圖表類型與適用場景匹配正確的有哪些?A.折線圖——展示數(shù)據(jù)隨時間的變化趨勢B.餅圖——比較各部分占總體的比例C.散點圖——分析兩個變量之間的相關(guān)性D.柱狀圖——展示連續(xù)型變量的分布情況36、在大數(shù)據(jù)處理架構(gòu)中,以下關(guān)于Hadoop生態(tài)系統(tǒng)組件功能的描述,正確的有哪些?A.HDFS用于分布式存儲海量數(shù)據(jù)B.MapReduce適用于實時流數(shù)據(jù)處理C.YARN負(fù)責(zé)集群資源管理和作業(yè)調(diào)度D.Hive可在Hadoop上實現(xiàn)SQL-like查詢功能37、在數(shù)據(jù)清洗過程中,以下哪些方法常用于處理缺失值?A.刪除含有缺失值的記錄B.使用均值、中位數(shù)或眾數(shù)填充C.通過模型預(yù)測缺失值D.將缺失值替換為038、以下關(guān)于關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫的比較,說法正確的有哪些?A.關(guān)系型數(shù)據(jù)庫支持事務(wù)的ACID特性B.非關(guān)系型數(shù)據(jù)庫不支持任何查詢語言C.關(guān)系型數(shù)據(jù)庫擴(kuò)展性較差,難以水平擴(kuò)展D.非關(guān)系型數(shù)據(jù)庫適合處理結(jié)構(gòu)化與半結(jié)構(gòu)化數(shù)據(jù)39、在數(shù)據(jù)可視化中,以下圖表類型與其適用場景匹配正確的有哪些?A.折線圖——展示數(shù)據(jù)隨時間變化的趨勢B.餅圖——比較各部分占總體的比例C.散點圖——分析兩個變量之間的相關(guān)性D.熱力圖——顯示三維數(shù)據(jù)在二維空間的密度分布40、以下哪些屬于數(shù)據(jù)安全保護(hù)的常見技術(shù)措施?A.數(shù)據(jù)加密B.訪問控制C.數(shù)據(jù)脫敏D.日志審計41、在大數(shù)據(jù)處理架構(gòu)中,以下關(guān)于Hadoop生態(tài)系統(tǒng)組件功能的描述,正確的有哪些?A.HDFS用于分布式存儲大規(guī)模數(shù)據(jù)文件B.MapReduce適用于實時流數(shù)據(jù)處理C.YARN負(fù)責(zé)集群資源管理和任務(wù)調(diào)度D.Hive可在Hadoop上提供類SQL查詢功能42、下列關(guān)于數(shù)據(jù)庫范式的說法中,符合規(guī)范化設(shè)計原則的有哪些?A.第二范式要求消除非主屬性對候選鍵的部分函數(shù)依賴B.第三范式要求消除主屬性對候選鍵的傳遞依賴C.滿足BCNF的關(guān)系一定滿足第三范式D.第一范式要求屬性不可再分43、在Python編程中,以下關(guān)于數(shù)據(jù)結(jié)構(gòu)的說法正確的有哪些?A.列表是有序且可變的集合B.元組支持元素的增刪改操作C.字典的鍵必須是不可變類型D.集合中的元素不允許重復(fù)44、以下屬于常見數(shù)據(jù)清洗操作的有哪些?A.填補缺失值B.去除重復(fù)記錄C.數(shù)據(jù)類型轉(zhuǎn)換D.構(gòu)建回歸模型45、關(guān)于數(shù)據(jù)可視化原則,下列說法正確的有哪些?A.應(yīng)優(yōu)先使用三維圖表以增強(qiáng)視覺效果B.圖表應(yīng)有清晰標(biāo)題和坐標(biāo)軸標(biāo)簽C.顏色使用應(yīng)考慮色盲用戶可讀性D.避免在圖表中添加過多裝飾元素三、判斷題判斷下列說法是否正確(共10題)46、在數(shù)據(jù)庫設(shè)計中,第三范式(3NF)要求消除非主屬性對候選鍵的傳遞函數(shù)依賴。A.正確B.錯誤47、在Python中,列表(list)和元組(tuple)的主要區(qū)別在于列表是可變對象,而元組是不可變對象。A.正確B.錯誤48、TCP協(xié)議提供面向連接的可靠傳輸服務(wù),而UDP協(xié)議提供無連接的不可靠傳輸服務(wù)。A.正確B.錯誤49、在關(guān)系型數(shù)據(jù)庫中,主鍵(PrimaryKey)可以包含空值(NULL),但必須唯一。A.正確B.錯誤50、云計算的三種主要服務(wù)模式為IaaS、PaaS和SaaS。A.正確B.錯誤51、在關(guān)系型數(shù)據(jù)庫中,主鍵約束(PrimaryKey)可以允許一個表中存在多個空值(NULL)。A.正確B.錯誤52、在Python中,列表(list)和元組(tuple)的主要區(qū)別在于列表是可變對象,而元組是不可變對象。A.正確B.錯誤53、HTTP協(xié)議默認(rèn)使用端口號80,而HTTPS協(xié)議默認(rèn)使用端口號443。A.正確B.錯誤54、在數(shù)據(jù)倉庫設(shè)計中,星型模型由一個或多個事實表和多個維度表組成,且維度表之間不存在直接關(guān)聯(lián)。A.正確B.錯誤55、在Linux系統(tǒng)中,chmod命令用于修改文件或目錄的訪問權(quán)限,其參數(shù)可以使用數(shù)字表示法(如755)。A.正確B.錯誤

參考答案及解析1.【參考答案】B【解析】HDFS(HadoopDistributedFileSystem)是專為大數(shù)據(jù)環(huán)境設(shè)計的分布式文件系統(tǒng),適用于存儲大規(guī)模非結(jié)構(gòu)化數(shù)據(jù),具備高容錯性、高吞吐量和流式數(shù)據(jù)訪問能力。MySQL是傳統(tǒng)關(guān)系型數(shù)據(jù)庫,適合結(jié)構(gòu)化數(shù)據(jù)處理;Redis是內(nèi)存鍵值存儲,用于緩存;Kafka是分布式消息隊列,用于實時數(shù)據(jù)流處理。因此,正確答案為B。2.【參考答案】D【解析】數(shù)據(jù)清洗中處理缺失值的常見方法包括刪除記錄、均值/中位數(shù)填充、使用特定值或類別(如“未知”)填充等。而數(shù)據(jù)標(biāo)準(zhǔn)化是對數(shù)值進(jìn)行量綱統(tǒng)一的預(yù)處理步驟,通常在缺失值處理之后進(jìn)行,不屬于缺失值處理方法。因此D項錯誤,為正確答案。3.【參考答案】A【解析】數(shù)據(jù)庫通常用于OLTP(聯(lián)機(jī)事務(wù)處理),支持高頻讀寫和實時事務(wù);而數(shù)據(jù)倉庫面向OLAP(聯(lián)機(jī)分析處理),整合歷史數(shù)據(jù),支持復(fù)雜查詢與決策分析。數(shù)據(jù)倉庫數(shù)據(jù)更新頻率低,不適用于OLTP。因此A項正確,其他選項描述顛倒。4.【參考答案】C【解析】matplotlib是Python中最基礎(chǔ)且廣泛使用的數(shù)據(jù)可視化庫,支持繪制折線圖、柱狀圖、散點圖等多種圖表。pandas用于數(shù)據(jù)處理與分析,requests用于網(wǎng)絡(luò)請求,scikit-learn用于機(jī)器學(xué)習(xí)建模。雖然pandas也集成了簡單繪圖功能,但底層仍依賴matplotlib。因此正確答案為C。5.【參考答案】C【解析】WHERE用于篩選分組前的行數(shù)據(jù),HAVING則專門用于對GROUPBY后的分組結(jié)果進(jìn)行條件過濾。例如,查詢平均工資大于5000的部門,需使用HAVINGAVG(salary)>5000。ORDERBY用于排序,LIMIT限制返回行數(shù)。因此,正確答案為C。6.【參考答案】C【解析】本題考查實體間聯(lián)系類型的判斷。學(xué)生與課程的關(guān)系中,一個學(xué)生只能選修一門課程,體現(xiàn)“一”;而一門課程可被多名學(xué)生選修,體現(xiàn)“多”。因此,從學(xué)生到課程是“多對一”關(guān)系。注意聯(lián)系方向:多個學(xué)生對應(yīng)一個課程,應(yīng)為多對一(C)。一對一要求雙方均唯一對應(yīng),多對多則雙方均可對應(yīng)多個,均不符合題意。7.【參考答案】B【解析】本題考查Excel中字符串連接操作。在Excel中,使用“&”符號可連接兩個文本字符串。選項A“+”用于數(shù)值相加,文本會出錯;C和D的運算符不存在或不用于連接。因此,正確公式為=A1&B1,結(jié)果為“江西省南昌市”。也可使用CONCAT函數(shù),但選項未提供,故B為最準(zhǔn)確答案。8.【參考答案】B【解析】本題考查云計算的核心特征。根據(jù)NIST定義,云計算具有五大基本特征:按需自助服務(wù)、廣泛的網(wǎng)絡(luò)訪問、資源池化、快速彈性、可度量的服務(wù)。選項B“按需自助服務(wù)”允許用戶按需自動獲取計算資源,無需人工干預(yù),符合定義。A、C、D均為傳統(tǒng)IT模式特征,與云計算的彈性、共享、遠(yuǎn)程服務(wù)相悖,故排除。9.【參考答案】C【解析】本題考查圖表類型的適用場景。折線圖通過連接數(shù)據(jù)點的線段展示數(shù)據(jù)隨時間的變化趨勢,特別適用于連續(xù)時間序列數(shù)據(jù),如月度銷售額。柱狀圖雖可比較各月數(shù)值,但趨勢表現(xiàn)不如折線圖直觀;餅圖用于顯示比例,不適用于時間序列;散點圖用于分析兩個變量間的相關(guān)性,不適合單一變量趨勢展示。因此,C為最佳選擇。10.【參考答案】C【解析】本題考查IP地址分類標(biāo)準(zhǔn)。根據(jù)IPv4地址分類規(guī)則:A類地址首字節(jié)范圍為1-126,B類為128-191,C類為192-223,D類為224-239。的首字節(jié)為192,處于192-223范圍內(nèi),屬于C類地址。C類地址適用于小型網(wǎng)絡(luò),前三個字節(jié)為網(wǎng)絡(luò)號,最后一個字節(jié)為主機(jī)號,符合局域網(wǎng)常見配置。故正確答案為C。11.【參考答案】C【解析】主鍵(PrimaryKey)用于唯一標(biāo)識表中的每一行記錄,且不允許為空(NOTNULL)和重復(fù)。外鍵用于建立表間關(guān)系,索引用于提升查詢效率,約束是數(shù)據(jù)完整性的規(guī)則。因此,能唯一標(biāo)識記錄的字段應(yīng)設(shè)為主鍵,選項C正確。12.【參考答案】D【解析】字典的鍵必須是不可變類型,如字符串、數(shù)字、元組等。列表是可變類型,不能作為字典的鍵;元組若不含可變元素,則可以作為鍵。A、B、C均為正確描述,D錯誤,符合題意。13.【參考答案】C【解析】IP地址根據(jù)首字節(jié)范圍分類:A類(1-126)、B類(128-191)、C類(192-223)。的首字節(jié)為192,處于192-223之間,屬于C類地址,用于小型網(wǎng)絡(luò),支持最多254臺主機(jī)。14.【參考答案】B【解析】快速排序平均時間復(fù)雜度為O(nlogn),但在分區(qū)過程中相同元素相對位置可能改變,是不穩(wěn)定排序。歸并排序穩(wěn)定,堆排序不穩(wěn)定但通常不被視為典型不穩(wěn)定代表。冒泡排序為O(n2)。綜合判斷,B最符合。15.【參考答案】A【解析】AND函數(shù)當(dāng)所有參數(shù)為真時返回TRUE。A1>=60為80≥60,結(jié)果為TRUE;B1值為TRUE,也為真。兩個條件均成立,故返回TRUE。C1未參與計算,不影響結(jié)果。A正確。16.【參考答案】C【解析】事務(wù)的持久性指事務(wù)一旦提交,其對數(shù)據(jù)庫的修改應(yīng)永久保存。日志文件記錄事務(wù)的所有更新操作,系統(tǒng)故障后可通過日志重做已提交事務(wù),確保數(shù)據(jù)不丟失。索引用于提升查詢效率,視圖用于數(shù)據(jù)邏輯抽象,觸發(fā)器用于實現(xiàn)約束或自動響應(yīng),均不直接保障持久性。因此正確答案為C。17.【參考答案】C【解析】網(wǎng)絡(luò)層(如IP協(xié)議)的核心功能是實現(xiàn)邏輯尋址與路由選擇,確保數(shù)據(jù)包能跨網(wǎng)絡(luò)傳輸至目標(biāo)主機(jī)。應(yīng)用層處理用戶請求,傳輸層(如TCP/UDP)負(fù)責(zé)端到端通信,數(shù)據(jù)鏈路層管理同一物理網(wǎng)絡(luò)內(nèi)的幀傳輸。路由功能屬于網(wǎng)絡(luò)層職責(zé),故正確答案為C。18.【參考答案】C【解析】歸并排序在最好、最壞和平均情況下時間復(fù)雜度均為O(nlogn),因其采用分治法,每次將數(shù)組對半分割并合并??焖倥判蜃顗臑镺(n2),冒泡和插入排序最壞均為O(n2)。因此只有歸并排序滿足條件,正確答案為C。19.【參考答案】C【解析】Python中列表是可變序列,支持增刪改元素。元組、字符串和凍結(jié)集合均為不可變類型,一旦創(chuàng)建內(nèi)容不可更改。例如,list可執(zhí)行append操作,而tuple不能。因此具有可變特性的是列表,正確答案為C。20.【參考答案】C【解析】主鍵是被選作唯一標(biāo)識元組的候選鍵,其值必須唯一且非空。候選鍵是能唯一標(biāo)識記錄的最小屬性集,主鍵是候選鍵之一。外鍵用于引用其他表主鍵,超鍵包含候選鍵但可能有冗余屬性。題目強(qiáng)調(diào)“唯一標(biāo)識”,且為實際使用的鍵,故正確答案為C。21.【參考答案】D【解析】PRIMARYKEY約束用于唯一標(biāo)識表中的每一行數(shù)據(jù),它保證該列(或列組合)的值既唯一又非空。UNIQUE約束雖能保證唯一性,但允許出現(xiàn)一個NULL值,而PRIMARYKEY不允許任何空值。CHECK用于限定列的取值范圍,DEFAULT用于設(shè)定默認(rèn)值。因此,同時滿足“唯一”和“非空”的只有PRIMARYKEY約束。22.【參考答案】A【解析】list.sort()是列表的內(nèi)置方法,直接修改原列表,參數(shù)reverse=True表示降序排列。sorted()是內(nèi)置函數(shù),返回新列表,不修改原列表,C項語法正確但題目未說明是否允許生成新列表,而A項更符合“將列表元素排序”的常規(guī)操作。B項reverse=False為升序,D項方法不存在。因此最準(zhǔn)確的是A。23.【參考答案】C【解析】IP地址根據(jù)首字節(jié)范圍劃分:A類為1-126,B類為128-191,C類為192-223。00的首字節(jié)為192,落在192-223范圍內(nèi),因此屬于C類地址。C類地址默認(rèn)子網(wǎng)掩碼為,適用于小型網(wǎng)絡(luò),常用于局域網(wǎng)環(huán)境,具有較高的地址利用率。24.【參考答案】C【解析】MapReduce的核心思想是“分而治之”,即將大規(guī)模數(shù)據(jù)集拆分為小塊,由多個節(jié)點并行處理(Map階段),再將結(jié)果匯總(Reduce階段)。該模型適合批處理,強(qiáng)調(diào)高吞吐而非低延遲。實時流處理和內(nèi)存計算是Spark等框架的特點,圖計算則屬于特定計算模型,因此正確答案為C。25.【參考答案】B【解析】COUNTIF函數(shù)用于按條件計數(shù),語法為COUNTIF(range,criteria),B項正確統(tǒng)計A1:A10中大于80的單元格數(shù)量。COUNT僅統(tǒng)計數(shù)值型數(shù)據(jù)個數(shù),不帶條件;COUNTA統(tǒng)計非空單元格;SUMIF用于條件求和而非計數(shù)。因此,滿足“條件計數(shù)”需求的只有COUNTIF函數(shù)。26.【參考答案】C【解析】HDFS(HadoopDistributedFileSystem)是專為大數(shù)據(jù)環(huán)境設(shè)計的分布式文件系統(tǒng),具有高容錯性和高吞吐量,適用于批量處理大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)。HBase是基于HDFS的列式數(shù)據(jù)庫,用于隨機(jī)讀寫;Kafka是消息隊列系統(tǒng),用于實時數(shù)據(jù)流傳輸;Spark是內(nèi)存計算框架,用于快速數(shù)據(jù)處理。因此,主要用于分布式文件存儲的是HDFS。27.【參考答案】C【解析】WHERE子句用于篩選行數(shù)據(jù),作用于分組前;GROUPBY用于將數(shù)據(jù)按指定字段分組;HAVING子句專門用于對分組后的結(jié)果進(jìn)行條件過濾,支持聚合函數(shù)。ORDERBY用于排序。因此,對分組后數(shù)據(jù)篩選應(yīng)使用HAVING。28.【參考答案】C【解析】數(shù)據(jù)庫主要用于聯(lián)機(jī)事務(wù)處理(OLTP),強(qiáng)調(diào)事務(wù)的原子性、一致性、隔離性和持久性(ACID),適合高頻讀寫操作。數(shù)據(jù)倉庫用于OLAP,支持歷史數(shù)據(jù)分析,數(shù)據(jù)通常定期批量加載,非實時更新。因此,強(qiáng)調(diào)事務(wù)處理的是數(shù)據(jù)庫,選項C正確。29.【參考答案】C【解析】List是有序可變序列,支持重復(fù)元素;Tuple是不可變序列;Dict是鍵值對集合,可變但以鍵索引;Set是無序且唯一元素的集合,支持添加、刪除操作,常用于快速去重。因此,符合“可變且無序”并用于去重的是Set。30.【參考答案】C【解析】相關(guān)系數(shù)取值范圍為[-1,1],接近1表示強(qiáng)正相關(guān),接近-1表示強(qiáng)負(fù)相關(guān)。-0.86絕對值大于0.8,屬于強(qiáng)相關(guān),且為負(fù)值,表明X與Y呈強(qiáng)負(fù)相關(guān)關(guān)系,即一個變量增大時,另一個趨于減小。因此選C。31.【參考答案】A、B、D【解析】ACID是事務(wù)處理的核心特性。原子性(A)確保操作不可分割;一致性(B)強(qiáng)調(diào)事務(wù)前后數(shù)據(jù)的邏輯正確性;隔離性(I)并非禁止并發(fā),而是通過隔離級別控制并發(fā)影響,C項錯誤;持久性(D)保證提交后的數(shù)據(jù)不會丟失。四項中僅C表述錯誤。32.【參考答案】B、C【解析】HDFS適合大文件存儲,大量小文件會導(dǎo)致NameNode壓力過大,A錯誤;MapReduce確實用于批處理,B正確;YARN是資源調(diào)度框架,C正確;Hadoop原生不支持流處理,需結(jié)合Storm、Flink等,D錯誤。因此正確答案為B、C。33.【參考答案】A、B【解析】列表可變,元組不可變,這是核心區(qū)別,A正確;由于元組不可變,其哈希性更強(qiáng),訪問速度略快,B正確;只有不可變類型可作字典鍵,列表不能,C錯誤;列表提供更多操作方法(如append、remove),D錯誤。故正確答案為A、B。34.【參考答案】A、B、C【解析】數(shù)據(jù)庫面向OLTP,強(qiáng)調(diào)事務(wù)處理,A、B正確;數(shù)據(jù)倉庫用于OLAP,集成多源數(shù)據(jù),C正確;數(shù)據(jù)倉庫以批量加載為主,不支持頻繁更新,D錯誤。因此A、B、C為正確選項。35.【參考答案】A、B、C【解析】折線圖適合趨勢分析,A正確;餅圖用于比例展示,B正確;散點圖反映變量間關(guān)系,C正確;柱狀圖用于分類數(shù)據(jù)比較,展示分布應(yīng)使用直方圖,D錯誤。因此正確答案為A、B、C。36.【參考答案】ACD【解析】HDFS是Hadoop的分布式文件系統(tǒng),適合存儲大規(guī)模數(shù)據(jù),A正確;MapReduce適用于批處理,不支持實時計算,B錯誤;YARN是資源調(diào)度框架,C正確;Hive構(gòu)建于Hadoop之上,提供類SQL查詢功能,將HQL轉(zhuǎn)化為MapReduce任務(wù)執(zhí)行,D正確。因此選ACD。37.【參考答案】ABC【解析】數(shù)據(jù)清洗中,刪除記錄適用于缺失比例小的情況;均值/中位數(shù)/眾數(shù)填充適用于數(shù)值型或分類型數(shù)據(jù);模型預(yù)測(如回歸、KNN)可提高填充準(zhǔn)確性。D項將缺失值簡單替換為0可能引入偏差,尤其當(dāng)0具有實際含義時,故不推薦作為通用方法。因此選ABC。38.【參考答案】ACD【解析】關(guān)系型數(shù)據(jù)庫具備ACID特性,保障數(shù)據(jù)一致性,A正確;非關(guān)系型數(shù)據(jù)庫如MongoDB支持類SQL查詢語言,B錯誤;關(guān)系型數(shù)據(jù)庫因事務(wù)和約束限制,水平擴(kuò)展困難,C正確;NoSQL數(shù)據(jù)庫適用于結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù),D正確。因此選ACD。39.【參考答案】ABCD【解析】折線圖適合表現(xiàn)趨勢變化;餅圖直觀展示占比關(guān)系,適用于分類不多的情況;散點圖通過點分布判斷變量間相關(guān)性;熱力圖利用顏色深淺表示數(shù)值大小,常用于相關(guān)矩陣或地理密度展示。四種圖表與場景均匹配正確,故全選。40.【參考答案】ABCD【解析】數(shù)據(jù)加密可在存儲和傳輸中保護(hù)數(shù)據(jù)內(nèi)容;訪問控制通過身份認(rèn)證和權(quán)限管理限制非法訪問;數(shù)據(jù)脫敏在非生產(chǎn)環(huán)境隱藏敏感信息;日志審計記錄操作行為,便于追蹤與合規(guī)檢查。四項均為數(shù)據(jù)安全的重要技術(shù)手段,因此全選。41.【參考答案】A、C、D【解析】HDFS是Hadoop的分布式文件系統(tǒng),適合存儲大文件,A正確;MapReduce適用于批量處理,延遲高,不支持實時流處理,B錯誤;YARN是資源調(diào)度框架,管理計算資源并分配任務(wù),C正確;Hive構(gòu)建于Hadoop之上,通過HQL將SQL語句轉(zhuǎn)換為MapReduce任務(wù)執(zhí)行,實現(xiàn)類SQL查詢,D正確。因此選A、C、D。42.【參考答案】A、C、D【解析】第一范式要求屬性是原子性的,不可再分,D正確;第二范式要求非主屬性完全依賴于候選鍵,消除部分依賴,A正確;第三范式要求非主屬性之間無傳遞依賴,而非主屬性依賴,B錯誤;BCNF是第三范式的強(qiáng)化版,滿足BCNF必滿足第三范式,C正確。故選A、C、D。43.【參考答案】A、C、D【解析】列表有序且可變,支持增刪改,A正確;元組一旦創(chuàng)建不可更改,不支持增刪改,B錯誤;字典鍵必須為不可變類型(如字符串、數(shù)字、元組),否則無法哈希,C正確;集合元素唯一,自動去重,D正確。因此選A、C、D。44.【參考答案】A、B、C【解析】數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的關(guān)鍵步驟,包括處理缺失值(如填充或刪除)、去除重復(fù)數(shù)據(jù)以保證唯一性、統(tǒng)一數(shù)據(jù)格式(如字符串轉(zhuǎn)日期),A、B、C均屬于典型清洗操作;構(gòu)建回歸模型屬于建模分析階段,不屬于清洗范疇,D錯誤。故選A、B、C。45.【參考答案】B、C、D【解析】三維圖表易造成數(shù)據(jù)誤讀,應(yīng)慎用,A錯誤;良好的可視化需具備明確標(biāo)題、坐標(biāo)軸說明,便于理解,B正確;配色應(yīng)考慮可訪問性,避免紅綠搭配等對色盲不友好設(shè)計,C正確;過度裝飾(如背景圖案、陰影)會干擾數(shù)據(jù)呈現(xiàn),應(yīng)保持簡潔,D正確。故選B、C、D。46.【參考答案】A【解析】第三范式的核心要求是:在滿足第二范式的基礎(chǔ)上,所有非主屬性必須直接依賴于候選鍵,不能存在傳遞依賴。例如,若A→B,B→C,則A→C為傳遞依賴,此時C不應(yīng)依賴于A間接決定的屬性。消除此類依賴可提升數(shù)據(jù)一致性、減少冗余,是規(guī)范化設(shè)計的重要環(huán)節(jié)。該描述符合3NF定義,故答案為正確。47.【參考答案】A【解析】列表使用方括號定義,支持增刪改等操作,屬于可變數(shù)據(jù)類型;元組使用圓括號定義,創(chuàng)建后不能修改元素,屬于不可變類型。這一特性使元組更適用于作為字典鍵或確保數(shù)據(jù)安全的場景。兩者均為有序序列,但可變性是關(guān)鍵區(qū)別,因此該說法正確。48.【參考答案】A【解析】TCP在數(shù)據(jù)傳輸前需建立連接(三次握手),通過確認(rèn)機(jī)制、重傳機(jī)制、流量控制等保障數(shù)據(jù)可靠有序到達(dá);UDP無需連接,發(fā)送數(shù)據(jù)報后不保證接收,適用于對實時性要求高、容忍少量丟包的場景如音視頻傳輸。兩者均為傳輸層協(xié)議,特性對比準(zhǔn)確,故答案正確。49.【參考答案】B【解析】主鍵用于唯一標(biāo)識表中每一行記錄,具有兩個強(qiáng)制約束:唯一性和非空性。即主鍵列不允許出現(xiàn)重復(fù)值,也不允許為NULL。若允許空值,則無法唯一確定記錄,違背主鍵設(shè)計原則。因此該說法錯誤。50.【參考答案】A【解析】IaaS(基礎(chǔ)設(shè)施即服務(wù))提供計算、存儲等基礎(chǔ)資源;PaaS(平臺即服務(wù))提供開發(fā)和部署環(huán)境;SaaS(軟件即服務(wù))直接提供應(yīng)用服務(wù)。三者構(gòu)成云計算服務(wù)分層模型,廣泛應(yīng)用于企業(yè)數(shù)字化轉(zhuǎn)型中,該分類標(biāo)準(zhǔn)已被業(yè)界普遍采納,說法正確。51.【參考答案】B【解析】主鍵約束用于唯一標(biāo)識表中的每一行數(shù)據(jù),具有唯一性和非空性兩個特征。因此,主鍵列不允許出現(xiàn)空值(NULL),更不允許存在多個空值。一旦某列被定義為主鍵,系統(tǒng)將強(qiáng)制該列不允許為NULL,且所有值必須唯一。這是數(shù)據(jù)庫設(shè)計的基本規(guī)范之一,用于保障數(shù)據(jù)的完整性和一致性。52.【參考答案】A【解析】列表使用方括號定義,支持元素的增刪改操作,屬于可變數(shù)據(jù)類型;元組使用圓括號定義,創(chuàng)建后不能修改其內(nèi)容,屬于不可變數(shù)據(jù)類型。這一特性使得元組在作為字典鍵或函數(shù)參數(shù)傳遞時更安全,而列表適用于需要動態(tài)調(diào)整的場景。該區(qū)別是Python基礎(chǔ)中的核心知識點。53.【參考答案】A【解析】HTTP(超文本傳輸協(xié)議)默認(rèn)在TCP的80端口上運行,用于客戶端與服務(wù)器之間的網(wǎng)頁數(shù)據(jù)傳輸;HTTPS是HTTP的安全版本,通過SSL/TLS加密,運行在443端口。這兩個端口號是互聯(lián)網(wǎng)通用標(biāo)準(zhǔn),被瀏覽器和服務(wù)器廣泛遵循,屬于網(wǎng)絡(luò)基礎(chǔ)知識的重要內(nèi)容。54.【參考答案】A【解析】星型模型是數(shù)據(jù)倉庫中最常用的模型之一,中心為事實表,存儲業(yè)務(wù)過程的度量值;周圍是維度表,存儲描述性信息。維度表直接連接事實表,但彼此之間不關(guān)聯(lián),結(jié)構(gòu)簡單、查詢效率高,適合OLAP分析,是大數(shù)據(jù)分析崗位常考概念。55.【參考答案】A【解析】chmod命令通過數(shù)字模式設(shè)置權(quán)限:讀(r=4)、寫(w=2)、執(zhí)行(x=1),三個數(shù)字分別代表所有者、所屬組和其他用戶的權(quán)限。例如755表示所有者有讀寫執(zhí)行權(quán)限(4+2+1),組和其他用戶有讀和執(zhí)行權(quán)限(4+1)。這是Linux系統(tǒng)管理的基礎(chǔ)命令之一。

2025云上(江西)大數(shù)據(jù)發(fā)展有限公司所屬企業(yè)第二批次崗位社會招聘筆試及筆試歷年常考點試題專練附帶答案詳解(第2套)一、單項選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(共30題)1、在關(guān)系型數(shù)據(jù)庫設(shè)計中,若要確保每個員工只能屬于一個部門,而每個部門可以包含多名員工,則員工表與部門表之間的外鍵約束應(yīng)建立在哪個表上?A.部門表中的員工ID字段

B.員工表中的部門ID字段

C.員工表中的部門名稱字段

D.獨立的關(guān)系關(guān)聯(lián)表中2、在Python中,以下哪個操作不會改變原列表對象的內(nèi)容?A.list.append(3)

B.list.extend([3,4])

C.list=list+[3,4]

D.list.insert(0,1)3、在Hadoop生態(tài)系統(tǒng)中,主要用于大規(guī)模數(shù)據(jù)離線批處理的核心組件是?A.Hive

B.HBase

C.MapReduce

D.Spark4、某算法的時間復(fù)雜度為O(n2),當(dāng)輸入規(guī)模n=100時運行時間為4秒,當(dāng)n=200時,預(yù)計運行時間約為多少?A.8秒

B.16秒

C.32秒

D.64秒5、在數(shù)據(jù)可視化中,下列哪種圖表最適合展示兩個數(shù)值變量之間的相關(guān)性?A.柱狀圖

B.餅圖

C.折線圖

D.散點圖6、在數(shù)據(jù)庫系統(tǒng)中,用于保證事務(wù)持久性的關(guān)鍵技術(shù)是:A.索引機(jī)制

B.視圖機(jī)制

C.日志文件

D.觸發(fā)器7、在大數(shù)據(jù)處理框架Hadoop中,負(fù)責(zé)資源管理和任務(wù)調(diào)度的核心組件是:A.HDFS

B.MapReduce

C.YARN

D.ZooKeeper8、下列關(guān)于Python中列表(list)和元組(tuple)的描述,正確的是:A.列表和元組都不可變

B.元組的訪問速度通常比列表慢

C.列表支持增刪改操作,元組不支持

D.元組不能包含重復(fù)元素9、在關(guān)系型數(shù)據(jù)庫中,兩個表通過主鍵與外鍵建立關(guān)聯(lián),這種操作主要體現(xiàn)了哪種完整性約束?A.實體完整性

B.域完整性

C.用戶定義完整性

D.參照完整性10、在數(shù)據(jù)挖掘過程中,使用K-means算法進(jìn)行聚類時,K值通常表示:A.樣本總數(shù)

B.特征維度

C.聚類中心的數(shù)量

D.迭代次數(shù)11、在數(shù)據(jù)庫系統(tǒng)中,用于實現(xiàn)數(shù)據(jù)邏輯獨立性的關(guān)鍵機(jī)制是:A.外模式/模式映像

B.模式/內(nèi)模式映像

C.外模式/內(nèi)模式映像

D.模式與內(nèi)模式的直接對應(yīng)12、在TCP/IP協(xié)議棧中,負(fù)責(zé)將數(shù)據(jù)包從源主機(jī)路由到目標(biāo)主機(jī)的協(xié)議是:A.TCP

B.UDP

C.IP

D.HTTP13、在Python中,以下哪種數(shù)據(jù)結(jié)構(gòu)是可變的?A.元組

B.字符串

C.列表

D.凍結(jié)集合(frozenset)14、在關(guān)系型數(shù)據(jù)庫中,實體之間的多對多關(guān)系通常通過什么方式實現(xiàn)?A.外鍵直接引用

B.增加冗余字段

C.創(chuàng)建中間關(guān)聯(lián)表

D.使用視圖連接15、下列排序算法中,平均時間復(fù)雜度為O(nlogn)且屬于不穩(wěn)定排序的是:A.歸并排序

B.堆排序

C.冒泡排序

D.插入排序16、在大數(shù)據(jù)處理架構(gòu)中,以下哪項技術(shù)主要用于分布式存儲和批量計算大規(guī)模數(shù)據(jù)集?A.Kafka

B.HBase

C.HadoopMapReduce

D.SparkStreaming17、在關(guān)系型數(shù)據(jù)庫設(shè)計中,以下哪項原則最有助于減少數(shù)據(jù)冗余并提高數(shù)據(jù)一致性?A.索引優(yōu)化

B.事務(wù)隔離

C.?dāng)?shù)據(jù)規(guī)范化

D.視圖創(chuàng)建18、在Python中,以下關(guān)于列表(list)和元組(tuple)的描述,正確的是?A.列表支持元素修改,元組不支持

B.列表和元組都不可變

C.元組的訪問速度慢于列表

D.列表不能存儲不同類型的數(shù)據(jù)19、在數(shù)據(jù)清洗過程中,處理缺失值的常見方法不包括以下哪項?A.刪除含有缺失值的記錄

B.使用均值或中位數(shù)填充

C.通過模型預(yù)測缺失值

D.增加新特征以擴(kuò)大數(shù)據(jù)維度20、在SQL查詢中,以下哪個子句用于對分組后的數(shù)據(jù)進(jìn)行條件篩選?A.WHERE

B.HAVING

C.ORDERBY

D.LIMIT21、在數(shù)據(jù)庫設(shè)計中,將E-R圖轉(zhuǎn)換為關(guān)系模式時,若兩個實體之間的聯(lián)系是M:N的,轉(zhuǎn)換成的關(guān)系模式的主鍵應(yīng)如何確定?A.僅使用M端實體的主鍵

B.僅使用N端實體的主鍵

C.M端和N端實體主鍵的組合

D.新增一個獨立的屬性作為主鍵22、在Python中,以下關(guān)于列表(list)和元組(tuple)的說法正確的是?A.列表和元組都不可變

B.元組支持append()方法添加元素

C.列表是可變的,元組是不可變的

D.元組不能存儲不同類型的數(shù)據(jù)23、在TCP/IP協(xié)議棧中,負(fù)責(zé)將IP地址轉(zhuǎn)換為物理MAC地址的協(xié)議是?A.DNS

B.ARP

C.RARP

D.ICMP24、在數(shù)據(jù)結(jié)構(gòu)中,以下哪種結(jié)構(gòu)最適合實現(xiàn)“先進(jìn)先出”(FIFO)的數(shù)據(jù)訪問方式?A.棧

B.隊列

C.鏈表

D.二叉樹25、在關(guān)系型數(shù)據(jù)庫設(shè)計中,若某張數(shù)據(jù)表的所有非主屬性都完全依賴于主鍵,且不存在傳遞依賴,則該表至少滿足第幾范式?A.第一范式

B.第二范式

C.第三范式

D.BC范式26、在Python中,以下關(guān)于列表(list)和元組(tuple)的說法哪一項是正確的?A.列表和元組都不可變

B.元組支持append()方法添加元素

C.列表可以修改,元組不可修改

D.元組不能包含重復(fù)元素27、在Hadoop生態(tài)系統(tǒng)中,主要用于大規(guī)模數(shù)據(jù)離線批處理的核心組件是?A.HDFS

B.MapReduce

C.YARN

D.Hive28、某企業(yè)數(shù)據(jù)庫中“員工表”包含字段:員工編號(主鍵)、姓名、部門編號、薪資。若要查詢每個部門的平均薪資,并僅顯示平均薪資高于8000的部門,應(yīng)使用以下哪個SQL語句結(jié)構(gòu)?A.GROUPBY配合WHERE

B.GROUPBY配合HAVING

C.ORDERBY配合WHERE

D.JOIN配合ON29、在數(shù)據(jù)倉庫設(shè)計中,星型模型的主要特征是?A.多個事實表共享維度表

B.事實表與多層規(guī)范化維度表連接

C.一個事實表直接連接多個非規(guī)范化的維度表

D.僅包含維度表,無事實表30、在關(guān)系型數(shù)據(jù)庫中,用于確保數(shù)據(jù)表中每條記錄唯一性的約束是?A.外鍵約束

B.默認(rèn)值約束

C.主鍵約束

D.檢查約束二、多項選擇題下列各題有多個正確答案,請選出所有正確選項(共15題)31、在大數(shù)據(jù)處理架構(gòu)中,以下哪些組件常用于實現(xiàn)分布式存儲與計算?A.HDFSB.KafkaC.SparkD.MySQL32、在數(shù)據(jù)清洗過程中,以下哪些方法可用于處理缺失值?A.刪除含有缺失值的記錄B.使用均值、中位數(shù)填充C.使用模型預(yù)測缺失值D.將缺失值替換為“未知”類別33、以下關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)庫的描述,哪些是正確的?A.數(shù)據(jù)庫主要用于事務(wù)處理,支持高并發(fā)讀寫B(tài).數(shù)據(jù)倉庫通常采用OLAP操作,支持復(fù)雜查詢分析C.數(shù)據(jù)庫設(shè)計常采用星型模型或雪花模型D.數(shù)據(jù)倉庫數(shù)據(jù)通常來自多個異構(gòu)系統(tǒng)的整合34、在數(shù)據(jù)可視化中,以下哪些圖表適用于展示數(shù)據(jù)分布特征?A.直方圖B.箱線圖C.折線圖D.散點圖35、以下哪些指標(biāo)可用于評估分類模型的性能?A.準(zhǔn)確率B.召回率C.R2D.F1分?jǐn)?shù)36、在數(shù)據(jù)庫系統(tǒng)中,關(guān)于事務(wù)的ACID特性,下列描述正確的有哪些?A.原子性指事務(wù)中的所有操作要么全部執(zhí)行成功,要么全部不執(zhí)行B.一致性要求事務(wù)執(zhí)行前后數(shù)據(jù)庫必須處于一致狀態(tài)C.隔離性意味著事務(wù)之間不能并發(fā)執(zhí)行D.持久性指事務(wù)一旦提交,其對數(shù)據(jù)庫的修改是永久性的37、下列關(guān)于大數(shù)據(jù)處理框架Hadoop的描述,正確的有哪些?A.HDFS是Hadoop的分布式文件系統(tǒng),適合存儲大量小文件B.MapReduce是一種并行計算模型,適用于批處理任務(wù)C.YARN負(fù)責(zé)集群資源管理和任務(wù)調(diào)度D.Hadoop支持實時數(shù)據(jù)流處理38、在SQL查詢中,下列哪些操作可能導(dǎo)致索引失效?A.在索引列上使用函數(shù)或表達(dá)式B.使用LIKE以通配符開頭的模糊查詢,如LIKE'%abc'C.對索引列進(jìn)行隱式類型轉(zhuǎn)換D.使用ORDERBY與索引列順序一致的字段39、關(guān)于Python中可變對象與不可變對象的描述,正確的有哪些?A.列表是可變對象,可以在原地修改其內(nèi)容B.字符串是不可變對象,任何修改都會創(chuàng)建新對象C.元組中的元素一定不可更改D.字典的鍵可以使用列表類型40、在數(shù)據(jù)可視化中,下列圖表類型與其適用場景匹配正確的有哪些?A.折線圖——展示數(shù)據(jù)隨時間變化的趨勢B.餅圖——比較多個類別在整體中的占比C.散點圖——分析兩個變量之間的相關(guān)性D.箱線圖——展示數(shù)據(jù)的頻次分布形狀41、在大數(shù)據(jù)處理架構(gòu)中,以下關(guān)于Hadoop核心組件的描述,哪些是正確的?A.HDFS采用主從架構(gòu),NameNode負(fù)責(zé)管理文件系統(tǒng)的命名空間B.MapReduce是一種適用于實時數(shù)據(jù)處理的計算模型C.YARN負(fù)責(zé)集群資源管理和任務(wù)調(diào)度D.HBase是構(gòu)建在HDFS之上的分布式列式數(shù)據(jù)庫42、在數(shù)據(jù)清洗過程中,以下哪些方法可用于處理缺失值?A.刪除含有缺失值的記錄B.使用均值、中位數(shù)或眾數(shù)填充C.通過回歸或插值法預(yù)測缺失值D.將缺失值標(biāo)記為“未知”并保留字段43、以下關(guān)于關(guān)系型數(shù)據(jù)庫與非關(guān)系型數(shù)據(jù)庫的說法,哪些是正確的?A.關(guān)系型數(shù)據(jù)庫支持事務(wù)的ACID特性B.非關(guān)系型數(shù)據(jù)庫不支持任何類型的查詢語言C.非關(guān)系型數(shù)據(jù)庫在水平擴(kuò)展方面通常優(yōu)于關(guān)系型數(shù)據(jù)庫D.JSON格式存儲是部分NoSQL數(shù)據(jù)庫的典型特征44、在數(shù)據(jù)可視化中,以下圖表選擇恰當(dāng)?shù)挠心男緼.使用折線圖展示某地區(qū)月度氣溫變化趨勢B.使用餅圖比較五個城市的人口數(shù)量差異C.使用散點圖分析廣告投入與銷售額之間的相關(guān)性D.使用柱狀圖顯示不同產(chǎn)品類別的銷售總額45、以下哪些是保障大數(shù)據(jù)系統(tǒng)安全的有效措施?A.對敏感數(shù)據(jù)進(jìn)行加密存儲B.實施基于角色的訪問控制(RBAC)C.定期進(jìn)行系統(tǒng)漏洞掃描和安全審計D.所有數(shù)據(jù)開放共享以提升使用效率三、判斷題判斷下列說法是否正確(共10題)46、在關(guān)系型數(shù)據(jù)庫中,主鍵(PrimaryKey)的值可以為空(NULL),只要保證唯一性即可。A.正確B.錯誤47、在Python中,列表(list)是不可變數(shù)據(jù)類型,而元組(tuple)是可變的。A.正確B.錯誤48、在計算機(jī)網(wǎng)絡(luò)中,IP地址與MAC地址的映射關(guān)系通過ARP協(xié)議實現(xiàn)。A.正確B.錯誤49、數(shù)據(jù)倉庫的主要目的是支持事務(wù)處理,強(qiáng)調(diào)高并發(fā)讀寫和實時響應(yīng)。A.正確B.錯誤50、在Excel中,函數(shù)SUMIF用于對滿足多個條件的單元格求和。A.正確B.錯誤51、在關(guān)系型數(shù)據(jù)庫中,主鍵的值可以為空,但必須唯一。A.正確B.錯誤52、在Python中,列表(list)是不可變數(shù)據(jù)類型,無法通過索引修改其元素。A.正確B.錯誤53、HTTP協(xié)議是無狀態(tài)協(xié)議,每次請求之間相互獨立,不保存上下文信息。A.正確B.錯誤54、在Excel中,函數(shù)SUM(A1:A5)與SUM(A1,A2,A3,A4,A5)的計算結(jié)果可能不同。A.正確B.錯誤55、數(shù)據(jù)清洗是數(shù)據(jù)預(yù)處理的重要環(huán)節(jié),主要目的是提升數(shù)據(jù)質(zhì)量,包括處理缺失值、異常值和重復(fù)數(shù)據(jù)。A.正確B.錯誤

參考答案及解析1.【參考答案】B【解析】在一對多關(guān)系中,外鍵應(yīng)建立在“多”的一方,即員工表。通過在員工表中設(shè)置部門ID作為外鍵,引用部門表的主鍵,可確保每名員工隸屬于一個有效部門,同時支持一個部門有多個員工。選項A邏輯顛倒,C易導(dǎo)致數(shù)據(jù)冗余和不一致,D適用于多對多關(guān)系。因此B正確。2.【參考答案】C【解析】選項C中,list=list+[3,4]是創(chuàng)建一個新列表并重新賦值給變量list,原列表對象未被修改,僅變量指向新對象。而A、B、D均為就地操作(in-place),直接修改原列表內(nèi)存內(nèi)容。因此C是唯一不改變原對象的操作。3.【參考答案】C【解析】MapReduce是Hadoop最早的核心計算框架,專為大規(guī)模數(shù)據(jù)離線批處理設(shè)計,采用“分而治之”思想。Hive是基于MapReduce的SQL查詢工具,HBase是分布式列式數(shù)據(jù)庫,Spark雖也可批處理,但非Hadoop原生核心。題目強(qiáng)調(diào)“核心組件”,因此選C。4.【參考答案】B【解析】O(n2)表示運行時間與n2成正比。n從100增至200,規(guī)模擴(kuò)大2倍,運行時間應(yīng)增加4倍。4秒×4=16秒。因此選B。該估算基于主導(dǎo)項假設(shè),忽略低階項和常數(shù),適用于大規(guī)模輸入趨勢預(yù)測。5.【參考答案】D【解析】散點圖通過點的分布展示兩個數(shù)值變量間的關(guān)系,可直觀判斷正相關(guān)、負(fù)相關(guān)或無相關(guān)性。柱狀圖用于分類比較,餅圖顯示部分占比,折線圖側(cè)重趨勢隨時間變化。因此展示相關(guān)性應(yīng)選D。6.【參考答案】C【解析】事務(wù)的持久性指一旦事務(wù)提交,其對數(shù)據(jù)庫的修改應(yīng)永久保存。日志文件記錄事務(wù)的所有更新操作,系統(tǒng)故障后可通過日志重做已提交事務(wù),確保數(shù)據(jù)不丟失。索引用于提升查詢效率,視圖用于數(shù)據(jù)抽象,觸發(fā)器用于實現(xiàn)約束或自動操作,均不直接保障持久性。因此正確答案為C。7.【參考答案】C【解析】YARN(YetAnotherResourceNegotiator)是Hadoop2.0引入的資源管理層,負(fù)責(zé)集群資源的分配與作業(yè)調(diào)度。HDFS負(fù)責(zé)分布式存儲,MapReduce是計算模型,ZooKeeper用于分布式協(xié)調(diào)服務(wù)。YARN使Hadoop支持多計算框架,提升資源利用率。因此正確答案為C。8.【參考答案】C【解析】列表是可變序列,支持添加、刪除和修改元素;元組是不可變序列,創(chuàng)建后不能更改。由于元組不可變,其訪問速度通常略快于列表。元組可以包含重復(fù)元素,如(1,1,2)。因此正確答案為C。9.【參考答案】D【解析】參照完整性確保表間關(guān)系的有效性,要求外鍵值必須對應(yīng)被引用表的主鍵值或為空。實體完整性要求主鍵非空且唯一,域完整性約束字段取值范圍,用戶定義完整性是業(yè)務(wù)特定規(guī)則。主外鍵關(guān)聯(lián)正是參照完整性的體現(xiàn)。因此正確答案為D。10.【參考答案】C【解析】K-means算法中的K代表預(yù)設(shè)的聚類簇的數(shù)量,算法通過迭代將樣本劃分到K個簇中,使簇內(nèi)樣本相似度高,簇間差異大。K值需事先指定,對結(jié)果影響顯著,常用肘部法則等方法確定最優(yōu)K。因此正確答案為C。11.【參考答案】A【解析】數(shù)據(jù)邏輯獨立性是指當(dāng)數(shù)據(jù)庫的模式(邏輯結(jié)構(gòu))發(fā)生變化時,外模式(用戶視圖)可以保持不變。這一獨立性通過外模式/模式映像實現(xiàn)。當(dāng)模式改變時,只需調(diào)整映像關(guān)系,而無需修改外模式或應(yīng)用程序,從而保障了數(shù)據(jù)的邏輯獨立性。模式/內(nèi)模式映像則用于實現(xiàn)物理獨立性。因此,正確答案為A。12.【參考答案】C【解析】IP(InternetProtocol)是TCP/IP協(xié)議棧中網(wǎng)絡(luò)層的核心協(xié)議,主要功能是為數(shù)據(jù)包提供尋址和路由機(jī)制,確保其能從源主機(jī)跨越多個網(wǎng)絡(luò)傳輸?shù)侥繕?biāo)主機(jī)。TCP和UDP屬于傳輸層協(xié)議,分別提供可靠傳輸和快速無連接傳輸,而HTTP是應(yīng)用層協(xié)議。因此,實現(xiàn)路由功能的是IP協(xié)議,正確答案為C。13.【參考答案】C【解析】Python中,列表(list)是可變數(shù)據(jù)結(jié)構(gòu),支持增刪改操作。元組(tuple)、字符串(str)和凍結(jié)集合(frozenset)均為不可變類型,創(chuàng)建后內(nèi)容不可更改。例如,list.append()可動態(tài)添加元素,而tuple則不允許。因此,具備可變性的是列表,正確答案為C。14.【參考答案】C【解析】多對多關(guān)系無法直接通過外鍵實現(xiàn),需引入中間表(關(guān)聯(lián)表)來分解為兩個一對多關(guān)系。例如“學(xué)生”與“課程”之間為多對多,可通過“選課”表記錄學(xué)生ID和課程ID的對應(yīng)關(guān)系。外鍵用于連接主鍵,但不能直接表達(dá)多對多。因此,正確做法是創(chuàng)建中間表,答案為C。15.【參考答案】B【解析】堆排序的平均時間復(fù)雜度為O(nlogn),但其在調(diào)整堆過程中可能改變相同元素的相對順序,因此是不穩(wěn)定排序。歸并排序雖為O(nlogn)且穩(wěn)定,但空間復(fù)雜度較高。冒泡和插入排序時間復(fù)雜度為O(n2),效率較低。因此,符合“O(nlogn)且不穩(wěn)定”的是堆排序,正確答案為B。16.【參考答案】C【解析】HadoopMapReduce是一種用于大規(guī)模數(shù)據(jù)集分布式處理的編程模型,適用于高吞吐量的批處理任務(wù)。Kafka是分布式消息系統(tǒng),主要用于實時數(shù)據(jù)流傳輸;HBase是構(gòu)建在HDFS上的列式數(shù)據(jù)庫,適用于實時讀寫訪問;SparkStreaming則用于實時流數(shù)據(jù)處理。MapReduce更強(qiáng)調(diào)磁盤計算和批量處理,是大數(shù)據(jù)早期批處理的核心技術(shù),因此選C。17.【參考答案】C【解析】數(shù)據(jù)規(guī)范化是通過分解表結(jié)構(gòu),消除數(shù)據(jù)依賴中的冗余,以達(dá)到減少數(shù)據(jù)異常、提升一致性的目的。通常分為多個范式(如第一范式到第三范式),是數(shù)據(jù)庫設(shè)計的核心原則。索引優(yōu)化提升查詢效率,事務(wù)隔離控制并發(fā)行為,視圖用于簡化查詢或權(quán)限控制,均不直接解決冗余問題。因此,減少冗余最有效的手段是數(shù)據(jù)規(guī)范化,答案為C。18.【參考答案】A【解析】列表是可變序列,允許增刪改元素;元組是不可變序列,創(chuàng)建后不能修改,因此A正確。B錯誤,因為列表可變;C錯誤,元組由于不可變,訪問速度通常略快于列表;D錯誤,Python列表可存儲任意類型數(shù)據(jù)。元組的不可變性使其適合用作字典鍵或函數(shù)返回值,安全性更高,故選A。19.【參考答案】D【解析】數(shù)據(jù)清洗中處理缺失值的常用方法包括刪除缺失記錄、用統(tǒng)計值(如均值、中位數(shù))填充、使用回歸或KNN等模型預(yù)測填充。D項“增加新特征”屬于特征工程范疇,目的是提升模型性能,而非處理缺失值本身,不屬于缺失值處理方法。因此,D是正確答案。20.【參考答案】B【解析】HAVING子句用于在GROUPBY分組后,對聚合結(jié)果進(jìn)行條件過濾,例如篩選“平均工資大于5000”的部門。WHERE用于分組前的行級篩選,不能作用于聚合函數(shù);ORDERBY用于排序;LIMIT限制返回行數(shù)。只有HAVING支持對COUNT、AVG等聚合結(jié)果做條件判斷,因此正確答案為B。21.【參考答案】C【解析】在E-R模型向關(guān)系模型轉(zhuǎn)換過程中,M:N聯(lián)系必須單獨轉(zhuǎn)換為一個關(guān)系模式,其主鍵由參與聯(lián)系的兩個實體的主鍵組合而成,以確保能唯一標(biāo)識每一條聯(lián)系記錄。例如,“學(xué)生”與“課程”之間的“選修”聯(lián)系為多對多,選修表的主鍵應(yīng)為“學(xué)號+課程號”的組合,避免數(shù)據(jù)冗余和更新異常。因此,正確答案為C。22.【參考答案】C【解析】列表是Python中可變的有序序列,支持增刪改操作,如append()、remove()等;而元組是不可變序列,一旦創(chuàng)建無法修改,適用于存儲不需更改的數(shù)據(jù),提高安全性和性能。元組可以包含不同類型元素,與列表一樣支持混合數(shù)據(jù)類型。因此,僅C項表述正確,其余選項均存在概念錯誤。答案為C。23.【參考答案】B【解析】ARP(AddressResolutionProtocol,地址解析協(xié)議)用于根據(jù)已知的IP地址查找對應(yīng)的MAC地址,實現(xiàn)數(shù)據(jù)鏈路層的地址映射,是局域網(wǎng)通信的關(guān)鍵協(xié)議。DNS用于域名解析,RARP用于從MAC地址反查IP地址(已較少使用),ICMP用于傳遞控制消息如ping。因此,正確答案為B。24.【參考答案】B【解析】隊列是一種線性結(jié)構(gòu),遵循先進(jìn)先出原則,元素從隊尾入隊,隊頭出隊,典型應(yīng)用包括任務(wù)調(diào)度、緩沖處理等。棧則是“后進(jìn)先出”(LIFO),與FIFO相反。鏈表雖可模擬隊列,但本身不規(guī)定訪問順序。二叉樹用于層次或排序結(jié)構(gòu),不適用于FIFO場景。因此,最適合的是隊列,答案為B。25.【參考答案】C【解析】第一范式要求屬性不可再分;第二范式要求消除非主屬性對主鍵的部分函數(shù)依賴;第三范式進(jìn)一步要求消除傳遞依賴,即非主屬性不能依賴于其他非主屬性。題干中“所有非主屬性完全依賴于主鍵”滿足第二范式,“不存在傳遞依賴”符合第三范式定義,因此至少滿足第三范式。BC范式更嚴(yán)格,要求所有函數(shù)依賴的決定因素都包含候選鍵,題目未提供足夠信息判斷是否滿足BC范式。26.【參考答案】C【解析】列表是可變序列,支持增刪改操作,如append()、remove()等;元組是不可變序列,一旦創(chuàng)建無法修改其元素,也不支持append()等方法。A錯誤,因列表可變;B錯誤,元組無append()方法;D錯誤,元組允許重復(fù)元素,如(1,1)是合法元組。C正確,體現(xiàn)了列表與元組的核心區(qū)別。27.【參考答案】B【解析】HDFS是分布式文件系統(tǒng),負(fù)責(zé)數(shù)據(jù)存儲;YARN負(fù)責(zé)資源調(diào)度;Hive是基于Hadoop的數(shù)據(jù)倉庫工具,底層依賴MapReduce執(zhí)行查詢;MapReduce是處理大規(guī)模數(shù)據(jù)集的編程模型與核心計算框架,專為離線批處理設(shè)計。題目強(qiáng)調(diào)“離線批處理的核心組件”,故正確答案為MapReduce。28.【參考答案】B【解析】WHERE用于行級別的條件篩選,不能用于聚合函數(shù);HAVING用于對分組后的結(jié)果進(jìn)行條件過濾,可配合AVG()等聚合函數(shù)使用。題目要求“每個部門的平均薪資”需使用GROUPBY,而“高于8000”是對分組后聚合結(jié)果的篩選,必須用HAVING。因此正確結(jié)構(gòu)為GROUPBY配合HAVING。29.【參考答案】C【解析】星型模型由一個中心事實表和多個圍繞其的維度表組成,維度表通常是非規(guī)范化的,以提高查詢性能。事實表存儲度量值,維度表存儲描述性屬性。A描述的是星座模型;B為雪花模型,維度表經(jīng)過規(guī)范化分層;D明顯錯誤。C準(zhǔn)確描述了星型模型的結(jié)構(gòu)特征。30.【參考答案】C【解析】主鍵約束(PrimaryKeyConstraint)用于唯一標(biāo)識數(shù)據(jù)表中的每一行記錄,確保其值非空且唯一。外鍵約束用于維護(hù)表間引用完整性,默認(rèn)值用于指定字段的默認(rèn)值,檢查約束用于限制字段取值范圍。主鍵是實現(xiàn)實體完整性的關(guān)鍵機(jī)制,因此正確答案為C。31.【參考答案】A、C【解析】HDFS(Hadoop分布式文件系統(tǒng))是典型的分布式存儲組件,用于海量數(shù)據(jù)的可靠存儲;Spark是主流的分布式計算框架,支持批處理與流式計算,適用于大數(shù)據(jù)分析場景。Kafka是分布式消息隊列,主要用于數(shù)據(jù)采集與流傳輸,并非存儲或計算核心組件;MySQL是傳統(tǒng)關(guān)系型數(shù)據(jù)庫,不具備分布式處理能力。因此,A、C是實現(xiàn)分布式存儲與計算的關(guān)鍵組件。32.【參考答案】A、B、C、D【解析】處理缺失值是數(shù)據(jù)清洗的關(guān)鍵步驟。刪除記錄適用于缺失比例小的情況;均值或中位數(shù)填充適用于數(shù)值型數(shù)據(jù),能保留樣本量;模型預(yù)測(如回歸、KNN)可提高填充準(zhǔn)確性;分類變量可用“未知”等新類別替代,避免信息丟失。四種方法均在實際項目中廣泛應(yīng)用,選擇應(yīng)結(jié)合數(shù)據(jù)分布與業(yè)務(wù)場景。33.【參考答案】A、B、D【解析】數(shù)據(jù)庫(OLTP)側(cè)重事務(wù)處理,支持高頻增刪改查,強(qiáng)調(diào)一致性與響應(yīng)速度;數(shù)據(jù)倉庫(OLAP)用于分析決策,支持復(fù)雜聚合查詢。星型/雪花模型是數(shù)據(jù)倉庫的典型建模方式,而非數(shù)據(jù)庫常用設(shè)計;數(shù)據(jù)庫多采用規(guī)范化模型。數(shù)據(jù)倉庫的數(shù)據(jù)來源于業(yè)務(wù)系統(tǒng)的ETL整合,具有集成性與歷史性。因此C錯誤,其余正確。34.【參考答案】A、B、D【解析】直方圖通過頻數(shù)分布展示數(shù)值變量的分布形態(tài),如偏態(tài)、峰度;箱線圖可顯示四分位數(shù)、異常值,直觀反映數(shù)據(jù)離散程度;散點圖用于觀察兩個變量間的關(guān)系及分布密度。折線圖主要用于展示數(shù)據(jù)隨時間或其他有序變量的趨勢變化,不適合描述分布特征。因此A、B、D正確。35.【參考答案】A、B、D【解析】準(zhǔn)確率衡量預(yù)測正確的樣本占比,召回率反映正類樣本的識別能力,F(xiàn)1分?jǐn)?shù)是精確率與召回率的調(diào)和平均,三者均為分類模型核心評估指標(biāo)。R2(決定系數(shù))用于回歸模型,評估預(yù)測值與真實值的擬合優(yōu)度,不適用于分類任務(wù)。因此C錯誤,A、B、D正確。36.【參考答案】A、B、D【解析】ACID是事務(wù)的四大特性。原子性(Atomicity)確保事務(wù)不可分割;一致性(Consistency)保證數(shù)據(jù)從一個有效狀態(tài)轉(zhuǎn)換到另一個有效狀態(tài);隔離性(Isolation)是指并發(fā)事務(wù)之間互不干擾,但并非不能并發(fā)執(zhí)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論