2025蘇州大數(shù)據(jù)有限公司招聘筆試歷年典型考點(diǎn)題庫附帶答案詳解試卷2套_第1頁
2025蘇州大數(shù)據(jù)有限公司招聘筆試歷年典型考點(diǎn)題庫附帶答案詳解試卷2套_第2頁
2025蘇州大數(shù)據(jù)有限公司招聘筆試歷年典型考點(diǎn)題庫附帶答案詳解試卷2套_第3頁
2025蘇州大數(shù)據(jù)有限公司招聘筆試歷年典型考點(diǎn)題庫附帶答案詳解試卷2套_第4頁
2025蘇州大數(shù)據(jù)有限公司招聘筆試歷年典型考點(diǎn)題庫附帶答案詳解試卷2套_第5頁
已閱讀5頁,還剩49頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

2025蘇州大數(shù)據(jù)有限公司招聘筆試歷年典型考點(diǎn)題庫附帶答案詳解(第1套)一、單項(xiàng)選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(xiàng)(共25題)1、HDFS中,NameNode的主要職責(zé)是什么?A.存儲實(shí)際的數(shù)據(jù)塊[[2]]B.管理文件系統(tǒng)的命名空間和客戶端對文件的訪問[[3]]C.執(zhí)行MapReduce任務(wù)的計(jì)算D.負(fù)責(zé)集群的資源調(diào)度2、在MapReduce編程模型中,Shuffle和Sort階段發(fā)生在哪個階段之間?A.Map和Reduce之間[[1]]B.InputFormat和Map之間C.Reduce和OutputFormat之間D.Map和OutputFormat之間3、以下哪項(xiàng)是Spark相較于HadoopMapReduce的主要優(yōu)勢?A.使用磁盤進(jìn)行中間結(jié)果存儲B.僅支持批處理模式C.利用內(nèi)存計(jì)算,提高處理速度[[6]]D.架構(gòu)更簡單,易于部署4、在大數(shù)據(jù)處理中,數(shù)據(jù)清洗通常不包括以下哪項(xiàng)操作?A.處理缺失值B.去除重復(fù)記錄C.數(shù)據(jù)格式標(biāo)準(zhǔn)化D.增加數(shù)據(jù)量5、SparkSQL的核心組件是基于哪個引擎構(gòu)建的?A.MapReduceB.HiveQLC.Catalyst優(yōu)化器[[4]]D.YARN6、在分布式系統(tǒng)設(shè)計(jì)中,CAP定理指出以下哪三個特性無法被同時滿足?A.一致性、原子性、持久性B.一致性、可用性、分區(qū)容錯性C.可用性、分區(qū)容錯性、原子性D.一致性、隔離性、可用性7、在MapReduce計(jì)算框架中,Shuffle階段的核心作用是?A.將原始輸入數(shù)據(jù)切分為分片B.對Map輸出進(jìn)行分區(qū)、排序、合并,并傳輸給Reduce任務(wù)C.執(zhí)行用戶定義的reduce()函數(shù)邏輯D.將最終結(jié)果寫入HDFS8、下列關(guān)于SQL中LEFTJOIN的描述,正確的是?A.僅返回兩個表中關(guān)聯(lián)字段匹配的記錄B.返回左表所有記錄,右表不匹配部分用NULL填充C.返回右表所有記錄,左表不匹配部分用NULL填充D.返回兩個表的所有記錄,無論是否匹配9、Hadoop、Spark和Flink三大計(jì)算框架中,最適合實(shí)現(xiàn)毫秒級低延遲實(shí)時流處理的是?A.HadoopB.SparkC.FlinkD.三者性能相同10、數(shù)據(jù)倉庫與數(shù)據(jù)湖的核心區(qū)別主要體現(xiàn)在?A.數(shù)據(jù)倉庫僅支持結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)湖支持結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)倉庫必須部署在云上,數(shù)據(jù)湖必須部署在本地C.數(shù)據(jù)湖的數(shù)據(jù)必須經(jīng)過ETL清洗,數(shù)據(jù)倉庫可存原始數(shù)據(jù)D.數(shù)據(jù)倉庫無法支持BI分析,數(shù)據(jù)湖可以11、在HadoopMapReduce框架中,Shuffle階段的主要作用是什么?A.將輸入數(shù)據(jù)分割成獨(dú)立的塊以便并行處理B.對Map任務(wù)的輸出進(jìn)行分區(qū)、排序,并將相同鍵的數(shù)據(jù)傳輸給同一個Reduce任務(wù)C.將Reduce任務(wù)的最終結(jié)果寫入HDFSD.負(fù)責(zé)啟動和調(diào)度所有的Map與Reduce任務(wù)12、在數(shù)據(jù)倉庫建模中,關(guān)于星型模型(StarSchema)與雪花模型(SnowflakeSchema)的描述,下列哪項(xiàng)是正確的?A.星型模型的維度表被高度規(guī)范化,減少了數(shù)據(jù)冗余B.雪花模型的查詢性能通常優(yōu)于星型模型,因?yàn)槠浔磉B接更少C.星型模型結(jié)構(gòu)簡單,查詢效率高,但可能存在一定的數(shù)據(jù)冗余D.雪花模型的中心是維度表,周圍是多個事實(shí)表13、在ApacheSpark中,RDD持久化級別MEMORY_ONLY與MEMORY_AND_DISK的主要區(qū)別在于?A.MEMORY_ONLY會將數(shù)據(jù)序列化存儲,而MEMORY_AND_DISK不會B.MEMORY_ONLY僅將數(shù)據(jù)緩存在一個節(jié)點(diǎn)上,MEMORY_AND_DISK會備份到另一節(jié)點(diǎn)C.當(dāng)內(nèi)存不足時,MEMORY_ONLY會丟棄無法緩存的分區(qū),而MEMORY_AND_DISK會將溢出數(shù)據(jù)寫入磁盤D.MEMORY_ONLY適用于DataFrame,MEMORY_AND_DISK適用于RDD14、在Hadoop3.x版本中,HDFS(HadoopDistributedFileSystem)的默認(rèn)數(shù)據(jù)塊(Block)大小是多少?A.32MBB.64MBC.128MBD.256MB15、在Kafka消息系統(tǒng)中,生產(chǎn)者(Producer)的acks參數(shù)設(shè)置為"all"時,其含義是什么?A.生產(chǎn)者發(fā)送消息后不等待任何確認(rèn),性能最高但可靠性最低B.生產(chǎn)者等待Leader副本成功寫入即返回確認(rèn)C.生產(chǎn)者等待Leader副本及其所有同步副本(ISR)都成功寫入后才返回確認(rèn)D.生產(chǎn)者將消息發(fā)送給所有消費(fèi)者后才確認(rèn)16、在關(guān)系型數(shù)據(jù)庫中,用于確保表中某一列或多列組合值唯一性的約束是?A.CHECK約束B.DEFAULT約束C.UNIQUE約束D.FOREIGNKEY約束17、下列排序算法中,平均時間復(fù)雜度為O(nlogn)且是穩(wěn)定排序的是?A.快速排序B.堆排序C.歸并排序D.選擇排序18、在Python中,以下哪種數(shù)據(jù)結(jié)構(gòu)是不可變的?A.列表(list)B.字典(dict)C.集合(set)D.元組(tuple)19、HTTP協(xié)議默認(rèn)使用的端口號是?A.21B.25C.80D.44320、在Linux系統(tǒng)中,用于查看當(dāng)前目錄下所有文件(包括隱藏文件)的命令是?A.lsB.ls-lC.ls-aD.dir21、在關(guān)系型數(shù)據(jù)庫中,用于確保表中某一列或多列組合的值唯一性的約束是?A.CHECKB.FOREIGNKEYC.PRIMARYKEYD.DEFAULT22、下列哪種數(shù)據(jù)結(jié)構(gòu)具有“先進(jìn)先出”(FIFO)的特性?A.棧B.隊(duì)列C.二叉樹D.哈希表23、在Python中,下列哪個方法可以用于從列表末尾刪除并返回一個元素?A.remove()B.pop()C.delete()D.discard()24、TCP協(xié)議屬于OSI七層模型中的哪一層?A.物理層B.網(wǎng)絡(luò)層C.傳輸層D.應(yīng)用層25、以下哪項(xiàng)是衡量算法時間復(fù)雜度的主要依據(jù)?A.算法占用的內(nèi)存空間B.算法代碼的行數(shù)C.算法執(zhí)行所需的基本操作次數(shù)D.算法運(yùn)行的實(shí)際時間(秒)二、多項(xiàng)選擇題下列各題有多個正確答案,請選出所有正確選項(xiàng)(共15題)26、下列關(guān)于Hadoop核心組件的描述,哪些是正確的?A.HDFS用于分布式存儲大規(guī)模數(shù)據(jù)集[[10]]B.MapReduce是Hadoop的分布式計(jì)算框架[[10]]C.YARN負(fù)責(zé)資源管理和作業(yè)調(diào)度[[10]]D.Hive是Hadoop的底層文件系統(tǒng)27、關(guān)于Spark與MapReduce的對比,下列說法正確的是?A.Spark基于內(nèi)存計(jì)算,處理速度通??煊贛apReduce[[9]]B.MapReduce更適合迭代計(jì)算任務(wù)C.Spark的DAG執(zhí)行引擎能優(yōu)化復(fù)雜任務(wù)流[[9]]D.MapReduce比Spark更節(jié)省內(nèi)存資源28、ETL過程通常包含哪些關(guān)鍵步驟?A.數(shù)據(jù)抽?。‥xtract)B.數(shù)據(jù)清洗(Clean)C.數(shù)據(jù)轉(zhuǎn)換(Transform)D.數(shù)據(jù)加載(Load)29、以下哪些技術(shù)常用于大數(shù)據(jù)平臺的數(shù)據(jù)處理?A.HadoopB.Spark[[4]]C.KafkaD.Oracle30、在大數(shù)據(jù)環(huán)境下,以下哪些是常見的數(shù)據(jù)傾斜問題?A.某個Reducer處理的數(shù)據(jù)量遠(yuǎn)大于其他Reducer[[3]]B.數(shù)據(jù)源格式不統(tǒng)一C.網(wǎng)絡(luò)傳輸延遲過高D.某個Key的值出現(xiàn)頻率異常高31、大數(shù)據(jù)通常具備哪些核心特征?A.數(shù)據(jù)量大(Volume)B.處理速度快(Velocity)C.數(shù)據(jù)類型多樣(Variety)D.價(jià)值密度高(Value)32、以下哪些是常用的大數(shù)據(jù)分布式處理框架?A.HadoopB.SparkC.FlinkD.MySQL33、關(guān)于HDFS(Hadoop分布式文件系統(tǒng)),下列說法正確的有?A.適合存儲大量小文件B.采用主從架構(gòu),包含NameNode和DataNodeC.具備高容錯性,數(shù)據(jù)自動復(fù)制多份存儲D.支持文件的隨機(jī)修改34、數(shù)據(jù)預(yù)處理通常包括哪些步驟?A.數(shù)據(jù)清洗B.數(shù)據(jù)集成C.數(shù)據(jù)變換D.數(shù)據(jù)可視化35、下列哪些屬于非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù)?A.JSON數(shù)據(jù)B.電子郵件C.Excel表格D.社交媒體帖子36、關(guān)于Hadoop和Spark的特性,下列說法正確的是?A.Hadoop的核心組件包括HDFS和MapReduceB.Spark主要依賴磁盤進(jìn)行數(shù)據(jù)計(jì)算,因此速度較慢C.Spark的計(jì)算模型基于內(nèi)存,特別適合迭代計(jì)算和實(shí)時數(shù)據(jù)處理D.Hadoop的MapReduce模型在進(jìn)行交互式查詢時效率很高37、下列排序算法中,時間復(fù)雜度在任何情況下都是O(n2)且是不穩(wěn)定的排序算法是?A.冒泡排序B.快速排序C.選擇排序D.堆排序38、關(guān)于數(shù)據(jù)庫事務(wù)的ACID特性及隔離級別,下列描述正確的是?A.“一致性(Consistency)”指事務(wù)執(zhí)行前后,數(shù)據(jù)庫必須從一個一致狀態(tài)轉(zhuǎn)換到另一個一致狀態(tài)B.“隔離性(Isolation)”由事務(wù)隔離級別來實(shí)現(xiàn),級別越高,并發(fā)性能通常越低C.“讀已提交(ReadCommitted)”隔離級別可以防止臟讀和不可重復(fù)讀D.“串行化(Serializable)”是最高隔離級別,可以完全避免幻讀39、關(guān)于TCP和UDP協(xié)議,下列說法正確的是?A.TCP是面向連接的協(xié)議,提供可靠的數(shù)據(jù)傳輸服務(wù)B.UDP是無連接的協(xié)議,不保證數(shù)據(jù)包的順序和可靠性C.HTTP協(xié)議通常構(gòu)建在TCP協(xié)議之上D.DNS查詢通常使用TCP協(xié)議來保證查詢的準(zhǔn)確性40、關(guān)于機(jī)器學(xué)習(xí)中的過擬合與欠擬合,以及模型評估,下列說法正確的是?A.過擬合表現(xiàn)為模型在訓(xùn)練集上表現(xiàn)很好,但在測試集上表現(xiàn)很差B.增加模型復(fù)雜度是解決欠擬合的有效方法之一C.精確率(Precision)和召回率(Recall)是常用的分類模型評估指標(biāo)D.使用更多的訓(xùn)練數(shù)據(jù)通常有助于緩解過擬合三、判斷題判斷下列說法是否正確(共10題)41、HDFS采用主從(Master/Slave)架構(gòu),其中NameNode負(fù)責(zé)管理文件系統(tǒng)的命名空間和客戶端對文件的訪問,是HDFS集群的核心組件之一。A.正確;B.錯誤42、ApacheSpark的計(jì)算性能普遍優(yōu)于HadoopMapReduce,主要得益于其基于內(nèi)存的計(jì)算模型和DAG(有向無環(huán)圖)調(diào)度機(jī)制。A.正確;B.錯誤43、數(shù)據(jù)倉庫的設(shè)計(jì)目標(biāo)是支持日常事務(wù)處理(OLTP),強(qiáng)調(diào)高并發(fā)下的數(shù)據(jù)插入、更新與刪除操作。A.正確;B.錯誤44、根據(jù)CAP定理,一個分布式系統(tǒng)在網(wǎng)絡(luò)分區(qū)發(fā)生時,必須在“一致性(C)”和“可用性(A)”之間做出取舍,無法三者(C、A、P)同時滿足。A.正確;B.錯誤45、鍵值型(Key-Value)NoSQL數(shù)據(jù)庫(如Redis)特別適用于需要高并發(fā)讀寫、低延遲響應(yīng)的場景,例如會話緩存和購物車存儲。A.正確;B.錯誤46、HDFS(Hadoop分布式文件系統(tǒng))的設(shè)計(jì)目標(biāo)是支持低延遲的數(shù)據(jù)訪問。A.正確B.錯誤47、“數(shù)據(jù)湖”通常指一個可以存儲結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化原始數(shù)據(jù)的集中式存儲庫。A.正確B.錯誤48、在大數(shù)據(jù)處理中,MapReduce計(jì)算模型的“ShuffleandSort”階段發(fā)生在Map任務(wù)執(zhí)行之前。A.正確B.錯誤49、ApacheHive是構(gòu)建在Hadoop之上的數(shù)據(jù)倉庫基礎(chǔ)設(shè)施,它允許用戶使用類似SQL的HiveQL語言查詢存儲在HDFS中的數(shù)據(jù)。A.正確B.錯誤50、OLAP(聯(lián)機(jī)分析處理)主要用于支持日常的、頻繁的、簡單的事務(wù)性操作。A.正確B.錯誤

參考答案及解析1.【參考答案】B【解析】NameNode是HDFS的主服務(wù)器,負(fù)責(zé)管理文件系統(tǒng)的命名空間(Namespace),維護(hù)文件系統(tǒng)樹及文件到數(shù)據(jù)塊的映射[[2]]。它處理客戶端的讀寫請求,并協(xié)調(diào)DataNode進(jìn)行數(shù)據(jù)塊的存儲和復(fù)制。2.【參考答案】A【解析】MapReduce流程中,Map任務(wù)輸出的鍵值對會經(jīng)過Shuffle和Sort階段,該階段負(fù)責(zé)將相同key的值聚集并排序,然后傳遞給Reduce任務(wù)進(jìn)行處理,因此它發(fā)生在Map階段之后、Reduce階段之前[[1]]。3.【參考答案】C【解析】Spark通過將中間計(jì)算結(jié)果存儲在內(nèi)存中,避免了HadoopMapReduce頻繁讀寫磁盤的開銷,從而顯著提升了迭代算法和交互式查詢的處理速度[[6]]。4.【參考答案】D【解析】數(shù)據(jù)清洗旨在提高數(shù)據(jù)質(zhì)量,包括處理缺失值、去除重復(fù)記錄、糾正錯誤格式和標(biāo)準(zhǔn)化數(shù)據(jù)等[[5]]。增加數(shù)據(jù)量屬于數(shù)據(jù)采集或增強(qiáng)范疇,并非清洗的核心目標(biāo)。5.【參考答案】C【解析】SparkSQL引入了Catalyst優(yōu)化器,這是一個基于規(guī)則和成本的查詢優(yōu)化框架,能夠?qū)QL語句進(jìn)行解析、邏輯計(jì)劃優(yōu)化和物理計(jì)劃生成,從而高效執(zhí)行查詢[[4]]。6.【參考答案】B【解析】CAP定理(布魯爾定理)是分布式系統(tǒng)的核心理論,指出在任何一個分布式系統(tǒng)中,一致性(Consistency)、可用性(Availability)和分區(qū)容錯性(Partitiontolerance)三者最多只能同時滿足其中兩個,無法三者兼顧。例如,ZooKeeper選擇了CP(犧牲可用性保障一致性和分區(qū)容錯),而Eureka選擇了AP(犧牲一致性保障可用性和分區(qū)容錯)[[21]]。7.【參考答案】B【解析】Shuffle是MapReduce的核心環(huán)節(jié),發(fā)生在Map任務(wù)完成后、Reduce任務(wù)開始前。其主要流程包括:對Map輸出的鍵值對按鍵分區(qū)(Partition)、在分區(qū)內(nèi)按鍵排序(Sort)、進(jìn)行歸并(Merge),最終將數(shù)據(jù)通過網(wǎng)絡(luò)傳輸給對應(yīng)的Reduce任務(wù)[[30]]。該階段直接影響作業(yè)性能,是調(diào)優(yōu)重點(diǎn)[[31]]。8.【參考答案】B【解析】LEFTJOIN(左外連接)的語義是:以左表為驅(qū)動表,返回左表的全部行;若右表存在匹配行,則連接對應(yīng)數(shù)據(jù);若右表無匹配行,則對應(yīng)字段用NULL填充[[12]]。這是數(shù)據(jù)關(guān)聯(lián)查詢中最常用的外連接類型,用于確保主表記錄不丟失[[16]]。9.【參考答案】C【解析】Flink采用“流優(yōu)先”(stream-first)架構(gòu),其核心是真正的流處理引擎,數(shù)據(jù)以事件為單位實(shí)時處理,延遲可達(dá)毫秒級,且支持精確一次(exactly-once)語義。SparkStreaming基于微批處理(micro-batching),延遲通常為秒級;Hadoop的MapReduce僅支持批處理,延遲更高[[1]][[8]]。10.【參考答案】A【解析】數(shù)據(jù)倉庫(如Snowflake、Redshift)存儲的是經(jīng)過清洗、轉(zhuǎn)換、建模的結(jié)構(gòu)化數(shù)據(jù),服務(wù)于BI和報(bào)表;數(shù)據(jù)湖(如基于HDFS或S3構(gòu)建)以原始格式(如JSON、日志、圖像)存儲各類數(shù)據(jù),強(qiáng)調(diào)靈活性和低成本,后續(xù)再按需處理[[39]][[45]]。兩者定位互補(bǔ),并非替代關(guān)系[[48]]。11.【參考答案】B【解析】Shuffle階段是MapReduce的核心環(huán)節(jié),發(fā)生在Map之后、Reduce之前。其核心任務(wù)是將Map輸出的中間鍵值對,根據(jù)鍵(Key)進(jìn)行分區(qū)(Partitioning)和排序(Sorting),確保所有具有相同鍵的記錄都被發(fā)送到同一個Reduce任務(wù)進(jìn)行處理,從而為后續(xù)的歸并(Reduce)操作奠定基礎(chǔ)[[13]]。12.【參考答案】C【解析】星型模型將事實(shí)表置于中心,維度表直接與之相連,結(jié)構(gòu)簡單直觀,查詢時JOIN操作少,性能高,但維度表未規(guī)范化,存在冗余;雪花模型則通過規(guī)范化維度表來消除冗余、節(jié)省空間,但增加了表連接的復(fù)雜度,降低了查詢效率[[21]]。13.【參考答案】C【解析】MEMORY_ONLY級別會嘗試將RDD的所有分區(qū)存入內(nèi)存,若內(nèi)存不足,則部分分區(qū)不會被緩存,在下次需要時重新計(jì)算;而MEMORY_AND_DISK在內(nèi)存不足時,會將無法放入內(nèi)存的分區(qū)溢寫(spill)到磁盤上,避免重新計(jì)算,犧牲I/O換取計(jì)算效率[[30]]。14.【參考答案】C【解析】HDFS將大文件切分成固定大小的塊進(jìn)行分布式存儲。在Hadoop1.x中默認(rèn)塊大小為64MB,而從Hadoop2.x開始,包括3.x版本,默認(rèn)塊大小已提升至128MB,以減少尋址開銷并提高大文件處理效率[[42]]。15.【參考答案】C【解析】acks="all"(或acks="-1")表示生產(chǎn)者要求Leader副本必須等待所有處于“同步中”(In-SyncReplicas,ISR)狀態(tài)的副本都成功落盤后,才向生產(chǎn)者發(fā)送確認(rèn)(ACK)。這提供了最高的數(shù)據(jù)持久性保障,防止因Leader故障導(dǎo)致數(shù)據(jù)丟失[[54]]。16.【參考答案】C【解析】UNIQUE約束用于保證表中某列或列組合的數(shù)據(jù)唯一,允許空值(但通常僅允許一個NULL)。CHECK用于限制列值范圍,DEFAULT設(shè)置默認(rèn)值,F(xiàn)OREIGNKEY用于建立表間引用關(guān)系。因此正確答案是C。17.【參考答案】C【解析】歸并排序的時間復(fù)雜度為O(nlogn),且在合并過程中相等元素的相對位置不會改變,因此是穩(wěn)定排序。快速排序和堆排序不穩(wěn)定,選擇排序時間復(fù)雜度為O(n2)。故選C。18.【參考答案】D【解析】元組(tuple)一旦創(chuàng)建,其元素不可修改,屬于不可變類型;而列表、字典和集合均為可變類型,支持增刪改操作。因此正確答案是D。19.【參考答案】C【解析】HTTP協(xié)議默認(rèn)使用80端口,HTTPS使用443端口,21端口用于FTP,25端口用于SMTP郵件傳輸。因此標(biāo)準(zhǔn)HTTP服務(wù)端口為80,答案選C。20.【參考答案】C【解析】ls-a命令可列出當(dāng)前目錄下所有文件,包括以“.”開頭的隱藏文件;ls僅顯示非隱藏文件,ls-l顯示詳細(xì)信息但不包含隱藏文件,dir并非Linux標(biāo)準(zhǔn)命令。故正確答案為C。21.【參考答案】C【解析】PRIMARYKEY(主鍵)用于唯一標(biāo)識表中的每一行,其值不能重復(fù)且不能為空。FOREIGNKEY用于建立表間關(guān)聯(lián),CHECK用于限制列值范圍,DEFAULT用于設(shè)置默認(rèn)值。因此,確保唯一性的約束是主鍵。22.【參考答案】B【解析】隊(duì)列是一種線性結(jié)構(gòu),元素從隊(duì)尾入隊(duì)、從隊(duì)頭出隊(duì),符合“先進(jìn)先出”原則。棧是“后進(jìn)先出”(LIFO),二叉樹和哈希表不具有固定的進(jìn)出順序。因此正確答案為隊(duì)列。23.【參考答案】B【解析】pop()方法默認(rèn)刪除列表最后一個元素并返回其值;remove()按值刪除但不返回;delete不是列表方法;discard()是集合(set)的方法。因此正確答案為pop()。24.【參考答案】C【解析】TCP(傳輸控制協(xié)議)提供可靠的端到端數(shù)據(jù)傳輸服務(wù),對應(yīng)OSI模型的傳輸層。IP協(xié)議屬于網(wǎng)絡(luò)層,HTTP等屬于應(yīng)用層。因此正確選項(xiàng)為傳輸層。25.【參考答案】C【解析】時間復(fù)雜度衡量的是算法在最壞或平均情況下所需基本操作(如比較、賦值)的次數(shù),與輸入規(guī)模的關(guān)系,而非實(shí)際運(yùn)行時間或代碼行數(shù)。內(nèi)存空間對應(yīng)空間復(fù)雜度。因此正確答案為C。26.【參考答案】A、B、C【解析】Hadoop核心由HDFS(分布式文件系統(tǒng))、MapReduce(分布式計(jì)算模型)和YARN(資源管理框架)組成[[10]]。Hive是一個基于Hadoop的數(shù)據(jù)倉庫工具,用于處理結(jié)構(gòu)化數(shù)據(jù),并非底層文件系統(tǒng)。27.【參考答案】A、C【解析】Spark利用內(nèi)存進(jìn)行數(shù)據(jù)處理,避免了MapReduce頻繁的磁盤I/O,因此速度更快[[9]]。Spark的DAG(有向無環(huán)圖)執(zhí)行引擎能對任務(wù)進(jìn)行整體優(yōu)化,而MapReduce更適合批處理,迭代計(jì)算效率低。28.【參考答案】A、C、D【解析】ETL是數(shù)據(jù)倉庫構(gòu)建的核心流程,指數(shù)據(jù)抽取(Extract)、轉(zhuǎn)換(Transform)和加載(Load)[[8]]。數(shù)據(jù)清洗常作為轉(zhuǎn)換(Transform)階段的一部分,而非獨(dú)立的第三步。29.【參考答案】A、B、C【解析】Hadoop和Spark是主流的分布式大數(shù)據(jù)處理框架[[4]]。Kafka是高吞吐量的分布式消息隊(duì)列,常用于實(shí)時數(shù)據(jù)流采集。Oracle是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫管理系統(tǒng),不專用于大規(guī)模分布式數(shù)據(jù)處理。30.【參考答案】A、D【解析】數(shù)據(jù)傾斜指在分布式計(jì)算中,部分任務(wù)(如Reducer)因處理的Key分布不均而負(fù)載過重,通常由某個Key值出現(xiàn)頻率極高導(dǎo)致,造成處理速度瓶頸[[3]]。格式不統(tǒng)一和網(wǎng)絡(luò)延遲屬于其他類型問題。31.【參考答案】ABC【解析】大數(shù)據(jù)的核心特征常被概括為“4V”,即數(shù)據(jù)量大(Volume)、處理速度快(Velocity)、數(shù)據(jù)類型多樣(Variety)和價(jià)值密度低(Value)[[20]]。前三個是公認(rèn)的典型特征,而價(jià)值密度通常較低,需通過分析挖掘潛在價(jià)值。32.【參考答案】ABC【解析】Hadoop、Spark和Flink均為主流的大數(shù)據(jù)處理框架,支持分布式計(jì)算[[1]]。Hadoop基于MapReduce模型,Spark提供內(nèi)存計(jì)算,F(xiàn)link擅長流處理。MySQL是關(guān)系型數(shù)據(jù)庫,不屬于大數(shù)據(jù)處理框架。33.【參考答案】BC【解析】HDFS采用NameNode管理元數(shù)據(jù),DataNode存儲數(shù)據(jù)塊,具有高容錯性,通過副本機(jī)制保障數(shù)據(jù)安全。但不適合存儲大量小文件,且僅支持追加寫入,不支持隨機(jī)修改。34.【參考答案】ABC【解析】數(shù)據(jù)預(yù)處理是數(shù)據(jù)分析前的關(guān)鍵環(huán)節(jié),主要包括數(shù)據(jù)清洗(處理缺失、異常值)、數(shù)據(jù)集成(合并多源數(shù)據(jù))、數(shù)據(jù)變換(歸一化、離散化)等。數(shù)據(jù)可視化屬于后續(xù)的分析展示階段。35.【參考答案】ABD【解析】JSON是典型的半結(jié)構(gòu)化數(shù)據(jù)[[26]],電子郵件和社交媒體帖子包含文本、圖片等,屬于非結(jié)構(gòu)化數(shù)據(jù)。Excel表格具有固定行列結(jié)構(gòu),屬于結(jié)構(gòu)化數(shù)據(jù)。36.【參考答案】A,C【解析】Hadoop生態(tài)系統(tǒng)的核心是HDFS(分布式文件系統(tǒng))和MapReduce(分布式計(jì)算框架),因此A正確。Spark的核心優(yōu)勢在于其基于內(nèi)存的計(jì)算模型(RDD),這使其在處理迭代算法和實(shí)時數(shù)據(jù)流時比基于磁盤的MapReduce快得多,故C正確。B項(xiàng)錯誤,因?yàn)镾park恰恰是依賴內(nèi)存而非磁盤。D項(xiàng)錯誤,MapReduce的批處理模式啟動開銷大,不適合低延遲的交互式查詢[[1]][[6]]。37.【參考答案】C,D【解析】選擇排序無論數(shù)據(jù)初始狀態(tài)如何,其時間復(fù)雜度始終為O(n2),并且是不穩(wěn)定的,因?yàn)樗谶x擇最?。ɑ蜃畲螅┰氐倪^程中可能會改變相等元素的相對位置。堆排序的時間復(fù)雜度為O(nlogn),但它同樣不穩(wěn)定,因?yàn)樵谡{(diào)整堆結(jié)構(gòu)時會打亂相等元素的順序。冒泡排序是穩(wěn)定的,快速排序在平均情況下是O(nlogn)且不穩(wěn)定,但其時間復(fù)雜度并非總是O(n2)[[10]][[15]]。38.【參考答案】A,B,D【解析】ACID中的一致性確保數(shù)據(jù)的完整性約束不被破壞,A正確。隔離級別越高,為保證數(shù)據(jù)一致性所加的鎖越多,并發(fā)性能越差,B正確。讀已提交能防止臟讀,但不能防止不可重復(fù)讀,C錯誤。串行化通過強(qiáng)制事務(wù)串行執(zhí)行,能防止臟讀、不可重復(fù)讀和幻讀,D正確[[27]][[22]]。39.【參考答案】A,B,C【解析】TCP通過三次握手建立連接,提供可靠、有序的數(shù)據(jù)流傳輸,A正確。UDP不建立連接,也不保證可靠性或順序,但開銷小、速度快,B正確。HTTP作為應(yīng)用層協(xié)議,依賴TCP來確保數(shù)據(jù)完整傳輸,C正確。DNS查詢通常使用UDP,僅在響應(yīng)數(shù)據(jù)過大時才使用TCP,D錯誤[[38]]。40.【參考答案】A,B,C,D【解析】過擬合指模型過度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)的噪聲,導(dǎo)致泛化能力差,A正確。欠擬合則是因?yàn)槟P瓦^于簡單或特征不足,增加模型復(fù)雜度或特征可改善,B正確。精確率和召回率是從不同角度衡量分類性能的核心指標(biāo),C正確。更多樣化的訓(xùn)練數(shù)據(jù)能幫助模型學(xué)習(xí)到更普適的規(guī)律,從而減輕過擬合,D正確[[40]][[43]][[44]]。41.【參考答案】A.正確【解析】HDFS(HadoopDistributedFileSystem)確實(shí)采用主從架構(gòu),由一個主節(jié)點(diǎn)NameNode和多個從節(jié)點(diǎn)DataNode組成。NameNode負(fù)責(zé)存儲元數(shù)據(jù)(如文件目錄樹、塊位置信息等),管理文件系統(tǒng)的命名空間及協(xié)調(diào)客戶端讀寫請求;DataNode則負(fù)責(zé)實(shí)際數(shù)據(jù)塊的存儲與讀寫操作[[11]]。該設(shè)計(jì)確保了海量數(shù)據(jù)的高可靠分布式存儲。42.【參考答案】A.正確【解析】Spark通過引入RDD(彈性分布式數(shù)據(jù)集)實(shí)現(xiàn)內(nèi)存計(jì)算,并采用DAG調(diào)度器優(yōu)化任務(wù)執(zhí)行流程,避免了MapReduce中頻繁的磁盤I/O操作,顯著提升了迭代計(jì)算和交互式查詢的性能[[13]][[20]]。因此,在多數(shù)復(fù)雜計(jì)算場景下,Spark的速度遠(yuǎn)超傳統(tǒng)MapReduce。43.【參考答案】B.錯誤【解析】數(shù)據(jù)倉庫面向主題、集成、非易失且隨時間變化,主要用于支持決策分析(OLAP),存儲歷史數(shù)據(jù)并進(jìn)行復(fù)雜查詢;而數(shù)據(jù)庫(如MySQL、Oracle)才面向事務(wù)處理(OLTP),強(qiáng)調(diào)實(shí)時性、一致性和高并發(fā)的增刪改查操作[[21]][[27]]。二者設(shè)計(jì)目標(biāo)存在本質(zhì)差異。44.【參考答案】A.正確【解析】CAP定理(又稱布魯爾定理)明確指出:在分布式系統(tǒng)中,當(dāng)網(wǎng)絡(luò)分區(qū)(P)不可避免時,系統(tǒng)只能在一致性(所有節(jié)點(diǎn)數(shù)據(jù)一致)與可用性(每個請求都能得到響應(yīng))之間二選一[[31]][[38]]。例如,ZooKeeper選擇CP,而Cassandra傾向于AP。45.【參考答案】A.正確【解析】鍵值數(shù)據(jù)庫結(jié)構(gòu)簡單,僅通過唯一鍵快速存取值,具有極高的讀寫吞吐量與低延遲特性,在緩存、會話管理、計(jì)數(shù)器等場景中優(yōu)勢突出[[40]][[45]]。Redis作為典型代表,廣泛用于提升Web應(yīng)用性能,符合該描述。46.【參考答案】B.錯誤【解析】HDFS的核心設(shè)計(jì)目標(biāo)是高吞吐量的數(shù)據(jù)訪問,以支持大規(guī)模數(shù)據(jù)集的批處理任務(wù),而非低延遲的隨機(jī)讀寫。它通過將大文件分塊并分布式存儲來實(shí)現(xiàn)高容錯性和高吞吐量,但文件一旦寫入便不支持修改,且尋址開銷相對較高,這使其不適合需要毫秒級響應(yīng)的交互式應(yīng)用[[10]]。47.【參考答案】A.正確【解析】數(shù)據(jù)湖的核心特征就是能夠以原始格式(如日志、圖片、CSV、JSON等)存儲各種類型的數(shù)據(jù),無論是結(jié)構(gòu)化、半結(jié)構(gòu)化還是非結(jié)構(gòu)化。這與數(shù)據(jù)倉庫主要存儲經(jīng)過清洗、轉(zhuǎn)換的結(jié)構(gòu)化數(shù)據(jù)形成鮮明對比,為后續(xù)的靈活分析提供了基礎(chǔ)[[19]]。48.【參考答案】B.錯誤【解析】MapReduce的經(jīng)典執(zhí)行流程是:Map階段→ShuffleandSort階段→Reduce階段。ShuffleandSort是連接Map與Reduce的中間環(huán)節(jié),負(fù)責(zé)將Map任務(wù)的輸出進(jìn)行分區(qū)、排序、合并并傳輸給對應(yīng)的Reduce任務(wù)。因此,它發(fā)生在Map任務(wù)完成之后、Reduce任務(wù)開始之前[[12]]。49.【參考答案】A.正確【解析】Hive的核心作用正是為Hadoop提供數(shù)據(jù)倉庫功能。它將用戶編寫的HiveQL(HiveQueryLanguage)語句編譯為一系列的MapReduce(或Tez/Spark)任務(wù),從而實(shí)現(xiàn)對HDFS中海量數(shù)據(jù)的類SQL查詢,極大地降低了大數(shù)據(jù)分析的門檻[[13]]。50.【參考答案】B.錯誤【解析】支持日常、頻繁、簡單事務(wù)性操作的是OLTP(聯(lián)機(jī)事務(wù)處理)系統(tǒng),如銀行轉(zhuǎn)賬、訂單錄入等。而OLAP系統(tǒng)則是面向分析的,主要用于對歷史數(shù)據(jù)進(jìn)行復(fù)雜的、多維度的聚合分析和決策支持,其操作通常是讀多寫少、查詢復(fù)雜且數(shù)據(jù)量龐大[[1]]。

2025蘇州大數(shù)據(jù)有限公司招聘筆試歷年典型考點(diǎn)題庫附帶答案詳解(第2套)一、單項(xiàng)選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(xiàng)(共25題)1、在關(guān)系型數(shù)據(jù)庫中,用于確保表中某一列或多列組合的值唯一性的約束是?A.CHECKB.FOREIGNKEYC.PRIMARYKEYD.DEFAULT2、以下哪種數(shù)據(jù)結(jié)構(gòu)支持“先進(jìn)先出”(FIFO)的操作原則?A.棧B.隊(duì)列C.二叉樹D.哈希表3、在Python中,以下哪個關(guān)鍵字用于定義一個函數(shù)?A.defB.functionC.defineD.func4、在計(jì)算機(jī)網(wǎng)絡(luò)中,IP地址屬于哪一類私有地址?A.A類B.B類C.C類D.D類5、在機(jī)器學(xué)習(xí)中,用于衡量模型在訓(xùn)練數(shù)據(jù)上擬合過好而導(dǎo)致泛化能力下降的現(xiàn)象稱為?A.欠擬合B.過擬合C.正則化D.交叉驗(yàn)證6、在關(guān)系型數(shù)據(jù)庫中,用于確保表中某一列的值唯一且非空的約束是:A.FOREIGNKEYB.CHECKC.PRIMARYKEYD.UNIQUE7、以下哪種數(shù)據(jù)結(jié)構(gòu)在平均情況下插入、刪除和查找操作的時間復(fù)雜度均為O(logn)?A.數(shù)組B.鏈表C.哈希表D.平衡二叉搜索樹8、在Python中,以下哪個語句可以正確創(chuàng)建一個只包含鍵"age"且值為25的字典?A.dict={"age":25}B.dict=["age":25]C.dict=("age":25)D.dict={"age",25}9、在TCP/IP協(xié)議棧中,負(fù)責(zé)將IP地址轉(zhuǎn)換為物理地址(MAC地址)的協(xié)議是:A.DNSB.DHCPC.ARPD.ICMP10、以下關(guān)于線性回歸的描述中,錯誤的是:A.線性回歸假設(shè)因變量與自變量之間存在線性關(guān)系B.殘差是指實(shí)際值與預(yù)測值之間的差異C.線性回歸模型不能處理分類問題D.決定系數(shù)R2越小,模型擬合效果越好11、在Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)資源管理和作業(yè)調(diào)度的核心組件是?A.HDFSB.MapReduceC.YARND.HBase12、數(shù)據(jù)倉庫與傳統(tǒng)數(shù)據(jù)庫的主要區(qū)別在于?A.數(shù)據(jù)倉庫通常使用關(guān)系模型,而數(shù)據(jù)庫使用非關(guān)系模型B.數(shù)據(jù)庫面向事務(wù)處理(OLTP),數(shù)據(jù)倉庫面向分析處理(OLAP)C.數(shù)據(jù)庫存儲歷史數(shù)據(jù),數(shù)據(jù)倉庫只存儲當(dāng)前數(shù)據(jù)D.數(shù)據(jù)倉庫無法處理結(jié)構(gòu)化數(shù)據(jù)13、在Python的pandas庫中,用于按某一列或多列對DataFrame進(jìn)行排序的方法是?A.filter()B.sort_values()C.order_by()D.arrange()14、下列哪項(xiàng)不是解決機(jī)器學(xué)習(xí)模型過擬合的有效方法?A.增加訓(xùn)練數(shù)據(jù)量B.使用正則化技術(shù)(如L1、L2)C.提高模型復(fù)雜度D.采用Dropout(在神經(jīng)網(wǎng)絡(luò)中)15、關(guān)于大數(shù)據(jù)的“4V”特征,下列哪一項(xiàng)不屬于其中?A.Volume(數(shù)據(jù)量大)B.Velocity(處理速度快)C.Variety(數(shù)據(jù)類型多樣)D.Validity(數(shù)據(jù)有效性)16、在關(guān)系型數(shù)據(jù)庫中,用于確保表中某列或某幾列的值唯一且非空的約束是?A.CHECKB.FOREIGNKEYC.PRIMARYKEYD.UNIQUE17、下列哪項(xiàng)不是Python中用于處理異常的標(biāo)準(zhǔn)關(guān)鍵字?A.tryB.catchC.exceptD.finally18、在TCP/IP協(xié)議棧中,負(fù)責(zé)將數(shù)據(jù)包從源主機(jī)傳輸?shù)侥康闹鳈C(jī)的協(xié)議是?A.HTTPB.IPC.TCPD.UDP19、下列數(shù)據(jù)結(jié)構(gòu)中,屬于非線性結(jié)構(gòu)的是?A.隊(duì)列B.棧C.鏈表D.二叉樹20、在機(jī)器學(xué)習(xí)中,用于衡量模型在訓(xùn)練集上表現(xiàn)過好而在測試集上表現(xiàn)較差的現(xiàn)象稱為?A.欠擬合B.過擬合C.泛化誤差D.偏差21、在Hadoop生態(tài)系統(tǒng)中,負(fù)責(zé)分布式存儲的核心組件是?A.MapReduceB.YARNC.HDFSD.Hive22、下列關(guān)于算法時間復(fù)雜度的說法,正確的是?A.時間復(fù)雜度O(n)優(yōu)于O(logn)B.時間復(fù)雜度與程序運(yùn)行的具體硬件無關(guān)C.時間復(fù)雜度表示算法運(yùn)行的確切時間D.常數(shù)時間復(fù)雜度O(1)在所有情況下都比O(n)慢23、標(biāo)準(zhǔn)SQL查詢語句(SELECT...FROM...WHERE...GROUPBY...HAVING...ORDERBY)的實(shí)際邏輯執(zhí)行順序是?A.SELECT→FROM→WHERE→GROUPBY→HAVING→ORDERBYB.FROM→WHERE→GROUPBY→HAVING→SELECT→ORDERBYC.FROM→SELECT→WHERE→GROUPBY→ORDERBY→HAVINGD.WHERE→FROM→GROUPBY→SELECT→HAVING→ORDERBY24、在Python的Pandas庫中,用于基于整數(shù)位置進(jìn)行索引的數(shù)據(jù)選取方法是?A.locB.queryC.atD.iloc25、HBase數(shù)據(jù)庫最適合用于以下哪種場景?A.執(zhí)行復(fù)雜的多表關(guān)聯(lián)SQL查詢B.對海量數(shù)據(jù)進(jìn)行實(shí)時隨機(jī)讀寫C.進(jìn)行大規(guī)模離線批處理分析D.存儲和處理大量的非結(jié)構(gòu)化圖片文件二、多項(xiàng)選擇題下列各題有多個正確答案,請選出所有正確選項(xiàng)(共15題)26、以下關(guān)于大數(shù)據(jù)“4V”特征的描述,正確的有哪些?A.Volume(大量化):指數(shù)據(jù)的規(guī)模巨大B.Velocity(快速化):指數(shù)據(jù)的產(chǎn)生和處理速度非常快C.Variety(多樣化):指數(shù)據(jù)類型繁多,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)D.Veracity(真實(shí)性):指數(shù)據(jù)的真實(shí)性高、噪聲極少27、在Hadoop生態(tài)系統(tǒng)中,以下哪些組件屬于計(jì)算/處理引擎?A.HDFSB.MapReduceC.SparkD.YARN28、關(guān)于數(shù)據(jù)倉庫與數(shù)據(jù)湖的區(qū)別,以下說法正確的是?A.數(shù)據(jù)倉庫存儲的是經(jīng)過清洗、轉(zhuǎn)換的結(jié)構(gòu)化數(shù)據(jù)B.數(shù)據(jù)湖以原始格式(如JSON.日志、圖片)存儲數(shù)據(jù)C.數(shù)據(jù)倉庫通常需要預(yù)先定義Schema(模式)D.數(shù)據(jù)湖的數(shù)據(jù)必須經(jīng)過ETL處理后才能寫入29、ApacheSpark中的RDD(彈性分布式數(shù)據(jù)集)具備哪些核心特性?A.可分區(qū)性B.不可變性(只讀)C.可持久化D.支持隨機(jī)寫入單個元素30、以下關(guān)于NoSQL數(shù)據(jù)庫類型與其典型應(yīng)用場景的匹配,正確的有哪些?A.鍵值數(shù)據(jù)庫(如Redis)適用于緩存、會話存儲B.文檔數(shù)據(jù)庫(如MongoDB)適用于內(nèi)容管理系統(tǒng)、用戶配置存儲C.列式數(shù)據(jù)庫(如HBase)適用于高并發(fā)寫入、時序數(shù)據(jù)存儲D.圖數(shù)據(jù)庫(如Neo4j)適用于社交網(wǎng)絡(luò)關(guān)系分析31、以下關(guān)于分布式計(jì)算框架Hadoop的描述,正確的有:A.HDFS是其核心組件之一,用于分布式存儲[[24]]B.MapReduce負(fù)責(zé)在集群中并行執(zhí)行數(shù)據(jù)處理任務(wù)[[23]]C.能夠高效處理實(shí)時流數(shù)據(jù),延遲極低D.YARN負(fù)責(zé)集群資源管理和作業(yè)調(diào)度[[24]]32、大數(shù)據(jù)分析中常用的技術(shù)包括哪些?A.數(shù)據(jù)采集與預(yù)處理[[11]]B.分布式計(jì)算[[15]]C.機(jī)器學(xué)習(xí)與數(shù)據(jù)挖掘[[15]]D.數(shù)據(jù)可視化[[15]]33、相較于HadoopMapReduce,ApacheSpark的主要優(yōu)勢體現(xiàn)在:A.基于內(nèi)存計(jì)算,處理速度更快[[26]]B.支持批處理、流處理、SQL查詢和機(jī)器學(xué)習(xí)等多種計(jì)算范式[[26]]C.完全不需要磁盤讀寫操作D.易用性更好,提供了豐富的API[[26]]34、關(guān)于HDFS(Hadoop分布式文件系統(tǒng))的特點(diǎn),下列說法正確的是:A.適合存儲大量小文件B.采用主從架構(gòu),由NameNode和DataNode組成[[19]]C.數(shù)據(jù)塊默認(rèn)大小通常遠(yuǎn)大于傳統(tǒng)文件系統(tǒng)D.為提高可靠性,數(shù)據(jù)塊會在集群內(nèi)多節(jié)點(diǎn)復(fù)制存儲35、在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)預(yù)處理通常包含以下哪些步驟?A.數(shù)據(jù)清洗,處理缺失值和異常值[[13]]B.數(shù)據(jù)集成,合并來自不同來源的數(shù)據(jù)[[13]]C.數(shù)據(jù)變換,如歸一化或編碼[[13]]D.直接進(jìn)行深度神經(jīng)網(wǎng)絡(luò)訓(xùn)練36、關(guān)于ApacheSpark的核心優(yōu)勢,以下說法正確的是?A.Spark基于磁盤計(jì)算,因此比HadoopMapReduce更穩(wěn)定B.Spark提供了內(nèi)存計(jì)算能力,能顯著提升迭代算法的執(zhí)行效率C.Spark僅支持批處理,不支持流處理和交互式查詢D.Spark提供了統(tǒng)一的引擎,可同時支持SQL.流處理、機(jī)器學(xué)習(xí)和圖計(jì)算37、數(shù)據(jù)庫事務(wù)的ACID特性包含以下哪些內(nèi)容?A.原子性(Atomicity)B.一致性(Consistency)C.隔離性(Isolation)D.持久性(Durability)38、關(guān)于監(jiān)督學(xué)習(xí)與無監(jiān)督學(xué)習(xí)的區(qū)別,下列描述正確的是?A.監(jiān)督學(xué)習(xí)需要使用帶有標(biāo)簽的訓(xùn)練數(shù)據(jù)集B.無監(jiān)督學(xué)習(xí)的目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)內(nèi)部的結(jié)構(gòu)或模式C.聚類分析是監(jiān)督學(xué)習(xí)的典型任務(wù)D.回歸預(yù)測是無監(jiān)督學(xué)習(xí)的常見應(yīng)用39、在使用Python的pandas庫處理DataFrame時,以下哪些操作是正確的?A.使用`df['column_name']`可以選取名為`column_name`的單列B.使用`df.iloc[0,1]`可以根據(jù)整數(shù)位置選取第一行第二列的元素C.使用`df.loc['row_label','column_label']`可以根據(jù)行和列的標(biāo)簽進(jìn)行索引D.DataFrame不支持對多列同時進(jìn)行操作40、數(shù)據(jù)倉庫與傳統(tǒng)操作型數(shù)據(jù)庫的主要區(qū)別在于?A.數(shù)據(jù)庫面向事務(wù)處理(OLTP),數(shù)據(jù)倉庫面向分析處理(OLAP)B.數(shù)據(jù)庫主要存儲當(dāng)前的、細(xì)節(jié)性的業(yè)務(wù)數(shù)據(jù),數(shù)據(jù)倉庫存儲歷史的、集成的數(shù)據(jù)C.數(shù)據(jù)庫設(shè)計(jì)通常遵循范式以減少冗余,數(shù)據(jù)倉庫設(shè)計(jì)常采用星型或雪花模型以優(yōu)化查詢D.數(shù)據(jù)庫和數(shù)據(jù)倉庫在數(shù)據(jù)更新頻率上沒有區(qū)別三、判斷題判斷下列說法是否正確(共10題)41、HDFS(Hadoop分布式文件系統(tǒng))為了保證高可用性與容錯能力,其存儲數(shù)據(jù)塊的默認(rèn)副本數(shù)量是3。A.正確B.錯誤42、Spark中的RDD(彈性分布式數(shù)據(jù)集)一旦被創(chuàng)建,其內(nèi)容就是不可變的,任何轉(zhuǎn)換操作(Transformation)都會生成一個新的RDD。A.正確B.錯誤43、數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉庫(DataWarehouse)的核心區(qū)別在于,數(shù)據(jù)湖主要用于存儲經(jīng)過清洗、轉(zhuǎn)換后的高度結(jié)構(gòu)化數(shù)據(jù),而數(shù)據(jù)倉庫存儲的是原始格式的各種數(shù)據(jù)。A.正確B.錯誤44、在數(shù)據(jù)治理中,“數(shù)據(jù)血緣”(DataLineage)指的是追蹤數(shù)據(jù)從源頭系統(tǒng)到最終報(bào)表或應(yīng)用的整個生命周期中,所經(jīng)歷的加工、轉(zhuǎn)換和流轉(zhuǎn)過程。A.正確B.錯誤45、制定一套企業(yè)內(nèi)部的數(shù)據(jù)標(biāo)準(zhǔn)時,只需考慮自身業(yè)務(wù)需求,無需參考國家或行業(yè)已有的相關(guān)標(biāo)準(zhǔn)規(guī)范。A.正確B.錯誤46、在關(guān)系型數(shù)據(jù)庫中,主鍵(PrimaryKey)的值可以為NULL。A.正確B.錯誤47、Python中的列表(list)是不可變數(shù)據(jù)類型。A.正確B.錯誤48、在機(jī)器學(xué)習(xí)中,過擬合(Overfitting)通常表現(xiàn)為模型在訓(xùn)練集上表現(xiàn)很好,但在測試集上表現(xiàn)較差。A.正確B.錯誤49、HTTP協(xié)議默認(rèn)使用8080端口進(jìn)行通信。A.正確B.錯誤50、在Linux系統(tǒng)中,使用“rm-rf/”命令可以安全地刪除當(dāng)前用戶目錄下的所有文件。A.正確B.錯誤

參考答案及解析1.【參考答案】C【解析】PRIMARYKEY(主鍵)用于唯一標(biāo)識表中的每一行數(shù)據(jù),其值必須唯一且非空。FOREIGNKEY用于建立表間關(guān)聯(lián),CHECK用于限制列的取值范圍,DEFAULT用于設(shè)置默認(rèn)值。因此,確保唯一性的是主鍵約束。2.【參考答案】B【解析】隊(duì)列是一種線性數(shù)據(jù)結(jié)構(gòu),遵循先進(jìn)先出(FirstInFirstOut)原則,即最先進(jìn)入隊(duì)列的元素最先被移除。棧則遵循后進(jìn)先出(LIFO)原則。二叉樹和哈希表不具有固定的進(jìn)出順序。3.【參考答案】A【解析】在Python中,使用關(guān)鍵字def來定義函數(shù),其后接函數(shù)名和參數(shù)列表。其他選項(xiàng)如function、define、func并非Python的合法關(guān)鍵字,屬于其他編程語言(如JavaScript或C)中的用法。4.【參考答案】C【解析】根據(jù)RFC1918標(biāo)準(zhǔn),私有IP地址范圍包括:A類(–55)、B類(–55)、C類(–55)。屬于C類私有地址。5.【參考答案】B【解析】過擬合指模型在訓(xùn)練集上表現(xiàn)極佳,但在測試集或新數(shù)據(jù)上表現(xiàn)差,說明模型過度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)的噪聲和細(xì)節(jié),喪失了泛化能力。欠擬合則相反,指模型未能充分學(xué)習(xí)數(shù)據(jù)規(guī)律。正則化和交叉驗(yàn)證是緩解過擬合的技術(shù)手段。6.【參考答案】C【解析】PRIMARYKEY(主鍵)約束用于唯一標(biāo)識表中的每一行,它要求該列的值既唯一又非空。UNIQUE約束雖然也保證唯一性,但允許存在一個NULL值;而FOREIGNKEY用于建立表間引用關(guān)系,CHECK用于限定列值的范圍或條件。因此正確答案為C。7.【參考答案】D【解析】平衡二叉搜索樹(如AVL樹、紅黑樹)通過保持樹的平衡,使得查找、插入和刪除操作的時間復(fù)雜度穩(wěn)定在O(logn)。數(shù)組和鏈表在查找時需O(n),哈希表雖平均為O(1),但最壞情況下退化為O(n),且不保證有序。故選D。8.【參考答案】A【解析】Python中字典使用花括號{}定義,鍵值對用冒號分隔,如{"key":value}。選項(xiàng)B和C語法錯誤,方括號用于列表,圓括號用于元組;選項(xiàng)D使用逗號,定義的是集合(若元素可哈希),且集合無鍵值對概念。因此A正確。9.【參考答案】C【解析】ARP(AddressResolutionProtocol,地址解析協(xié)議)用于在局域網(wǎng)中根據(jù)目標(biāo)IP地址獲取對應(yīng)的MAC地址。DNS用于域名解析,DHCP用于自動分配IP地址,ICMP用于網(wǎng)絡(luò)差錯報(bào)告和診斷(如ping命令)。因此正確答案是C。10.【參考答案】D【解析】決定系數(shù)R2用于衡量模型對數(shù)據(jù)的解釋能力,其取值范圍為[0,1](或可能為負(fù)),R2越大表示模型擬合效果越好,而非越小越好。其余選項(xiàng)均正確:A是線性回歸的基本假設(shè),B是殘差的定義,C指出線性回歸適用于連續(xù)型因變量,不直接用于分類。因此D錯誤。11.【參考答案】C【解析】YARN(YetAnotherResourceNegotiator)是Hadoop2.x引入的資源管理框架,負(fù)責(zé)集群資源的統(tǒng)一管理和調(diào)度,支持多種計(jì)算框架(如MapReduce、Spark)運(yùn)行。HDFS負(fù)責(zé)分布式存儲,MapReduce是計(jì)算模型,HBase是分布式列式數(shù)據(jù)庫[[9]]。12.【參考答案】B【解析】數(shù)據(jù)庫設(shè)計(jì)用于支持日常業(yè)務(wù)操作和事務(wù)處理(OLTP),強(qiáng)調(diào)數(shù)據(jù)的實(shí)時性和一致性;而數(shù)據(jù)倉庫是為支持決策分析(OLAP)而構(gòu)建的,集成來自多個源的歷史數(shù)據(jù),面向主題且穩(wěn)定[[19]]。13.【參考答案】B【解析】pandas中DataFrame的sort_values()方法可根據(jù)指定列的值對數(shù)據(jù)進(jìn)行升序或降序排序,是數(shù)據(jù)預(yù)處理和分析中的常用操作。其他選項(xiàng)如filter()用于篩選,而order_by()和arrange()并非pandas原生方法[[37]]。14.【參考答案】C【解析】過擬合通常由模型過于復(fù)雜或數(shù)據(jù)不足引起。提高模型復(fù)雜度會加劇過擬合。有效方法包括增加數(shù)據(jù)、正則化、Dropout、早停和交叉驗(yàn)證等,這些都能提升模型泛化能力[[42]]。15.【參考答案】D【解析】大數(shù)據(jù)的4V特征指Volume(大量)、Velocity(高速)、Variety(多樣)和Veracity(真實(shí)性/準(zhǔn)確性)。Validity(有效性)雖與數(shù)據(jù)質(zhì)量相關(guān),但并非標(biāo)準(zhǔn)4V之一,常見擴(kuò)展為5V時會包含Value(價(jià)值)[[5]]。16.【參考答案】C【解析】PRIMARYKEY(主鍵)約束用于唯一標(biāo)識表中的每一行,其值必須唯一且不能為空。UNIQUE約束也要求唯一性,但允許空值;FOREIGNKEY用于建立表間引用關(guān)系;CHECK用于限制列的取值范圍。因此正確答案為C。17.【參考答案】B【解析】Python使用try、except、else和finally進(jìn)行異常處理,其中沒有“catch”關(guān)鍵字,這是其他語言(如Java、C#)中的用法。Python中捕獲異常使用except,因此B選項(xiàng)錯誤,為本題答案。18.【參考答案】B【解析】IP(InternetProtocol)是網(wǎng)絡(luò)層協(xié)議,負(fù)責(zé)數(shù)據(jù)包的路由和尋址,實(shí)現(xiàn)端到端的傳輸。TCP和UDP是傳輸層協(xié)議,提供端口級通信;HTTP是應(yīng)用層協(xié)議。因此,負(fù)責(zé)主機(jī)間數(shù)據(jù)包傳輸?shù)氖荌P協(xié)議。19.【參考答案】D【解析】線性結(jié)構(gòu)中數(shù)據(jù)元素之間存在一對一的關(guān)系(如數(shù)組、鏈表、棧、隊(duì)列),而非線性結(jié)構(gòu)如樹、圖中,元素間存在一對多或多對多關(guān)系。二叉樹是典型的非線性結(jié)構(gòu),故選D。20.【參考答案】B【解析】過擬合指模型在訓(xùn)練數(shù)據(jù)上學(xué)習(xí)得太好,捕捉到了噪聲或細(xì)節(jié),導(dǎo)致在新數(shù)據(jù)上泛化能力差。欠擬合則是模型未能充分學(xué)習(xí)數(shù)據(jù)特征;泛化誤差是模型在未知數(shù)據(jù)上的誤差;偏差是模型預(yù)測與真實(shí)值的系統(tǒng)性偏離。因此正確答案為B。21.【參考答案】C【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系統(tǒng),負(fù)責(zé)將大規(guī)模數(shù)據(jù)集可靠地存儲在集群的多個節(jié)點(diǎn)上,是Hadoop生態(tài)系統(tǒng)中最基礎(chǔ)的存儲層。MapReduce負(fù)責(zé)計(jì)算,YARN負(fù)責(zé)資源調(diào)度,Hive則提供類SQL查詢功能[[9]]。22.【參考答案】B【解析】時間復(fù)雜度是衡量算法執(zhí)行時間隨問題規(guī)模n增長的趨勢,是理論上的漸進(jìn)估計(jì),不依賴于具體硬件、編程語言或常數(shù)因子,用于比較算法效率的優(yōu)劣。O(1)優(yōu)于O(logn)優(yōu)于O(n),且時間復(fù)雜度描述的是增長量級,并非確切運(yùn)行時間[[22]]。23.【參考答案】B【解析】SQL的書寫順序與執(zhí)行順序不同。數(shù)據(jù)庫引擎首先確定數(shù)據(jù)源(FROM),然后進(jìn)行行過濾(WHERE),接著分組(GROUPBY),再對分組結(jié)果進(jìn)行條件篩選(HAVING),之后選擇要返回的列(SELECT),最后進(jìn)行排序(ORDERBY)[[28]]。24.【參考答案】D【解析】iloc是Pandas中基于整數(shù)位置(從0開始)進(jìn)行索引的方法,適用于通過行號和列號來選擇數(shù)據(jù)。而loc是基于標(biāo)簽(如索引名稱或列名)進(jìn)行索引。query用于條件查詢,at用于快速訪問單個標(biāo)量值[[40]]。25.【參考答案】B【解析】HBase是一個分布式的、面向列的NoSQL數(shù)據(jù)庫,構(gòu)建在HDFS之上,其設(shè)計(jì)目標(biāo)是提供對海量數(shù)據(jù)的高并發(fā)、低延遲的實(shí)時讀寫能力,特別適合需要隨機(jī)訪問、快速寫入的場景,而非復(fù)雜的SQL關(guān)聯(lián)查詢或離線批處理[[14]]。26.【參考答案】A、B、C【解析】大數(shù)據(jù)經(jīng)典“4V”特征通常指Volume(大量)、Velocity(高速)、Variety(多樣)和Value(低價(jià)值密度),部分?jǐn)U展版本引入Veracity(真實(shí)性),但其并非原始4V核心之一,且大數(shù)據(jù)的真實(shí)性和可信度常是挑戰(zhàn)而非固有優(yōu)勢。因此D項(xiàng)表述不準(zhǔn)確[[5]]。27.【參考答案】B、C【解析】HDFS是分布式文件系統(tǒng),屬于**存儲層**;YARN是**資源調(diào)度與管理框架**;而MapReduce與Spark均為分布式**計(jì)算引擎**,分別擅長批處理與內(nèi)存迭代計(jì)算[[9]][[10]]。28.【參考答案】A、B、C【解析】數(shù)據(jù)倉庫強(qiáng)調(diào)“Schema-on-write”,即數(shù)據(jù)寫入前需完成ETL和建模;數(shù)據(jù)湖采用“Schema-on-read”,支持原始格式存儲,讀取時再解析結(jié)構(gòu)[[18]][[20]]。D項(xiàng)錯誤,數(shù)據(jù)湖無需提前ETL。29.【參考答案】A、B、C【解析】RDD是只讀、分區(qū)的分布式數(shù)據(jù)集合,支持通過轉(zhuǎn)換操作生成新RDD,可被緩存/持久化到內(nèi)存或磁盤以提升性能;但**不支持隨機(jī)修改或?qū)懭雴蝹€元素**,D項(xiàng)錯誤[[28]][[32]][[33]]。30.【參考答案】A、B、C、D【解析】鍵值庫適合簡單高速讀寫;文檔庫靈活支持半結(jié)構(gòu)化數(shù)據(jù);列式庫擅長海量數(shù)據(jù)高效寫入與掃描;圖數(shù)據(jù)庫專為關(guān)系挖掘設(shè)計(jì),四者場景匹配準(zhǔn)確[[38]][[40]][[46]]。31.【參考答案】ABD【解析】Hadoop的核心包括HDFS(存儲)、MapReduce(計(jì)算)和YARN(資源管理)[[24]]。HDFS將大數(shù)據(jù)集分塊存儲于集群中[[23]],MapReduce實(shí)現(xiàn)分布式并行處理[[23]],YARN進(jìn)行資源調(diào)度[[24]]。但Hadoop不擅長低延遲的實(shí)時流處理,此為Flink等框架的優(yōu)勢[[27]]。32.【參考答案】ABCD【解析】大數(shù)據(jù)分析流程涵蓋數(shù)據(jù)采集、清洗預(yù)處理[[11]]、利用分布式計(jì)算框架(如Hadoop、Spark)進(jìn)行處理[[15]],并通過機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘技術(shù)提取價(jià)值[[15]],最終以可視化方式展現(xiàn)結(jié)果[[15]]。33.【參考答案】ABD【解析】Spark通過內(nèi)存計(jì)算顯著提升性能,并支持批處理、流處理、交互式查詢和機(jī)器學(xué)習(xí)等[[26]]。它提供了更高級、易用的API。盡管減少了磁盤I/O,但在內(nèi)存不足或特定操作時仍會使用磁盤,故C錯誤。34.【參考答案】BCD【解析】HDFS采用NameNode(主)和DataNode(從)的架構(gòu)[[19]]。其數(shù)據(jù)塊(block)大小通常為128MB或更大,遠(yuǎn)超傳統(tǒng)文件系統(tǒng),旨在優(yōu)化大文件順序讀取[[19]]。數(shù)據(jù)塊會默認(rèn)三副本存儲于不同節(jié)點(diǎn)以保證容錯性。但大量小文件會占用過多NameNode內(nèi)存,故不適合。35.【參考答案】ABC【解析】數(shù)據(jù)預(yù)處理是分析前的關(guān)鍵步驟,包括清洗(處理臟數(shù)據(jù))[[13]]、集成(整合多源數(shù)據(jù))

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論