版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
2025浙江溫州甌江口大數(shù)據(jù)有限公司招聘工作人員19人筆試歷年備考題庫附帶答案詳解(第1套)一、單項選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(共30題)1、在數(shù)據(jù)清洗過程中,對于數(shù)據(jù)集中出現(xiàn)的缺失值,以下哪種方法通常不推薦作為首選方案,因為它可能導(dǎo)致樣本代表性下降和信息丟失?A.使用均值或中位數(shù)進行插補B.根據(jù)業(yè)務(wù)邏輯進行合理填充C.直接刪除包含缺失值的所有記錄D.使用預(yù)測模型估算缺失值2、在SQL查詢語句中,若要對查詢結(jié)果按某一列進行分組并計算每組的平均值,應(yīng)使用哪個子句?A.ORDERBYB.WHEREC.GROUPBYD.HAVING3、在數(shù)據(jù)可視化中,為了清晰地展示某產(chǎn)品在過去一年中月度銷售額的變化趨勢,最合適的圖表類型是?A.餅圖B.柱狀圖C.散點圖D.折線圖4、在數(shù)據(jù)結(jié)構(gòu)中,下列哪種結(jié)構(gòu)遵循“后進先出”(LIFO)的訪問原則?A.隊列B.數(shù)組C.鏈表D.棧5、數(shù)據(jù)分析的基本流程通常包括:明確目標、收集數(shù)據(jù)、數(shù)據(jù)清洗、數(shù)據(jù)分析與建模、結(jié)果呈現(xiàn)。在這些步驟中,哪一步是確保后續(xù)分析準確性的關(guān)鍵前提?A.明確分析目標B.收集數(shù)據(jù)C.數(shù)據(jù)清洗D.結(jié)果呈現(xiàn)6、在關(guān)系型數(shù)據(jù)庫的SQL查詢語句中,當(dāng)同時包含WHERE、GROUPBY和HAVING子句時,其邏輯執(zhí)行的正確順序是?A.WHERE→GROUPBY→HAVINGB.GROUPBY→WHERE→HAVINGC.HAVING→GROUPBY→WHERED.WHERE→HAVING→GROUPBY7、關(guān)于HTTP協(xié)議中的301和302狀態(tài)碼,以下說法正確的是?A.301和302均表示臨時重定向,對搜索引擎的影響相同B.301表示永久重定向,搜索引擎會將舊網(wǎng)址的權(quán)重轉(zhuǎn)移到新網(wǎng)址C.302表示永久重定向,瀏覽器會緩存該重定向關(guān)系D.301和302都需要用戶手動確認才能跳轉(zhuǎn)8、在Linux系統(tǒng)中,若需要實時動態(tài)地查看當(dāng)前占用CPU資源最高的前5個進程,應(yīng)使用以下哪個命令組合?A.`psaux|sort-k3nr|head-5`B.`free-m|head-5`C.`top-n1|head-10`D.`df-h|sort-k5nr|head-5`9、在TCP協(xié)議的三次握手中,客戶端向服務(wù)器發(fā)送的第一個數(shù)據(jù)包(SYN包)中,SYN和ACK標志位的設(shè)置分別是?A.SYN=1,ACK=1B.SYN=0,ACK=1C.SYN=1,ACK=0D.SYN=0,ACK=010、以下數(shù)據(jù)結(jié)構(gòu)中,最適合用于實現(xiàn)一個需要“先進先出”(FIFO)特性的任務(wù)調(diào)度隊列的是?A.棧(Stack)B.二叉搜索樹(BinarySearchTree)C.隊列(Queue)D.哈希表(HashTable)11、在SQL查詢中,以下哪個子句不能直接使用聚合函數(shù)(如COUNT,SUM,AVG)?A.SELECTB.HAVINGC.WHERED.ORDERBY12、Python的pandas庫中,以下哪個方法可以用于將DataFrame的列名“old_col”修改為“new_col”?A.df.columns[0]='new_col'B.df.set_index('new_col')C.df.rename(columns={'old_col':'new_col'})D.df.modify(cols={'old_col':'new_col'})13、在數(shù)據(jù)治理中,“指數(shù)據(jù)項信息是否全面、無缺失”的質(zhì)量維度是?A.準確性B.一致性C.唯一性D.完整性14、在Linux系統(tǒng)中,要從名為“l(fā)og.txt”的文件中提取每一行的第二個字段(假設(shè)字段以空格分隔),最合適的命令是?A.grep""log.txt|cut-d''-f2B.awk'{print$2}'log.txtC.sed's//\n/g'log.txt|head-n2|tail-n1D.catlog.txt|wc-w15、在數(shù)據(jù)庫設(shè)計中,為經(jīng)常用于查詢條件的列(如用戶ID)創(chuàng)建索引,主要目的是?A.確保該列數(shù)據(jù)的唯一性B.減少該列所占用的存儲空間C.加快基于該列的查詢速度D.自動為該列生成遞增的值16、在關(guān)系型數(shù)據(jù)庫中,用于從表中檢索數(shù)據(jù)的SQL語句是?A.UPDATEB.INSERTC.DELETED.SELECT17、下列數(shù)據(jù)結(jié)構(gòu)中,哪一種遵循“先進先出”(FIFO)的原則?A.棧B.隊列C.二叉樹D.哈希表18、在Linux系統(tǒng)中,用于查看當(dāng)前目錄下所有文件(包括隱藏文件)的命令是?A.lsB.ls-aC.dirD.pwd19、TCP協(xié)議位于OSI七層模型中的哪一層?A.物理層B.數(shù)據(jù)鏈路層C.網(wǎng)絡(luò)層D.傳輸層20、在Python中,用于定義一個函數(shù)的關(guān)鍵字是?A.defB.functionC.defineD.lambda21、在關(guān)系型數(shù)據(jù)庫中,要查詢“學(xué)生成績表”中“數(shù)學(xué)”科目分數(shù)大于等于90分的所有記錄,并按分數(shù)降序排列,下列SQL語句中正確的是?A.SELECT*FROM學(xué)生成績表WHERE科目='數(shù)學(xué)'AND分數(shù)>=90ORDERBY分數(shù)ASC;B.SELECT*FROM學(xué)生成績表WHERE科目='數(shù)學(xué)'OR分數(shù)>=90ORDERBY分數(shù)DESC;C.SELECT*FROM學(xué)生成績表WHERE科目='數(shù)學(xué)'AND分數(shù)>=90ORDERBY分數(shù)DESC;D.SELECT*FROM學(xué)生成績表WHERE科目='數(shù)學(xué)'AND分數(shù)>90ORDERBY分數(shù)DESC;22、在數(shù)據(jù)結(jié)構(gòu)中,若需要頻繁地在數(shù)據(jù)集合的頭部和尾部進行插入和刪除操作,以下哪種數(shù)據(jù)結(jié)構(gòu)的時間復(fù)雜度最優(yōu)?A.數(shù)組B.單向鏈表C.雙向鏈表D.棧23、在Python的pandas庫中,若有一個名為`df`的DataFrame,要查看其前5行數(shù)據(jù),應(yīng)使用以下哪個方法?A.`df.first(5)`B.`df.head(5)`C.`df.preview(5)`D.`df.show(5)`24、在數(shù)據(jù)治理的“DAMADMBOK2”框架中,下列哪一項不屬于數(shù)據(jù)質(zhì)量的六大核心維度?A.完備性B.唯一性C.時效性D.可計算性25、假設(shè)有一個無序數(shù)組,其長度為n。現(xiàn)需要找出其中第k小的元素(k遠小于n),以下哪種算法策略在平均時間復(fù)雜度上最優(yōu)?A.先對整個數(shù)組進行快速排序,然后取索引為k-1的元素。B.使用冒泡排序,進行k輪后取第一個元素。C.使用“快速選擇”(Quickselect)算法。D.將數(shù)組所有元素插入最小堆,然后連續(xù)彈出k次。26、在數(shù)據(jù)結(jié)構(gòu)中,對于一個完全二叉樹,若其按層序(從上到下,從左到右)存儲在一維數(shù)組中,根節(jié)點的索引為0,則索引為i的節(jié)點的左子節(jié)點的索引是?A.2iB.2i+1C.2i+2D.i/227、在SQL中,要查詢所有價格(price字段)大于100且類別(category)為'Electronics'的商品,以下WHERE子句寫法正確的是?A.WHEREprice>100ORcategory='Electronics'B.WHEREprice>100ANDcategory='Electronics'C.WHEREprice>100,category='Electronics'D.WHEREprice>100&category='Electronics'28、Python中,執(zhí)行語句`list1=[1,2];list2=list1;list2.append(3)`后,`list1`的值是?A.[1,2]B.[1,2,3]C.[3]D.報錯29、關(guān)于數(shù)據(jù)庫索引(Index),下列說法錯誤的是?A.索引可以顯著提高數(shù)據(jù)查詢速度B.索引會占用額外的存儲空間C.對頻繁更新的字段建立索引總是有利的D.主鍵(PrimaryKey)會自動創(chuàng)建唯一索引30、在HTTP協(xié)議中,狀態(tài)碼“404”表示?A.服務(wù)器內(nèi)部錯誤B.請求成功C.客戶端請求的資源未找到D.服務(wù)器拒絕請求二、多項選擇題下列各題有多個正確答案,請選出所有正確選項(共15題)31、在數(shù)據(jù)結(jié)構(gòu)中,關(guān)于棧(Stack)的描述,以下哪些是正確的?A.棧是一種后進先出(LIFO)的線性結(jié)構(gòu)B.允許在棧的任意位置插入和刪除元素C.棧頂是進行插入和刪除操作的唯一端口D.用數(shù)組實現(xiàn)的棧,其最大容量在初始化時通常需要預(yù)先確定32、執(zhí)行SQL語句時,關(guān)于`GROUPBY`子句的使用,下列說法正確的是?A.`SELECT`子句中所有非聚合列必須出現(xiàn)在`GROUPBY`子句中B.`GROUPBY`可以單獨使用,無需配合聚合函數(shù)C.`HAVING`子句用于對分組后的結(jié)果進行過濾D.`GROUPBY`會對NULL值進行特殊處理,將其排除在分組之外33、在Python的pandas庫中,以下哪些方法可用于查看DataFrame的基本信息?A.`df.head(n)`B.`df.describe()`C.`()`D.`df.shape`34、數(shù)據(jù)庫事務(wù)的ACID特性中,關(guān)于“一致性(Consistency)”的正確理解是?A.指事務(wù)執(zhí)行前后,數(shù)據(jù)庫必須從一個一致狀態(tài)轉(zhuǎn)移到另一個一致狀態(tài)B.由應(yīng)用程序的業(yè)務(wù)邏輯來保證C.即使發(fā)生系統(tǒng)故障,已提交的事務(wù)對數(shù)據(jù)庫的修改也不會丟失D.是指多個并發(fā)事務(wù)的執(zhí)行結(jié)果與它們串行執(zhí)行的結(jié)果相同35、下列數(shù)據(jù)結(jié)構(gòu)中,哪些適用于實現(xiàn)“先到先得”的排隊場景?A.隊列(Queue)B.棧(Stack)C.雙端隊列(Deque)D.優(yōu)先隊列(PriorityQueue)36、在pandas中,以下哪些操作可以用于刪除DataFrame中的列?A.`deldf['column_name']`B.`df.drop(columns=['column_name'],inplace=True)`C.`df.pop('column_name')`D.`df=df[df.columns.difference(['column_name'])]`37、關(guān)于時間復(fù)雜度,以下說法正確的是?A.O(1)表示算法的執(zhí)行時間與輸入規(guī)模無關(guān)B.對于已排序數(shù)組,查找特定元素的最優(yōu)時間復(fù)雜度是O(logn)C.冒泡排序的平均和最壞時間復(fù)雜度均為O(n2)D.哈希表(理想情況下)的查找、插入、刪除操作平均時間復(fù)雜度為O(1)38、在SQL中,以下哪些聚合函數(shù)會忽略`NULL`值?A.`COUNT(*)`B.`COUNT(column_name)`C.`SUM(column_name)`D.`AVG(column_name)`39、在pandas中,關(guān)于`loc`和`iloc`的描述,正確的是?A.`loc`基于標簽(label)進行索引B.`iloc`基于整數(shù)位置(integerposition)進行索引C.兩者都支持布爾索引D.`df.loc[0]`與`df.iloc[0]`在任何情況下都返回相同的行40、數(shù)據(jù)庫事務(wù)的隔離性(Isolation)主要為了解決哪些并發(fā)問題?A.臟讀(DirtyRead)B.不可重復(fù)讀(Non-repeatableRead)C.幻讀(PhantomRead)D.數(shù)據(jù)冗余41、在SQL查詢中,關(guān)于LEFTJOIN操作,以下哪些說法是正確的?A.LEFTJOIN會返回左表中的所有記錄,即使右表中沒有匹配的記錄B.LEFTJOIN返回的結(jié)果集中,右表無匹配記錄的字段值為NULLC.LEFTJOIN和INNERJOIN在結(jié)果集大小上總是相同的D.使用LEFTJOIN時,ON子句是必需的,不能省略42、在數(shù)據(jù)分析的數(shù)據(jù)清洗階段,以下哪些是常見的處理方法?A.刪除重復(fù)的數(shù)據(jù)記錄B.用中位數(shù)填充數(shù)值型變量的缺失值C.將所有缺失值直接忽略,不作任何處理D.識別并處理數(shù)據(jù)中的異常值(離群值)43、下列哪些圖表類型適合用于展示數(shù)據(jù)的分布情況?A.柱狀圖B.直方圖C.箱線圖D.餅圖44、關(guān)于SQL中的聚合函數(shù),以下哪些陳述是正確的?A.COUNT(*)函數(shù)用于統(tǒng)計表中所有行的數(shù)量,包括NULL值B.AVG()函數(shù)會自動忽略NULL值進行平均值計算C.SUM()函數(shù)對包含NULL值的列求和時,NULL值會被視為0D.MAX()和MIN()函數(shù)可以用于數(shù)值型和字符型數(shù)據(jù)45、在進行數(shù)據(jù)可視化時,選擇圖表類型應(yīng)考慮哪些因素?A.數(shù)據(jù)的類型(如分類數(shù)據(jù)、連續(xù)數(shù)據(jù))B.想要傳達的核心信息(如比較、分布、關(guān)系)C.數(shù)據(jù)量的大小D.圖表的顏色是否美觀三、判斷題判斷下列說法是否正確(共10題)46、數(shù)據(jù)脫敏是一種安全技術(shù),其主要目的是在不改變數(shù)據(jù)格式的前提下,通過替換、屏蔽等方式保護敏感信息,使其在非生產(chǎn)環(huán)境中無法被還原為原始數(shù)據(jù)。A.正確B.錯誤47、在關(guān)系型數(shù)據(jù)庫設(shè)計中,滿足第三范式(3NF)的表,其所有非主屬性不僅完全依賴于主鍵,而且不存在傳遞依賴。A.正確B.錯誤48、ETL流程中的“T”代表Transform(轉(zhuǎn)換),其核心工作包括數(shù)據(jù)清洗、格式標準化、業(yè)務(wù)規(guī)則計算和數(shù)據(jù)聚合等。A.正確B.錯誤49、根據(jù)《中華人民共和國個人信息保護法》,只要對個人信息進行了匿名化處理,使其無法識別特定個人且不能復(fù)原,該信息就不再屬于法律定義的“個人信息”。A.正確B.錯誤50、在SQL中,使用`LEFTJOIN`進行多表連接時,結(jié)果集會包含左表的所有記錄,即使右表中沒有匹配的記錄,其對應(yīng)字段也會以`NULL`值填充。A.正確B.錯誤51、數(shù)據(jù)治理(DataGovernance)的職責(zé)僅限于IT部門,業(yè)務(wù)部門無需參與數(shù)據(jù)標準的制定與執(zhí)行。A.正確B.錯誤52、數(shù)據(jù)庫索引能顯著提升查詢速度,因此在所有經(jīng)常用于查詢條件的字段上都應(yīng)創(chuàng)建索引。A.正確B.錯誤53、在數(shù)據(jù)倉庫中,星型模型(StarSchema)由一個事實表和多個維度表組成,維度表之間通常不存在直接的關(guān)聯(lián)關(guān)系。A.正確B.錯誤54、數(shù)據(jù)血緣(DataLineage)分析主要用于追蹤數(shù)據(jù)從源頭到最終報表的整個流轉(zhuǎn)路徑,從而輔助問題排查、影響分析和合規(guī)審計。A.正確B.錯誤55、HTTPS協(xié)議通過在HTTP與TCP層之間加入SSL/TLS協(xié)議,實現(xiàn)了數(shù)據(jù)傳輸?shù)募用?、身份認證和完整性校驗。A.正確B.錯誤
參考答案及解析1.【參考答案】C【解析】直接刪除包含缺失值的記錄(刪除法)雖然操作簡單,但當(dāng)缺失值比例較高或非隨機缺失時,會顯著減少樣本量,破壞數(shù)據(jù)的分布特征,導(dǎo)致分析結(jié)果出現(xiàn)偏差,代表性下降[[15]]。相比之下,插補(如均值、中位數(shù))、基于模型的預(yù)測或利用業(yè)務(wù)知識填充,能更好地保留數(shù)據(jù)的完整性和信息量,是更優(yōu)的處理策略[[13]]。2.【參考答案】C【解析】GROUPBY子句用于將查詢結(jié)果集按照一個或多個列的值進行分組,以便對每個組應(yīng)用聚合函數(shù)(如AVG(),COUNT(),SUM())[[20]]。例如,要計算不同部門的平均工資,需使用GROUPBY部門列。ORDERBY用于排序,WHERE用于篩選行,HAVING用于篩選分組后的結(jié)果[[26]]。3.【參考答案】D【解析】折線圖通過連接數(shù)據(jù)點的線條來展示數(shù)據(jù)隨時間(或其他連續(xù)變量)變化的趨勢,非常適合表現(xiàn)銷售額、溫度等隨時間連續(xù)變化的動態(tài)過程[[36]]。餅圖適用于展示各部分占總體的比例,柱狀圖擅長比較不同類別的離散數(shù)據(jù),散點圖則用于觀察兩個變量間的相關(guān)性[[31]]。4.【參考答案】D【解析】棧(Stack)是一種線性數(shù)據(jù)結(jié)構(gòu),其特點是只允許在一端(稱為棧頂)進行插入和刪除操作,遵循“后進先出”(LastIn,FirstOut,LIFO)的原則[[46]]。與之相對,隊列(Queue)遵循“先進先出”(FIFO)原則[[47]]。數(shù)組和鏈表本身是存儲結(jié)構(gòu),其訪問方式取決于具體實現(xiàn)和操作。5.【參考答案】C【解析】數(shù)據(jù)清洗是將原始數(shù)據(jù)轉(zhuǎn)化為高質(zhì)量、一致、完整數(shù)據(jù)的關(guān)鍵步驟,它處理缺失值、異常值、重復(fù)數(shù)據(jù)和格式不一致等問題[[54]]。如果數(shù)據(jù)本身存在嚴重質(zhì)量問題,無論后續(xù)的分析模型多么先進或目標多么明確,最終的分析結(jié)果都可能失真,因此數(shù)據(jù)清洗是保障分析準確性的基石[[53]]。6.【參考答案】A【解析】SQL語句的邏輯執(zhí)行順序與書寫順序不同。其核心順序是:首先執(zhí)行FROM/JOIN確定數(shù)據(jù)源,然后執(zhí)行WHERE子句對原始數(shù)據(jù)進行初步篩選;接著使用GROUPBY對篩選后的數(shù)據(jù)進行分組;HAVING子句緊隨其后,用于對分組后的結(jié)果集進行二次篩選(此時可以使用聚合函數(shù));最后才是SELECT、ORDERBY和LIMIT等操作[[11]]。因此,WHERE必須在GROUPBY之前,而HAVING必須在GROUPBY之后[[15]]。7.【參考答案】B【解析】301(MovedPermanently)表示請求的資源已被永久移動到新的URL,搜索引擎在抓取新內(nèi)容時,會將舊網(wǎng)址的權(quán)重(如PageRank)轉(zhuǎn)移到新網(wǎng)址,對SEO友好[[26]]。而302(Found)表示臨時重定向,搜索引擎會保留舊網(wǎng)址,并可能因為頻繁的302跳轉(zhuǎn)產(chǎn)生URL規(guī)范化問題[[24]]。兩者對用戶而言效果都是自動跳轉(zhuǎn),無需手動確認[[24]]。8.【參考答案】A【解析】`psaux`命令可以列出所有進程的詳細信息,其中第3列(k3)是CPU占用率。`sort-k3nr`表示根據(jù)第3列進行數(shù)值(n)降序(r)排序。`head-5`則提取排序后的前5行,即CPU占用最高的5個進程[[29]]。`free`用于查看內(nèi)存,`df`用于查看磁盤空間,均不符合題意。`top`命令雖能實時查看,但`-n1`選項僅執(zhí)行一次后即退出,且其默認輸出包含表頭,直接用`head`截取不精確。9.【參考答案】C【解析】TCP三次握手的第一步是客戶端發(fā)起連接請求,此時發(fā)送的報文段中,SYN(SynchronizeSequenceNumbers)標志位被置為1,表示希望建立連接并同步序列號;而ACK(Acknowledgement)標志位為0,因為此時尚未收到服務(wù)器的任何數(shù)據(jù),無需確認[[41]]。服務(wù)器收到后,會在第二步回復(fù)SYN=1且ACK=1的報文(即SYN-ACK包)[[44]]。10.【參考答案】C【解析】隊列(Queue)是基礎(chǔ)數(shù)據(jù)結(jié)構(gòu)之一,其核心操作是“入隊”(enqueue,在隊尾添加)和“出隊”(dequeue,在隊首移除),天然符合“先進先出”(FIFO)的原則,是任務(wù)調(diào)度、緩沖處理等場景的標準選擇[[2]]。棧遵循“后進先出”(LIFO);二叉搜索樹用于高效查找、插入和刪除;哈希表則提供平均O(1)時間復(fù)雜度的鍵值存取,三者均不滿足FIFO要求。11.【參考答案】C【解析】WHERE子句用于在分組前對行進行過濾,其執(zhí)行順序早于聚合函數(shù)的計算,因此不能直接使用聚合函數(shù)。若需要對分組后的結(jié)果進行過濾,則應(yīng)使用HAVING子句,它在GROUPBY之后執(zhí)行,允許使用聚合函數(shù)[[17]]。SELECT和ORDERBY子句均可以使用聚合函數(shù)。12.【參考答案】C【解析】`df.rename(columns={'old_col':'new_col'})`是pandas中標準的重命名列的方法,通過傳入一個字典來映射舊列名到新列名[[28]]。選項A直接修改索引對象,在某些pandas版本中可能無效或引發(fā)警告;B用于設(shè)置索引;D方法不存在。13.【參考答案】D【解析】完整性(Completeness)是數(shù)據(jù)質(zhì)量的核心維度之一,特指數(shù)據(jù)記錄或字段沒有缺失值,信息全面。準確性指數(shù)據(jù)與真實情況相符;一致性指同一實體在不同數(shù)據(jù)集中的信息無矛盾;唯一性指記錄無重復(fù)[[33]]。14.【參考答案】B【解析】`awk'{print$2}'`是處理此類任務(wù)最簡潔高效的方式。awk默認以空格為分隔符,`$2`即代表每行的第二個字段[[42]]。grep用于匹配行,sed用于流編輯,wc用于計數(shù),均不擅長按字段提取。15.【參考答案】C【解析】索引的核心作用是加速數(shù)據(jù)檢索。它類似于書籍的目錄,通過建立額外的數(shù)據(jù)結(jié)構(gòu)(如B+樹),使數(shù)據(jù)庫系統(tǒng)能快速定位到滿足查詢條件的記錄,從而大幅提升查詢效率[[1]]。主鍵約束用于確保唯一性,`AUTO_INCREMENT`用于生成遞增值,而索引本身會增加存儲開銷。16.【參考答案】D【解析】在SQL(結(jié)構(gòu)化查詢語言)中,SELECT語句是專門用于從一個或多個表中查詢和檢索數(shù)據(jù)的核心命令。UPDATE用于修改已有數(shù)據(jù),INSERT用于插入新數(shù)據(jù),DELETE用于刪除數(shù)據(jù)。這是數(shù)據(jù)庫操作中最基礎(chǔ)也是最重要的查詢語句,是所有數(shù)據(jù)分析師和開發(fā)人員必須掌握的內(nèi)容。17.【參考答案】B【解析】隊列(Queue)是一種典型的線性數(shù)據(jù)結(jié)構(gòu),其操作規(guī)則是“先進先出”,即最先進入隊列的元素最先被移除。而棧(Stack)遵循“先進后出”(LIFO)原則。二叉樹和哈希表則沒有固定的進出順序,主要用于高效查找和存儲。隊列常用于任務(wù)調(diào)度、緩沖處理等場景[[5]]。18.【參考答案】B【解析】在Linux系統(tǒng)中,ls命令用于列出目錄內(nèi)容。默認情況下,它不顯示以點(.)開頭的隱藏文件。加上-a選項(即ls-a)后,可以顯示所有文件,包括隱藏文件。dir命令在Linux中不常用(多見于Windows),pwd用于顯示當(dāng)前工作目錄路徑[[11]]。19.【參考答案】D【解析】TCP(傳輸控制協(xié)議)是一種面向連接的、可靠的傳輸協(xié)議,它位于OSI七層模型的第四層——傳輸層。該層負責(zé)端到端的數(shù)據(jù)傳輸控制,包括流量控制、錯誤校驗和重傳機制。IP協(xié)議則工作在網(wǎng)絡(luò)層(第三層),負責(zé)尋址和路由[[7]]。20.【參考答案】A【解析】在Python語言中,使用關(guān)鍵字def來定義一個函數(shù),其后跟函數(shù)名和參數(shù)列表。lambda用于創(chuàng)建匿名函數(shù),但不是定義常規(guī)函數(shù)的關(guān)鍵字。function和define不是Python的保留關(guān)鍵字。掌握def的用法是Python編程的基礎(chǔ)技能之一。21.【參考答案】C【解析】本題考查SQL基礎(chǔ)語法。`WHERE`子句用于篩選記錄,需同時滿足“科目為數(shù)學(xué)”和“分數(shù)大于等于90”兩個條件,應(yīng)使用`AND`連接符,排除B選項。需求是“大于等于90”,D選項的`>`不滿足邊界條件。排序要求“降序”,`DESC`表示降序,`ASC`為升序,因此A錯誤而C正確。`ORDERBY`子句通常置于查詢末尾[[15]]。22.【參考答案】C【解析】數(shù)組在頭部插入/刪除需移動后續(xù)所有元素,時間復(fù)雜度為O(n)。單向鏈表雖可O(1)在頭部操作,但在尾部操作時,若無尾指針則需O(n)遍歷定位。雙向鏈表通過維護頭、尾指針,可在頭部和尾部均實現(xiàn)O(1)的插入與刪除。棧(Stack)是邏輯結(jié)構(gòu),通?;跀?shù)組或鏈表實現(xiàn),其操作僅限于一端(棧頂),不符合“頭部和尾部”的要求。因此,雙向鏈表是綜合最優(yōu)解[[22]]。23.【參考答案】B【解析】pandas中,`head(n)`方法是用于查看DataFrame或Series前`n`行數(shù)據(jù)的標準方法,`n`默認為5。`tail(n)`則用于查看尾部數(shù)據(jù)。選項A、C、D中的`first`、`preview`、`show`均不是pandasDataFrame的有效方法。這是pandas最基礎(chǔ)且高頻的操作之一[[35]]。24.【參考答案】D【解析】DAMADMBOK2定義的數(shù)據(jù)質(zhì)量六大核心維度為:完備性(Completeness)、唯一性(Uniqueness)、一致性(Consistency)、有效性(Validity)、準確性(Accuracy)和時效性(Timeliness)。這六個維度是評估數(shù)據(jù)質(zhì)量的黃金標準[[47]]?!翱捎嬎阈浴辈⒎枪俜蕉x的維度,它可能與數(shù)據(jù)的可用性或結(jié)構(gòu)有關(guān),但不在此核心列表中。25.【參考答案】C【解析】A選項排序平均時間復(fù)雜度為O(nlogn);B選項k輪冒泡排序為O(kn);D選項建堆O(n),k次彈出O(klogn),總計O(n+klogn)。C選項“快速選擇”算法是快速排序的變種,專為尋找TopK問題設(shè)計,其平均時間復(fù)雜度為O(n),遠優(yōu)于其他選項。當(dāng)k遠小于n時,其性能優(yōu)勢尤為明顯[[29]]。26.【參考答案】B【解析】完全二叉樹的層序存儲具有嚴格的數(shù)學(xué)規(guī)律。當(dāng)根節(jié)點索引為0時,對任意節(jié)點i,其左子節(jié)點位于第2層更深、偏移加倍加一的位置,即2i+1;右子節(jié)點為2i+2;父節(jié)點為?(i-1)/2?。這是堆(Heap)等數(shù)據(jù)結(jié)構(gòu)實現(xiàn)的基礎(chǔ)[[2]]。27.【參考答案】B【解析】SQL中,邏輯“與”應(yīng)使用關(guān)鍵字AND連接條件;OR表示“或”,會導(dǎo)致查詢出價格>100或類別為電子產(chǎn)品的所有數(shù)據(jù),范圍過大;逗號和&都不是SQL標準的邏輯連接符。正確寫法必須用AND確保兩個條件同時滿足[[11]]。28.【參考答案】B【解析】`list2=list1`是“引用賦值”,即list2與list1指向內(nèi)存中同一個列表對象。修改list2(如append)會直接改變該對象內(nèi)容,因此list1也會同步變化。若要復(fù)制列表內(nèi)容而非引用,應(yīng)使用`list2=list1.copy()`或`list2=list1[:]`[[20]]。29.【參考答案】C【解析】雖然索引能加速查詢(A正確),但它需額外存儲空間(B正確),且主鍵會自動建唯一索引(D正確)。然而,對頻繁更新(INSERT/UPDATE/DELETE)的字段建索引,會導(dǎo)致每次數(shù)據(jù)變動時索引也需同步維護,反而降低寫入性能,因此并非“總是有利”[[15]]。30.【參考答案】C【解析】HTTP狀態(tài)碼404(NotFound)是客戶端錯誤(4xx系列),明確表示服務(wù)器無法根據(jù)客戶端請求的URL找到對應(yīng)的資源。200表示成功;500表示服務(wù)器內(nèi)部錯誤;403表示服務(wù)器理解請求但拒絕執(zhí)行[[3]]。31.【參考答案】A、C、D【解析】棧的核心特征是“后進先出”(LIFO),所有操作(壓棧、彈棧)僅在棧頂進行,故A、C正確。B錯誤,因為棧不支持中間位置的插入/刪除(那是鏈表的特性)。用數(shù)組實現(xiàn)棧時,需固定底層數(shù)組大小,因此容量通常需預(yù)設(shè),D正確[[12]]。32.【參考答案】A、C【解析】根據(jù)SQL標準,非聚合列必須在`GROUPBY`中列出,否則語法錯誤,A正確。雖然部分數(shù)據(jù)庫(如MySQL)在寬松模式下允許省略,但嚴格遵循規(guī)范時必須包含[[28]]。`HAVING`專門用于分組后過濾,C正確。`GROUPBY`將NULL視為一個有效分組鍵,并不會排除[[22]],D錯誤。`GROUPBY`通常需配合聚合函數(shù)才有實際意義[[25]],單獨使用雖語法可能通過,但無統(tǒng)計價值,B不嚴謹,故不選。33.【參考答案】A、B、C、D【解析】`head(n)`查看前n行數(shù)據(jù);`describe()`生成數(shù)值列的統(tǒng)計摘要(如均值、標準差等);`info()`顯示數(shù)據(jù)類型、非空值數(shù)量及內(nèi)存占用;`shape`是屬性(非方法),返回行列數(shù)的元組,雖非方法但也用于快速獲取基本維度信息[[32]]。四者均為常用探查手段。34.【參考答案】A、B【解析】一致性要求事務(wù)執(zhí)行不能破壞數(shù)據(jù)庫的完整性約束(如外鍵、唯一性等),確保數(shù)據(jù)從一個合法狀態(tài)變?yōu)榱硪粋€合法狀態(tài),其保障依賴于原子性、隔離性、持久性及應(yīng)用程序自身的邏輯校驗[[38]],故A、B正確。C描述的是“持久性(Durability)”,D描述的是“可串行化”,屬于隔離性的最高級別[[40]]。35.【參考答案】A、C【解析】標準隊列嚴格遵循“先進先出”(FIFO)原則,是排隊場景的直接實現(xiàn),A正確。雙端隊列允許兩端操作,但若僅從一端入隊、另一端出隊,即可模擬標準隊列行為[[15]],C正確。棧是LIFO,B錯誤。優(yōu)先隊列按優(yōu)先級出隊,不保證先到先得,D錯誤。36.【參考答案】A、B、C、D【解析】`del`是Python原生語法,可直接刪除列;`drop`是pandas標準方法,指定`columns`參數(shù)并設(shè)置`inplace=True`可原地修改;`pop`方法移除并返回指定列[[35]];`df.columns.difference()`返回差集列名,重新賦值可實現(xiàn)刪除,D也為有效方法。37.【參考答案】A、B、C、D【解析】O(1)為常數(shù)時間,A正確。二分查找在有序數(shù)組上為O(logn),B正確。冒泡排序無論平均或最壞均為O(n2),C正確。哈希表在無沖突或沖突少時,各項操作均為O(1)平均復(fù)雜度[[15]],D正確。38.【參考答案】B、C、D【解析】`COUNT(*)`統(tǒng)計所有行數(shù),包括含NULL的行;而`COUNT(列名)`、`SUM`、`AVG`等聚合函數(shù)在計算時會跳過該列值為NULL的行[[23]],因此B、C、D正確,A錯誤。39.【參考答案】A、B、C【解析】`loc`使用行/列標簽,`iloc`使用從0開始的整數(shù)位置索引,A、B正確。兩者均可結(jié)合布爾Series進行條件篩選,C正確[[29]]。若DataFrame的行索引不是默認的0,1,2…(例如自定義了字符串索引),則`loc[0]`會嘗試查找標簽為'0'的行,而`iloc[0]`始終取第一行,結(jié)果可能不同,D錯誤。40.【參考答案】A、B、C【解析】隔離性通過不同隔離級別(如讀未提交、讀已提交、可重復(fù)讀、串行化)來防止并發(fā)事務(wù)間的干擾,核心目標是解決臟讀(讀到未提交數(shù)據(jù))、不可重復(fù)讀(同一事務(wù)內(nèi)多次讀取結(jié)果不同)、幻讀(范圍查詢結(jié)果集變化)三類問題[[38]]。數(shù)據(jù)冗余屬于范式設(shè)計問題,與事務(wù)隔離無關(guān),D錯誤。41.【參考答案】ABD【解析】LEFTJOIN確保左表所有行都被保留,右表無匹配時對應(yīng)字段為NULL[[11]]。ON子句定義了連接條件,省略會導(dǎo)致語法錯誤[[13]]。而INNERJOIN僅返回兩表匹配的記錄,結(jié)果集通常小于或等于LEFTJOIN,故C錯誤[[18]]。42.【參考答案】ABD【解析】數(shù)據(jù)清洗包括處理缺失值(如用中位數(shù)、均值填充)[[23]]、刪除重復(fù)記錄[[21]]和識別異常值[[27]]。直接忽略缺失值可能導(dǎo)致分析偏差或錯誤,通常不推薦作為主要處理方法,故C錯誤[[29]]。43.【參考答案】BC【解析】直方圖通過分組頻率展示連續(xù)數(shù)據(jù)的分布形態(tài)[[31]],箱線圖能清晰顯示數(shù)據(jù)的四分位數(shù)、中位數(shù)及異常值,是分布分析的常用工具[[33]]。柱狀圖主要用于比較類別間數(shù)值,餅圖用于展示比例構(gòu)成,二者不側(cè)重分布形態(tài)[[36]]。44.【參考答案】ABD【解析】COUNT(*)統(tǒng)計所有行,COUNT(列名)統(tǒng)計該列非NULL值行數(shù)[[14]]。AVG()、SUM()、MAX()、MIN()等聚合函數(shù)在計算時都會自動忽略NULL值[[14]]。SUM()遇到NULL時,該行不參與計算,而非視為0,故C錯誤。MAX/MIN可作用于數(shù)值和字符(按字典序)[[14]]。45.【參考答案】ABC【解析】選擇圖表的核心依據(jù)是數(shù)據(jù)類型和分析目標,例如柱狀圖用于比較,直方圖用于分布,散點圖用于探索變量間關(guān)系[[34]]。數(shù)據(jù)量影響圖表的可讀性和選擇(如大量點用散點圖可能過密)[[32]]。圖表顏色雖重要,但屬于美化范疇,非選擇圖表類型的根本依據(jù),故D錯誤[[39]]。46.【參考答案】A.正確【解析】數(shù)據(jù)脫敏(DataMasking)的核心目標正是保護隱私數(shù)據(jù)(如身份證號、手機號),在測試、開發(fā)等場景中提供“看起來真實”但無法關(guān)聯(lián)到真實個體的數(shù)據(jù)。常用技術(shù)包括靜態(tài)脫敏(SDM)和動態(tài)脫敏(DDM),確保敏感信息不被泄露,是數(shù)據(jù)安全治理的關(guān)鍵環(huán)節(jié)[[13]]。47.【參考答案】A.正確【解析】第三范式(3NF)要求:1)表已滿足第二范式(2NF);2)所有非主屬性不傳遞依賴于主鍵。即,若A→B,B→C,則A不能通過B間接決定C(A→C為傳遞依賴),必須直接依賴于主鍵,以消除數(shù)據(jù)冗余和更新異常[[27]]。48.【參考答案】A.正確【解析】ETL是數(shù)據(jù)倉庫構(gòu)建的核心流程,其中Transform階段負責(zé)將從源系統(tǒng)抽?。‥xtract)的原始數(shù)據(jù)進行清洗(如處理缺失值、去重)、轉(zhuǎn)換(如單位統(tǒng)一、編碼映射)和加工(如KPI計算、寬表構(gòu)建),為后續(xù)加載(Load)到目標庫做好準備[[22]]。49.【參考答案】A.正確【解析】《個保法》第四條明確指出,“匿名化”是指個人信息經(jīng)過處理無法識別特定自然人且不能復(fù)原的過程。一旦實現(xiàn)真正匿名化,該信息即脫離“個人信息”范疇,不再受個保法約束,可自由使用[[11]]。50.【參考答案】A.正確【解析】`LEFTJOIN`(左連接)的語義是“保左”,即返回左表的全部行。對于左表中在右表找不到匹配的行,右表的字段將全部顯示為`NULL`。這是與`INNERJOIN`(僅返回匹配行)的關(guān)鍵區(qū)別,也是數(shù)據(jù)分析師必須掌握的核心語法[[8]]。51.【參考答案】B.錯誤【解析】數(shù)據(jù)治理是跨部門的協(xié)同工作,需業(yè)務(wù)部門深度參與。業(yè)務(wù)部門是數(shù)據(jù)的生產(chǎn)者和主要使用者,他們定義數(shù)據(jù)的業(yè)務(wù)含義、質(zhì)量規(guī)則和使用規(guī)范;IT部門則負責(zé)技術(shù)實現(xiàn)與平臺支撐。成功的治理必須是“業(yè)務(wù)驅(qū)動、IT賦能”的模式[[15]]。52.【參考答案】B.錯誤【解析】索引雖能加速查詢,但會降低數(shù)據(jù)寫入(INSERT/UPDATE/DELETE)的性能,并占用額外存儲空間。對低區(qū)分度字段(如“性別”)建索引效果甚微,甚至可能被查詢優(yōu)化器忽略。應(yīng)基于查詢頻率、字段選擇性、數(shù)據(jù)量等因素科學(xué)設(shè)計,避免過度索引[[9]]。53.【參考答案】A.正確【解析】星型模型是維度建模的經(jīng)典結(jié)構(gòu),其核心是一個中心事實表(存儲度量值,如銷售額)和多個圍繞它的維度表(如時間、產(chǎn)品、客戶)。維度表是扁平化的、非規(guī)范化的,彼此獨立,便于理解和高效查詢,適用于OLAP場景[[4]]。54.【參考答案】A.正確【解析】數(shù)據(jù)血緣清晰地記錄了數(shù)據(jù)的“生命周期”,包括其來源、經(jīng)過的ETL作業(yè)、轉(zhuǎn)換邏輯及最終去向。當(dāng)報表數(shù)據(jù)出錯時,可快速定位問題環(huán)節(jié);在修改源表結(jié)構(gòu)前,可評估對下游的影響范圍,是數(shù)據(jù)質(zhì)量管理與可信度建設(shè)的基石[[18]]。55.【參考答案】A.正確【解析】HTTPS=HTTP+SSL/TLS。SSL/TLS協(xié)議位于應(yīng)用層(HTTP)與傳輸層(TCP)之間,通過非對稱加密交換密鑰、對稱加密傳輸數(shù)據(jù)、數(shù)字證書驗證服務(wù)器身份、消息摘要保障完整性,從而構(gòu)建安全的通信通道,是網(wǎng)絡(luò)數(shù)據(jù)安全的基礎(chǔ)保障[[12]]。
2025浙江溫州甌江口大數(shù)據(jù)有限公司招聘工作人員19人筆試歷年備考題庫附帶答案詳解(第2套)一、單項選擇題下列各題只有一個正確答案,請選出最恰當(dāng)?shù)倪x項(共30題)1、在數(shù)據(jù)分析中,當(dāng)數(shù)據(jù)集存在極端值(異常值)時,以下哪個統(tǒng)計量對數(shù)據(jù)中心趨勢的描述最穩(wěn)健?A.算術(shù)平均數(shù)B.眾數(shù)C.中位數(shù)D.極差2、在SQL查詢中,要統(tǒng)計每個部門的員工平均工資,并按平均工資從高到低排序,以下哪個子句組合是正確的?A.GROUPBY部門,ORDERBYAVG(工資)DESCB.ORDERBY部門,GROUPBYAVG(工資)DESCC.GROUPBY部門,ORDERBY工資DESCD.ORDERBYAVG(工資)DESC,GROUPBY部門3、在數(shù)據(jù)清洗過程中,對于一個包含大量缺失值的數(shù)值型特征(缺失比例超過70%),最合適的處理方法通常是?A.使用該特征的中位數(shù)進行填充B.使用該特征的眾數(shù)進行填充C.刪除該特征D.使用線性插值法填充4、在數(shù)據(jù)可視化中,為了清晰地展示某產(chǎn)品在過去一年中每月銷售額的變化趨勢,最應(yīng)選用哪種圖表類型?A.餅圖B.散點圖C.柱狀圖D.折線圖5、在統(tǒng)計學(xué)中,一組數(shù)據(jù)的眾數(shù)指的是什么?A.數(shù)據(jù)集中所有數(shù)值的算術(shù)平均值B.數(shù)據(jù)集中位于中間位置的數(shù)值C.數(shù)據(jù)集中出現(xiàn)頻率最高的數(shù)值D.數(shù)據(jù)集中最大值與最小值的差6、在SQL查詢中,若要獲取左表(A表)的所有記錄,以及右表(B表)中與之匹配的記錄,對于右表中沒有匹配的記錄則顯示為NULL,應(yīng)使用哪種JOIN操作?A.INNERJOINB.LEFTJOINC.RIGHTJOIND.FULLOUTERJOIN7、在大數(shù)據(jù)ETL(抽取、轉(zhuǎn)換、加載)流程中,以下哪項任務(wù)最可能發(fā)生在“轉(zhuǎn)換”(Transform)階段?A.從多個數(shù)據(jù)庫中提取原始數(shù)據(jù)B.將清洗后的數(shù)據(jù)寫入數(shù)據(jù)倉庫C.對數(shù)據(jù)進行去重、填充缺失值和統(tǒng)一格式D.建立數(shù)據(jù)抽取的定時調(diào)度任務(wù)8、在數(shù)據(jù)預(yù)處理中,為了消除不同量綱或數(shù)量級對分析結(jié)果(如聚類、距離計算)的影響,通常會采用哪種方法?A.數(shù)據(jù)去重B.數(shù)據(jù)標準化(Z-Score)C.數(shù)據(jù)分類D.數(shù)據(jù)聚合9、在數(shù)據(jù)可視化中,為了清晰地展示某公司過去12個月的銷售額變化趨勢,最合適的圖表類型是?A.餅圖B.熱力圖C.折線圖D.箱線圖10、在處理包含大量缺失值的數(shù)據(jù)集時,下列哪種方法在進行數(shù)據(jù)清洗時相對更合理?A.直接刪除所有包含缺失值的記錄B.將所有缺失值替換為0C.根據(jù)變量的分布特征,使用均值、中位數(shù)或眾數(shù)進行填充D.忽略缺失值,直接進行建模11、在SQL查詢中,若要獲取所有員工的信息,即使他們沒有對應(yīng)的部門信息,應(yīng)使用哪種JOIN操作?A.INNERJOINB.LEFTJOINC.RIGHTJOIND.FULLOUTERJOIN12、在數(shù)據(jù)清洗過程中,對于數(shù)據(jù)集中大量缺失的數(shù)值,以下哪種處理方法通常不被推薦?A.使用均值填充缺失值B.刪除包含缺失值的全部記錄C.使用中位數(shù)填充缺失值D.無條件地保留所有缺失值13、在大數(shù)據(jù)處理中,哪種文件格式因其列式存儲結(jié)構(gòu)而被廣泛用于提高查詢性能和降低存儲空間?A.CSVB.JSONC.ParquetD.TXT14、當(dāng)需要展示某公司各產(chǎn)品線銷售額占總銷售額的比例時,最合適的可視化圖表是?A.折線圖B.柱狀圖C.餅圖D.散點圖15、在數(shù)據(jù)處理中,去除數(shù)據(jù)集中完全重復(fù)的記錄,這一操作的主要目的是什么?A.提高數(shù)據(jù)的復(fù)雜性B.增加數(shù)據(jù)的多樣性C.減少數(shù)據(jù)冗余,提升數(shù)據(jù)質(zhì)量D.擴大數(shù)據(jù)集的規(guī)模16、在數(shù)據(jù)結(jié)構(gòu)中,若需要頻繁地在序列的任意位置進行插入和刪除操作,以下哪種數(shù)據(jù)結(jié)構(gòu)的時間復(fù)雜度最優(yōu)?A.數(shù)組B.單向鏈表C.雙向鏈表D.棧17、在SQL查詢中,要找出“學(xué)生表”中所有年齡大于等于18歲且性別為“男”的學(xué)生姓名,正確的WHERE子句寫法是?A.WHERE年齡>=18OR性別='男'B.WHERE年齡>18AND性別='男'C.WHERE年齡>=18AND性別='男'D.WHERE年齡>='18'AND性別=男18、在數(shù)據(jù)治理中,以下哪項最能體現(xiàn)“數(shù)據(jù)最小化”原則?A.將所有用戶數(shù)據(jù)集中存儲以便統(tǒng)一管理B.僅收集和處理實現(xiàn)特定業(yè)務(wù)目的所必需的最少數(shù)據(jù)C.對所有歷史數(shù)據(jù)進行永久保存以備審計D.向第三方共享全部用戶行為數(shù)據(jù)以提升服務(wù)19、某邏輯推理題給出前提:“所有程序員都擅長邏輯思維;部分擅長邏輯思維的人喜歡下棋?!睋?jù)此可以必然推出以下哪個結(jié)論?A.所有程序員都喜歡下棋B.有些程序員喜歡下棋C.有些喜歡下棋的人是程序員D.不能確定程序員與喜歡下棋之間的必然聯(lián)系20、在Excel中,若需根據(jù)“產(chǎn)品名稱”在另一個表格中反向查找對應(yīng)的“單價”(即查找列在返回列左側(cè)),以下哪種函數(shù)組合最靈活高效?A.VLOOKUPB.HLOOKUPC.INDEX+MATCHD.LOOKUP21、在SQL查詢中,若要返回左表中的所有記錄,以及右表中與之匹配的記錄,當(dāng)右表中無匹配時則顯示NULL,應(yīng)使用哪種JOIN操作?A.INNERJOINB.LEFTJOINC.RIGHTJOIND.FULLOUTERJOIN22、在數(shù)據(jù)清洗過程中,對于缺失值的常見處理方法不包括以下哪一項?A.使用均值或中位數(shù)填充B.刪除包含缺失值的整行記錄C.使用預(yù)測模型進行填補D.將缺失值替換為隨機數(shù)23、在SQL中,使用BETWEEN操作符篩選數(shù)值范圍時,其邊界值是否包含在結(jié)果集中?A.不包含邊界值B.僅包含左邊界值C.僅包含右邊界值D.包含兩個邊界值24、在數(shù)據(jù)可視化中,哪種圖表最適合用來展示數(shù)據(jù)隨時間變化的趨勢?A.餅圖B.柱狀圖C.折線圖D.散點圖25、數(shù)據(jù)庫索引的主要作用是什么?A.減少數(shù)據(jù)庫的存儲空間B.提高數(shù)據(jù)插入和更新的速度C.加快數(shù)據(jù)查詢的速度D.增強數(shù)據(jù)的安全性26、在關(guān)系型數(shù)據(jù)庫中,用于從多個表中檢索數(shù)據(jù)并根據(jù)指定條件連接這些表的SQL子句是?A.WHEREB.GROUPBYC.JOIND.HAVING27、以下數(shù)據(jù)結(jié)構(gòu)中,哪一種具有“先進后出”(LIFO)的特性?A.隊列B.棧C.鏈表D.二叉樹28、在Python中,下列哪個數(shù)據(jù)類型是不可變的(immutable)?A.列表(list)B.字典(dict)C.集合(set)D.元組(tuple)29、在大數(shù)據(jù)處理中,Hadoop生態(tài)系統(tǒng)中用于分布式存儲的核心組件是?A.MapReduceB.HiveC.HDFSD.Spark30、在數(shù)據(jù)庫事務(wù)的ACID特性中,“C”代表的是?A.Concurrency(并發(fā)性)B.Consistency(一致性)C.Completeness(完整性)D.Continuity(連續(xù)性)二、多項選擇題下列各題有多個正確答案,請選出所有正確選項(共15題)31、在關(guān)系型數(shù)據(jù)庫設(shè)計中,關(guān)于數(shù)據(jù)庫范式,以下說法正確的有?A.第一范式(1NF)要求表中的每一列都是不可再分的基本數(shù)據(jù)項B.第二范式(2NF)要求在滿足1NF的基礎(chǔ)上,所有非主屬性完全依賴于任何一個候選鍵C.第三范式(3NF)要求在滿足2NF的基礎(chǔ)上,不存在非主屬性對候選鍵的傳遞依賴D.滿足BCNF的表一定滿足第三范式32、以下屬于TCP協(xié)議特點的有?A.面向連接B.提供可靠傳輸C.支持廣播通信D.傳輸效率高于UDP33、關(guān)于操作系統(tǒng)中的進程與線程,下列說法正確的是?A.一個進程可以包含多個線程B.線程是CPU調(diào)度的基本單位C.同一進程內(nèi)的線程共享進程的地址空間D.線程切換的開銷通常大于進程切換34、以下數(shù)據(jù)結(jié)構(gòu)中,屬于線性結(jié)構(gòu)的有?A.棧B.隊列C.二叉樹D.圖35、在SQL語言中,能夠?qū)崿F(xiàn)數(shù)據(jù)查詢功能的子句包括?A.SELECTB.FROMC.WHERED.INSERT36、以下關(guān)于哈希表(HashTable)的說法,正確的有?A.哈希表通過哈希函數(shù)將關(guān)鍵字映射到存儲位置B.哈希沖突是指不同關(guān)鍵字映射到同一地址C.開放地址法和鏈地址法是解決哈希沖突的常用方法D.哈希表的查找時間復(fù)雜度在最壞情況下為O(1)37、在軟件工程中,屬于軟件生命周期主要階段的有?A.需求分析B.系統(tǒng)設(shè)計C.編碼實現(xiàn)D.軟件維護38、以下編程語言中,屬于解釋型語言的有?A.PythonB.JavaC.C++D.JavaScript39、關(guān)于棧(Stack)數(shù)據(jù)結(jié)構(gòu),以下描述正確的有?A.遵循“后進先出”(LIFO)原則B.插入操作稱為“入?!盋.刪除操作稱為“出?!盌.可以在任意位置插入或刪除元素40、在計算機網(wǎng)絡(luò)中,屬于應(yīng)用層協(xié)議的有?A.HTTPB.FTPC.TCPD.SMTP41、在進行數(shù)據(jù)清洗時,以下哪些方法常用于處理缺失值?A.直接刪除含有缺失值的整行數(shù)據(jù)B.使用該列的平均值進行填充C.使用該列的中位數(shù)進行填充D.將缺失值標記為特定符號后保留42、在SQL查詢中,關(guān)于LEFTJOIN和INNERJOIN的區(qū)別,下列描述正確的是?A.LEFTJOIN會返回左表的所有記錄,即使右表沒有匹配項B.INNERJOIN只返回兩個表中都有匹配的記錄C.LEFTJOIN的右表字段在無匹配時會顯示為NULLD.INNERJOIN會返回兩個表的所有記錄43、下列哪些統(tǒng)計量屬于描述性統(tǒng)計的范疇?A.均值B.標準差C.相關(guān)系數(shù)D.p值44、在數(shù)據(jù)分析中,以下哪些操作屬于數(shù)據(jù)預(yù)處理環(huán)節(jié)?A.數(shù)據(jù)類型轉(zhuǎn)換B.刪除重復(fù)記錄C.構(gòu)建機器學(xué)習(xí)預(yù)測模型D.數(shù)據(jù)歸一化處理45、關(guān)于SQL中的聚合函數(shù),以下說法正確的是?A.COUNT()函數(shù)可以統(tǒng)計非空值的個數(shù)B.SUM()函數(shù)可以對字符串類型字段求和C.AVG()函數(shù)會自動忽略NULL值進行計算D.MAX()函數(shù)可以返回數(shù)值型字段的最大值三、判斷題判斷下列說法是否正確(共10題)46、在SQL查詢中,GROUPBY子句用于對數(shù)據(jù)進行分組,而HAVING子句用于在分組后篩選滿足條件的組。A.正確B.錯誤47、在關(guān)系型數(shù)據(jù)庫中,主鍵(PrimaryKey)用于唯一標識表中的每一行數(shù)據(jù),且其值不允許為空(NULL)。A.正確B.錯誤48、HTTPS協(xié)議是在HTTP協(xié)議基礎(chǔ)上加入了SSL/TLS加密層,用以保障數(shù)據(jù)傳輸?shù)臋C密性和完整性。A.正確B.錯誤49、根據(jù)我國《數(shù)據(jù)安全法》,所有數(shù)據(jù)處理活動都必須事先獲得個人的明示同意。A.正確B.錯誤50、在數(shù)據(jù)倉庫設(shè)計中,“星型模型”由一個事實表和多個維度表組成,維度表通常不包含層級結(jié)構(gòu)。A.正確B.錯誤51、Python中,使用`pandas`庫的`drop_duplicates()`方法默認會刪除DataFrame中所有重復(fù)的行,僅保留第一次出現(xiàn)的行。A.正確B.錯誤52、網(wǎng)絡(luò)運營者發(fā)現(xiàn)其網(wǎng)絡(luò)產(chǎn)品存在安全缺陷時,應(yīng)當(dāng)立即采取補救措施,并按規(guī)定向有關(guān)主管部門報告。A.正確B.錯誤53、數(shù)據(jù)治理(DataGovernance)僅指對數(shù)據(jù)進行技術(shù)層面的管理,如數(shù)據(jù)庫優(yōu)化和備份恢復(fù)。A.正確B.錯誤54、在機器學(xué)習(xí)中,過擬合(Overfitting)是指模型在訓(xùn)練集上表現(xiàn)很好,但在測試集或新數(shù)據(jù)上表現(xiàn)顯著下降的現(xiàn)象。A.正確B.錯誤55、根據(jù)《網(wǎng)絡(luò)安全等級保護制度》,等級保護對象的安全保護等級分為五級,其中第一級為最高保護等級。A.正確B.錯誤
參考答案及解析1.【參考答案】C【解析】中位數(shù)是將數(shù)據(jù)按大小順序排列后位于中間位置的數(shù)值,它不受極端值的影響[[39]]。而算術(shù)平均數(shù)是所有數(shù)據(jù)的總和除以數(shù)據(jù)個數(shù),會因極端值而顯著偏移[[41]]。眾數(shù)是出現(xiàn)頻率最高的值,可能不唯一或無法代表中心[[46]]。極差是最大值與最小值之差,直接反映數(shù)據(jù)離散程度,而非中心趨勢[[42]]。因此,在存在異常值時,中位數(shù)是更穩(wěn)健的中心趨勢度量。2.【參考答案】A【解析】在SQL中,聚合函數(shù)(如AVG)必須與GROUPBY子句配合使用,以對分組后的數(shù)據(jù)進行計算[[11]]。WHERE子句用于篩選行,HAVING用于篩選分組。排序必須使用ORDERBY子句,且需在GROUPBY之后[[14]]。選項A正確地先按部門分組計算平均工資,再按平均工資降序排列。選項B、D語法錯誤,ORDERBY不能在GROUPBY前。選項C未使用聚合函數(shù),僅排序原始工資值,不符合題意。3.【參考答案】C【解析】當(dāng)某一特征的缺失值比例過高(如超過70%)時,保留該特征可能引入大量噪聲,降低模型性能或分析的準確性[[27]]。此時,最直接有效的方法是直接刪除該特征[[24]]。使用均值、中位數(shù)或眾數(shù)填充(A、B)適用于缺失比例較低的情況[[23]]。線性插值(D)通常用于時間序列數(shù)據(jù)中少量缺失值的處理,不適用于高比例缺失的靜態(tài)特征。4.【參考答案】D【解析】折線圖通過連接數(shù)據(jù)點的線條,能清晰地展示數(shù)據(jù)在連續(xù)時間維度上的變化趨勢和規(guī)律[[33]]。對于展示銷售額隨月份(連續(xù)時間)的變化,折線圖是最佳選擇。餅圖適用于展示各部分占總體的比例[[37]]。柱狀圖適合比較不同類別(非連續(xù))間的數(shù)值大小[[33]]。散點圖用于觀察兩個變量之間的相關(guān)性[[31]]。5.【參考答案】C【解析】眾數(shù)(mode)是指在一組數(shù)據(jù)中出現(xiàn)次數(shù)最多的那個數(shù)值[[39]]。它反映了數(shù)據(jù)的典型值或最普遍的情況[[47]]。算術(shù)平均值是所有數(shù)據(jù)的和除以個數(shù)[[43]]。中位數(shù)是排序后位于中間的數(shù)值[[41]]。最大值與最小值的差稱為極差,反映數(shù)據(jù)的離散程度[[42]]。眾數(shù)的計算僅依賴于數(shù)據(jù)出現(xiàn)的頻次,不受極端值影響[[46]]。6.【參考答案】B【解析】LEFTJOIN(左聯(lián)接)以左表為基準,返回左表中的所有記錄,同時返回右表中與左表聯(lián)結(jié)字段相等的記錄;若右表中無匹配項,則對應(yīng)字段顯示為NULL[[14]]。這與題目描述完全一致。INNERJOIN僅返回兩表匹配的記錄[[14]],RIGHTJOIN以右表為基準,F(xiàn)ULLOUTERJOIN返回兩表所有記錄。7.【參考答案】C【解析】ETL流程中,“轉(zhuǎn)換”階段的核心是對提取的原始數(shù)據(jù)進行處理,使其符合目標系統(tǒng)的要求,這包括數(shù)據(jù)清洗(如去重、處理缺失值、異常值)、數(shù)據(jù)類型轉(zhuǎn)換、標準化、聚合和計算衍生字段等[[21]]。抽取(Extract)是獲取數(shù)據(jù),加載(Load)是寫入目標,調(diào)度是任務(wù)管理[[23]]。8.【參考答案】B【解析】數(shù)據(jù)標準化(如Z-Score標準化)是將數(shù)據(jù)按其均值和標準差進行線性變換,使不同特征的數(shù)值處于相似的尺度范圍,從而消除量綱和數(shù)量級差異對模型(如K-Means聚類、歐氏距離計算)的影響[[38]]。數(shù)據(jù)去重是清洗步驟,分類和聚合是分析或匯總操作,不直接解決量綱問題。9.【參考答案】C【解析】折線圖(LineChart)通過連接數(shù)據(jù)點的線條,能夠直觀地展現(xiàn)數(shù)據(jù)隨時間連續(xù)變化的趨勢和模式,非常適合展示銷售額、用戶數(shù)等隨時間序列的變化[[41]]。餅圖用于展示比例構(gòu)成,熱力圖用于顯示二維矩陣的強度,箱線圖用于展示數(shù)據(jù)分布和離群值。10.【參考答案】C【解析】簡單刪除(A)可能導(dǎo)致信息損失和樣本偏差,直接替換為0(B)或忽略(D)會引入嚴重偏差。更科學(xué)的做法是分析缺失值的模式和變量分布,采用均值(適用于正態(tài)分布)、中位數(shù)(適用于偏態(tài)分布)或眾數(shù)(適用于分類變量)進行填充,以盡量保持數(shù)據(jù)的原始分布特性[[36]]。11.【參考答案】B【解析】LEFTJOIN(左聯(lián)接)會返回左表(員工表)中的所有記錄,即使右表(部門表)中沒有匹配的記錄,此時右表對應(yīng)的字段將顯示為NULL[[18]]。這符合題目要求獲取所有員工信息的場景,而INNERJOIN僅返回兩表中匹配的記錄[[17]]。12.【參考答案】D【解析】數(shù)據(jù)清洗旨在提升數(shù)據(jù)質(zhì)量,缺失值是常見問題,需妥善處理[[20]]。雖然刪除或插補(如均值、中位數(shù))是常用方法[[21]],但無條件保留所有缺失值會導(dǎo)致分析結(jié)果偏差,無法保證數(shù)據(jù)的準確性和完整性,因此不被推薦[[22]]。13.【參考答案】C【解析】Parquet是一種高效的列式存儲格式,專為大數(shù)據(jù)生態(tài)系統(tǒng)設(shè)計,其優(yōu)勢在于支持高效的壓縮、編碼和謂詞下推,能顯著提升查詢性能并降低數(shù)據(jù)存儲成本,尤其適用于分析型查詢[[30]]。相比之下,CSV和JSON是行式存儲,效率較低[[34]]。14.【參考答案】C【解析】餅圖(PieChart)專門用于展示各部分在整體中所占的比例關(guān)系,通過扇形面積直觀體現(xiàn)占比[[43]]。當(dāng)目標是突出顯示產(chǎn)品線銷售額的構(gòu)成比例時,餅圖是最直接和常用的選擇,而柱狀圖和折線圖更適合比較數(shù)值大小或展示趨勢[[38]]。15.【參考答案】C【解析】數(shù)據(jù)清洗是確保數(shù)據(jù)準確、完整和一致的關(guān)鍵步驟[[20]]。去重操作旨在消除數(shù)據(jù)集中冗余的重復(fù)記錄,這能有效減少不必要的數(shù)據(jù)量,避免分析結(jié)果失真,從而顯著提升數(shù)據(jù)的整體質(zhì)量[[25]]。16.【參考答案】C【解析】數(shù)組在任意位置插入或刪除元素需移動后續(xù)元素,時間復(fù)雜度為O(n)。單向鏈表雖可O(1)插入/刪除(已知前驅(qū)節(jié)點時),但查找前驅(qū)需O(n)。雙向鏈表因每個節(jié)點包含前后指針,在已知節(jié)點位置時,插入和刪除操作可直接完成,無需額外遍歷,綜合效率更優(yōu),尤其適合頻繁的中間位置操作。棧僅支持在棧頂操作,不滿足題意。17.【參考答案】C【解析】題目要求同時滿足“年齡≥18”和“性別為男”兩個條件,應(yīng)使用AND邏輯連接。選項A用OR表示滿足任一條件即可,錯誤;B中年齡條件為“>18”,排除了18歲學(xué)生,不符合題意;D中年齡與字符串'18'比較且性別未加引號,語法錯誤。C選項條件準確、語法正確,符合要求[[12]]。18.【參考答案】B【解析】數(shù)據(jù)最小化原則要求組織在數(shù)據(jù)處理活動中,只收集、存儲和使用實現(xiàn)業(yè)務(wù)目標所絕對必需的最少數(shù)據(jù),避免過度采集。這有助于降低數(shù)據(jù)泄露風(fēng)險、保護用戶隱私并提升數(shù)據(jù)管理效率。選項A、C、D均涉及不必要的數(shù)據(jù)積累或共享,違背該原則[[22]]。19.【參考答案】D【解析】前提1為全稱肯定(所有程序員→擅長邏輯),前提2為特稱肯定(有些擅長邏輯→喜歡下棋)。兩個前提的中項“擅長邏輯思維”在前提2中不周延,無法有效推出程序員與下棋之間的直接關(guān)聯(lián)。A、B、C均屬可能性結(jié)論,非必然。根據(jù)邏輯推理規(guī)則,此類前提組合不能得出確定結(jié)論,故D正確[[31]]。20.【參考答案】C【解析】VLOOKUP要求查找值必須在返回值的左側(cè),無法實現(xiàn)反向查找。HLOOKUP用于橫向查找,不適用。LOOKUP有局限性且需數(shù)據(jù)排序。而INDEX函數(shù)可返回指定行列交叉處的值,MATCH函數(shù)可定位查找值的位置,二者組合可實現(xiàn)任意方向的靈活查找,尤其擅長反向、雙向或動態(tài)列查找,是VLOOKUP的更優(yōu)替代方案[[35]]。21.【參考答案】B【解析】LEFTJOIN(左聯(lián)接)會返回左表中的所有記錄,無論右表中是否存在匹配的記錄。對于左表中存在但右表中沒有匹配的記錄,結(jié)果集中右表的字段將顯示為NULL[[14]]。這與INNERJOIN只返回兩表匹配的記錄不同[[17]],也區(qū)別于RIGHTJOIN和FULLOUTERJOIN。22.【參考答案】D【解析】數(shù)據(jù)清洗中處理缺失值的常用方法包括刪除含有缺失值的記錄、使用統(tǒng)計量(如均值、中位數(shù))填充,或利用模型預(yù)測填補[[20]]。將缺失值替換為隨機數(shù)不是標準或推薦的做法,因為它會引入不可預(yù)測的噪聲,破壞數(shù)據(jù)的統(tǒng)計特性,影響后續(xù)分析的準確性[[26]]。23.【參考答案】D【解析】在標準SQL中,BETWEEN操作符用于選取介于兩個值之間的數(shù)據(jù),并且明確包含這兩個邊界值[[30]]。例如,`WHEREageBETWEEN18AND25`的結(jié)果將包括年齡為18歲和25歲的記錄[[32]]。這是SQL語言的一個基本約定,與IN操作符不同。24.【參考答案】C【解析】折線圖通過連接數(shù)據(jù)點的線條來清晰地展示數(shù)值隨時間或其他連續(xù)變量的變化趨勢,是觀察數(shù)據(jù)動態(tài)變化的首選圖表類型[[41]]。餅圖主要用于顯示各部分占總體的比例[[39]],柱狀圖適用于類別間的比較[[42]],散點圖則用于探索兩個變量間的相關(guān)性[[42]]。25.【參考答案】C【解析】數(shù)據(jù)庫索引的核心作用是顯著提高數(shù)據(jù)查詢的效率[[48]]。它通過創(chuàng)建一種類似于書籍目錄的數(shù)據(jù)結(jié)構(gòu),允許數(shù)據(jù)庫系統(tǒng)快速定位到所需數(shù)據(jù),避免了全表掃描[[51]]。雖然索引能優(yōu)化排序和分組操作[[54]],但其主要目的并非減少存儲空間或提升寫入速度,反而會占用額外空間并略微降低寫入性能[[55]]。26.【參考答案】C【解析】JOIN子句專門用于根據(jù)兩個或多個表之間的相關(guān)列組合數(shù)據(jù),常見的類型包括INNERJOIN、LEFTJOIN等。WHERE用于過濾行,GROUPBY用于分組,HAVING用于對分組后的結(jié)果進行篩選。掌握JOIN是SQL查詢的核心技能之一,尤其在數(shù)據(jù)分析崗位筆試中高頻出現(xiàn)[[5]]。27.【參考答案】B【解析】棧(Stack)是一種線性數(shù)據(jù)結(jié)構(gòu),其操作遵循“后進先出”原則,即最后壓入棧的元素最先被彈出。隊列則是“先進先出”(FIFO)。棧常用于函數(shù)調(diào)用、表達式求值、括號匹配等場景,是計算機基礎(chǔ)筆試的重點考點[[3]]。28.【參考答案】D【解析】元組一旦創(chuàng)建,其內(nèi)容不可更改,屬于不可變類型。而列表、字典和集合均為可變類型,支持增刪改操作。理解數(shù)據(jù)類型的可變性對編程效率和避免bug至關(guān)重要,是編程基礎(chǔ)題常見考點[[3]]。29.【參考答案】C【解析】HDFS(HadoopDistributedFileSystem)是Hadoop的分布式文件系統(tǒng),負責(zé)將大文件切分并存儲在集群的多個節(jié)點上,提供高容錯性和高吞吐量。MapReduce是計算框架,Hive是數(shù)據(jù)倉庫工具,Spark是內(nèi)存計算引擎,均依賴HDFS存儲數(shù)據(jù)[[6]]。30.【參考答案】B【解析】ACID指事務(wù)的四個特性:Atomicity(原子性)、Consistency(一致性)、Isolation(隔離性)、Durability(持久性)。其中一致性確保事務(wù)執(zhí)行前后數(shù)據(jù)庫從一個有效狀態(tài)轉(zhuǎn)換到另一個有效狀態(tài),滿足所有約束和規(guī)則,是數(shù)據(jù)庫可靠性的核心保障[[3]]。31.【參考答案】ABCD【解析】數(shù)據(jù)庫范式用于減少數(shù)據(jù)冗余和提高數(shù)據(jù)一致性。1NF要求字段原子性;2NF消除部分函數(shù)依賴;3NF消除傳遞函數(shù)依賴;BCNF(Boyce-Codd范式)是3NF的加強版,要求所有決定因素都是候選鍵,因此滿足BCNF的表必然滿足3NF。四個選項均正確。32.【參考答案】AB【解析】TCP(傳輸控制協(xié)議)是面向連接的、可靠的傳輸層協(xié)議,通過三次握手建立連接,提供差錯控制、流量控制和擁塞控制。但TCP不支持廣播(這是UDP的特性),且由于其可靠性機制,傳輸效率通常低于UDP。因此C、D錯誤。33.【參考答案】ABC【解析】進程是資源分配的基本單位,線程是CPU調(diào)度的基本單位。同一進程中的多個線程共享代碼段、數(shù)據(jù)段等資源,因此切換開銷遠小于進程切換。D選項錯誤,線程切換開銷更小。34.【參考答案】AB【解析】線性結(jié)構(gòu)中數(shù)據(jù)元素之間存在一對一的線性關(guān)系。棧和隊列都是特殊的線性表,屬于線性結(jié)構(gòu);而二叉樹和圖中元素之間存在一對多或多對多的關(guān)系,屬于非線性結(jié)構(gòu)。35.【參考答案】ABC【解析】SELECT用于指定查詢字段,F(xiàn)ROM指定數(shù)據(jù)來源表,WHERE用于設(shè)置查詢條件,三者共同構(gòu)成基本查詢語句。INSERT屬于數(shù)據(jù)操縱語言(DML),用于插入數(shù)據(jù),不用于查詢。36.【參考答案】ABC【解析】A、B、C均正確描述了哈希表的基本原理和沖突處理方法。但哈希表在最壞情況下(如所有元素都沖突),查找復(fù)雜度為O(n),平均情況下才是O(1),故D錯誤。37.【參考答案】ABCD【解析】軟件生命周期通常包括需求分析、系統(tǒng)設(shè)計、編碼實現(xiàn)、測試、部署和維護等階段。這四個選項均為公認的核心階段,符合軟件工程標準模型(如瀑布模型)。38.【參考答案】AD【解析】Python和JavaScript通常由解釋器逐行解釋執(zhí)行,屬于解釋型語言。Java雖需JVM運行,但先編譯為字節(jié)碼,介于編譯與解釋之間;C++是典型的編譯型語言。嚴格意義上,AD為解釋型。39.【參考答案】ABC【解析】棧是一種受限的線性表,只允許在棧頂進行插入(入棧)和刪除(出棧)操作,遵循LIFO原則。D選項描述的是普通線性表或鏈表的特性,不符合棧的定義。40.【參考答案】ABD【解析】HTTP(超文本傳輸協(xié)議)、FTP(文件傳輸協(xié)議)和SMTP(簡單郵件傳輸協(xié)議)均工作在應(yīng)用層。TCP是傳輸層協(xié)議,負責(zé)端到端的可靠傳輸,不屬于應(yīng)用層。41.【參考答案】A,B,C,D【解析】處理缺失值是數(shù)據(jù)清洗的關(guān)鍵步驟,常見方法包括:當(dāng)缺失比例過高時可刪除整行或整列[[28]];使用均值、中位數(shù)或眾數(shù)進行插補是常用策略[[27]];對于某些分析,保留缺失標記(如NA)并進行特殊處理也是可行方案[[25]]。這些方法的選擇需根據(jù)數(shù)據(jù)特性和分析目標決定。42.【參考答案】A,B,C【解析】LEFTJOIN確保左表所有記錄都被保留,右表無匹配時對應(yīng)字段為NULL[[15]]。INNERJOIN僅返回兩表連接條件成立的交集記錄[[15]]。選項D錯誤,因為INNERJOIN不會返回?zé)o匹配的記錄,與LEFTJOIN的“左表全保留”特性相反。43.【參考答案】A,B,C【解析】描述性統(tǒng)計用于總結(jié)和描述數(shù)據(jù)的基本特征,包括均值(集中趨勢)、標準差(離散程度)和相關(guān)系數(shù)(變量間關(guān)系)[[37]]。p值屬于推斷統(tǒng)計,用于假設(shè)檢驗,判斷結(jié)果的統(tǒng)計顯著性,不屬于描述性統(tǒng)計[[30]]。44.【參考答案】A,B,D【解析】數(shù)據(jù)預(yù)處理旨在提升數(shù)據(jù)質(zhì)量,為后續(xù)分析做準備,包括轉(zhuǎn)換數(shù)據(jù)格式[[26]]、刪除重復(fù)項[[26]]和歸一化(縮放數(shù)據(jù)范圍)[[26]]。構(gòu)建預(yù)測模型屬于分析建模階段,不屬于預(yù)處理[[22]]。45.【參考答案】A,C,D【解析】COUNT()統(tǒng)計非空值數(shù)量[[11]],AVG()和SUM()等聚合函數(shù)在計算時會自動忽略NULL值[[11]],MAX()可返回數(shù)值型字段的最大值。SUM()要求操作數(shù)為數(shù)值型,對字符串求和無意義且會報錯。46.【參考答案】A【解析】GROUPBY子句將數(shù)據(jù)按照一個或多個列進行分組,以便對每組數(shù)據(jù)應(yīng)用聚合函數(shù)(如COUNT,SUM,AVG等)[[22]]。HAVING子句則用于過濾這些分組后的結(jié)果,其條件通常包含聚合函數(shù),這與WHERE子句在分組前過濾行不同[[20]]。因此,該描述正確。
2.【題干】外鍵(ForeignKey)必須引用另一個表的主鍵(PrimaryKey),且外鍵字段的值不能為空。
【選項】A.正確B.錯誤
【參考答案】B
【解析】外鍵確實用于建立與另一表主鍵的關(guān)聯(lián)關(guān)系,以維護數(shù)據(jù)完整性[[14]]。但外鍵字段的值可以為空(NULL),這通常表示該記錄與另一表的關(guān)聯(lián)尚未確定或不適用[[13]]。因此,該描述錯誤。
3.【題干】INNERJOIN返回兩個表中所有匹配的記錄,如果某表中沒有匹配項,則不會在結(jié)果中出現(xiàn)。
【選項】A.正確B.錯誤
【參考答案】A
【解析】INNERJOIN(內(nèi)連接)僅返回兩個表中連接條件匹配的行。如果左表或右表中某行在另一表中沒有匹配的行,該行將不會出現(xiàn)在最終結(jié)果集中[[17]]。因此,該描述正確。
4.【題干】主鍵(PrimaryKey)用于唯一標識表中的每一行記錄,且不允許包含空值(NULL)。
【選項】A.正確B.錯誤
【參考答案】A
【解析】主鍵的核心作用是唯一標識表中的每一條記錄,確保數(shù)據(jù)的唯一性[[19]]。為了保證這種唯一性和完整性,主鍵字段被強制要求不能包含空值(NULL)[[12]]。因此,該描述正確。
5.【題干】在SQL中,使用LEFTJOIN時,結(jié)果集將包含左表的所有記錄,即使右表中沒有匹配的記錄。
【選項】A.正確B.錯誤
【參考答案】A
【解析】LEFTJOIN(左連接)會返回左表(LEFTTABLE)中的所有記錄,無論右表中是否存在與之匹配的記錄。對于右表中沒有匹配的記錄,結(jié)果集中對應(yīng)列的值將為NULL[[17]]。因此,該描述正確。
6.【題干】數(shù)據(jù)清洗是數(shù)據(jù)分析流程中的一個環(huán)節(jié),其主要目的是修正或刪除不完整、錯誤、重復(fù)或不一致的數(shù)據(jù)。
【選項】A.正確B.錯誤
【參考答案】A
【解析】數(shù)據(jù)清洗是數(shù)據(jù)分析前的關(guān)鍵步驟,旨在提高數(shù)據(jù)質(zhì)量。它包括處理缺失值、糾正錯誤數(shù)據(jù)、刪除重復(fù)記錄以及統(tǒng)一數(shù)據(jù)格式等操作,以確保后續(xù)分析的準確性[[23]]。因此,該描述正確。
7.【題干】在SQL查詢中,WHERE子句和HAVING子句的功能完全相同,都可以用于過濾數(shù)據(jù)。
【選項】A.正確B.錯誤
【參考答案】B
【解析】W
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 稀土后處理工班組安全測試考核試卷含答案
- 鑄管制芯工安全知識競賽評優(yōu)考核試卷含答案
- 漁船機駕長常識評優(yōu)考核試卷含答案
- 海參池塘養(yǎng)殖培訓(xùn)
- 茶葉拼配師安全素養(yǎng)評優(yōu)考核試卷含答案
- 礦石破碎篩分工操作知識能力考核試卷含答案
- 橋梁工程培訓(xùn)
- 老年人入住老人教育培訓(xùn)制度
- 海上作業(yè)安全培訓(xùn)
- 酒店客房清潔保養(yǎng)制度
- 2025至2030蘑菇多糖行業(yè)發(fā)展趨勢分析與未來投資戰(zhàn)略咨詢研究報告
- 液壓爬模設(shè)備操作安全管理標準
- 渠道拓展與合作伙伴關(guān)系建立方案
- 2025年文化旅游產(chǎn)業(yè)預(yù)算編制方案
- 木工安全操作教育培訓(xùn)課件
- 護理洗胃考試試題及答案
- 2025年醫(yī)院精神科服藥過量患者應(yīng)急預(yù)案及演練腳本
- 軍人識圖用圖課件
- 廣東2025年事業(yè)單位招聘考試真題及答案解析
- 浙江杭州西湖區(qū)保俶塔實驗校2026屆中考物理考試模擬沖刺卷含解析
評論
0/150
提交評論