2025年數(shù)據(jù)科學(xué)導(dǎo)論試題及答案_第1頁(yè)
2025年數(shù)據(jù)科學(xué)導(dǎo)論試題及答案_第2頁(yè)
2025年數(shù)據(jù)科學(xué)導(dǎo)論試題及答案_第3頁(yè)
2025年數(shù)據(jù)科學(xué)導(dǎo)論試題及答案_第4頁(yè)
2025年數(shù)據(jù)科學(xué)導(dǎo)論試題及答案_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年數(shù)據(jù)科學(xué)導(dǎo)論試題及答案一、單項(xiàng)選擇題(每題2分,共20分)1.以下哪項(xiàng)屬于非結(jié)構(gòu)化數(shù)據(jù)?A.關(guān)系型數(shù)據(jù)庫(kù)中的用戶表B.社交媒體中的用戶評(píng)論C.財(cái)務(wù)系統(tǒng)中的資產(chǎn)負(fù)債表D.氣象站記錄的溫度時(shí)間序列答案:B2.某數(shù)據(jù)集的頻數(shù)分布中,出現(xiàn)次數(shù)最多的數(shù)值為18,該統(tǒng)計(jì)量是:A.均值B.中位數(shù)C.眾數(shù)D.分位數(shù)答案:C3.在分類模型評(píng)估中,若真實(shí)正類為100例,模型預(yù)測(cè)正類為80例,其中正確預(yù)測(cè)的正類為60例,則精確率(Precision)為:A.60%B.75%C.66.67%D.80%答案:B(精確率=TP/(TP+FP)=60/(60+20)=75%)4.數(shù)據(jù)標(biāo)準(zhǔn)化(Z-score標(biāo)準(zhǔn)化)的公式為:A.(x-μ)/σB.(x-min)/(max-min)C.x/||x||D.log(x+1)答案:A5.以下哪種方法最可能用于解決模型過(guò)擬合問(wèn)題?A.增加訓(xùn)練數(shù)據(jù)量B.減少特征數(shù)量C.提高模型復(fù)雜度D.降低學(xué)習(xí)率答案:A6.特征工程中,將“星期幾”(周一至周日)轉(zhuǎn)換為數(shù)值特征時(shí),最合理的編碼方式是:A.獨(dú)熱編碼(One-HotEncoding)B.標(biāo)簽編碼(LabelEncoding)C.二進(jìn)制編碼(BinaryEncoding)D.目標(biāo)編碼(TargetEncoding)答案:A(星期幾無(wú)順序關(guān)系,獨(dú)熱編碼避免引入錯(cuò)誤順序)7.SQL語(yǔ)句中,用于返回滿足條件的非重復(fù)記錄的關(guān)鍵字是:A.DISTINCTB.GROUPBYC.HAVINGD.UNION答案:A8.數(shù)據(jù)可視化中,展示兩個(gè)連續(xù)變量之間的相關(guān)關(guān)系最適合的圖表是:A.柱狀圖B.散點(diǎn)圖C.折線圖D.箱線圖答案:B9.根據(jù)貝葉斯定理,P(A|B)=P(B|A)P(A)/P(B),其中P(A)被稱為:A.后驗(yàn)概率B.似然概率C.先驗(yàn)概率D.邊緣概率答案:C10.數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的核心特點(diǎn)是:A.實(shí)時(shí)性高B.面向事務(wù)處理C.支持歷史數(shù)據(jù)查詢D.數(shù)據(jù)結(jié)構(gòu)動(dòng)態(tài)變化答案:C二、填空題(每題2分,共20分)1.數(shù)據(jù)科學(xué)的核心流程通常包括數(shù)據(jù)采集、數(shù)據(jù)清洗、________、模型構(gòu)建、模型評(píng)估和部署應(yīng)用。答案:探索性數(shù)據(jù)分析(EDA)2.若某數(shù)據(jù)集的均值大于中位數(shù),則數(shù)據(jù)分布呈現(xiàn)________(左偏/右偏)。答案:右偏3.決策樹(shù)算法中,常用的劃分準(zhǔn)則包括信息增益、________和基尼系數(shù)。答案:信息增益率4.K-means聚類算法的目標(biāo)是最小化所有樣本到其所屬簇________的距離平方和。答案:中心(質(zhì)心)5.余弦相似度的計(jì)算公式為兩個(gè)向量的點(diǎn)積除以它們的________的乘積。答案:模長(zhǎng)(范數(shù))6.正則化方法中,L1正則化傾向于使模型參數(shù)________,L2正則化傾向于使參數(shù)趨近于0但不為0。答案:稀疏(產(chǎn)生更多0參數(shù))7.數(shù)據(jù)湖(DataLake)通常以________格式存儲(chǔ)原始數(shù)據(jù)(如Parquet、ORC或文本文件),支持多類型數(shù)據(jù)存儲(chǔ)。答案:列式(或非結(jié)構(gòu)化/半結(jié)構(gòu)化)8.A/B測(cè)試的關(guān)鍵假設(shè)是兩組樣本滿足________,即除被測(cè)試變量外,其他條件無(wú)顯著差異。答案:隨機(jī)化(或獨(dú)立性)9.主成分分析(PCA)的核心目標(biāo)是通過(guò)線性變換將高維數(shù)據(jù)投影到低維空間,同時(shí)最大化________。答案:方差(保留最大信息)10.混淆矩陣中,真陽(yáng)性率(TPR)的計(jì)算公式為_(kāi)_______。答案:TP/(TP+FN)(或召回率/靈敏度)三、簡(jiǎn)答題(每題8分,共40分)1.簡(jiǎn)述數(shù)據(jù)清洗的常見(jiàn)問(wèn)題及對(duì)應(yīng)的解決方法。答案:數(shù)據(jù)清洗的常見(jiàn)問(wèn)題包括:(1)缺失值:可能由記錄遺漏、設(shè)備故障等導(dǎo)致,解決方法有刪除缺失樣本(當(dāng)缺失比例低時(shí))、均值/中位數(shù)填充(數(shù)值型)、眾數(shù)填充(分類型)、插值法(時(shí)間序列)或模型預(yù)測(cè)填充;(2)異常值:可能由測(cè)量誤差或真實(shí)極端值引起,解決方法有Z-score法(超出μ±3σ)或IQR法(超出Q1-1.5IQR或Q3+1.5IQR)識(shí)別后,刪除、修正或保留(若為真實(shí)值);(3)重復(fù)值:由數(shù)據(jù)冗余導(dǎo)致,需通過(guò)唯一標(biāo)識(shí)(如ID)去重;(4)數(shù)據(jù)不一致:如日期格式混亂、單位不統(tǒng)一,需統(tǒng)一格式或轉(zhuǎn)換單位;(5)錯(cuò)誤值:如年齡為-5,需根據(jù)業(yè)務(wù)邏輯修正或刪除。2.對(duì)比監(jiān)督學(xué)習(xí)與無(wú)監(jiān)督學(xué)習(xí)的核心區(qū)別,并各舉一個(gè)應(yīng)用場(chǎng)景。答案:核心區(qū)別:監(jiān)督學(xué)習(xí)使用帶標(biāo)簽的數(shù)據(jù)(輸入x與輸出y),目標(biāo)是學(xué)習(xí)x到y(tǒng)的映射(如分類、回歸);無(wú)監(jiān)督學(xué)習(xí)使用無(wú)標(biāo)簽數(shù)據(jù),目標(biāo)是發(fā)現(xiàn)數(shù)據(jù)內(nèi)在結(jié)構(gòu)(如聚類、降維)。應(yīng)用場(chǎng)景示例:監(jiān)督學(xué)習(xí)如基于用戶歷史購(gòu)買記錄(x)和是否購(gòu)買(y=0/1)的購(gòu)買預(yù)測(cè)模型;無(wú)監(jiān)督學(xué)習(xí)如基于用戶行為數(shù)據(jù)(無(wú)標(biāo)簽)的用戶分群(聚類)。3.列舉特征選擇的常用方法,并說(shuō)明其核心思想。答案:特征選擇方法包括:(1)過(guò)濾法(Filter):基于統(tǒng)計(jì)量(如卡方檢驗(yàn)、相關(guān)系數(shù)、互信息)評(píng)估特征與目標(biāo)的相關(guān)性,保留高相關(guān)特征;(2)包裝法(Wrapper):將特征選擇視為搜索問(wèn)題,用模型性能(如準(zhǔn)確率)作為評(píng)價(jià)指標(biāo),逐步選擇最優(yōu)特征子集(如前向/后向搜索);(3)嵌入法(Embedded):在模型訓(xùn)練過(guò)程中自動(dòng)選擇特征(如L1正則化的邏輯回歸,通過(guò)稀疏化參數(shù)剔除不重要特征);(4)基于樹(shù)模型的重要性:如隨機(jī)森林通過(guò)特征對(duì)節(jié)點(diǎn)分裂的貢獻(xiàn)度(Gini重要性)評(píng)估特征重要性。4.評(píng)估分類模型時(shí),常用的指標(biāo)有哪些?說(shuō)明各指標(biāo)的適用場(chǎng)景。答案:常用指標(biāo)包括:(1)準(zhǔn)確率(Accuracy):正確分類樣本占比,適用于類別分布均衡的場(chǎng)景;(2)精確率(Precision):預(yù)測(cè)正類中實(shí)際正類的比例,適用于關(guān)注“減少誤判正類”的場(chǎng)景(如垃圾郵件檢測(cè));(3)召回率(Recall/TPR):實(shí)際正類中被正確預(yù)測(cè)的比例,適用于關(guān)注“不遺漏正類”的場(chǎng)景(如疾病診斷);(4)F1-score:精確率與召回率的調(diào)和平均,適用于需平衡兩者的場(chǎng)景;(5)AUC-ROC:反映模型在不同閾值下的分類能力,適用于類別分布不均衡或需全局評(píng)估的場(chǎng)景;(6)對(duì)數(shù)損失(LogLoss):衡量預(yù)測(cè)概率與真實(shí)標(biāo)簽的吻合度,適用于需要概率輸出的模型(如邏輯回歸)。5.簡(jiǎn)述Hadoop生態(tài)中HDFS、MapReduce和Hive的作用及相互關(guān)系。答案:HDFS(Hadoop分布式文件系統(tǒng))是底層存儲(chǔ)組件,用于存儲(chǔ)海量數(shù)據(jù)(分塊存儲(chǔ),冗余備份);MapReduce是計(jì)算框架,將任務(wù)分解為Map(映射)和Reduce(歸約)階段,支持分布式并行計(jì)算;Hive是數(shù)據(jù)倉(cāng)庫(kù)工具,提供類SQL的HiveQL語(yǔ)言,將SQL查詢轉(zhuǎn)換為MapReduce任務(wù),簡(jiǎn)化分布式計(jì)算的使用。三者關(guān)系:HDFS為存儲(chǔ)層,MapReduce為計(jì)算層,Hive為上層接口,用戶通過(guò)Hive操作HDFS上的數(shù)據(jù),底層由MapReduce執(zhí)行計(jì)算。四、計(jì)算題(每題10分,共20分)1.某數(shù)據(jù)集包含10個(gè)樣本的年齡(單位:歲):22,25,28,30,32,35,38,40,45,50。(1)計(jì)算均值、中位數(shù)、標(biāo)準(zhǔn)差(保留2位小數(shù));(2)計(jì)算偏度(使用皮爾遜偏度系數(shù):3(均值-中位數(shù))/標(biāo)準(zhǔn)差),并判斷數(shù)據(jù)分布形態(tài)。答案:(1)均值=(22+25+28+30+32+35+38+40+45+50)/10=345/10=34.5歲;中位數(shù)為第5、6個(gè)數(shù)的平均=(32+35)/2=33.5歲;標(biāo)準(zhǔn)差計(jì)算:各數(shù)據(jù)與均值差的平方和=[(22-34.5)2+…+(50-34.5)2]=(-12.5)2+(-9.5)2+(-6.5)2+(-4.5)2+(-2.5)2+(0.5)2+(3.5)2+(5.5)2+(10.5)2+(15.5)2=156.25+90.25+42.25+20.25+6.25+0.25+12.25+30.25+110.25+240.25=708.5;方差=708.5/10=70.85,標(biāo)準(zhǔn)差=√70.85≈8.42歲。(2)皮爾遜偏度系數(shù)=3(34.5-33.5)/8.42≈31/8.42≈0.356>0,數(shù)據(jù)呈右偏分布(均值>中位數(shù))。2.某邏輯回歸模型的參數(shù)為:權(quán)重w=[0.5,-0.3],偏置b=0.2。現(xiàn)有一個(gè)樣本的特征向量x=[2,4],假設(shè)閾值為0.5,計(jì)算該樣本被分類為正類(y=1)還是負(fù)類(y=0)。答案:邏輯回歸的線性組合z=w·x+b=0.52+(-0.3)4+0.2=11.2+0.2=0;通過(guò)sigmoid函數(shù)計(jì)算概率p=1/(1+e^(-z))=1/(1+e^0)=0.5;由于p=0.5等于閾值,通常根據(jù)具體規(guī)則(如向上取整)分類為正類(或負(fù)類,需說(shuō)明假設(shè))。若嚴(yán)格大于0.5為正類,則此處p=0.5可能分類為負(fù)類,需根據(jù)題目要求判斷。通常默認(rèn)p≥0.5為正類,故分類為正類。五、綜合分析題(20分)某電商平臺(tái)希望分析用戶購(gòu)買行為,需構(gòu)建一個(gè)預(yù)測(cè)用戶是否會(huì)購(gòu)買某商品的分類模型?,F(xiàn)有數(shù)據(jù)集包含以下特征:用戶年齡(數(shù)值型)、性別(分類型:男/女)、過(guò)去30天瀏覽該商品的次數(shù)(數(shù)值型)、頁(yè)面停留時(shí)間(數(shù)值型)、是否為會(huì)員(布爾型)、商品價(jià)格(數(shù)值型)、目標(biāo)變量(是否購(gòu)買:0/1)。(1)說(shuō)明數(shù)據(jù)預(yù)處理的關(guān)鍵步驟及理由;(2)選擇兩種適合的分類算法,并說(shuō)明選擇依據(jù);(3)若模型訓(xùn)練后準(zhǔn)確率為90%,但在測(cè)試集上僅為75%,可能的原因及解決方法。答案:(1)數(shù)據(jù)預(yù)處理步驟:①缺失值處理:檢查各特征是否有缺失(如年齡缺失),數(shù)值型用均值/中位數(shù)填充,分類型用眾數(shù)或新增“缺失”類別;②分類型特征編碼:性別(男/女)用獨(dú)熱編碼(避免引入順序),是否為會(huì)員(布爾型)直接轉(zhuǎn)為0/1;③數(shù)值型特征標(biāo)準(zhǔn)化/歸一化:年齡、瀏覽次數(shù)、停留時(shí)間、價(jià)格量綱不同,需用Z-score或Min-Max標(biāo)準(zhǔn)化,避免模型對(duì)大數(shù)值特征過(guò)度敏感;④特征工程:可構(gòu)造新特征(如瀏覽次數(shù)×停留時(shí)間反映用戶興趣強(qiáng)度);⑤數(shù)據(jù)劃分:按7:3或8:2劃分為訓(xùn)練集和測(cè)試集,保證分布一致(分層抽樣)。(2)算法選擇及依據(jù):①邏輯回歸:計(jì)算效率高,可解釋性強(qiáng)(系數(shù)反映特征重要性),適合線性可分的場(chǎng)景,且輸出概率值便于業(yè)務(wù)決策(如設(shè)定閾值調(diào)整精確率/召回率);②隨機(jī)森林:能處理非線性關(guān)系,對(duì)異常值和缺失值不敏感,通過(guò)多棵決策樹(shù)降低過(guò)擬合風(fēng)險(xiǎn),同時(shí)提供特征重要性評(píng)分(幫助業(yè)務(wù)理解關(guān)鍵因素)。(3)訓(xùn)練準(zhǔn)確率90%、測(cè)試75%的可能原因及解決方法:①過(guò)擬合:模型在訓(xùn)練集上過(guò)度學(xué)習(xí)噪聲,解決方法包

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論