2025年數據分析師筆試重點考點及模擬題集_第1頁
2025年數據分析師筆試重點考點及模擬題集_第2頁
2025年數據分析師筆試重點考點及模擬題集_第3頁
2025年數據分析師筆試重點考點及模擬題集_第4頁
2025年數據分析師筆試重點考點及模擬題集_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

2025年數據分析師筆試重點考點及模擬題集一、選擇題(每題2分,共20題)1.在進行數據清洗時,以下哪種方法最適合處理缺失值?A.直接刪除含有缺失值的行B.使用均值或中位數填充C.使用眾數填充D.以上都不對2.以下哪個不是常見的數據分析指標?A.均值B.方差C.相關系數D.熵值3.在進行數據可視化時,以下哪種圖表最適合展示時間序列數據?A.散點圖B.條形圖C.折線圖D.餅圖4.以下哪個不是常用的數據挖掘算法?A.決策樹B.線性回歸C.K-means聚類D.樸素貝葉斯5.在進行假設檢驗時,以下哪個是第一類錯誤的概率?A.真實情況為H0為真,但拒絕了H0B.真實情況為H0為假,但接受了H0C.真實情況為H0為假,但拒絕了H0D.真實情況為H0為真,但接受了H06.以下哪個不是常用的特征工程方法?A.數據標準化B.特征編碼C.特征選擇D.數據采樣7.在進行回歸分析時,以下哪個指標可以衡量模型的擬合優(yōu)度?A.R2B.MAEC.RMSED.AUC8.以下哪個不是常用的分類算法?A.邏輯回歸B.支持向量機C.KNND.主成分分析9.在進行時間序列分析時,以下哪個模型最適合處理具有明顯季節(jié)性特征的數據?A.AR模型B.MA模型C.ARIMA模型D.指數平滑模型10.以下哪個不是常用的聚類算法?A.K-meansB.層次聚類C.DBSCAND.決策樹二、填空題(每題2分,共10題)1.數據分析的基本流程包括數據采集、______、數據分析和數據可視化。2.在進行數據清洗時,常見的異常值處理方法包括______和______。3.在進行數據可視化時,散點圖主要用于展示______之間的關系。4.在進行假設檢驗時,顯著性水平通常表示為______。5.在進行特征工程時,常用的特征編碼方法包括______和______。6.在進行回歸分析時,常用的評估指標包括______、______和______。7.在進行分類分析時,常用的評估指標包括______、______和______。8.在進行時間序列分析時,常用的模型包括______、______和______。9.在進行聚類分析時,常用的評估指標包括______和______。10.在進行數據挖掘時,常用的算法包括______、______和______。三、簡答題(每題5分,共5題)1.簡述數據清洗的步驟。2.簡述特征工程的常用方法。3.簡述回歸分析和分類分析的區(qū)別。4.簡述時間序列分析的基本步驟。5.簡述聚類分析的基本步驟。四、計算題(每題10分,共3題)1.某公司銷售數據如下表所示,請計算該公司的平均銷售額和標準差。|月份|銷售額(萬元)|||-||1|120||2|130||3|140||4|150||5|160|2.某公司員工年齡數據如下表所示,請計算該公司的年齡中位數和眾數。|員工編號|年齡|||||1|25||2|30||3|35||4|25||5|30|3.某公司銷售額和廣告投入數據如下表所示,請計算銷售額和廣告投入的相關系數。|月份|銷售額(萬元)|廣告投入(萬元)|||-|||1|120|10||2|130|12||3|140|15||4|150|18||5|160|20|五、編程題(每題15分,共2題)1.使用Python編寫代碼,讀取以下CSV文件,并計算每個月的平均銷售額和標準差。csv月份,銷售額(萬元)1,1202,1303,1404,1505,1602.使用Python編寫代碼,讀取以下CSV文件,并計算每個月的廣告投入與銷售額的相關系數。csv月份,銷售額(萬元),廣告投入(萬元)1,120,102,130,123,140,154,150,185,160,20答案一、選擇題1.B2.D3.C4.D5.A6.D7.A8.D9.C10.D二、填空題1.數據預處理2.上下限法,刪除法3.兩個變量4.α5.獨熱編碼,標簽編碼6.R2,MAE,RMSE7.準確率,召回率,F1值8.AR模型,MA模型,ARIMA模型9.輪廓系數,戴維斯指標10.決策樹,支持向量機,聚類算法三、簡答題1.數據清洗的步驟包括:數據采集、數據預處理(包括數據清洗、數據集成、數據變換、數據規(guī)約)、數據預處理(包括數據清洗、數據集成、數據變換、數據規(guī)約)、數據分析和數據可視化。2.特征工程的常用方法包括:特征選擇、特征提取、特征編碼。特征選擇包括過濾法、包裹法、嵌入法;特征提取包括主成分分析、線性判別分析;特征編碼包括獨熱編碼、標簽編碼。3.回歸分析和分類分析的區(qū)別在于:回歸分析用于預測連續(xù)值,分類分析用于預測離散值?;貧w分析的目標是找到一個函數,將輸入變量映射到一個連續(xù)的輸出變量;分類分析的目標是找到一個分類器,將輸入變量映射到一個離散的類別。4.時間序列分析的基本步驟包括:數據收集、數據預處理、探索性數據分析、模型選擇、模型訓練、模型評估和模型預測。5.聚類分析的基本步驟包括:數據收集、數據預處理、選擇聚類算法、設置參數、執(zhí)行聚類、評估聚類結果和應用聚類結果。四、計算題1.平均銷售額=(120+130+140+150+160)/5=130萬元標準差=sqrt(((120-130)2+(130-130)2+(140-130)2+(150-130)2+(160-130)2)/5)=sqrt(200)≈14.14萬元2.年齡中位數=30歲眾數=25歲3.相關系數=cov(銷售額,廣告投入)/(std(銷售額)*std(廣告投入))=(50/50)/(sqrt(50)*sqrt(50))=1五、編程題1.pythonimportpandasaspddata=pd.read_csv('sales_data.csv')average_sales=data['銷售額(萬元)'].mean()std_sales=data['銷售額(萬元)'].std()print(f'平均銷售額:{average_sales}萬元')print(f'標準差:{std_sales}萬元')2.pythoni

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論