2025年數(shù)據(jù)分析師筆試重點難點解析_第1頁
2025年數(shù)據(jù)分析師筆試重點難點解析_第2頁
2025年數(shù)據(jù)分析師筆試重點難點解析_第3頁
2025年數(shù)據(jù)分析師筆試重點難點解析_第4頁
2025年數(shù)據(jù)分析師筆試重點難點解析_第5頁
已閱讀5頁,還剩6頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領

文檔簡介

2025年數(shù)據(jù)分析師筆試重點難點解析題目部分一、選擇題(共10題,每題2分,共20分)1.在數(shù)據(jù)清洗過程中,以下哪種方法最適合處理缺失值?()A.直接刪除包含缺失值的記錄B.使用均值/中位數(shù)/眾數(shù)填充C.建立模型預測缺失值D.以上都是2.以下哪個指標最適合衡量分類模型的預測效果?()A.均方誤差(MSE)B.R2值C.AUC值D.決定系數(shù)3.在時間序列分析中,ARIMA模型的三個關(guān)鍵參數(shù)是什么?()A.p,d,qB.n,k,λC.α,β,γD.m,x,y4.以下哪種圖表最適合展示不同類別之間的數(shù)值分布?()A.散點圖B.柱狀圖C.箱線圖D.餅圖5.在特征工程中,以下哪種方法屬于降維技術(shù)?()A.PCA(主成分分析)B.特征組合C.標準化D.獨立成分分析6.以下哪個庫是Python中最常用的數(shù)據(jù)分析庫?()A.PandasB.MatplotlibC.Scikit-learnD.TensorFlow7.在假設檢驗中,p值小于0.05通常意味著什么?()A.拒絕原假設B.接受原假設C.結(jié)果有統(tǒng)計顯著性D.以上都對8.以下哪種方法最適合處理文本數(shù)據(jù)的情感分析?()A.決策樹B.神經(jīng)網(wǎng)絡C.樸素貝葉斯D.支持向量機9.在數(shù)據(jù)庫索引優(yōu)化中,以下哪種索引最適合全文搜索?()A.B-Tree索引B.Hash索引C.GIN索引D.GSI索引10.以下哪個指標可以衡量模型在測試集上的泛化能力?()A.過擬合率B.訓練誤差C.梯度下降速度D.交叉驗證得分二、填空題(共5題,每題2分,共10分)1.在數(shù)據(jù)預處理中,將文本轉(zhuǎn)換為數(shù)值特征的技術(shù)稱為__________。2.評估分類模型時,混淆矩陣中的TP表示__________。3.在回歸分析中,殘差分析的主要目的是__________。4.適用于多分類問題的損失函數(shù)是__________。5.SQL中用于聚合數(shù)據(jù)的函數(shù)__________。三、簡答題(共5題,每題4分,共20分)1.簡述交叉驗證的原理及其在模型評估中的作用。2.解釋什么是過擬合,并列舉三種防止過擬合的方法。3.描述數(shù)據(jù)探索性分析(EDA)的主要步驟及其目的。4.說明特征選擇與特征工程的區(qū)別,并各列舉三種常用方法。5.解釋SQL中的JOIN操作,并說明INNERJOIN與LEFTJOIN的區(qū)別。四、計算題(共3題,每題8分,共24分)1.某電商網(wǎng)站用戶購買行為數(shù)據(jù)如下:-用戶A:購買次數(shù)=5,平均客單價=200元-用戶B:購買次數(shù)=3,平均客單價=300元-用戶C:購買次數(shù)=8,平均客單價=150元計算該網(wǎng)站用戶的平均客單價和購買次數(shù)。2.已知某分類模型的預測結(jié)果如下:-真實類別:[1,0,1,1,0]-預測類別:[1,1,1,0,0]計算該模型的精確率、召回率和F1分數(shù)。3.假設有以下數(shù)據(jù)表:-訂單表(order_id,user_id,amount)-用戶表(user_id,age,gender)寫出SQL查詢語句,獲取每個用戶的總訂單金額和平均訂單金額,并按總金額降序排列。五、編程題(共2題,每題10分,共20分)1.使用Python和Pandas處理以下數(shù)據(jù):pythondata={'產(chǎn)品':['A','B','C','A','B','C'],'銷量':[100,150,200,130,160,210]}要求:-統(tǒng)計每個產(chǎn)品的總銷量-計算每個產(chǎn)品的銷量占比-繪制銷量占比的餅圖2.使用Python實現(xiàn)簡單的線性回歸模型,并用以下數(shù)據(jù)進行訓練:pythonX=[1,2,3,4,5]y=[2,4,5,4,5]要求:-計算回歸系數(shù)-預測X=6時的y值-繪制數(shù)據(jù)點和回歸線答案部分一、選擇題答案1.D2.C3.A4.C5.A6.A7.D8.C9.C10.D二、填空題答案1.特征工程2.真正陽性(TruePositive)3.檢驗模型擬合的殘差是否隨機4.Softmax損失函數(shù)5.COUNT,SUM,AVG,MAX,MIN三、簡答題答案1.交叉驗證通過將數(shù)據(jù)分為k個子集,輪流使用k-1個子集訓練,剩余1個子集測試,重復k次得到模型性能的平均值。作用是更準確地評估模型泛化能力,減少單一劃分帶來的偏差。2.過擬合是指模型在訓練數(shù)據(jù)上表現(xiàn)極好,但在新數(shù)據(jù)上表現(xiàn)差。方法:①正則化(L1/L2)②減少模型復雜度③早停法。3.EDA步驟:①數(shù)據(jù)概覽(描述性統(tǒng)計)②數(shù)據(jù)分布(直方圖、箱線圖)③變量關(guān)系(散點圖、相關(guān)性)④異常值檢測。目的:發(fā)現(xiàn)數(shù)據(jù)模式、檢驗假設、指導后續(xù)分析。4.特征選擇是直接選擇原始特征子集,如遞歸特征消除;特征工程是轉(zhuǎn)換或組合原始特征,如PCA、多項式特征。方法:特征選擇(遞歸特征消除、Lasso回歸)特征工程(PCA、特征組合)。5.JOIN是SQL中合并兩個或多個表的語句。INNERJOIN返回兩個表中有匹配的行;LEFTJOIN返回左表所有行,右表匹配不到則返回NULL。四、計算題答案1.平均客單價=(200×5+300×3+150×8)/16=202.5元購買次數(shù)=(5+3+8)/3=6次2.精確率=TP/(TP+FP)=2/(2+1)=0.67召回率=TP/(TP+FN)=2/(2+1)=0.67F1=2×(0.67×0.67)/(0.67+0.67)=0.673.sqlSELECTuser_id,SUM(amount)AStotal_amount,AVG(amount)ASavg_amountFROMorder_idJOINuser_idONorder_id.user_id=user_id.user_idGROUPBYuser_idORDERBYtotal_amountDESC五、編程題答案1.pythonimportpandasaspdimportmatplotlib.pyplotaspltdata={'產(chǎn)品':['A','B','C','A','B','C'],'銷量':[100,150,200,130,160,210]}df=pd.DataFrame(data)#總銷量統(tǒng)計total_sales=df.groupby('產(chǎn)品')['銷量'].sum()#銷量占比sales_pct=total_sales/total_sales.sum()*100#繪制餅圖plt.pie(sales_pct,labels=total_sales.index,autopct='%1.1f%%')plt.title('產(chǎn)品銷量占比')plt.show()2.pythonimportnumpyasnpimportmatplotlib.pyplotasplt#線性回歸實現(xiàn)X=np.array([1,2,3,4,5]).reshape(-1,1)y=np.array([2,4,5,4,5])#計算回歸系數(shù)X_b=np.c_[np.ones((5,1)),X]theta=np.linalg.inv(X_b.T@X_b)@X_b.T@y#預測y_pred=X_b@thetay_pred_6=np.array([1,6])@theta

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論