2025年數(shù)據(jù)分析師職業(yè)指導師(中級)專業(yè)能力試卷及答案_第1頁
2025年數(shù)據(jù)分析師職業(yè)指導師(中級)專業(yè)能力試卷及答案_第2頁
2025年數(shù)據(jù)分析師職業(yè)指導師(中級)專業(yè)能力試卷及答案_第3頁
2025年數(shù)據(jù)分析師職業(yè)指導師(中級)專業(yè)能力試卷及答案_第4頁
2025年數(shù)據(jù)分析師職業(yè)指導師(中級)專業(yè)能力試卷及答案_第5頁
已閱讀5頁,還剩19頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年數(shù)據(jù)分析師職業(yè)指導師(中級)專業(yè)能力試卷及答案一、單項選擇題(每題1分,共30分。每題只有一個正確答案,請將正確選項的字母填在括號內(nèi))1.在Python中,使用pandas讀取CSV文件時,若文件編碼為GBK,應(yīng)使用的參數(shù)是()A.encoding='utf8'B.encoding='gbk'C.decode='gbk'D.charset='gb2312'答案:B2.某電商平臺的用戶行為日志中,字段“event_time”為字符串格式“2025060314:23:45”,若需將其轉(zhuǎn)換為pandas的datetime類型,正確的代碼是()A.pd.to_datetime(df['event_time'],format='%Y%m%d%H:%M:%S')B.pd.to_datetime(df['event_time'],unit='s')C.pd.to_datetime(df['event_time'],origin='unix')D.pd.to_datetime(df['event_time'],infer_datetime_format=False)答案:A3.在SQL中,計算用戶次日留存率的正確邏輯是()A.次日活躍用戶數(shù)÷當日新增用戶數(shù)B.當日活躍用戶數(shù)÷次日新增用戶數(shù)C.次日新增用戶數(shù)÷當日活躍用戶數(shù)D.當日新增用戶數(shù)÷次日活躍用戶數(shù)答案:A4.使用Excel進行數(shù)據(jù)清洗時,若需將“2025/6/3”統(tǒng)一為“20250603”,應(yīng)優(yōu)先使用的功能是()A.查找與替換B.分列C.設(shè)置單元格格式→自定義D.數(shù)據(jù)驗證答案:C5.在Python中,使用seaborn繪制箱線圖時,若需按“city”分組并顯示“price”分布,正確的代碼是()A.sns.boxplot(x='city',y='price',data=df)B.sns.boxplot(x='price',y='city',data=df)C.sns.violinplot(x='city',y='price',kind='box')D.sns.catplot(x='city',y='price',kind='box')答案:A6.某A/B實驗樣本量為10000,實驗組轉(zhuǎn)化率5.2%,對照組轉(zhuǎn)化率4.8%,若使用兩樣本z檢驗,顯著性水平α=0.05,臨界值|z|=1.96,則結(jié)論為()A.拒絕原假設(shè),實驗組顯著優(yōu)于對照組B.拒絕原假設(shè),對照組顯著優(yōu)于實驗組C.不拒絕原假設(shè),差異不顯著D.無法判斷,需補充樣本量答案:C7.在PowerBI中,若需創(chuàng)建“同比”度量值,使用的DAX函數(shù)組合是()A.CALCULATE+SAMEPERIODLASTYEARB.CALCULATE+DATEADDC.CALCULATE+PARALLELPERIODD.CALCULATE+PREVIOUSYEAR答案:A8.使用Python進行文本分詞時,若需精確模式并去除停用詞,正確的jieba調(diào)用順序是()A.jieba.lcut(s,cut_all=False)→停用詞過濾B.jieba.lcut(s,cut_all=True)→停用詞過濾C.jieba.cut_for_search(s)→停用詞過濾D.jieba.tokenize(s)→停用詞過濾答案:A9.在聚類分析中,若使用KMeans算法,且輪廓系數(shù)(silhouettescore)隨k值增加而持續(xù)下降,則最佳k值應(yīng)選()A.輪廓系數(shù)最高點對應(yīng)的kB.輪廓系數(shù)最低點對應(yīng)的kC.手肘法則拐點對應(yīng)的kD.輪廓系數(shù)下降前的最大k答案:A10.在Python中,使用sklearn的StandardScaler進行特征標準化后,新特征的均值與方差分別為()A.均值0,方差1B.均值1,方差0C.均值0,方差0D.均值1,方差1答案:A11.在Tableau中,若需將“訂單日期”字段快速生成“季度”維度,應(yīng)使用的功能是()A.創(chuàng)建→分層結(jié)構(gòu)B.右鍵→創(chuàng)建→計算字段C.右鍵→離散→季度D.右鍵→創(chuàng)建→組答案:C12.某平臺使用RFM模型進行用戶分層,其中“F”指()A.最近一次消費間隔B.消費頻率C.消費金額D.消費品類數(shù)答案:B13.在Python中,使用statsmodels進行線性回歸時,若需查看VIF值,應(yīng)使用的函數(shù)是()A.statsmodels.stats.outliers_influence.variance_inflation_factorB.sklearn.linear_model.LinearRegressionC.statsmodels.api.OLSD.pandas.get_dummies答案:A14.在SQL中,若需計算用戶連續(xù)登錄天數(shù),優(yōu)先使用的窗口函數(shù)是()A.ROW_NUMBER()B.RANK()C.DENSE_RANK()D.NTILE()答案:A15.使用Python進行時間序列預測時,若數(shù)據(jù)存在明顯季節(jié)性,應(yīng)優(yōu)先選擇的模型是()A.ARIMA(1,1,1)B.SARIMA(1,1,1)(1,1,1,12)C.Prophetwithyearly_seasonality=FalseD.LinearRegression答案:B16.在Excel中,若需將透視表中的“求和項”改為“平均值”,應(yīng)使用的操作路徑是()A.值字段設(shè)置→匯總方式→平均值B.字段列表→拖動字段C.分析→計算項D.設(shè)計→報表布局答案:A17.在Python中,使用numpy生成形狀為(3,4)且元素為01隨機小數(shù)的數(shù)組,正確代碼是()A.np.random.rand(3,4)B.np.random.randn(3,4)C.np.random.randint(0,1,(3,4))D.np.zeros((3,4))答案:A18.在數(shù)據(jù)可視化中,若需展示分類變量與數(shù)值變量的分布差異,優(yōu)先選擇的圖表是()A.箱線圖B.散點圖C.餅圖D.折線圖答案:A19.在Python中,使用pandas刪除DataFrame中缺失值占比大于30%的列,正確代碼是()A.df.loc[:,df.isnull().mean()<0.3]B.df.dropna(thresh=len(df)0.7,axis=1)C.df.dropna(axis=1,inplace=True)D.df.fillna(method='ffill',axis=1)答案:B20.在A/B測試中,若實驗指標為“人均GMV”,則該指標屬于()A.比率型指標B.計數(shù)型指標C.均值型指標D.比例型指標答案:C21.使用Python進行特征選擇時,若使用SelectKBest與卡方檢驗,要求特征必須是()A.非負數(shù)值B.標準化后的數(shù)值C.正態(tài)分布D.離散類別答案:A22.在SQL中,若需將用戶表與訂單表左連接,并保留所有用戶記錄,應(yīng)使用的連接關(guān)鍵字是()A.LEFTJOINB.RIGHTJOINC.INNERJOIND.FULLOUTERJOIN答案:A23.在Python中,使用matplotlib設(shè)置中文字體避免亂碼,常用的全局設(shè)置代碼是()A.plt.rcParams['font.sansserif']=['SimHei']B.plt.rcParams['font.family']='Arial'C.plt.rcParams['axes.unicode_minus']=TrueD.plt.style.use('ggplot')答案:A24.在數(shù)據(jù)倉庫中,星型模型與雪花模型的主要區(qū)別是()A.是否使用事實表B.維度表是否規(guī)范化C.是否支持OLAPD.是否使用外鍵答案:B25.使用Python進行模型評估時,若類別極度不平衡,應(yīng)優(yōu)先查看的指標是()A.AccuracyB.F1scoreC.AUCROCD.Precision@K答案:B26.在Tableau中,若需創(chuàng)建“TopN”篩選器,應(yīng)使用的功能路徑是()A.右鍵維度→篩選器→Top→按字段B.分析→匯總C.工作表→操作D.數(shù)據(jù)→提取答案:A27.在Python中,使用pandas將字符串“¥1,234.56”轉(zhuǎn)為浮點數(shù),正確代碼是()A.pd.to_numeric(df['price'].str.replace('[,¥]','',regex=True))B.df['price'].astype(float)C.float(df['price'])D.df['price'].str.strip('¥')答案:A28.在SQL中,若需計算用戶首次購買間隔(注冊到首次購買的天數(shù)),應(yīng)使用的窗口函數(shù)是()A.MIN(order_date)OVER(PARTITIONBYuser_id)B.FIRST_VALUE(order_date)OVER(PARTITIONBYuser_idORDERBYorder_date)C.ROW_NUMBER()OVER(PARTITIONBYuser_idORDERBYorder_date)D.LAG(order_date)OVER(PARTITIONBYuser_idORDERBYorder_date)答案:A29.在Python中,使用sklearn的RandomForestClassifier訓練模型后,查看特征重要性的屬性是()A.feature_importances_B.coef_C.scores_D.oob_score_答案:A30.在數(shù)據(jù)可視化中,若需展示地理分布,優(yōu)先選擇的圖表是()A.熱力地圖B.雷達圖C.樹狀圖D.桑基圖答案:A二、多項選擇題(每題2分,共20分。每題有兩個或兩個以上正確答案,請將所有正確選項的字母填在括號內(nèi),漏選、錯選均不得分)31.以下哪些操作可以有效降低過擬合風險()A.增加訓練樣本B.減少模型復雜度C.使用L2正則化D.提高學習率答案:A、B、C32.在Python中,以下哪些函數(shù)可用于缺失值填充()A.df.fillna()B.df.replace()C.erpolate()D.df.dropna()答案:A、C33.以下哪些指標可用于評估回歸模型()A.MAEB.RMSEC.R2D.AUC答案:A、B、C34.在SQL中,以下哪些語句會觸發(fā)全表掃描()A.SELECTFROMuserWHEREphoneLIKE'%138%'B.SELECTFROMuserWHEREid=123C.SELECTFROMuserWHEREYEAR(birthday)=1990D.SELECTFROMuserWHEREstatus=1ANDindexonstatus答案:A、C35.以下哪些屬于無監(jiān)督學習算法()A.KMeansB.DBSCANC.AprioriD.XGBoost答案:A、B、C36.在Python中,以下哪些庫支持深度學習()A.TensorFlowB.PyTorchC.KerasD.LightGBM答案:A、B、C37.以下哪些方法可用于處理類別不平衡()A.SMOTE過采樣B.欠采樣C.調(diào)整類別權(quán)重D.增加學習率答案:A、B、C38.以下哪些屬于時間序列的組成部分()A.趨勢B.季節(jié)性C.隨機波動D.自相關(guān)答案:A、B、C39.在Tableau中,以下哪些操作可創(chuàng)建計算字段()A.分析→創(chuàng)建計算字段B.數(shù)據(jù)窗格右鍵→創(chuàng)建→計算字段C.工作表→操作→計算字段D.維度右鍵→創(chuàng)建→計算字段答案:B、D40.以下哪些屬于數(shù)據(jù)治理的核心內(nèi)容()A.數(shù)據(jù)質(zhì)量B.元數(shù)據(jù)管理C.數(shù)據(jù)安全D.數(shù)據(jù)備份答案:A、B、C三、判斷題(每題1分,共10分。正確打“√”,錯誤打“×”)41.在Python中,DataFrame的axis=0表示按列操作。(×)42.使用K折交叉驗證時,K值越大,模型方差越小,但計算成本越高。(√)43.在SQL中,UNION會自動去重,而UNIONALL不會。(√)44.在線性回歸中,多重共線性會導致系數(shù)符號反轉(zhuǎn)。(√)45.在Prophet模型中,changepoint_prior_scale參數(shù)越大,趨勢擬合越靈活。(√)46.在Excel中,VLOOKUP函數(shù)支持向左查找。(×)47.在Python中,使用groupby().agg({'price':'mean'})返回的是Series。(×)48.在Tableau中,上下文篩選器可優(yōu)先于維度篩選器執(zhí)行。(√)49.在聚類分析中,SSE(誤差平方和)隨k增加而單調(diào)遞減。(√)50.在A/B測試中,若p值小于0.05,則可直接認為實驗組指標提升具有業(yè)務(wù)價值。(×)四、簡答題(每題10分,共30分)51.簡述使用Python完成用戶留存率計算的完整步驟,包括數(shù)據(jù)預處理、SQL或pandas邏輯、結(jié)果輸出格式,并給出關(guān)鍵代碼片段。答案:步驟1:數(shù)據(jù)預處理假設(shè)訂單表orders(user_idstring,order_datedate)。使用pandas讀取數(shù)據(jù)并去重:df=pd.read_sql("SELECTDISTINCTuser_id,order_dateFROMorders",conn)df['order_date']=pd.to_datetime(df['order_date'])步驟2:計算新增用戶表new_users=df.groupby('user_id')['order_date'].min().reset_index()new_users.columns=['user_id','reg_date']步驟3:計算次日留存df['next_day']=df['order_date']+pd.Timedelta(days=1)retain=df.merge(new_users,on='user_id',how='inner')retain=retain[retain['order_date']==retain['next_day']]retain_cnt=retain.groupby('reg_date')['user_id'].nunique()new_cnt=new_users.groupby('reg_date')['user_id'].nunique()result=(retain_cnt/new_cnt).fillna(0).reset_index()result.columns=['reg_date','retain_1d_rate']result.to_csv('retain_1d.csv',index=False)52.某電商平臺發(fā)現(xiàn)“618”大促期間GMV同比提升30%,但凈利潤下降5%。請從數(shù)據(jù)分析師角度,列出至少5條可驗證的假設(shè),并給出對應(yīng)的驗證指標與數(shù)據(jù)表需求。答案:假設(shè)1:補貼率過高驗證指標:補貼金額/GMV(補貼率)數(shù)據(jù)表:promotion_order(order_id,subsidy_amount,gmv)假設(shè)2:退貨率上升驗證指標:退貨金額/GMV數(shù)據(jù)表:order_return(return_id,order_id,return_amount)假設(shè)3:低毛利品類占比提升驗證指標:各品類毛利額占比數(shù)據(jù)表:order_detail(order_id,category,profit)假設(shè)4:物流成本激增驗證指標:物流成本/GMV數(shù)據(jù)表:logistics_cost(order_id,ship_cost)假設(shè)5:廣告投放ROI下降驗證指標:廣告帶來的GMV/廣告花費數(shù)據(jù)表:ad_cost(ad_id,spend)joinad_order(ad_id,order_id,gmv)53.請解釋“數(shù)據(jù)漂移”(DataDrift)與“概念漂移”(ConceptDrift)的區(qū)別,并分別給出在機器學習模型監(jiān)控中的檢測方法與應(yīng)對策略。答案:數(shù)據(jù)漂移:輸入變量的分布發(fā)生變化,但標簽條件分布P(Y|X)不變。檢測方法:1.對連續(xù)變量使用KS檢驗,對類別變量

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論