大數(shù)據(jù)分析師招聘筆試題與參考答案(某大型央企)2025年_第1頁(yè)
大數(shù)據(jù)分析師招聘筆試題與參考答案(某大型央企)2025年_第2頁(yè)
大數(shù)據(jù)分析師招聘筆試題與參考答案(某大型央企)2025年_第3頁(yè)
大數(shù)據(jù)分析師招聘筆試題與參考答案(某大型央企)2025年_第4頁(yè)
大數(shù)據(jù)分析師招聘筆試題與參考答案(某大型央企)2025年_第5頁(yè)
已閱讀5頁(yè),還剩11頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

大數(shù)據(jù)分析師招聘筆試題與參考答案(某大型央企)2025年一、基礎(chǔ)理論題(共30分)1.選擇題(每題2分,共10分)(1)以下哪項(xiàng)不屬于Hadoop生態(tài)體系的核心組件?A.HDFSB.YARNC.SparkD.HBase(2)數(shù)據(jù)倉(cāng)庫(kù)(DW)與數(shù)據(jù)庫(kù)(DB)的本質(zhì)區(qū)別在于?A.數(shù)據(jù)存儲(chǔ)量大小B.是否支持事務(wù)處理C.面向分析還是事務(wù)D.數(shù)據(jù)模型設(shè)計(jì)復(fù)雜度(3)在數(shù)據(jù)質(zhì)量評(píng)估中,“同一指標(biāo)在不同系統(tǒng)中的計(jì)算結(jié)果一致”屬于以下哪個(gè)維度?A.準(zhǔn)確性B.一致性C.完整性D.及時(shí)性(4)以下哪種技術(shù)最適合處理實(shí)時(shí)流數(shù)據(jù)?A.HiveB.FlinkC.HBaseD.Presto(5)在機(jī)器學(xué)習(xí)中,若模型在訓(xùn)練集上表現(xiàn)良好但在測(cè)試集上效果差,最可能的原因是?A.欠擬合B.過擬合C.數(shù)據(jù)不平衡D.特征選擇不當(dāng)2.簡(jiǎn)答題(每題5分,共20分)(1)簡(jiǎn)述數(shù)據(jù)湖(DataLake)與數(shù)據(jù)倉(cāng)庫(kù)(DataWarehouse)的核心差異及適用場(chǎng)景。(2)列舉至少5個(gè)常用的大數(shù)據(jù)性能優(yōu)化手段,并說明其適用場(chǎng)景。(3)在數(shù)據(jù)清洗過程中,處理缺失值的常用方法有哪些?請(qǐng)結(jié)合具體業(yè)務(wù)場(chǎng)景說明選擇依據(jù)。(4)簡(jiǎn)述央企數(shù)據(jù)治理中“數(shù)據(jù)安全合規(guī)”的關(guān)鍵要求,至少列出3項(xiàng)核心措施。二、技術(shù)實(shí)操題(共40分)1.SQL編程(20分)某央企制造板塊有3張業(yè)務(wù)表:-`production`(生產(chǎn)記錄):`prod_id`(產(chǎn)品ID)、`line_id`(產(chǎn)線ID)、`shift`(班次)、`output`(產(chǎn)量)、`defect_num`(不良數(shù))、`prod_date`(生產(chǎn)日期)-`equipment`(設(shè)備信息):`eq_id`(設(shè)備ID)、`line_id`(所屬產(chǎn)線)、`eq_type`(設(shè)備類型)、`purchase_date`(采購(gòu)日期)-`maintenance`(維修記錄):`eq_id`(設(shè)備ID)、`m_date`(維修日期)、`m_cost`(維修成本)、`m_reason`(維修原因)要求:(1)查詢2024年每個(gè)產(chǎn)線(`line_id`)的總良率(良率=(總產(chǎn)量-總不良數(shù))/總產(chǎn)量),按良率降序排列(5分)。(2)統(tǒng)計(jì)2024年各設(shè)備類型(`eq_type`)的“維修成本/設(shè)備使用年限”比值(使用年限=2024-采購(gòu)年份,不足1年按1年計(jì)),并篩選出比值前3的設(shè)備類型(7分)。(3)分析某關(guān)鍵產(chǎn)線(`line_id='L001'`)2024年各月的不良數(shù)波動(dòng)情況,要求輸出月份、月均不良數(shù)、與上月相比的環(huán)比增長(zhǎng)率(8分)。2.Python編程(20分)某央企客戶數(shù)據(jù)文件`customer_data.csv`包含以下字段:`user_id`(用戶ID)、`age`(年齡)、`gender`(性別)、`income`(月收入)、`region`(地區(qū))、`purchase_freq`(月購(gòu)買頻次)、`churn`(是否流失,1=是,0=否)。要求:(1)使用Pandas讀取數(shù)據(jù),完成以下清洗操作:-剔除`age`字段中小于18或大于80的異常值;-將`income`字段的缺失值填充為所在地區(qū)(`region`)的收入中位數(shù);-將`gender`字段中的“男/女”統(tǒng)一為“M/F”(5分)。(2)基于清洗后的數(shù)據(jù),使用Scikit-learn構(gòu)建邏輯回歸模型預(yù)測(cè)用戶流失(`churn`),要求:-選擇`age`、`income`、`purchase_freq`作為特征;-按7:3劃分訓(xùn)練集與測(cè)試集(隨機(jī)種子=42);-輸出模型的準(zhǔn)確率、精確率(查準(zhǔn)率)、召回率(查全率)(8分)。(3)使用Matplotlib繪制`purchase_freq`與`churn`的箱線圖,直觀展示不同購(gòu)買頻次用戶的流失差異(7分)。三、業(yè)務(wù)分析題(共20分)某央企能源板塊下屬省級(jí)公司面臨“用戶電費(fèi)欠費(fèi)率上升”問題(2024年Q3欠費(fèi)率8.2%,較Q2上升2.1個(gè)百分點(diǎn))。公司數(shù)據(jù)團(tuán)隊(duì)已收集以下數(shù)據(jù):-用戶基本信息:年齡、性別、用電類型(居民/商業(yè)/工業(yè))、所在區(qū)域(城市/農(nóng)村);-用電行為:月均用電量、電費(fèi)繳納方式(線上/線下)、歷史欠費(fèi)次數(shù);-外部數(shù)據(jù):區(qū)域經(jīng)濟(jì)指數(shù)(反映收入水平)、當(dāng)月天氣(高溫/低溫天數(shù))。要求:(1)從數(shù)據(jù)角度,你認(rèn)為需要優(yōu)先驗(yàn)證哪些假設(shè)來定位欠費(fèi)率上升的原因?請(qǐng)列出至少3個(gè)假設(shè),并說明驗(yàn)證方法(10分)。(2)基于分析結(jié)果,提出至少3條可落地的業(yè)務(wù)優(yōu)化建議(10分)。四、綜合應(yīng)用題(共10分)某央企計(jì)劃構(gòu)建集團(tuán)級(jí)“采購(gòu)供應(yīng)鏈大數(shù)據(jù)分析平臺(tái)”,目標(biāo)是通過分析供應(yīng)商履約率、采購(gòu)成本、庫(kù)存周轉(zhuǎn)等指標(biāo),優(yōu)化采購(gòu)策略并降低供應(yīng)鏈風(fēng)險(xiǎn)。作為數(shù)據(jù)分析師,需主導(dǎo)該平臺(tái)的需求調(diào)研與分析方案設(shè)計(jì)。要求:(1)列出需求調(diào)研階段需重點(diǎn)訪談的3類核心用戶,并說明訪談的關(guān)鍵問題(4分)。(2)設(shè)計(jì)平臺(tái)的核心分析場(chǎng)景(至少3個(gè)),并說明每個(gè)場(chǎng)景所需的關(guān)鍵指標(biāo)及數(shù)據(jù)來源(6分)。---參考答案---一、基礎(chǔ)理論題1.選擇題答案及解析:(1)C(Spark屬于獨(dú)立計(jì)算框架,非Hadoop原生生態(tài));(2)C(數(shù)據(jù)倉(cāng)庫(kù)面向分析,支持復(fù)雜查詢;數(shù)據(jù)庫(kù)面向事務(wù),支持高并發(fā)增刪改);(3)B(一致性強(qiáng)調(diào)跨系統(tǒng)、跨時(shí)間的數(shù)據(jù)統(tǒng)一);(4)B(Flink是專為流數(shù)據(jù)處理設(shè)計(jì)的框架);(5)B(過擬合表現(xiàn)為模型對(duì)訓(xùn)練數(shù)據(jù)過度學(xué)習(xí),泛化能力差)。2.簡(jiǎn)答題答案:(1)核心差異:數(shù)據(jù)湖存儲(chǔ)原始、多格式數(shù)據(jù)(如結(jié)構(gòu)化、非結(jié)構(gòu)化),支持靈活分析;數(shù)據(jù)倉(cāng)庫(kù)存儲(chǔ)結(jié)構(gòu)化、清洗后的數(shù)據(jù),面向固定業(yè)務(wù)指標(biāo)。適用場(chǎng)景:數(shù)據(jù)湖用于探索性分析、AI訓(xùn)練;數(shù)據(jù)倉(cāng)庫(kù)用于報(bào)表、固定KPI監(jiān)控。(2)優(yōu)化手段:①分區(qū)與分桶(Hive),適用于大表查詢;②索引(如HBase的RowKey設(shè)計(jì)),加速隨機(jī)訪問;③并行計(jì)算資源調(diào)優(yōu)(YARN資源分配),提升任務(wù)效率;④謂詞下推(Presto),減少數(shù)據(jù)傳輸量;⑤列存儲(chǔ)(Parquet),降低I/O消耗。(3)處理方法:①刪除缺失行(當(dāng)缺失比例<5%且無規(guī)律);②均值/中位數(shù)填充(數(shù)值型,如年齡);③眾數(shù)填充(分類型,如地區(qū));④模型預(yù)測(cè)填充(如用其他字段訓(xùn)練回歸模型預(yù)測(cè)缺失值)。示例:用戶收入缺失時(shí),若業(yè)務(wù)關(guān)注地區(qū)差異,應(yīng)按地區(qū)分組填充中位數(shù),避免全局均值掩蓋區(qū)域特征。(4)關(guān)鍵要求:①數(shù)據(jù)分級(jí)分類(按敏感程度劃分,如用戶隱私、經(jīng)營(yíng)數(shù)據(jù));②訪問權(quán)限控制(最小權(quán)限原則,如生產(chǎn)數(shù)據(jù)僅限授權(quán)分析師);③脫敏處理(如身份證號(hào)打碼、手機(jī)號(hào)隱藏中間四位);④跨境數(shù)據(jù)合規(guī)(遵守《數(shù)據(jù)安全法》,重要數(shù)據(jù)本地存儲(chǔ))。二、技術(shù)實(shí)操題1.SQL編程答案:(1)```sqlSELECTline_id,(SUM(output)-SUM(defect_num))100.0/SUM(output)ASyield_rateFROMproductionWHEREprod_dateBETWEEN'2024-01-01'AND'2024-12-31'GROUPBYline_idORDERBYyield_rateDESC;```(2)```sqlWITHequipment_ageAS(SELECTeq_id,eq_type,CASEWHEN(2024-YEAR(purchase_date))=0THEN1ELSE(2024-YEAR(purchase_date))ENDASuse_yearsFROMequipment)SELECTe.eq_type,SUM(m.m_cost)1.0/SUM(e.use_years)AScost_per_yearFROMmaintenancemJOINequipment_ageeONm.eq_id=e.eq_idWHEREm_dateBETWEEN'2024-01-01'AND'2024-12-31'GROUPBYe.eq_typeORDERBYcost_per_yearDESCLIMIT3;```(3)```sqlWITHmonthly_defectAS(SELECTDATE_FORMAT(prod_date,'%Y-%m')ASmonth,SUM(defect_num)AStotal_defectFROMproductionWHEREline_id='L001'ANDprod_dateBETWEEN'2024-01-01'AND'2024-12-31'GROUPBYDATE_FORMAT(prod_date,'%Y-%m'))SELECTmonth,total_defectASmonthly_defect,(total_defect-LAG(total_defect)OVER(ORDERBYmonth))100.0/LAG(total_defect)OVER(ORDERBYmonth)ASmom_growthFROMmonthly_defect;```2.Python編程答案:(1)數(shù)據(jù)清洗代碼:```pythonimportpandasaspd讀取數(shù)據(jù)df=pd.read_csv('customer_data.csv')剔除age異常值df=df[(df['age']>=18)&(df['age']<=80)]按region填充income缺失值df['income']=df.groupby('region')['income'].transform(lambdax:x.fillna(x.median()))統(tǒng)一gender字段df['gender']=df['gender'].map({'男':'M','女':'F'})```(2)模型構(gòu)建與評(píng)估代碼:```pythonfromsklearn.model_selectionimporttrain_test_splitfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportaccuracy_score,precision_score,recall_score特征與標(biāo)簽X=df[['age','income','purchase_freq']]y=df['churn']劃分?jǐn)?shù)據(jù)集X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)模型訓(xùn)練model=LogisticRegression()model.fit(X_train,y_train)預(yù)測(cè)與評(píng)估y_pred=model.predict(X_test)print(f"準(zhǔn)確率:{accuracy_score(y_test,y_pred):.2f}")print(f"精確率:{precision_score(y_test,y_pred):.2f}")print(f"召回率:{recall_score(y_test,y_pred):.2f}")```(3)箱線圖繪制代碼:```pythonimportmatplotlib.pyplotaspltplt.figure(figsize=(10,6))df.boxplot(column='purchase_freq',by='churn',showfliers=False)plt.title('PurchaseFrequencybyChurnStatus')plt.xlabel('Churn(0=Retained,1=Churned)')plt.ylabel('MonthlyPurchaseFrequency')plt.show()```三、業(yè)務(wù)分析題(1)需驗(yàn)證的假設(shè)及驗(yàn)證方法:①假設(shè)“農(nóng)村地區(qū)用戶欠費(fèi)率上升”:按區(qū)域分組計(jì)算欠費(fèi)率,對(duì)比Q2與Q3農(nóng)村/城市的差異,使用卡方檢驗(yàn)驗(yàn)證顯著性。②假設(shè)“線上繳費(fèi)用戶因系統(tǒng)故障導(dǎo)致欠費(fèi)”:統(tǒng)計(jì)Q3線上繳費(fèi)失敗次數(shù),分析失敗率與欠費(fèi)用戶的關(guān)聯(lián)(如相關(guān)系數(shù))。③假設(shè)“高溫天氣導(dǎo)致工業(yè)用戶用電量激增,繳費(fèi)壓力大”:按用電類型分組,計(jì)算工業(yè)用戶月均用電量與欠費(fèi)的相關(guān)性,結(jié)合高溫天數(shù)做回歸分析。(2)業(yè)務(wù)優(yōu)化建

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論