建設(shè)銀行2025年汕頭市數(shù)據(jù)分析師筆試題及答案_第1頁
建設(shè)銀行2025年汕頭市數(shù)據(jù)分析師筆試題及答案_第2頁
建設(shè)銀行2025年汕頭市數(shù)據(jù)分析師筆試題及答案_第3頁
建設(shè)銀行2025年汕頭市數(shù)據(jù)分析師筆試題及答案_第4頁
建設(shè)銀行2025年汕頭市數(shù)據(jù)分析師筆試題及答案_第5頁
已閱讀5頁,還剩12頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

建設(shè)銀行2025年汕頭市數(shù)據(jù)分析師筆試題及答案一、基礎(chǔ)理論題(每題5分,共25分)1.某支行2024年1-6月個人存款余額分別為(單位:億元):12.3、13.1、14.2、15.5、16.8、18.2。請計算該序列的移動平均(窗口=3)和指數(shù)平滑值(α=0.3,初始值取前3期均值),并說明兩種方法在趨勢預(yù)測中的差異。答案:移動平均(窗口=3)計算如下:第3期:(12.3+13.1+14.2)/3=13.20第4期:(13.1+14.2+15.5)/3=14.27第5期:(14.2+15.5+16.8)/3=15.50第6期:(15.5+16.8+18.2)/3=16.83指數(shù)平滑值(α=0.3,初始值S?=(12.3+13.1+14.2)/3=13.20):S?=0.3×12.3+0.7×13.20=12.93S?=0.3×13.1+0.7×12.93=12.98S?=0.3×14.2+0.7×12.98=13.33S?=0.3×15.5+0.7×13.33=14.03S?=0.3×16.8+0.7×14.03=14.98S?=0.3×18.2+0.7×14.98=16.05差異:移動平均對近期數(shù)據(jù)等權(quán)處理,適用于平穩(wěn)序列;指數(shù)平滑通過α賦予近期數(shù)據(jù)更高權(quán)重,對趨勢變化響應(yīng)更靈敏,適合存在緩慢趨勢的序列。2.某信用卡中心抽取1000名客戶,其中逾期客戶200名。在逾期客戶中,60%使用過分期業(yè)務(wù);非逾期客戶中,40%使用過分期業(yè)務(wù)。請構(gòu)建混淆矩陣并計算精確率(Precision)和召回率(Recall)。答案:混淆矩陣:實(shí)際逾期(正類):200人,其中預(yù)測正確(TP)=200×60%=120人,預(yù)測錯誤(FN)=200-120=80人實(shí)際非逾期(負(fù)類):800人,其中預(yù)測錯誤(FP)=800×40%=320人,預(yù)測正確(TN)=800-320=480人精確率=TP/(TP+FP)=120/(120+320)=27.27%召回率=TP/(TP+FN)=120/(120+80)=60%3.某分行開展“新客戶首年資產(chǎn)達(dá)標(biāo)”活動,隨機(jī)抽取A、B兩個網(wǎng)點(diǎn)各100名客戶,A網(wǎng)點(diǎn)達(dá)標(biāo)率35%,B網(wǎng)點(diǎn)達(dá)標(biāo)率42%。請用Z檢驗(yàn)判斷兩網(wǎng)點(diǎn)達(dá)標(biāo)率是否存在顯著差異(α=0.05)。答案:H?:p?=p?;H?:p?≠p?合并達(dá)標(biāo)率p=(35+42)/(100+100)=38.5%標(biāo)準(zhǔn)誤SE=√[p(1-p)(1/n?+1/n?)]=√[0.385×0.615×(2/100)]≈0.0687Z=(0.35-0.42)/0.0687≈-1.02|Z|=1.02<1.96(α=0.05雙側(cè)臨界值),不拒絕原假設(shè),兩網(wǎng)點(diǎn)達(dá)標(biāo)率無顯著差異。4.解釋“辛普森悖論”在銀行數(shù)據(jù)中的典型表現(xiàn),并舉例說明。答案:辛普森悖論指分組數(shù)據(jù)與整體數(shù)據(jù)趨勢相反的現(xiàn)象。例如,某分行按客戶類型分組:高凈值客戶中,A產(chǎn)品滲透率(40%)低于B產(chǎn)品(50%);普通客戶中,A產(chǎn)品滲透率(30%)也低于B產(chǎn)品(35%)。但整體數(shù)據(jù)中,因高凈值客戶占比更高(60%),A產(chǎn)品整體滲透率=40%×60%+30%×40%=36%,B產(chǎn)品=50%×60%+35%×40%=44%,趨勢一致;若調(diào)整占比(高凈值客戶占比20%),A產(chǎn)品=40%×20%+30%×80%=32%,B產(chǎn)品=50%×20%+35%×80%=38%,仍一致。若某場景下分組趨勢與整體相反(如A產(chǎn)品分組均低,但整體更高),即出現(xiàn)辛普森悖論,需警惕數(shù)據(jù)分組方式對結(jié)論的影響。5.簡述時間序列分解中“季節(jié)調(diào)整”的核心步驟,并說明其對銀行信貸預(yù)測的意義。答案:核心步驟:①確定季節(jié)周期(如12個月);②計算各期季節(jié)指數(shù)(如移動平均比率法);③用原始序列除以季節(jié)指數(shù)得到季節(jié)調(diào)整后序列;④對調(diào)整后序列建模預(yù)測;⑤乘以對應(yīng)季節(jié)指數(shù)得到最終預(yù)測。意義:銀行信貸需求受季度性因素(如春節(jié)前企業(yè)備貨、年末沖刺)影響顯著,季節(jié)調(diào)整可分離趨勢和隨機(jī)波動,提升預(yù)測模型對長期趨勢的捕捉能力,避免誤將季節(jié)性波動判斷為趨勢變化。二、數(shù)據(jù)分析工具題(每題8分,共24分)6.某分行客戶表(ccb_customer)包含字段:客戶ID(cust_id)、注冊時間(reg_time)、所屬支行(branch)、月均AUM(aum)、是否為代發(fā)工資戶(is_payroll,0/1)。請用SQL寫出:統(tǒng)計2024年各支行(branch)代發(fā)工資戶的數(shù)量、代發(fā)工資戶的AUM總和,以及代發(fā)工資戶AUM占該支行總AUM的比例(保留2位小數(shù))。答案:SELECTbranch,COUNT(CASEWHENis_payroll=1THENcust_idEND)ASpayroll_count,SUM(CASEWHENis_payroll=1THENaumEND)ASpayroll_aum_sum,ROUND(SUM(CASEWHENis_payroll=1THENaumEND)/SUM(aum)100,2)ASpayroll_aum_ratioFROMccb_customerWHEREYEAR(reg_time)=2024GROUPBYbranch;7.某Excel表格中,A列是客戶姓名(可能重復(fù)),B列是產(chǎn)品購買時間(格式:2024-03-1514:30:00),C列是產(chǎn)品類型(信用卡/理財/貸款)。需統(tǒng)計“2024年每個季度,每個客戶首次購買的產(chǎn)品類型”。請寫出操作步驟(函數(shù)或數(shù)據(jù)透視表均可)。答案:步驟1:在D列提取購買季度:=IF(MONTH(B2)<=3,"Q1",IF(MONTH(B2)<=6,"Q2",IF(MONTH(B2)<=9,"Q3","Q4")))步驟2:按客戶姓名(A列)和季度(D列)排序,保持產(chǎn)品購買時間(B列)升序;步驟3:在E列標(biāo)記首次購買:=IF(A2=A1且D2=D1,"重復(fù)","首次")(需調(diào)整為精確公式:=IF(COUNTIFS(A$2:A2,A2,D$2:D2,D2)=1,"首次","重復(fù)"));步驟4:篩選E列為“首次”的記錄,數(shù)據(jù)透視表行標(biāo)簽選“客戶姓名”和“季度”,值字段選“產(chǎn)品類型”(顯示方式為“最大值”或“最小值”,因已排序,首次記錄在最前);或使用PowerQuery:按客戶和季度分組,按時間升序排序后取第一條記錄。8.某支行用Python分析客戶流失數(shù)據(jù),數(shù)據(jù)集包含10000條記錄,其中“月活躍天數(shù)”(active_days)字段有15%的缺失值。請設(shè)計至少3種處理缺失值的方法,并說明在銀行場景下的適用性。答案:方法1:均值/中位數(shù)填充。計算非缺失值的均值(如22天)或中位數(shù)(20天)填充。適用于缺失值無特殊業(yè)務(wù)含義(如系統(tǒng)記錄錯誤),且變量分布接近正態(tài)時。方法2:分組填充。按客戶類型(如代發(fā)工資戶/非代發(fā))分組,計算各組均值填充。銀行客戶行為差異大,分組填充可保留群體特征(如代發(fā)戶月活躍天數(shù)通常更高)。方法3:模型預(yù)測填充。以“月活躍天數(shù)”為目標(biāo)變量,其他變量(如AUM、交易筆數(shù))為特征,訓(xùn)練回歸模型預(yù)測缺失值。適用于缺失值與其他變量存在顯著相關(guān)性(如高AUM客戶活躍天數(shù)可能更多),需確保模型精度。方法4:刪除缺失行。若缺失率<5%可直接刪除,但本題缺失率15%,刪除會損失較多信息,不建議。三、業(yè)務(wù)場景分析題(每題12分,共36分)9.建設(shè)銀行汕頭分行擬對零售客戶進(jìn)行分層經(jīng)營,現(xiàn)有數(shù)據(jù)包括:年齡、月收入、AUM、近1年信用卡消費(fèi)額、房貸余額、是否持有理財/基金/保險產(chǎn)品。請設(shè)計客戶分層指標(biāo)體系,并說明各層的運(yùn)營策略。答案:分層指標(biāo)體系:(1)基礎(chǔ)維度:AUM(核心指標(biāo)),分為私行客戶(AUM≥800萬)、財富客戶(300萬≤AUM<800萬)、潛力客戶(50萬≤AUM<300萬)、大眾客戶(AUM<50萬)。(2)行為維度:近1年信用卡消費(fèi)額(高/中/低)、持有產(chǎn)品數(shù)量(綜合金融覆蓋度)。(3)風(fēng)險維度:房貸余額占收入比(≤50%為低負(fù)債,>50%為高負(fù)債)。運(yùn)營策略:私行客戶:提供專屬客戶經(jīng)理、家族信托、海外資產(chǎn)配置等定制化服務(wù),重點(diǎn)維護(hù)高凈值關(guān)系;財富客戶:推送私募股權(quán)、高端保險等產(chǎn)品,組織企業(yè)家沙龍拓展交叉銷售;潛力客戶:通過基金定投、短期理財培養(yǎng)理財習(xí)慣,提升AUM;大眾客戶:優(yōu)化手機(jī)銀行體驗(yàn),推廣小額信用貸、快捷支付,提高活躍度;高消費(fèi)低AUM客戶(如年輕白領(lǐng)):推薦分期業(yè)務(wù)、消費(fèi)貸,挖掘增長潛力;高負(fù)債客戶:提示財務(wù)健康度,推薦債務(wù)重組方案,防范逾期風(fēng)險。10.某支行信用卡逾期率(逾期>30天)較年初上升2個百分點(diǎn),需通過數(shù)據(jù)分析定位原因。請列出至少5個分析維度,并說明每個維度的具體分析方法。答案:維度1:客群結(jié)構(gòu)變化。對比年初與當(dāng)前新發(fā)卡客戶的年齡分布(如25歲以下占比是否上升)、職業(yè)類型(自由職業(yè)者占比)、征信評分分布(低評分客戶占比),使用卡方檢驗(yàn)判斷客群差異是否顯著。維度2:產(chǎn)品政策調(diào)整。分析是否放寬進(jìn)件門檻(如降低收入證明要求)、提額策略變化(大額臨時額度占比),計算不同產(chǎn)品(標(biāo)準(zhǔn)卡/車主卡)的逾期率變化。維度3:外部環(huán)境影響。關(guān)聯(lián)汕頭地區(qū)GDP增速、失業(yè)率數(shù)據(jù),分析逾期率與宏觀經(jīng)濟(jì)的相關(guān)性;結(jié)合本地臺風(fēng)、疫情等事件,查看受影響區(qū)域客戶的逾期率是否異常。維度4:還款渠道問題。統(tǒng)計手機(jī)銀行還款成功率(如系統(tǒng)升級導(dǎo)致失敗率上升)、自動扣款簽約率(未簽約客戶逾期率是否更高),對比不同渠道的還款及時性。維度5:催收策略效果。分析催收響應(yīng)率(聯(lián)系上客戶的比例)、首催回收率(首次催收后還款金額),若響應(yīng)率下降可能因客戶聯(lián)系方式變更,回收率下降可能需調(diào)整話術(shù)。11.建設(shè)銀行汕頭分行計劃為小微企業(yè)提供“科創(chuàng)貸”產(chǎn)品,需建立貸款違約預(yù)測模型?,F(xiàn)有數(shù)據(jù)包括:企業(yè)成立年限、注冊資本、年營收、研發(fā)投入占比、專利數(shù)量、實(shí)際控制人征信評分、是否為高新技術(shù)企業(yè)、近1年納稅額。請設(shè)計特征工程步驟,并說明選擇模型時需考慮的業(yè)務(wù)約束。答案:特征工程步驟:(1)數(shù)據(jù)清洗:處理異常值(如注冊資本為0,可能為錄入錯誤)、缺失值(研發(fā)投入占比缺失可填充行業(yè)均值);(2)特征構(gòu)造:計算“研發(fā)投入/年營收”(創(chuàng)新強(qiáng)度)、“專利數(shù)量/成立年限”(年均專利產(chǎn)出)、“納稅額/年營收”(稅負(fù)率);(3)特征分箱:將成立年限分為<3年(高風(fēng)險)、3-5年(中風(fēng)險)、>5年(低風(fēng)險);注冊資本按行業(yè)分位數(shù)分箱(如低于行業(yè)25%為低資本);(4)特征篩選:用IV值(信息價值)評估變量預(yù)測能力(如實(shí)際控制人征信評分IV>0.3為強(qiáng)預(yù)測變量),刪除多重共線性變量(如年營收與納稅額相關(guān)系數(shù)>0.8時保留其一)。業(yè)務(wù)約束:(1)可解釋性:銀行需向監(jiān)管和客戶說明拒貸原因,優(yōu)先選擇邏輯回歸、決策樹等可解釋模型,避免黑箱模型(如深度神經(jīng)網(wǎng)絡(luò));(2)穩(wěn)定性:模型需適應(yīng)小微企業(yè)數(shù)據(jù)波動(如年營收受訂單影響大),需測試跨時間驗(yàn)證(OOT測試),確保不同時間段表現(xiàn)一致;(3)政策導(dǎo)向:高新技術(shù)企業(yè)可能有政策傾斜,模型需設(shè)置政策權(quán)重(如高新技術(shù)企業(yè)違約概率閾值可放寬5%);(4)計算效率:小微企業(yè)數(shù)量多,模型需支持批量快速預(yù)測,避免計算復(fù)雜度高的模型(如隨機(jī)森林深度不宜過深)。四、編程實(shí)操題(25分)12.用Python完成以下任務(wù)(數(shù)據(jù)路徑:./ccb_data.csv,字段:cust_id,age,income,aum,credit_loan_balance,deposit_balance,is_default(0/1)):(1)讀取數(shù)據(jù)并查看缺失值分布,對“income”字段缺失值用隨機(jī)森林回歸填充;(2)計算“aum/deposit_balance”(若deposit_balance=0則置為0),并將“credit_loan_balance”按分位數(shù)分為低/中/高3組;(3)構(gòu)建邏輯回歸模型預(yù)測is_default,要求:劃分訓(xùn)練集(70%)和測試集(30%),標(biāo)準(zhǔn)化連續(xù)變量,輸出混淆矩陣和F1分?jǐn)?shù);(4)解釋模型中“age”變量的系數(shù)含義,并提出優(yōu)化模型的2個方法。答案:(1)缺失值處理代碼:```pythonimportpandasaspdfromsklearn.ensembleimportRandomForestRegressordata=pd.read_csv('./ccb_data.csv')print("缺失值分布:\n",data.isnull().sum())分離income缺失和非缺失數(shù)據(jù)missing=data[data['income'].isnull()]non_missing=data[data['income'].notnull()]特征選擇(排除cust_id和is_default)features=['age','aum','credit_loan_balance','deposit_balance']X_train=non_missing[features]y_train=non_missing['income']X_test=missing[features]訓(xùn)練隨機(jī)森林回歸模型rf=RandomForestRegressor(n_estimators=100,random_state=42)rf.fit(X_train,y_train)missing['income']=rf.predict(X_test)合并數(shù)據(jù)data_filled=pd.concat([non_missing,missing],axis=0)```(2)特征工程代碼:```python計算aum/deposit_balancedata_filled['aum_deposit_ratio']=data_filled.apply(lambdarow:row['aum']/row['deposit_balance']ifrow['deposit_balance']!=0else0,axis=1)分箱credit_loan_balancedata_filled['loan_group']=pd.qcut(data_filled['credit_loan_balance'],q=3,labels=['低','中','高'])```(3)模型構(gòu)建代碼:```pythonfromsklearn.model_selectionimporttrain_test_splitfromsklearn.preprocessingimportStandardScalerfromsklearn.linear_modelimportLogisticRegressionfromsklearn.metricsimportconfusion_matrix,f1_score選擇特征(排除cust_id和loan_group字符串類型)X=data_filled[['age','income','aum','credit_loan_balance','deposit_balance','aum_deposit_

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論