2025年征信信息分析師考試題庫-征信數(shù)據(jù)分析挖掘案例實踐試題_第1頁
2025年征信信息分析師考試題庫-征信數(shù)據(jù)分析挖掘案例實踐試題_第2頁
2025年征信信息分析師考試題庫-征信數(shù)據(jù)分析挖掘案例實踐試題_第3頁
2025年征信信息分析師考試題庫-征信數(shù)據(jù)分析挖掘案例實踐試題_第4頁
2025年征信信息分析師考試題庫-征信數(shù)據(jù)分析挖掘案例實踐試題_第5頁
已閱讀5頁,還剩11頁未讀 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

2025年征信信息分析師考試題庫-征信數(shù)據(jù)分析挖掘案例實踐試題考試時間:______分鐘總分:______分姓名:______一、選擇題(本部分共20題,每題2分,共40分。請根據(jù)題意選擇最符合要求的選項,并將答案填寫在答題卡相應(yīng)位置上。)1.在征信數(shù)據(jù)分析中,下列哪個指標(biāo)最能反映借款人的還款能力?()A.負債收入比B.房產(chǎn)凈值C.凈月收入D.婚姻狀況解析:這道題考察的是對征信數(shù)據(jù)分析中核心指標(biāo)的理解。我上課的時候經(jīng)常舉這個例子,比如說啊,有個客戶來申請貸款,你光看他的負債收入比可能覺得他壓力很大,但如果他其實有穩(wěn)定的房產(chǎn)凈值,那他可能還有還款能力。所以啊,你看,這個指標(biāo)得綜合著看,不能光看一個數(shù)字就下定論。2.以下哪種方法不適合用于處理征信數(shù)據(jù)中的缺失值?()A.均值填充B.回歸插補C.刪除含缺失值的樣本D.眾數(shù)填充解析:這個題我上次講的時候啊,有學(xué)生問過,為什么不能隨便刪除缺失值。你想啊,如果某個群體缺失值特別多,你一刪,這不就帶偏結(jié)果了嗎?所以啊,得講究方法,比如用回歸插補這種,能保留更多信息。3.在進行征信數(shù)據(jù)探索性分析時,箱線圖主要用于?()A.顯示數(shù)據(jù)分布的集中趨勢B.識別異常值C.分析數(shù)據(jù)相關(guān)性D.展示時間序列變化解析:箱線圖啊,我每次講這個圖都特別興奮,你看那箱子中間的線是中位數(shù),上下邊緣是四分位數(shù),那須啊,伸出去的是異常值,一目了然。有個同學(xué)上次畫圖啊,把異常值都當(dāng)成正常數(shù)據(jù)了,結(jié)果被判錯,哈哈。4.征信數(shù)據(jù)中的"五級分類"指的是?()A.貸款金額大小B.借款人年齡階段C.貸款風(fēng)險等級D.信用查詢次數(shù)解析:這個題考的是基本概念,五級分類啊,我上課時經(jīng)常用銀行的真實案例來講,正常、關(guān)注、次級、可疑、損失,每個等級都有具體表現(xiàn),比如次級貸款啊,那肯定要重點關(guān)注了。5.在使用邏輯回歸模型進行信用評分時,以下哪個指標(biāo)最能反映模型的區(qū)分能力?()A.AUC值B.R平方值C.F值D.標(biāo)準(zhǔn)差解析:AUC值啊,我每次講這個都要說,它就像天氣預(yù)報準(zhǔn)確率的那個曲線,1就是完美的分者,0.5就是隨機猜。有個同學(xué)上次模型AUC值才0.6,我讓他重新看特征,結(jié)果發(fā)現(xiàn)把收入和負債搞反了,哈哈。6.征信數(shù)據(jù)中的"查詢記錄"通常包括?()A.信用卡還款記錄B.貸款審批查詢C.逾期還款情況D.婚姻登記信息解析:查詢記錄啊,這個特別重要,我上課時強調(diào)過,這可是反映客戶信用態(tài)度的關(guān)鍵。有個客戶明明很穩(wěn)定,但查詢次數(shù)太多,最后還是被風(fēng)控了,所以說啊,數(shù)據(jù)要全面看。7.在進行特征工程時,以下哪種方法屬于特征衍生?()A.標(biāo)準(zhǔn)化B.分箱C.主成分分析D.邏輯回歸解析:特征衍生啊,我上次講這個的時候啊,有個學(xué)生說"老師,我衍生了這么多特征,模型效果反而差了",我告訴他,特征不是越多越好,得有質(zhì)量,就像食材,得挑好的。8.征信數(shù)據(jù)中的"居住情況"通常指的是?()A.居住年限B.房屋價值C.租房還是買房D.是否有房貸解析:居住情況啊,我經(jīng)常用這個來舉例,有個客戶租房10年,突然買房,我一看他的查詢記錄,發(fā)現(xiàn)當(dāng)時申請房貸,后來發(fā)現(xiàn)他其實很穩(wěn)定,所以說啊,要動態(tài)看數(shù)據(jù)。9.在處理征信數(shù)據(jù)中的不平衡問題時,以下哪種方法屬于過采樣?()A.SMOTE算法B.交叉驗證C.特征選擇D.數(shù)據(jù)歸一化解析:SMOTE這個我特別強調(diào)過,它能把少數(shù)類樣本擴展,我有個學(xué)生用這個把違約樣本擴充到60%,模型效果立馬提升,所以說啊,處理不平衡問題得用對招。10.征信數(shù)據(jù)中的"負債比率"通常是指?()A.總負債/總資產(chǎn)B.月還款額/月收入C.信用卡額度/總負債D.抵押貸款額/總貸款額解析:負債比率啊,我上課時特別強調(diào)這個,有個客戶工資很高,但負債比太高,最后逾期了,所以說啊,不能只看收入,得看負債。11.在進行時間序列分析時,以下哪個方法適合處理具有明顯季節(jié)性變化的征信數(shù)據(jù)?()A.ARIMA模型B.線性回歸C.決策樹D.K-means聚類解析:ARIMA這個我經(jīng)常用,有個學(xué)生上次用這個分析某銀行信用卡逾期趨勢,那季節(jié)性特征啊,一目了然,所以說啊,得用對工具。12.征信數(shù)據(jù)中的"擔(dān)保信息"通常包括?()A.抵押物價值B.擔(dān)保人收入C.聯(lián)保人數(shù)D.是否有保險解析:擔(dān)保信息啊,我上課時強調(diào)過,有個客戶沒有抵押,但有3個聯(lián)保人,最后沒逾期,所以說啊,不能只看表面。13.在使用決策樹進行信用評分時,以下哪個指標(biāo)最能反映節(jié)點純度?()A.Gini系數(shù)B.信息熵C.AUC值D.R平方值解析:Gini系數(shù)啊,我每次講這個都要說,它就像空氣質(zhì)量指數(shù),值越小說越好。有個學(xué)生上次用信息熵,結(jié)果模型效果差很多,所以說啊,得用對指標(biāo)。14.征信數(shù)據(jù)中的"職業(yè)信息"通常包括?()A.工作年限B.行業(yè)分類C.職位級別D.是否有社保解析:職業(yè)信息啊,我經(jīng)常用這個來舉例,有個客戶從國企跳到私企,剛開始查詢記錄變多,但后來穩(wěn)定了,所以說啊,要動態(tài)看數(shù)據(jù)。15.在進行關(guān)聯(lián)規(guī)則挖掘時,以下哪個指標(biāo)反映規(guī)則的重要性?()A.支持度B.置信度C.提升度D.頻率解析:提升度這個我特別強調(diào)過,它就像放大鏡,能把重要規(guī)則找出來。有個學(xué)生上次用這個發(fā)現(xiàn)"有房貸"和"信用卡使用率超過50%"同時出現(xiàn)的客戶,逾期率特別高。16.征信數(shù)據(jù)中的"教育程度"通常指的是?()A.最高學(xué)歷B.學(xué)費支出C.就讀學(xué)校D.獲獎情況解析:教育程度啊,我經(jīng)常用這個來舉例,有個客戶大學(xué)學(xué)歷,但最近離職,查詢記錄變多,最后逾期了,所以說啊,要結(jié)合其他數(shù)據(jù)看。17.在使用聚類算法進行客戶分群時,以下哪種方法適合處理高維數(shù)據(jù)?()A.K-meansB.層次聚類C.DBSCAND.Birch解析:K-means這個我特別強調(diào)過,有個學(xué)生上次用這個分析客戶行為,效果特別好,所以說啊,得用對算法。18.征信數(shù)據(jù)中的"公共記錄"通常包括?()A.訴訟記錄B.拍賣記錄C.仲裁記錄D.以上都是解析:公共記錄啊,我上課時強調(diào)過,有個客戶有訴訟記錄,雖然沒判決,但查詢記錄變多,最后還是逾期了,所以說啊,要重視這些數(shù)據(jù)。19.在進行特征選擇時,以下哪種方法屬于基于模型的特征選擇?()A.遞歸特征消除B.卡方檢驗C.相關(guān)性分析D.互信息解析:遞歸特征消除這個我經(jīng)常用,有個學(xué)生上次用這個分析信用評分特征,效果特別好,所以說啊,得用對方法。20.征信數(shù)據(jù)中的"收入穩(wěn)定性"通常是指?()A.工資變化率B.工作單位性質(zhì)C.收入連續(xù)性D.是否有兼職解析:收入穩(wěn)定性啊,我上課時強調(diào)過,有個客戶工資很高,但收入不穩(wěn)定,最后逾期了,所以說啊,要關(guān)注這些細節(jié)。二、簡答題(本部分共5題,每題6分,共30分。請根據(jù)題意簡要回答,每個問題回答要點不少于3點。)1.簡述征信數(shù)據(jù)探索性分析的主要步驟及其目的。解析:這個題啊,我每次講的時候都特別興奮,因為這是數(shù)據(jù)分析的基礎(chǔ)。我一般會從數(shù)據(jù)概覽開始,比如描述性統(tǒng)計,然后可視化,比如直方圖、箱線圖,最后要找數(shù)據(jù)間的關(guān)聯(lián)性,為后續(xù)建模做準(zhǔn)備。有個學(xué)生上次沒寫可視化,被判扣分,我說啊,數(shù)據(jù)分析啊,得直觀!2.解釋征信數(shù)據(jù)預(yù)處理中缺失值處理的各種方法及其適用場景。解析:這個題啊,我上課時會用真實案例來講,比如有個客戶年齡缺失,我就用均值填充,結(jié)果發(fā)現(xiàn)他明明是退休老人,卻被當(dāng)成年輕人,后來改用回歸插補,效果就好多了。所以說啊,方法得選對。3.說明征信數(shù)據(jù)不平衡問題的危害以及常用的處理方法。解析:這個題啊,我每次講都會用真實案例,比如有個銀行模型對違約預(yù)測效果差,后來發(fā)現(xiàn)是因為違約樣本太少,一用SMOTE擴充,效果立馬提升。所以說啊,處理不平衡問題得用對招。4.描述征信數(shù)據(jù)中常見的異常值處理方法及其優(yōu)缺點。解析:這個題啊,我上課時會用真實案例來講,比如有個客戶查詢次數(shù)異常多,我一看是數(shù)據(jù)錄入錯誤,直接修正就好,但如果判斷是真實異常,就得考慮分箱或者用對模型。所以說啊,得小心謹慎。5.分析征信數(shù)據(jù)中特征選擇的重要性以及常用的特征選擇方法。解析:這個題啊,我每次講都會用真實案例,比如有個學(xué)生特征選太多,模型過擬合,后來用遞歸特征消除精簡后,效果立馬提升。所以說啊,特征選擇很重要,得用對方法。三、簡答題(本部分共5題,每題6分,共30分。請根據(jù)題意簡要回答,每個問題回答要點不少于3點。)6.描述征信數(shù)據(jù)中特征衍生的主要方法及其在信用評分中的應(yīng)用價值。解析:這個題啊,我每次講的時候都特別興奮,因為特征衍生是數(shù)據(jù)分析師的必備技能。我一般會講從原始特征衍生新特征的方法,比如從出生日期衍生年齡,從查詢次數(shù)和間隔時間衍生查詢活躍度,從負債和收入衍生負債收入比。有個學(xué)生上次衍生了太多特征,結(jié)果模型效果反而差了,我說啊,特征不是越多越好,得有質(zhì)量,就像食材,得挑好的。7.解釋征信數(shù)據(jù)中時間序列分析的主要方法及其在信用風(fēng)險預(yù)測中的應(yīng)用場景。解析:這個題啊,我上課時會用真實案例來講,比如有個銀行用ARIMA模型分析信用卡逾期趨勢,那季節(jié)性特征啊,一目了然。我一般會講趨勢分解、季節(jié)性調(diào)整等方法,并強調(diào)時間序列分析在預(yù)測未來風(fēng)險中的重要性。有個學(xué)生上次用這個分析某銀行信用卡逾期趨勢,那季節(jié)性特征啊,一目了然,所以說啊,得用對工具。8.說明征信數(shù)據(jù)中關(guān)聯(lián)規(guī)則挖掘的主要方法及其在客戶畫像構(gòu)建中的應(yīng)用價值。解析:這個題啊,我每次講都會用真實案例來講,比如有個銀行用關(guān)聯(lián)規(guī)則發(fā)現(xiàn)"有房貸"和"信用卡使用率超過50%"同時出現(xiàn)的客戶,逾期率特別高。我一般會講Apriori算法、FP-Growth算法等,并強調(diào)關(guān)聯(lián)規(guī)則在發(fā)現(xiàn)客戶行為模式中的價值。有個學(xué)生上次用這個發(fā)現(xiàn)"有房貸"和"信用卡使用率超過50%"同時出現(xiàn)的客戶,逾期率特別高,所以說啊,得用對方法。9.描述征信數(shù)據(jù)中模型評估的主要指標(biāo)及其在信用評分卡開發(fā)中的應(yīng)用價值。解析:這個題啊,我上課時會用真實案例來講,比如有個銀行模型AUC值才0.6,我讓他重新看特征,結(jié)果發(fā)現(xiàn)把收入和負債搞反了。我一般會講AUC、KS值、ROC曲線等,并強調(diào)模型評估在信用評分卡開發(fā)中的重要性。有個學(xué)生上次模型AUC值才0.6,我讓他重新看特征,結(jié)果發(fā)現(xiàn)把收入和負債搞反了,哈哈。10.分析征信數(shù)據(jù)中模型解釋性主要方法及其在監(jiān)管合規(guī)報告中的應(yīng)用價值。解析:這個題啊,我每次講都會用真實案例來講,比如有個銀行模型效果好但解釋性差,被監(jiān)管要求整改。我一般會講LIME、SHAP等解釋性方法,并強調(diào)模型解釋性在監(jiān)管合規(guī)報告中的重要性。有個學(xué)生上次用這個解釋模型,結(jié)果監(jiān)管報告直接通過,所以說啊,得用對方法。四、論述題(本部分共2題,每題10分,共20分。請根據(jù)題意詳細論述,每個問題回答要點不少于5點。)11.結(jié)合實際案例,論述征信數(shù)據(jù)預(yù)處理中數(shù)據(jù)清洗的主要問題及其解決方案。解析:這個題啊,我每次講的時候都特別興奮,因為數(shù)據(jù)清洗是數(shù)據(jù)分析中最重要也最容易被忽視的環(huán)節(jié)。我一般會從數(shù)據(jù)質(zhì)量評估開始,比如缺失值、異常值、重復(fù)值等問題,然后針對這些問題提出解決方案,比如缺失值用均值填充、回歸插補等,異常值用分箱、winsorize等,重復(fù)值直接刪除。有個學(xué)生上次數(shù)據(jù)清洗不徹底,結(jié)果模型效果差很多,我說啊,數(shù)據(jù)清洗啊,得認真仔細,不能馬虎。12.結(jié)合實際案例,論述征信數(shù)據(jù)中特征工程的主要挑戰(zhàn)及其應(yīng)對策略。解析:這個題啊,我上課時會用真實案例來講,比如有個學(xué)生特征工程做得很好,模型效果提升明顯,但后來發(fā)現(xiàn)特征衍生太多,導(dǎo)致模型過擬合,最后效果反而差了。我一般會講特征工程的主要挑戰(zhàn),比如特征冗余、特征不顯著等,然后提出應(yīng)對策略,比如用特征選擇方法,如遞歸特征消除、Lasso回歸等,并強調(diào)特征工程要結(jié)合業(yè)務(wù)理解,不能光靠算法。有個學(xué)生上次用這個分析客戶行為,效果特別好,所以說啊,得用對方法。五、案例分析題(本部分共1題,每題30分,共30分。請根據(jù)題意進行分析,并給出具體解決方案。)13.某銀行發(fā)現(xiàn)其信用卡逾期預(yù)測模型的AUC值只有0.65,低于行業(yè)平均水平,而模型復(fù)雜度較高,解釋性較差。作為征信數(shù)據(jù)分析師,請結(jié)合實際案例,分析可能的原因,并提出具體的改進方案。解析:這個題啊,我每次講的時候都特別興奮,因為這是實際工作中經(jīng)常遇到的問題。我一般會從數(shù)據(jù)質(zhì)量、特征工程、模型選擇等方面分析可能的原因,比如數(shù)據(jù)質(zhì)量問題導(dǎo)致模型效果差,特征工程做得不好導(dǎo)致模型無法捕捉到重要信息,模型選擇不當(dāng)導(dǎo)致模型復(fù)雜度過高。然后提出具體的改進方案,比如數(shù)據(jù)清洗,用均值填充缺失值,用分箱處理異常值;特征工程,用特征選擇方法,如遞歸特征消除、Lasso回歸等,并強調(diào)特征工程要結(jié)合業(yè)務(wù)理解,不能光靠算法;模型選擇,嘗試簡單的模型,如邏輯回歸,并解釋模型結(jié)果。有個學(xué)生上次用這個分析客戶行為,效果特別好,所以說啊,得用對方法。本次試卷答案如下一、選擇題1.C解析:凈月收入最能直接反映借款人的當(dāng)前還款能力,因為它排除了其他負債的影響,只看核心收入水平。我上課時經(jīng)常舉這個例子,比如說啊,有個客戶月收入2萬,但其他負債也2萬,那他的實際可支配收入就是0,肯定還款困難。但如果他月收入2萬,負債只有5千,那他肯定有還款能力。所以啊,你看,這個指標(biāo)得綜合著看,不能光看一個數(shù)字就下定論。2.C解析:刪除含缺失值的樣本不適合處理缺失值,因為如果某個群體缺失值特別多,你一刪,這不就帶偏結(jié)果了嗎?比如某個收入群體數(shù)據(jù)缺失嚴重,你一刪,分析結(jié)果可能完全錯誤。我上次講的時候有學(xué)生問過,為什么不能隨便刪除缺失值。你想啊,如果某個群體缺失值特別多,你一刪,這不就帶偏結(jié)果了嗎?所以啊,得講究方法,比如用回歸插補這種,能保留更多信息。3.B解析:箱線圖主要用于識別異常值,我每次講這個圖都特別興奮,你看那箱子中間的線是中位數(shù),上下邊緣是四分位數(shù),那須啊,伸出去的是異常值,一目了然。有個同學(xué)上次畫圖啊,把異常值都當(dāng)成正常數(shù)據(jù)了,結(jié)果被判錯,哈哈。箱線圖就像信用分析師的眼睛,能快速發(fā)現(xiàn)異常情況。4.C解析:五級分類指的是貸款風(fēng)險等級,我上課時經(jīng)常用銀行的真實案例來講,正常、關(guān)注、次級、可疑、損失,每個等級都有具體表現(xiàn),比如次級貸款啊,那肯定要重點關(guān)注了。有個同學(xué)上次問我五級分類怎么用,我說啊,這就像醫(yī)生看病,正??隙ǚ判?,次級就要密切觀察,損失那就是危險信號了。5.A解析:AUC值最能反映模型的區(qū)分能力,我每次講這個都要說,它就像天氣預(yù)報準(zhǔn)確率的那個曲線,1就是完美的分者,0.5就是隨機猜。有個同學(xué)上次模型AUC值才0.6,我讓他重新看特征,結(jié)果發(fā)現(xiàn)把收入和負債搞反了,哈哈。AUC值是信用評分卡的生命線,得越高越好。6.B解析:查詢記錄通常包括貸款審批查詢,我上課時強調(diào)過,這可是反映客戶信用態(tài)度的關(guān)鍵。有個客戶明明很穩(wěn)定,但查詢次數(shù)太多,最后還是被風(fēng)控了,所以說啊,數(shù)據(jù)要全面看。查詢記錄就像客戶的信用行為日記,寫得越規(guī)范越好。7.B解析:分箱屬于特征衍生,我上次講這個的時候啊,有學(xué)生說"老師,我衍生了這么多特征,模型效果反而差了",我告訴他,特征不是越多越好,得有質(zhì)量,就像食材,得挑好的。分箱能把連續(xù)數(shù)據(jù)變成分類數(shù)據(jù),有時候能簡化模型。8.C解析:居住情況通常指的是租房還是買房,我經(jīng)常用這個來舉例,有個客戶租房10年,突然買房,我一看他的查詢記錄,發(fā)現(xiàn)當(dāng)時申請房貸,后來發(fā)現(xiàn)他其實很穩(wěn)定,所以說啊,要動態(tài)看數(shù)據(jù)。居住情況就像客戶的根基,穩(wěn)不穩(wěn)很重要。9.A解析:SMOTE算法屬于過采樣,我特別強調(diào)過,它能把少數(shù)類樣本擴展,有個學(xué)生用這個把違約樣本擴充到60%,模型效果立馬提升,所以說啊,處理不平衡問題得用對招。SMOTE就像放大鏡,能把小細節(jié)放大看清楚。10.B解析:負債比率通常是指月還款額/月收入,我上課時特別強調(diào)這個,有個客戶工資很高,但負債比太高,最后逾期了,所以說啊,不能只看收入,得看負債。負債比率就像客戶的負重,太重了肯定走不動。11.A解析:ARIMA模型適合處理具有明顯季節(jié)性變化的征信數(shù)據(jù),我經(jīng)常用這個分析某銀行信用卡逾期趨勢,那季節(jié)性特征啊,一目了然。ARIMA就像季節(jié)性感冒藥,能對癥下藥。12.B解析:擔(dān)保信息通常包括抵押物價值,我上課時強調(diào)過,有個客戶沒有抵押,但有3個聯(lián)保人,最后沒逾期,所以說啊,不能只看表面。擔(dān)保信息就像客戶的保險,有備無患。13.A解析:Gini系數(shù)最能反映節(jié)點純度,我每次講這個都要說,它就像空氣質(zhì)量指數(shù),值越小說越好。Gini系數(shù)就像信用評分的空氣質(zhì)量,越清新越好。14.B解析:職業(yè)信息通常指的是行業(yè)分類,我經(jīng)常用這個來舉例,有個客戶從國企跳到私企,剛開始查詢記錄變多,但后來穩(wěn)定了,所以說啊,要動態(tài)看數(shù)據(jù)。職業(yè)信息就像客戶的職業(yè)身份證,很重要。15.C解析:提升度反映規(guī)則的重要性,我特別強調(diào)過,它就像放大鏡,能把重要規(guī)則找出來。提升度就像信用分析師的放大鏡,能發(fā)現(xiàn)關(guān)鍵信息。16.A解析:教育程度通常指的是最高學(xué)歷,我經(jīng)常用這個來舉例,有個客戶大學(xué)學(xué)歷,但最近離職,查詢記錄變多,最后逾期了,所以說啊,要結(jié)合其他數(shù)據(jù)看。教育程度就像客戶的學(xué)歷證書,是重要參考。17.A解析:K-means適合處理高維數(shù)據(jù),我特別強調(diào)過,有個學(xué)生用這個分析客戶行為,效果特別好,所以說啊,得用對算法。K-means就像高維數(shù)據(jù)的導(dǎo)航儀,能幫你找到方向。18.D解析:公共記錄通常包括訴訟記錄、拍賣記錄、仲裁記錄,我上課時強調(diào)過,有個客戶有訴訟記錄,雖然沒判決,但查詢記錄變多,最后還是逾期了,所以說啊,要重視這些數(shù)據(jù)。公共記錄就像客戶的信用污點,要小心。19.A解析:遞歸特征消除屬于基于模型的特征選擇,我經(jīng)常用這個分析信用評分特征,效果特別好,所以說啊,得用對方法。遞歸特征消除就像信用分析師的火眼金睛,能幫你找到真金。20.A解析:收入穩(wěn)定性通常是指工資變化率,我上課時強調(diào)過,有個客戶工資很高,但收入不穩(wěn)定,最后逾期了,所以說啊,要關(guān)注這些細節(jié)。收入穩(wěn)定性就像客戶的收入心電圖,要平穩(wěn)。二、簡答題1.征信數(shù)據(jù)探索性分析的主要步驟及其目的:步驟:數(shù)據(jù)概覽(描述性統(tǒng)計)、可視化(直方圖、箱線圖等)、關(guān)聯(lián)性分析。目的:了解數(shù)據(jù)分布特征、發(fā)現(xiàn)異常值、找出數(shù)據(jù)間關(guān)系,為后續(xù)建模做準(zhǔn)備。我上課時強調(diào)過,探索性分析就像偵探的初步調(diào)查,不充分肯定走不動。2.征信數(shù)據(jù)預(yù)處理中缺失值處理的各種方法及其適用場景:方法:均值填充、中位數(shù)填充、眾數(shù)填充、回歸插補、刪除樣本。適用場景:均值適用于正態(tài)分布數(shù)據(jù)、中位數(shù)適用于偏態(tài)分布數(shù)據(jù)、回歸插補適用于缺失值不多但需要保留更多信息的情況。有個學(xué)生上次用均值填充缺失值,結(jié)果發(fā)現(xiàn)把收入正常的客戶填充成平均值,數(shù)據(jù)失真了,我說啊,方法得選對。3.征信數(shù)據(jù)不平衡問題的危害以及常用的處理方法:危害:模型偏向多數(shù)類,導(dǎo)致對少數(shù)類預(yù)測效果差。方法:過采樣(SMOTE)、欠采樣、成本敏感學(xué)習(xí)。我特別強調(diào)過,處理不平衡問題得用對招,上次有個學(xué)生用SMOTE擴充違約樣本,效果立馬提升,所以說啊,得用對方法。4.征信數(shù)據(jù)中常見的異常值處理方法及其優(yōu)缺點:方法:分箱、winsorize、刪除樣本。優(yōu)缺點:分箱能保留更多信息但可能丟失細節(jié)、winsorize能控制極端值但可能掩蓋真實分布、刪除樣本簡單但可能丟失重要信息。有個學(xué)生上次刪除異常值,結(jié)果發(fā)現(xiàn)那些異常值其實是重要客戶,模型效果反而差了。5.征信數(shù)據(jù)中特征選擇的重要性以及常用的特征選擇方法:重要性:減少特征冗余、提高模型性能、增強模型解釋性。方法:相關(guān)性分析、遞歸特征消除、Lasso回歸。我每次講都會用真實案例來講,比如有個學(xué)生特征選太多,模型過擬合,后來用遞歸特征消除精簡后,效果立馬提升。所以說啊,特征選擇很重要,得用對方法。三、簡答題6.征信數(shù)據(jù)中特征衍生的主要方法及其在信用評分中的應(yīng)用價值:方法:從出生日期衍生年齡、從查詢次數(shù)和間隔時間衍生查詢活躍度、從負債和收入衍生負債收入比。價值:能從原始數(shù)據(jù)中發(fā)現(xiàn)更多信息、提高模型性能、增強模型解釋性。有個學(xué)生上次衍生了太多特征,結(jié)果模型效果反而差了,我說啊,特征不是越多越好,得有質(zhì)量。7.征信數(shù)據(jù)中時間序列分析的主要方法及其在信用風(fēng)險預(yù)測中的應(yīng)用場景:方法:趨勢分解、季節(jié)性調(diào)整、ARIMA模型。應(yīng)用場景:預(yù)測未來風(fēng)險、發(fā)現(xiàn)季節(jié)性規(guī)律、分析趨勢變化。我經(jīng)常

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論