版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
2025年征信數(shù)據(jù)分析師能力測試-征信數(shù)據(jù)分析挖掘方法與技巧試題考試時(shí)間:______分鐘總分:______分姓名:______一、選擇題(本部分共20小題,每小題2分,共40分。每小題只有一個(gè)正確答案,請將正確答案的字母填在題后的括號內(nèi)。)1.在征信數(shù)據(jù)分析中,下列哪項(xiàng)指標(biāo)最能反映借款人的還款能力?()A.貸款余額B.收入水平C.信用評分D.婚姻狀況解析:這題啊,我講課的時(shí)候經(jīng)常強(qiáng)調(diào),還款能力這東西,說白了就是看人家兜里有沒有錢,所以收入水平肯定是最直觀的,貸款余額只是結(jié)果,信用評分是綜合評價(jià),婚姻狀況跟還款能力關(guān)系不大,這題選B。2.征信數(shù)據(jù)中,哪一種變量類型最適合使用均值和中位數(shù)來描述其中心趨勢?()A.分類變量B.常量變量C.標(biāo)準(zhǔn)差D.連續(xù)變量解析:這題得看清楚,分類變量比如性別,你用均值中位數(shù)沒意義,常量變量就一個(gè)值,標(biāo)準(zhǔn)差是離散程度,不是趨勢,連續(xù)變量比如收入,這玩意兒取值范圍廣,用均值中位數(shù)最合適,所以選D。3.在進(jìn)行邏輯回歸分析時(shí),如果某個(gè)自變量的P值大于0.05,通常意味著什么?()A.該變量對因變量有顯著影響B(tài).該變量對因變量沒有顯著影響C.該變量一定是無關(guān)緊要的D.需要進(jìn)一步增大樣本量解析:這題啊,P值小于0.05才表示顯著,大于0.05說明證據(jù)不足,不能拒絕原假設(shè),也就是沒發(fā)現(xiàn)顯著影響,但也不能說它就完全沒用,所以選B。我上課的時(shí)候經(jīng)常舉例子,就像你懷疑同桌偷你筆,看了10次都沒偷,但你不能就說他肯定不是小偷啊。4.征信數(shù)據(jù)清洗中,處理缺失值最常用的方法是什么?()A.刪除含有缺失值的樣本B.填充缺失值(如均值、中位數(shù)填充)C.使用模型預(yù)測缺失值D.忽略缺失值不處理解析:這題得看情況,但一般首選填充,尤其是大數(shù)據(jù)量的時(shí)候,直接刪太可惜了,預(yù)測缺失值比較復(fù)雜,忽略更不行,所以選B。我以前有個(gè)學(xué)生,數(shù)據(jù)缺了20%,直接刪了,后來被領(lǐng)導(dǎo)罵慘了,說浪費(fèi)資源。5.在構(gòu)建信用評分模型時(shí),哪個(gè)指標(biāo)最能反映模型的區(qū)分能力?()A.決策樹深度B.AUC值C.決策邊界D.回歸系數(shù)解析:這題得懂啊,區(qū)分能力就是看模型分得準(zhǔn)不準(zhǔn),AUC值就是干這個(gè)的,范圍0到1,越接近1越好,樹深度是模型復(fù)雜度,邊界是可視化東西,系數(shù)是解釋變量影響,所以選B。我上課時(shí)總用信用卡例子,AUC高說明你分得準(zhǔn),不會把該拒的都拒了。6.征信數(shù)據(jù)中,哪項(xiàng)指標(biāo)最能反映借款人的信用風(fēng)險(xiǎn)?()A.汽車數(shù)量B.信用評分C.賬戶余額D.職業(yè)解析:這題很簡單,信用評分就是專門干這個(gè)的,其他都是無關(guān)因素,我上課時(shí)經(jīng)常說,就像看病,醫(yī)生不會看你有幾個(gè)手機(jī)來判斷病情,會看檢查報(bào)告,所以選B。7.在進(jìn)行特征工程時(shí),哪項(xiàng)操作最可能提高模型的預(yù)測能力?()A.增加無關(guān)特征B.刪除冗余特征C.對所有特征進(jìn)行標(biāo)準(zhǔn)化D.減少特征數(shù)量解析:這題得細(xì)想,無關(guān)特征只會拖后腿,刪除冗余可以,但關(guān)鍵是要有新特征,標(biāo)準(zhǔn)化是預(yù)處理,不是創(chuàng)造特征,所以選B。我有個(gè)學(xué)生把重復(fù)特征當(dāng)新特征用了,結(jié)果模型瞎跑,最后被笑話了。8.在處理征信數(shù)據(jù)中的異常值時(shí),哪種方法最常用?()A.直接刪除異常值B.將異常值替換為最大值C.對異常值進(jìn)行平滑處理D.使用箱線圖識別并處理異常值解析:這題得會啊,直接刪太粗暴,替換成最大值更離譜,平滑處理不具體,箱線圖是識別方法,不是處理方法,實(shí)際是識別后處理,比如刪或替換,所以選D。我上課時(shí)總用學(xué)生成績例子,有個(gè)學(xué)生考了100分,老師發(fā)現(xiàn)是抄的,直接刪了,結(jié)果平均分降低了。9.在進(jìn)行聚類分析時(shí),哪種距離度量方法最常用?()A.方差B.皮爾遜相關(guān)系數(shù)C.歐氏距離D.相關(guān)系數(shù)解析:這題得記,聚類分析一般用歐氏距離,方差是方差分析用的,相關(guān)系數(shù)是相關(guān)性分析用的,皮爾遜是相關(guān)系數(shù)的一種,所以選C。我有個(gè)學(xué)生用方差做聚類,結(jié)果被導(dǎo)師罵得狗血淋頭。10.在進(jìn)行時(shí)間序列分析時(shí),哪個(gè)模型最適合處理具有明顯季節(jié)性波動(dòng)的數(shù)據(jù)?()A.ARIMA模型B.線性回歸模型C.邏輯回歸模型D.決策樹模型解析:這題得懂啊,ARIMA是時(shí)間序列的,能處理季節(jié)性,其他都不行,我上課時(shí)總用超市銷售額例子,夏天賣空調(diào)多,冬天賣暖寶寶多,這種就得用ARIMA,所以選A。11.在征信數(shù)據(jù)中,哪項(xiàng)指標(biāo)最能反映借款人的負(fù)債水平?()A.信用額度B.逾期次數(shù)C.總負(fù)債D.賬戶年齡解析:這題很簡單,負(fù)債水平就是欠多少錢,總負(fù)債最直接,額度是可能用,次數(shù)是行為,年齡是歷史,所以選C。我講課時(shí)就強(qiáng)調(diào),就像你欠債,老師不會看你會不會用額度,會看你欠了多少。12.在進(jìn)行數(shù)據(jù)探索性分析時(shí),哪種圖表最適合展示兩個(gè)連續(xù)變量的關(guān)系?()A.條形圖B.散點(diǎn)圖C.餅圖D.熱力圖解析:這題得會啊,兩個(gè)連續(xù)變量看關(guān)系,散點(diǎn)圖最直觀,條形圖是分類對連續(xù),餅圖是占比,熱力圖是多變量,所以選B。我有個(gè)學(xué)生用條形圖展示收入和消費(fèi)關(guān)系,結(jié)果導(dǎo)師說看不懂,后來改用散點(diǎn)圖才明白。13.在構(gòu)建神經(jīng)網(wǎng)絡(luò)模型時(shí),哪個(gè)參數(shù)對模型性能影響最大?()A.學(xué)習(xí)率B.批量大小C.隱藏層節(jié)點(diǎn)數(shù)D.激活函數(shù)解析:這題得有經(jīng)驗(yàn),學(xué)習(xí)率太重要了,太大模型亂跑,太小模型不跑,其他也是重要,但學(xué)習(xí)率是關(guān)鍵,我上課時(shí)總用開車比喻,學(xué)習(xí)率像油門,踩太猛或太輕都不行,所以選A。14.在征信數(shù)據(jù)中,哪項(xiàng)指標(biāo)最能反映借款人的還款意愿?()A.信用評分B.逾期天數(shù)C.賬戶數(shù)量D.收入穩(wěn)定性解析:這題得細(xì)想,還款意愿是態(tài)度問題,逾期天數(shù)是行為,評分是綜合,數(shù)量是需求,穩(wěn)定性是能力,態(tài)度得看行為,所以選B。我講課時(shí)就用借錢不還例子,不是看人家兜里有錢沒錢,是看人家愿不愿意還。15.在進(jìn)行特征選擇時(shí),哪種方法最適合處理高維數(shù)據(jù)?()A.逐步回歸B.Lasso回歸C.決策樹D.線性判別分析解析:這題得會啊,Lasso回歸是特征選擇神器,可以自動(dòng)選變量,逐步回歸要手動(dòng)選,決策樹選變量不精確,線性判別分析是降維,所以選B。我有個(gè)學(xué)生用Lasso把200個(gè)特征降到20個(gè),效果還挺好。16.在征信數(shù)據(jù)中,哪項(xiàng)指標(biāo)最能反映借款人的信用歷史長度?()A.賬戶年齡B.信用評分C.逾期次數(shù)D.總負(fù)債解析:這題很簡單,信用歷史長度就是看賬戶開了多久,賬戶年齡最直接,評分是綜合,次數(shù)是行為,負(fù)債是結(jié)果,所以選A。我講課時(shí)就用銀行流水例子,就像你看一個(gè)人是不是老油條,就看他在銀行待多久了。17.在進(jìn)行模型評估時(shí),哪個(gè)指標(biāo)最適合衡量模型的泛化能力?()A.訓(xùn)練集上的R2值B.測試集上的AUC值C.交叉驗(yàn)證結(jié)果D.特征重要性解析:這題得會啊,泛化能力就是模型對新數(shù)據(jù)的預(yù)測能力,測試集AUC最合適,訓(xùn)練集R2是過擬合指標(biāo),交叉驗(yàn)證是評估方法,特征重要性是解釋工具,所以選B。我上課時(shí)總用考試比喻,考試是泛化能力,作業(yè)是訓(xùn)練集,所以考試分?jǐn)?shù)最重要。18.在處理征信數(shù)據(jù)中的類別不平衡時(shí),哪種方法最常用?()A.增加樣本量B.使用過采樣技術(shù)C.使用欠采樣技術(shù)D.調(diào)整分類閾值解析:這題得會啊,不平衡數(shù)據(jù)最常用過采樣,欠采樣也可以,增加樣本量難,調(diào)整閾值只是臨時(shí)措施,所以選B。我有個(gè)學(xué)生用欠采樣把正負(fù)樣本比例1:1,結(jié)果模型把大部分都分成了正類,最后被導(dǎo)師罵慘了。19.在進(jìn)行特征編碼時(shí),哪種方法最適合處理有序分類變量?()A.One-Hot編碼B.標(biāo)準(zhǔn)化C.Label編碼D.二進(jìn)制編碼解析:這題得會啊,有序變量不能隨便用One-Hot,得用Label,標(biāo)準(zhǔn)化是數(shù)值處理,二進(jìn)制是另一種One-Hot,所以選C。我講課時(shí)就用教育程度例子,小學(xué)<中學(xué)<大學(xué),這種就得用Label。20.在征信數(shù)據(jù)中,哪項(xiàng)指標(biāo)最能反映借款人的信用風(fēng)險(xiǎn)集中度?()A.信用評分B.單一貸款占比C.賬戶數(shù)量D.總負(fù)債解析:這題得細(xì)想,風(fēng)險(xiǎn)集中度就是看某一點(diǎn)風(fēng)險(xiǎn)多大,單一貸款占比最直接,評分是綜合,數(shù)量是分散,總負(fù)債是絕對值,所以選B。我講課時(shí)就用投資例子,全買一只股票風(fēng)險(xiǎn)大,分散投資風(fēng)險(xiǎn)小,貸款也是一樣。二、簡答題(本部分共5小題,每小題4分,共20分。請將答案寫在答題紙上相應(yīng)位置。)1.簡述征信數(shù)據(jù)清洗的主要步驟有哪些?解析:這題得會啊,清洗是數(shù)據(jù)分析第一步,主要步驟有:①缺失值處理,比如刪或填充;②異常值處理,比如刪或替換;③重復(fù)值處理,去重;④格式統(tǒng)一,比如日期格式;⑤數(shù)據(jù)轉(zhuǎn)換,比如分類變量編碼。我上課時(shí)總用學(xué)生數(shù)據(jù)例子,有個(gè)學(xué)生數(shù)據(jù)有200個(gè)空成績,老師直接刪了100個(gè),結(jié)果被導(dǎo)師罵了,后來改用均值填充。2.解釋什么是特征工程,并列舉三種常見的特征工程方法。解析:這題得會啊,特征工程就是創(chuàng)造新特征,讓模型更好用。方法有:①特征組合,比如收入乘以年限;②特征轉(zhuǎn)換,比如對數(shù)轉(zhuǎn)換;③特征選擇,比如用Lasso選變量。我有個(gè)學(xué)生把收入和年限相乘造了個(gè)新特征,結(jié)果模型效果好了不少,被導(dǎo)師表揚(yáng)了。3.簡述邏輯回歸模型在信用評分中的應(yīng)用。解析:這題得會啊,邏輯回歸是信用評分基礎(chǔ),原理是用自變量預(yù)測違約概率,然后轉(zhuǎn)化成評分。步驟有:①選變量,比如收入、負(fù)債;②建模,用邏輯回歸;③轉(zhuǎn)評分,把概率乘100。我上課時(shí)總用信用卡例子,就像你預(yù)測同桌會不會偷你筆,偷的概率乘100就是評分。4.解釋什么是過采樣和欠采樣,并說明它們各自的優(yōu)缺點(diǎn)。解析:這題得會啊,過采樣是復(fù)制少數(shù)類樣本,欠采樣是刪多數(shù)類樣本。過采樣優(yōu)點(diǎn)是保留所有數(shù)據(jù),缺點(diǎn)是可能過擬合;欠采樣優(yōu)點(diǎn)是減少計(jì)算量,缺點(diǎn)是丟失信息。我有個(gè)學(xué)生用過采樣,結(jié)果模型在少數(shù)類上瞎跑,最后被導(dǎo)師罵了。5.簡述AUC值在模型評估中的含義。解析:這題得會啊,AUC值是模型區(qū)分能力,范圍0到1,越大越好。含義是模型把正類排在負(fù)類前面的概率。我上課時(shí)總用考試比喻,AUC高就像考試高分,能分清楚誰會誰不會;AUC低就像考試亂答,誰會誰不會分不清。三、簡答題(本部分共5小題,每小題4分,共20分。請將答案寫在答題紙上相應(yīng)位置。)6.解釋什么是數(shù)據(jù)探索性分析(EDA),并列舉三種常見的EDA方法。解析:這題得會啊,EDA就是隨便看看數(shù)據(jù),了解基本情況,像偵探查案一樣。方法有:①統(tǒng)計(jì)描述,比如計(jì)算均值、中位數(shù);②可視化,比如畫直方圖、散點(diǎn)圖;③相關(guān)性分析,看變量之間關(guān)系。我有個(gè)學(xué)生用散點(diǎn)圖發(fā)現(xiàn)收入和評分有關(guān)系,結(jié)果模型效果好了不少,被導(dǎo)師表揚(yáng)了。7.簡述決策樹模型在征信數(shù)據(jù)分析中的應(yīng)用,并說明其優(yōu)缺點(diǎn)。解析:這題得會啊,決策樹是分類神器,原理是問問題把數(shù)據(jù)分好類。優(yōu)點(diǎn)是直觀,像問答題;缺點(diǎn)是容易過擬合,像鉆牛角尖。應(yīng)用是預(yù)測違約,比如問收入高不高,負(fù)債重不重。我上課時(shí)總用選課例子,就像你選課,問成績好不好,難不難,這樣選到適合的課。8.解釋什么是交叉驗(yàn)證,并說明其在模型評估中的作用。解析:這題得會啊,交叉驗(yàn)證是把數(shù)據(jù)分成幾份,輪流用份數(shù)據(jù)訓(xùn)練,份數(shù)據(jù)測試。作用是減少評估誤差,像考試換不同試卷。方法有:①K折交叉驗(yàn)證,分K份輪流;②留一交叉驗(yàn)證,每次留一份測試。我有個(gè)學(xué)生用交叉驗(yàn)證,結(jié)果模型效果穩(wěn)定,被導(dǎo)師表揚(yáng)了。9.簡述特征選擇的目的,并列舉三種常見的特征選擇方法。解析:這題得會啊,特征選擇是為了選最好的變量,去掉沒用的,像挑菜一樣。目的有:①提高模型性能,選好變量模型更好;②減少模型復(fù)雜度,像減肥一樣。方法有:①過濾法,比如用相關(guān)系數(shù)選;②包裹法,比如用逐步回歸選;③嵌入法,比如用Lasso選。我有個(gè)學(xué)生用Lasso選變量,結(jié)果模型效果好了不少,被導(dǎo)師表揚(yáng)了。10.解釋什么是模型漂移,并說明其產(chǎn)生的原因和應(yīng)對方法。解析:這題得會啊,模型漂移就是模型用久了失效了,像你考試越考越差。原因有:①數(shù)據(jù)分布變了,比如現(xiàn)在年輕人借錢多;②模型過時(shí)了,像老手機(jī)跑不動(dòng)。應(yīng)對方法是:①定期重新訓(xùn)練,像換電池;②在線學(xué)習(xí),像邊跑邊學(xué)。我有個(gè)學(xué)生模型用了一年就失效了,后來定期重新訓(xùn)練,效果好了不少,被導(dǎo)師表揚(yáng)了。四、論述題(本部分共2小題,每小題10分,共20分。請將答案寫在答題紙上相應(yīng)位置。)11.結(jié)合實(shí)際案例,論述征信數(shù)據(jù)清洗的重要性及其主要挑戰(zhàn)。解析:這題得會啊,數(shù)據(jù)清洗很重要,就像做飯得洗菜,不洗不干凈。重要性有:①提高數(shù)據(jù)質(zhì)量,像洗菜去泥;②保證模型效果,像菜洗干凈才好吃。挑戰(zhàn)有:①缺失值多,像菜有爛的;②異常值怪,像菜里有蟲;③數(shù)據(jù)格式亂,像菜有生的有熟的。我以前有個(gè)學(xué)生數(shù)據(jù)有20%缺失,直接刪了,結(jié)果被導(dǎo)師罵慘了,后來改用均值填充,效果好了不少。12.結(jié)合實(shí)際案例,論述如何選擇合適的模型評估指標(biāo),并說明不同指標(biāo)的含義和應(yīng)用場景。解析:這題得會啊,選評估指標(biāo)像選尺子,得看情況。選擇方法有:①看問題類型,分類用AUC,回歸用R2;②看數(shù)據(jù)平衡,不平衡用F1;③看業(yè)務(wù)需求,比如風(fēng)控用ROC。指標(biāo)含義:①AUC是區(qū)分能力,像考試區(qū)分度;②R2是擬合度,像模型貼數(shù)據(jù)緊不緊;③F1是綜合指標(biāo),像平衡打分。應(yīng)用場景:①AUC用在分類,像預(yù)測違約;②R2用在回歸,像預(yù)測房價(jià);③F1用在不平衡,像預(yù)測稀有病。我有個(gè)學(xué)生用AUC評估分類模型,結(jié)果模型效果好了不少,被導(dǎo)師表揚(yáng)了。本次試卷答案如下一、選擇題答案及解析1.B解析:還款能力最終要看收入水平,貸款余額是結(jié)果,信用評分是綜合評價(jià),婚姻狀況跟還款能力關(guān)系不大,所以選B。2.D解析:連續(xù)變量比如收入,取值范圍廣,用均值中位數(shù)描述最合適,分類變量不適合,常量變量沒意義,標(biāo)準(zhǔn)差是離散程度,所以選D。3.B解析:P值小于0.05才表示顯著,大于0.05說明證據(jù)不足,不能拒絕原假設(shè),即沒有發(fā)現(xiàn)顯著影響,但也不能說它就完全沒用,所以選B。4.B解析:數(shù)據(jù)清洗一般首選填充,尤其是大數(shù)據(jù)量的時(shí)候,直接刪太可惜了,預(yù)測缺失值比較復(fù)雜,忽略更不行,所以選B。5.B解析:AUC值就是干這個(gè)的,范圍0到1,越接近1越好,樹深度是模型復(fù)雜度,邊界是可視化東西,系數(shù)是解釋變量影響,所以選B。6.B解析:信用評分就是專門干這個(gè)的,其他都是無關(guān)因素,就像看病,醫(yī)生不會看你有幾個(gè)手機(jī)來判斷病情,會看檢查報(bào)告,所以選B。7.B解析:無關(guān)特征只會拖后腿,刪除冗余可以,但關(guān)鍵是要有新特征,標(biāo)準(zhǔn)化是預(yù)處理,不是創(chuàng)造特征,減少特征數(shù)量可能會丟失信息,所以選B。8.D解析:箱線圖是識別方法,不是處理方法,實(shí)際是識別后處理,比如刪或替換,所以選D。就像你懷疑同桌偷你筆,看了10次都沒偷,但你不能就說他肯定不是小偷啊。9.C解析:聚類分析一般用歐氏距離,方差是方差分析用的,相關(guān)系數(shù)是相關(guān)性分析用的,皮爾遜是相關(guān)系數(shù)的一種,所以選C。10.A解析:ARIMA是時(shí)間序列的,能處理季節(jié)性,其他都不行,就像夏天賣空調(diào)多,冬天賣暖寶寶多,這種就得用ARIMA,所以選A。11.C解析:負(fù)債水平就是欠多少錢,總負(fù)債最直接,額度是可能用,次數(shù)是行為,年齡是歷史,所以選C。12.B解析:兩個(gè)連續(xù)變量看關(guān)系,散點(diǎn)圖最直觀,條形圖是分類對連續(xù),餅圖是占比,熱力圖是多變量,所以選B。13.A解析:學(xué)習(xí)率像油門,踩太猛或太輕都不行,是關(guān)鍵參數(shù),我上課時(shí)總用開車比喻,油門像學(xué)習(xí)率,踩太猛模型亂跑,踩太輕模型不跑,所以選A。14.B解析:還款意愿是態(tài)度問題,逾期天數(shù)是行為,評分是綜合,數(shù)量是需求,穩(wěn)定性是能力,態(tài)度得看行為,就像借錢不還,不是看人家兜里有錢沒錢,是看人家愿不愿意還,所以選B。15.B解析:Lasso回歸是特征選擇神器,可以自動(dòng)選變量,逐步回歸要手動(dòng)選,決策樹選變量不精確,線性判別分析是降維,所以選B。16.A解析:信用歷史長度就是看賬戶開了多久,賬戶年齡最直接,評分是綜合,次數(shù)是行為,負(fù)債是結(jié)果,所以選A。17.B解析:泛化能力就是模型對新數(shù)據(jù)的預(yù)測能力,測試集AUC最合適,訓(xùn)練集R2是過擬合指標(biāo),交叉驗(yàn)證是評估方法,特征重要性是解釋工具,所以選B。18.B解析:不平衡數(shù)據(jù)最常用過采樣,欠采樣也可以,增加樣本量難,調(diào)整閾值只是臨時(shí)措施,所以選B。19.C解析:有序變量不能隨便用One-Hot,得用Label,標(biāo)準(zhǔn)化是數(shù)值處理,二進(jìn)制是另一種One-Hot,所以選C。20.B解析:單一貸款占比最直接,風(fēng)險(xiǎn)集中度就是看某一點(diǎn)風(fēng)險(xiǎn)多大,評分是綜合,數(shù)量是分散,總負(fù)債是絕對值,所以選B。二、簡答題答案及解析1.簡述征信數(shù)據(jù)清洗的主要步驟有哪些?答案:①缺失值處理,比如刪或填充;②異常值處理,比如刪或替換;③重復(fù)值處理,去重;④格式統(tǒng)一,比如日期格式;⑤數(shù)據(jù)轉(zhuǎn)換,比如分類變量編碼。解析:數(shù)據(jù)清洗是數(shù)據(jù)分析第一步,像做飯得洗菜,不洗不干凈。主要步驟有:①缺失值處理,像菜有爛的,得處理;②異常值處理,像菜有蟲,得去;③重復(fù)值處理,像菜有生的有熟的,得去重;④格式統(tǒng)一,像菜有生的有熟的,得統(tǒng)一;⑤數(shù)據(jù)轉(zhuǎn)換,像菜有生的有熟的,得轉(zhuǎn)換。我以前有個(gè)學(xué)生數(shù)據(jù)有20%缺失,直接刪了,結(jié)果被導(dǎo)師罵慘了,后來改用均值填充,效果好了不少。2.解釋什么是特征工程,并列舉三種常見的特征工程方法。答案:特征工程就是創(chuàng)造新特征,讓模型更好用。方法有:①特征組合,比如收入乘以年限;②特征轉(zhuǎn)換,比如對數(shù)轉(zhuǎn)換;③特征選擇,比如用Lasso選變量。解析:特征工程像挑菜,挑好的放一起,扔壞的,目的是選最好的變量,去掉沒用的,像挑菜一樣。方法有:①特征組合,像把收入和年限相乘造個(gè)新特征;②特征轉(zhuǎn)換,像對數(shù)轉(zhuǎn)換;③特征選擇,像用Lasso選變量。我有個(gè)學(xué)生把收入和年限相乘造了個(gè)新特征,結(jié)果模型效果好了不少,被導(dǎo)師表揚(yáng)了。3.簡述邏輯回歸模型在信用評分中的應(yīng)用。答案:邏輯回歸是信用評分基礎(chǔ),原理是用自變量預(yù)測違約概率,然后轉(zhuǎn)化成評分。步驟有:①選變量,比如收入、負(fù)債;②建模,用邏輯回歸;③轉(zhuǎn)評分,把概率乘100。解析:邏輯回歸像問同桌會不會偷你筆,偷的概率乘100就是評分。原理是用自變量預(yù)測違約概率,然后轉(zhuǎn)化成評分。步驟有:①選變量,像選收入、負(fù)債;②建模,用邏輯回歸;③轉(zhuǎn)評分,把概率乘100。我上課時(shí)總用信用卡例子,就像你預(yù)測同桌會不會偷你筆,偷的概率乘100就是評分。4.解釋什么是過采樣和欠采樣,并說明它們各自的優(yōu)缺點(diǎn)。答案:過采樣是復(fù)制少數(shù)類樣本,欠采樣是刪多數(shù)類樣本。過采樣優(yōu)點(diǎn)是保留所有數(shù)據(jù),缺點(diǎn)是可能過擬合;欠采樣優(yōu)點(diǎn)是減少計(jì)算量,缺點(diǎn)是丟失信息。解析:過采樣像復(fù)制菜,欠采樣像扔菜。過采樣是復(fù)制少數(shù)類樣本,欠采樣是刪多數(shù)類樣本。過采樣優(yōu)點(diǎn)是保留所有數(shù)據(jù),缺點(diǎn)是可能過擬合;欠采樣優(yōu)點(diǎn)是減少計(jì)算量,缺點(diǎn)是丟失信息。我有個(gè)學(xué)生用過采樣,結(jié)果模型在少數(shù)類上瞎跑,最后被導(dǎo)師罵了。5.簡述AUC值在模型評估中的含義。答案:AUC值是模型區(qū)分能力,范圍0到1,越大越好。含義是模型把正類排在負(fù)類前面的概率。解析:AUC值像考試區(qū)分度,AUC高就像考試高分,能分清楚誰會誰不會;AUC低就像考試亂答,誰會誰不會分不清。含義是模型把正類排在負(fù)類前面的概率,范圍0到1,越大越好。三、簡答題答案及解析6.解釋什么是數(shù)據(jù)探索性分析(EDA),并列舉三種常見的EDA方法。答案:EDA就是隨便看看數(shù)據(jù),了解基本情況,像偵探查案一樣。方法有:①統(tǒng)計(jì)描述,比如計(jì)算均值、中位數(shù);②可視化,比如畫直方圖、散點(diǎn)圖;③相關(guān)性分析,看變量之間關(guān)系。解析:EDA像偵探查案,隨便看看數(shù)據(jù),了解基本情況。方法有:①統(tǒng)計(jì)描述,像計(jì)算菜有多少個(gè);②可視化,像畫菜圖;③相關(guān)性分析,看菜之間關(guān)系。我有個(gè)學(xué)生用散點(diǎn)圖發(fā)現(xiàn)收入和評分有關(guān)系,結(jié)果模型效果好了不少,被導(dǎo)師表揚(yáng)了。7.簡述決策樹模型在征信數(shù)據(jù)分析中的應(yīng)用,并說明其優(yōu)缺點(diǎn)。答案:決策樹是分類神器,原理是問問題把數(shù)據(jù)分好類。優(yōu)點(diǎn)是直觀,像問答題;缺點(diǎn)是容易過擬合,像鉆牛角尖。應(yīng)用是預(yù)測違約,比如問收入高不高,負(fù)債重不重。解析:決策樹像問答題,原理是問問題把數(shù)據(jù)分好類。優(yōu)點(diǎn)是直觀,像問答題;缺點(diǎn)是容易過擬合,像鉆牛角尖。應(yīng)用是預(yù)測違約,比如問收入高不高,負(fù)債重不重。我上課時(shí)總用選課例子,就像你選課,問成績好不好,難不難,這樣選到適合的課。8.解釋什么是交叉驗(yàn)證,并說明其在模型評估中的作用。答案:交叉驗(yàn)證是把數(shù)據(jù)分成幾份,輪流用份數(shù)據(jù)訓(xùn)練,份數(shù)據(jù)測試。作用是減少評估誤差,像考試換不同試卷。方法有:①K折交叉驗(yàn)證,分K份輪流;②留一交叉驗(yàn)證,每次留一份測試。解析:交叉驗(yàn)證像考試換不同試卷,把數(shù)據(jù)分成幾份,輪流用份數(shù)據(jù)訓(xùn)練,份數(shù)據(jù)測試。作用是減少評估誤差,像考試換不同試卷。方法有:①K折交叉驗(yàn)證,分K份輪流;②留一交叉驗(yàn)證,每次留一份測試。我有個(gè)學(xué)生用交叉驗(yàn)證,結(jié)果模型效果穩(wěn)定,被導(dǎo)師表揚(yáng)了。9.簡述特征選擇的目的,并列舉三種常見的特征選擇方法。答案:特征選擇是為了選最好的變量,去掉沒用的,像挑菜一樣。目的有:①提高模型性能,選好變量模型更好;②減少模型復(fù)雜度,像減肥一樣。方法有:①過濾法,比如用相關(guān)系數(shù)選;②包裹法,比如用逐步回歸選;③嵌入法,比如用Lasso選。解析:特征選擇像挑菜,挑好的放一起,扔壞的,目的是選最好的變量,去掉沒用的,像挑菜一樣。目的有:①提高模型性能,選好變量模型更好;②減少模型復(fù)雜度,像減肥一樣。方法有:①過濾法,比如用相關(guān)系數(shù)選;②包裹法,比如用逐步回歸選;③嵌入法,比如用Lasso選。我有個(gè)學(xué)生用Lasso選變量,結(jié)果模型效果好了不少,被導(dǎo)師表揚(yáng)了。10.解釋什么是模型漂移,并說明其產(chǎn)生的原因和應(yīng)對方法。答案:模型漂移就是模型用久了失效了,像你考試越考越差。原因有
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 食堂慢性病培訓(xùn)課件總結(jié)
- 共享經(jīng)濟(jì)模式項(xiàng)目合作協(xié)議
- 平?jīng)鍪惺兄睂W(xué)校招聘2026屆協(xié)議培養(yǎng)師范生23人備考題庫(第二批)及完整答案詳解
- 2026福建三明仲裁委員會綜合秘書崗位招聘1人備考題庫及1套參考答案詳解
- 腮腺混合瘤患者的安全風(fēng)險(xiǎn)評估
- 胸痹的穴位選擇
- 公司財(cái)務(wù)報(bào)告制度
- 《重彩棒玫瑰》美術(shù)教育繪畫課件創(chuàng)意教程教案
- 公共衛(wèi)生設(shè)施清洗消毒維護(hù)制度
- 炫酷科技3D風(fēng)年終總結(jié)匯報(bào)
- 鋼結(jié)構(gòu)施工進(jìn)度計(jì)劃及措施
- 供應(yīng)商信息安全管理制度
- 智慧健康養(yǎng)老服務(wù)與管理專業(yè)教學(xué)標(biāo)準(zhǔn)(高等職業(yè)教育專科)2025修訂
- 2025年農(nóng)業(yè)機(jī)械化智能化技術(shù)在農(nóng)業(yè)防災(zāi)減災(zāi)中的應(yīng)用報(bào)告
- 發(fā)展與安全統(tǒng)籌策略研究
- 移動(dòng)式壓力容器安全技術(shù)監(jiān)察規(guī)程(TSG R0005-2011)
- 2025年廣東省惠州市惠城區(qū)中考一模英語試題(含答案無聽力原文及音頻)
- 征兵體檢超聲診斷
- 云南省大理白族自治州2025屆高三上學(xué)期二??荚?英語 含解析
- 2025年公司綜合管理部工作總結(jié)及2025年工作計(jì)劃
- 購買古琴合同范例
評論
0/150
提交評論