2025年大學(xué)《數(shù)據(jù)計(jì)算及應(yīng)用》專(zhuān)業(yè)題庫(kù)- 金融風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建與優(yōu)化_第1頁(yè)
2025年大學(xué)《數(shù)據(jù)計(jì)算及應(yīng)用》專(zhuān)業(yè)題庫(kù)- 金融風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建與優(yōu)化_第2頁(yè)
2025年大學(xué)《數(shù)據(jù)計(jì)算及應(yīng)用》專(zhuān)業(yè)題庫(kù)- 金融風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建與優(yōu)化_第3頁(yè)
2025年大學(xué)《數(shù)據(jù)計(jì)算及應(yīng)用》專(zhuān)業(yè)題庫(kù)- 金融風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建與優(yōu)化_第4頁(yè)
2025年大學(xué)《數(shù)據(jù)計(jì)算及應(yīng)用》專(zhuān)業(yè)題庫(kù)- 金融風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建與優(yōu)化_第5頁(yè)
已閱讀5頁(yè),還剩7頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶(hù)提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

2025年大學(xué)《數(shù)據(jù)計(jì)算及應(yīng)用》專(zhuān)業(yè)題庫(kù)——金融風(fēng)險(xiǎn)預(yù)測(cè)模型的構(gòu)建與優(yōu)化考試時(shí)間:______分鐘總分:______分姓名:______一、選擇題(每題2分,共20分。請(qǐng)將正確選項(xiàng)的代表字母填寫(xiě)在答題紙上。)1.在金融風(fēng)險(xiǎn)預(yù)測(cè)中,若預(yù)測(cè)目標(biāo)是二分類(lèi)(如違約/不違約),以下哪種模型通常不是首選?A.邏輯回歸B.支持向量機(jī)C.K-近鄰分類(lèi)D.神經(jīng)網(wǎng)絡(luò)2.對(duì)于金融時(shí)間序列數(shù)據(jù),在進(jìn)行模型訓(xùn)練前,通常需要進(jìn)行差分處理的主要目的是?A.消除數(shù)據(jù)中的多重共線(xiàn)性B.降低數(shù)據(jù)的噪音水平C.使數(shù)據(jù)滿(mǎn)足模型的線(xiàn)性假設(shè)D.穩(wěn)定數(shù)據(jù)的均值,使其更適合進(jìn)行趨勢(shì)預(yù)測(cè)3.在處理金融數(shù)據(jù)中的缺失值時(shí),以下哪種方法屬于“插補(bǔ)”方法,而非“刪除”方法?A.刪除含有任何缺失值的樣本B.刪除含有缺失值的特征C.使用均值、中位數(shù)或眾數(shù)填充缺失值D.將缺失值標(biāo)記為一個(gè)特殊的類(lèi)別4.決策樹(shù)模型容易過(guò)擬合的原因之一是?A.對(duì)訓(xùn)練數(shù)據(jù)學(xué)習(xí)不足B.決策規(guī)則過(guò)于簡(jiǎn)單C.模型對(duì)訓(xùn)練數(shù)據(jù)中的噪聲點(diǎn)過(guò)于敏感D.模型無(wú)法處理非線(xiàn)性關(guān)系5.以下哪個(gè)指標(biāo)是衡量分類(lèi)模型對(duì)不平衡數(shù)據(jù)集預(yù)測(cè)性能的常用指標(biāo)?A.方差(Variance)B.均方根誤差(RMSE)C.F1分?jǐn)?shù)D.決定系數(shù)(R-squared)6.在模型評(píng)估中,KS值越大,通常表示?A.模型對(duì)訓(xùn)練數(shù)據(jù)的擬合效果越好B.模型區(qū)分正負(fù)樣本的能力越強(qiáng)C.模型的誤報(bào)率越低D.模型的召回率越高7.以下哪種模型優(yōu)化技術(shù)屬于“包裹式”(Wrapper)方法?A.正則化(如L1、L2)B.網(wǎng)格搜索(GridSearch)C.主成分分析(PCA)D.隨機(jī)森林(RandomForest)8.特征重要性排序有助于?A.提高模型的計(jì)算速度B.減少模型的維度C.識(shí)別對(duì)預(yù)測(cè)結(jié)果影響最大的特征D.增強(qiáng)模型的可解釋性9.在金融風(fēng)險(xiǎn)預(yù)測(cè)中,使用Bagging集成方法的主要目的是?A.提高模型的訓(xùn)練速度B.降低模型的方差,減少過(guò)擬合風(fēng)險(xiǎn)C.增加模型的復(fù)雜度D.自動(dòng)進(jìn)行特征選擇10.對(duì)于一個(gè)預(yù)測(cè)客戶(hù)是否會(huì)違約的模型,銀行更關(guān)心哪個(gè)指標(biāo)較低?A.召回率(Recall)B.精確率(Precision)C.F1分?jǐn)?shù)D.誤報(bào)率(FalsePositiveRate)二、填空題(每題2分,共20分。請(qǐng)將答案填寫(xiě)在答題紙上。)1.在對(duì)金融特征進(jìn)行標(biāo)準(zhǔn)化處理時(shí),常用的轉(zhuǎn)換公式是________,其中μ代表特征的均值,σ代表特征的標(biāo)準(zhǔn)差。2.決策樹(shù)在劃分節(jié)點(diǎn)時(shí),常用的貪心策略是選擇能夠最大化________的特征和分裂點(diǎn)。3.對(duì)于樣本不平衡的金融風(fēng)險(xiǎn)數(shù)據(jù),可以通過(guò)過(guò)采樣(如SMOTE算法)或________的方法來(lái)平衡數(shù)據(jù)。4.模型超參數(shù)的優(yōu)化,如調(diào)整學(xué)習(xí)率、樹(shù)的數(shù)量等,通常使用________或________等搜索策略。5.邏輯回歸模型的輸出需要通過(guò)________函數(shù)進(jìn)行映射,以得到概率值。6.評(píng)估回歸模型(如預(yù)測(cè)損失金額)性能時(shí),除了均方誤差(MSE),常用的指標(biāo)還包括________和均絕對(duì)誤差(MAE)。7.特征交叉是一種常見(jiàn)的________方法,可以創(chuàng)建新的特征組合來(lái)捕捉數(shù)據(jù)中的復(fù)雜關(guān)系。8.模型的“過(guò)擬合”現(xiàn)象指的是模型對(duì)________數(shù)據(jù)的學(xué)習(xí)過(guò)于完美,導(dǎo)致在新數(shù)據(jù)上的泛化能力下降。9.在金融風(fēng)控場(chǎng)景下,KS曲線(xiàn)可以幫助我們找到能夠最大化________的閾值。10.將多個(gè)基學(xué)習(xí)器的預(yù)測(cè)結(jié)果進(jìn)行組合(如投票、加權(quán)平均)是集成學(xué)習(xí)的基本思想,其中________是一種典型的Bagging方法。三、計(jì)算題(請(qǐng)展示清晰的計(jì)算步驟和過(guò)程。共40分。)1.(10分)假設(shè)你正在構(gòu)建一個(gè)預(yù)測(cè)客戶(hù)是否會(huì)申請(qǐng)信用卡逾期的邏輯回歸模型。在一小部分測(cè)試數(shù)據(jù)上,模型得到如下輸出概率和實(shí)際標(biāo)簽:|客戶(hù)ID|實(shí)際標(biāo)簽(Y=1為逾期,Y=0為未逾期)|模型預(yù)測(cè)概率(P(Y=1))||-------|-------------------------|-------------------||1|0|0.15||2|1|0.65||3|0|0.05||4|1|0.80||5|0|0.30|請(qǐng)計(jì)算該模型在這5個(gè)樣本上的LogLoss(邏輯損失)值。(公式:LogLoss=-1/N*Σ[Y*log(P(Y=1))+(1-Y)*log(1-P(Y=1))])2.(15分)考慮一個(gè)簡(jiǎn)單的決策樹(shù)模型,其部分結(jié)構(gòu)如下(使用ID3算法,信息增益作為分裂標(biāo)準(zhǔn)):*根節(jié)點(diǎn):特征A,基尼不純度Gini(root)=0.64*分支1:特征B=1,子節(jié)點(diǎn)樣本數(shù)=50,其中正類(lèi)(Y=1)樣本數(shù)=30,負(fù)類(lèi)(Y=0)樣本數(shù)=20。Gini(G(B=1))=?*分支2:特征B=0,子節(jié)點(diǎn)樣本數(shù)=100,其中正類(lèi)(Y=1)樣本數(shù)=10,負(fù)類(lèi)(Y=0)樣本數(shù)=90。Gini(G(B=0))=?*假設(shè)當(dāng)前考慮在分支1上進(jìn)一步分裂,基于特征C進(jìn)行分裂。分支1的子節(jié)點(diǎn)中,特征C=2的樣本有30個(gè)(Y=1:15,Y=0:15),特征C=3的樣本有20個(gè)(Y=1:5,Y=0:15)。請(qǐng)計(jì)算:a)分支1和分支2的子節(jié)點(diǎn)的基尼不純度Gini(G(B=1))和Gini(G(B=0))。b)基于特征C在分支1上分裂的信息增益IG(A,C|B=1)。(公式:IG(A,C|B=1)=Gini(root)-Σ[(|C=2|/50)*Gini(C=2)+(|C=3|/50)*Gini(C=3)])3.(15分)你使用隨機(jī)森林模型對(duì)某金融數(shù)據(jù)集進(jìn)行了訓(xùn)練,得到了一個(gè)預(yù)測(cè)結(jié)果。對(duì)于某個(gè)客戶(hù)樣本,模型中有10棵樹(shù),每棵樹(shù)的預(yù)測(cè)結(jié)果如下(1代表正類(lèi),0代表負(fù)類(lèi)):1,0,1,1,0,1,0,1,1,0假設(shè)隨機(jī)森林使用簡(jiǎn)單多數(shù)投票作為最終預(yù)測(cè)規(guī)則。a)請(qǐng)給出該模型的最終預(yù)測(cè)結(jié)果。b)如果該客戶(hù)確實(shí)是正類(lèi)客戶(hù),但模型預(yù)測(cè)為負(fù)類(lèi),請(qǐng)簡(jiǎn)要說(shuō)明可能導(dǎo)致這種錯(cuò)誤預(yù)測(cè)的幾個(gè)原因(至少列舉兩點(diǎn))。四、分析與應(yīng)用題(請(qǐng)結(jié)合金融風(fēng)險(xiǎn)預(yù)測(cè)的背景進(jìn)行分析和闡述。共20分。)1.(10分)在金融風(fēng)險(xiǎn)預(yù)測(cè)模型構(gòu)建過(guò)程中,特征工程被認(rèn)為是非常關(guān)鍵的一步。請(qǐng)結(jié)合金融數(shù)據(jù)的特點(diǎn)(如數(shù)據(jù)維度高、特征類(lèi)型多樣、可能存在多重共線(xiàn)性、數(shù)據(jù)不平衡等),論述進(jìn)行特征工程的主要意義,并列舉至少三種具體的特征工程方法及其在風(fēng)控場(chǎng)景中的應(yīng)用示例。2.(10分)模型優(yōu)化是提升模型性能的重要環(huán)節(jié)。請(qǐng)闡述超參數(shù)調(diào)優(yōu)的必要性,并比較兩種常見(jiàn)的超參數(shù)調(diào)優(yōu)方法(如網(wǎng)格搜索和隨機(jī)搜索)的優(yōu)缺點(diǎn)。在金融風(fēng)險(xiǎn)預(yù)測(cè)這種通常需要兼顧精確率和召回率的場(chǎng)景下,選擇哪種調(diào)優(yōu)方法可能更合適?請(qǐng)說(shuō)明理由。試卷答案一、選擇題1.C解析:K-近鄰分類(lèi)算法計(jì)算復(fù)雜度較高,尤其是在大數(shù)據(jù)集上,且其預(yù)測(cè)結(jié)果依賴(lài)于鄰居的定義,不如其他模型在處理高維金融數(shù)據(jù)或進(jìn)行大規(guī)模預(yù)測(cè)時(shí)常用。2.D解析:金融時(shí)間序列數(shù)據(jù)常具有非平穩(wěn)性,均值和方差可能隨時(shí)間變化。差分處理(如一階差分)可以使其近似為平穩(wěn)序列,從而更適合進(jìn)行統(tǒng)計(jì)分析和模型構(gòu)建。3.C解析:A、B、D均為數(shù)據(jù)刪除策略。C選項(xiàng)使用統(tǒng)計(jì)值填充缺失值,屬于數(shù)據(jù)插補(bǔ),旨在保留更多數(shù)據(jù)信息。4.C解析:決策樹(shù)容易過(guò)擬合是因?yàn)樗鼤?huì)不斷分裂節(jié)點(diǎn),直到每個(gè)葉子節(jié)點(diǎn)中的樣本都非常純凈,從而學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的噪聲和隨機(jī)波動(dòng)。5.C解析:F1分?jǐn)?shù)是精確率(Precision)和召回率(Recall)的調(diào)和平均數(shù),能夠較好地平衡兩者,適用于評(píng)估不平衡數(shù)據(jù)集上的分類(lèi)模型性能。6.B解析:KS值衡量的是模型預(yù)測(cè)概率分布與實(shí)際分布之間差異的最大值,值越大表示模型區(qū)分正負(fù)樣本的能力越強(qiáng)。7.B解析:網(wǎng)格搜索是典型的包裹式方法,它需要針對(duì)每一個(gè)候選的參數(shù)組合都重新訓(xùn)練模型,因此計(jì)算成本高。A是正則化方法,C是降維方法,D是集成方法。8.C解析:特征重要性排序可以幫助數(shù)據(jù)科學(xué)家識(shí)別哪些特征對(duì)模型預(yù)測(cè)結(jié)果的影響最大,從而進(jìn)行特征選擇、特征工程或理解模型的行為。9.B解析:Bagging(BootstrapAggregating)通過(guò)構(gòu)建多個(gè)獨(dú)立的基學(xué)習(xí)器并集成其結(jié)果,可以有效降低模型的方差,從而減少過(guò)擬合,提高模型的泛化能力。10.D解析:誤報(bào)率(FalsePositiveRate)衡量的是模型將實(shí)際負(fù)類(lèi)樣本錯(cuò)誤預(yù)測(cè)為正類(lèi)的比例。對(duì)于銀行風(fēng)控,誤報(bào)(將低風(fēng)險(xiǎn)客戶(hù)誤判為高風(fēng)險(xiǎn))可能導(dǎo)致業(yè)務(wù)損失或客戶(hù)不滿(mǎn),因此更希望這個(gè)指標(biāo)較低。二、填空題1.(x-μ)/σ解析:這是標(biāo)準(zhǔn)化的標(biāo)準(zhǔn)公式,將原始特征x的值轉(zhuǎn)換為均值為0、標(biāo)準(zhǔn)差為1的新特征,有助于消除量綱影響,使不同特征具有可比性,并常是許多機(jī)器學(xué)習(xí)算法(如SVM、神經(jīng)網(wǎng)絡(luò))的輸入要求。2.信息增益(InformationGain)或基尼不純度減少量(GiniImpurityReduction)解析:在ID3等決策樹(shù)算法中,選擇分裂節(jié)點(diǎn)時(shí),目標(biāo)是找到能最大程度減少節(jié)點(diǎn)impurity(不純度,如信息增益或基尼不純度)的特征和分裂點(diǎn)。3.下采樣(Undersampling)解析:過(guò)采樣會(huì)增加少數(shù)類(lèi)樣本的重復(fù),可能引入噪聲。下采樣是減少多數(shù)類(lèi)樣本數(shù)量,使得樣本分布更平衡,是另一種處理數(shù)據(jù)不平衡的常用方法。4.網(wǎng)格搜索(GridSearch),隨機(jī)搜索(RandomSearch)解析:這兩種是超參數(shù)調(diào)優(yōu)中最常用的方法。網(wǎng)格搜索系統(tǒng)地遍歷預(yù)設(shè)的參數(shù)網(wǎng)格,隨機(jī)搜索則在參數(shù)空間中隨機(jī)采樣參數(shù)組合。5.Sigmoid函數(shù)解析:邏輯回歸模型的線(xiàn)性組合輸出需要通過(guò)Sigmoid函數(shù)(1/(1+e^(-z)))映射到(0,1)區(qū)間內(nèi),表示屬于正類(lèi)的概率。6.決定系數(shù)(R-squared)或R2解析:R-squared衡量的是模型對(duì)因變量變異性的解釋程度,值越大表示模型擬合越好。常與MSE、MAE等一同使用。7.特征選擇(FeatureSelection)解析:特征交叉旨在創(chuàng)建新的、可能更有信息量的特征,以幫助模型捕捉原始特征間復(fù)雜的非線(xiàn)性關(guān)系,屬于特征工程的一部分。8.訓(xùn)練(Training)解析:過(guò)擬合的核心問(wèn)題是模型將訓(xùn)練數(shù)據(jù)中的噪聲和隨機(jī)特征學(xué)習(xí)進(jìn)去了,這些特征在新數(shù)據(jù)(未見(jiàn)數(shù)據(jù))上并不存在或不重要,導(dǎo)致泛化能力差。9.累積離差(CumulativeDeviation)或最大區(qū)分度解析:KS曲線(xiàn)圖展示的是模型預(yù)測(cè)概率分布與實(shí)際分布之間的差異。曲線(xiàn)下的最大面積(即KS值)代表了模型能夠達(dá)到的最大區(qū)分能力。10.隨機(jī)森林(RandomForest)解析:隨機(jī)森林通過(guò)在每棵樹(shù)的節(jié)點(diǎn)分裂時(shí)隨機(jī)選擇一部分特征進(jìn)行考慮,以及使用Bootstrap樣本進(jìn)行訓(xùn)練,實(shí)現(xiàn)了Bagging思想,有效降低方差。三、計(jì)算題1.(10分)計(jì)算過(guò)程:LogLoss=-1/5*[(0*log(0.15)+1*log(0.65))+(0*log(0.05)+1*log(0.80))+(0*log(0.05)+1*log(0.30))+(1*log(0.80)+0*log(0.20))+(0*log(0.30)+1*log(0.70))]=-1/5*[(0+-0.43078)+(0+-0.22386)+(0+-0.22386)+(0.80*0+0*-0.22386)+(0+-0.35667)]=-1/5*[-0.43078-0.22386-0.22386+0-0.35667]=-1/5*[-1.23421]=0.24684答案:該模型的LogLoss值為0.24684。2.(15分)a)計(jì)算Gini(G(B=1))和Gini(G(B=0)):Gini(G(B=1))=1-[(30/50)^2+(20/50)^2]=1-[0.36+0.16]=1-0.52=0.48Gini(G(B=0))=1-[(10/100)^2+(90/100)^2]=1-[0.01+0.81]=1-0.82=0.18b)計(jì)算信息增益IG(A,C|B=1):|C=2|=30,|C=3|=20,|B=1|=50Gini(C=2)=1-[(15/30)^2+(15/30)^2]=1-[0.25+0.25]=1-0.5=0.5Gini(C=3)=1-[(5/20)^2+(15/20)^2]=1-[0.0625+0.5625]=1-0.625=0.375IG(A,C|B=1)=Gini(root)-[(30/50)*Gini(C=2)+(20/50)*Gini(C=3)]=0.64-[(30/50)*0.5+(20/50)*0.375]=0.64-[0.6+0.15]=0.64-0.75=-0.11答案:a)Gini(G(B=1))=0.48,Gini(G(B=0))=0.18b)IG(A,C|B=1)=-0.113.(15分)a)最終預(yù)測(cè)結(jié)果:正類(lèi)投票數(shù)=5(1,1,1,1,1),負(fù)類(lèi)投票數(shù)=5(0,0,0,0,0)。根據(jù)簡(jiǎn)單多數(shù)投票規(guī)則,正負(fù)類(lèi)票數(shù)相同,通??砂醇s定選擇一個(gè)(如預(yù)測(cè)正類(lèi)或負(fù)類(lèi),或返回?zé)o法確定/中性結(jié)果)。此處按多數(shù)投票,若無(wú)約定,可任選其一,此處選擇預(yù)測(cè)負(fù)類(lèi)。答案:模型最終預(yù)測(cè)結(jié)果為負(fù)類(lèi)(0)。(注:若題目未明確多數(shù)規(guī)則,此題有歧義)或者,若采用基類(lèi)別預(yù)測(cè)(如第一棵樹(shù)的結(jié)果作為基類(lèi)),則為正類(lèi)(1)。b)可能的錯(cuò)誤原因:1.該客戶(hù)確實(shí)屬于正類(lèi),但可能存在一些不常見(jiàn)的、模型未充分學(xué)習(xí)到的特征組合,導(dǎo)致被誤判。模型在處理邊緣案例時(shí)可能出現(xiàn)錯(cuò)誤。2.模型可能存在過(guò)擬合,過(guò)度學(xué)習(xí)了訓(xùn)練數(shù)據(jù)中的某些噪聲或特定模式,這些模式在該客戶(hù)樣本上不適用,從而做出了錯(cuò)誤的預(yù)測(cè)。3.隨機(jī)森林中的投票并非完全獨(dú)立,如果構(gòu)成森林的某些樹(shù)之間存在較強(qiáng)的相關(guān)性(即它們對(duì)某些特征的敏感度高度相似),那么當(dāng)這些樹(shù)都傾向于錯(cuò)誤預(yù)測(cè)時(shí),投票結(jié)果可能偏向錯(cuò)誤。4.銀行自身的風(fēng)險(xiǎn)偏好或業(yè)務(wù)策略可能要求更高的安全性標(biāo)準(zhǔn)(例如,寧可錯(cuò)殺不愿放過(guò)),這可能導(dǎo)致模型在實(shí)際應(yīng)用中使用了比最優(yōu)預(yù)測(cè)更保守的閾值,從而將一些本應(yīng)預(yù)測(cè)為正類(lèi)的客戶(hù)預(yù)測(cè)為負(fù)類(lèi)。四、分析與應(yīng)用題1.(10分)特征工程的主要意義在于:1.提升模型性能:通過(guò)創(chuàng)建更有信息量、更有效的特征,可以顯著提高模型的預(yù)測(cè)準(zhǔn)確性和泛化能力。金融數(shù)據(jù)中原始特征可能不夠直接有用,特征工程能提煉出關(guān)鍵信息。2.降低模型復(fù)雜度:通過(guò)特征選擇去除冗余、不相關(guān)或噪聲特征,可以簡(jiǎn)化模型,減少過(guò)擬合風(fēng)險(xiǎn),并提高模型的可解釋性。3.增強(qiáng)模型可解釋性:人工構(gòu)造或選擇的特征通常比原始高維特征更容易理解和解釋?zhuān)兄跇I(yè)務(wù)人員理解模型決策依據(jù)。4.適應(yīng)模型需求:許多機(jī)器學(xué)習(xí)算法對(duì)輸入特征有特定要求(如線(xiàn)性關(guān)系、無(wú)缺失值),特征工程是滿(mǎn)足這些要求的關(guān)鍵步驟。特征工程方法及其在風(fēng)控中的應(yīng)用示例:1.特征構(gòu)造/衍生:*方法:創(chuàng)建新的特征,如根據(jù)客戶(hù)的年齡計(jì)算其年齡段;根據(jù)收入和支出計(jì)算負(fù)債收入比(Debt-to-IncomeRatio);根據(jù)歷史交易記錄計(jì)算平均交易金額、交易頻率等。*應(yīng)用:負(fù)債收入比是評(píng)估信用風(fēng)險(xiǎn)的重要指標(biāo);交易模式特征有助于識(shí)別欺詐行為。2.特征轉(zhuǎn)換:*方法:對(duì)特征進(jìn)行數(shù)學(xué)變換,如對(duì)偏態(tài)分布的特征進(jìn)行對(duì)數(shù)、平方根或Box-Cox變換;標(biāo)準(zhǔn)化或歸一化特征。*應(yīng)用:對(duì)收入、資產(chǎn)等可能呈偏態(tài)分布的特征進(jìn)行轉(zhuǎn)換,使其更符合模型假設(shè);對(duì)不同量綱的特征(如收入、貸款金額)進(jìn)行標(biāo)準(zhǔn)化,使其具有可比性。3.特征選擇:*方法:根據(jù)特征的重要性、相關(guān)性或模型需求選擇一部分特征。如使用卡方檢驗(yàn)、互信息、L1正則化(Lasso)進(jìn)行選擇。*應(yīng)用:去除與風(fēng)險(xiǎn)預(yù)測(cè)無(wú)關(guān)或冗余的特征(如客戶(hù)姓名、身份證號(hào)),減少模型訓(xùn)練時(shí)間和復(fù)雜度;識(shí)別對(duì)預(yù)測(cè)最重要的特征(如歷史違約次數(shù)、收入水平)。2.(10分)超參數(shù)調(diào)優(yōu)的必要性:超參數(shù)是模型本身所使用的參數(shù),它們?cè)谀P陀?xùn)練開(kāi)始之前就需要被設(shè)定(如決策樹(shù)的深度

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶(hù)所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶(hù)上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶(hù)上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶(hù)因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論