Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐

上傳人：q*** IP屬地：山東上傳時(shí)間：2025-11-30 格式：PPT 頁數(shù)：30 大?。?.95MB 積分：15 舉報(bào) 版權(quán)申訴

Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐_第2頁

Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐_第3頁

Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐_第4頁

Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐_第5頁

已閱讀5頁，還剩25頁未讀，繼續(xù)免費(fèi)閱讀

版權(quán)說明：本文檔由用戶提供并上傳，收益歸屬內(nèi)容提供方，若內(nèi)容存在侵權(quán)，請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

Python數(shù)據(jù)分析與實(shí)踐12025/11/27第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐本章學(xué)習(xí)目標(biāo)：了解數(shù)據(jù)分析項(xiàng)目的基本步驟學(xué)會(huì)觀察數(shù)據(jù)和預(yù)處理數(shù)據(jù)探索和可視化選擇和訓(xùn)練模型模型調(diào)參和評估32025/11/2713.1實(shí)踐項(xiàng)目簡介

金融借貸是指金融機(jī)構(gòu)或個(gè)人向借款人提供資金或物品的行為，借款人需在未來償還借款本金和利息。金融借貸是現(xiàn)代經(jīng)濟(jì)的重要組成部分，在個(gè)人消費(fèi)、企業(yè)生產(chǎn)經(jīng)營、政府投資等方面發(fā)揮著重要作用。

本章基于一家叫做LendingClub的網(wǎng)絡(luò)信貸公司的用戶借貸金融數(shù)據(jù)，分析借款人信用風(fēng)險(xiǎn)的相關(guān)影響因素。LendingClub是全球最大的P2P借貸平臺，總部位于美國加利福尼亞州舊金山。本案例提供的借款人借貸數(shù)據(jù)共計(jì)887379條記錄，包含借款人個(gè)人信息、貸款目的、貸款總額、貸款利率、月供、貸款狀態(tài)等共74個(gè)特征。后續(xù)我們將對這些特征進(jìn)行篩選和預(yù)處理。

42025/11/2713.2打開與查看數(shù)據(jù)

本章的數(shù)據(jù)文件名稱為loan.csv，文件格式為CSV，編碼格式為UTF-8。

首先需要為本案例創(chuàng)建一個(gè)工作區(qū)目錄，例如loan_lc，用于存放python代碼和數(shù)據(jù)，另外請?jiān)谀繕?biāo)python環(huán)境中下載如下python模塊：NumPy、Pandas、Matplotlib以及Scikit-Learn。

本章以JupyterNotebook作為Python開發(fā)環(huán)境，讀者也可選擇其他開發(fā)環(huán)境，不影響代碼運(yùn)行。

將下載下來的原始數(shù)據(jù)loan.csv復(fù)制到項(xiàng)目工作區(qū)目錄loan_lc文件夾下，使用pandas加載數(shù)據(jù)：

importpandasaspd

LOAN_DATA_PATH="loan.csv"loan_data=pd.read_csv(LOAN_DATA_PATH)52025/11/27使用DataFrame的head()方法查看數(shù)據(jù)示例：13.2打開與查看數(shù)據(jù)

loan_data.head(

)

由于head方法只能顯示數(shù)據(jù)集的前10、后10列屬性(如上圖所示)，而原始數(shù)據(jù)集有74個(gè)屬性，因此該方法并不能很好地展示數(shù)據(jù)特征和詳情62025/11/27我們可使用info()方法查看數(shù)據(jù)字段詳情，該方法將列出數(shù)據(jù)集中所有字段的名稱、非空數(shù)據(jù)量和數(shù)據(jù)類型。13.2打開與查看數(shù)據(jù)loan_(

)

由于該數(shù)據(jù)集共有887379條數(shù)據(jù)，因此如果某個(gè)字段的“Non-NullCount”值為887379，則表示該字段沒有空值，否則說明該字段的某些記錄存在空值，用887379減去“Non-NullCount”值即為該字段空值的數(shù)量。在所有74個(gè)字段中，有34個(gè)字段沒有空值，占比不到一半，而其余40個(gè)字段或多或少存在空值，之后需要進(jìn)一步處理。

72025/11/2713.3數(shù)據(jù)探索與可視化

首先對數(shù)據(jù)各個(gè)屬性特征進(jìn)行描述性統(tǒng)計(jì)分析，通過使用各種統(tǒng)計(jì)指標(biāo)和圖形來呈現(xiàn)數(shù)據(jù)的特征和模式，從而對數(shù)據(jù)進(jìn)行初步理解和分析

。通過value_counts()方法查看感興趣的屬性，尤其是分類變量(Nominal)屬性，從而了解該屬性有哪些可選值以及不同屬性取值在記錄數(shù)量上的分布。通過如下代碼查看數(shù)據(jù)集中l(wèi)oan_status(貸款狀態(tài))有哪些取值：

loan_data['loan_status'].value_counts()82025/11/2713.3數(shù)據(jù)探索與可視化

對于數(shù)值型屬性，我們使用describe()方法獲取其基礎(chǔ)統(tǒng)計(jì)描述信息，如均值、標(biāo)準(zhǔn)差、中位數(shù)、最大最小值等。以貸款利率為例：

loan_data['int_rate'].describe()可以看到該公司提供的借貸產(chǎn)品其利率在5.32%~29%之間，均值和中位數(shù)相近大約為13%，可知數(shù)據(jù)中影響均值的極值并不多，由Q1、Q3可知大多數(shù)人所申請到的貸款利率應(yīng)在10%～16%之間浮動(dòng)。

92025/11/27另一個(gè)值得關(guān)注的信息是貸款額度，即某申請人在該次借款申請中所獲得的貸款總金額：可見該公司所提供的最大貸款額度不超過3.5萬美元，大部分申請人獲批了1萬多元的信用貸款。由于均值比中位數(shù)高了1700，可見更多的人申請到了相對大額貸款，拉高了平均值。讀者可使用describe()方法自行查看其他數(shù)值型屬性的描述統(tǒng)計(jì)特征。

13.3數(shù)據(jù)探索與可視化

loan_data['funded_amnt'].describe()102025/11/27分別畫出申請貸款額度（loan_amnt）和批準(zhǔn)貸款額度（funded_amnt）的直方圖，直方圖能夠較好地展示數(shù)據(jù)的分布，查看分布特征：13.3數(shù)據(jù)探索與可視化

importmatplotlib.pyplotaspltloan_data[["loan_amnt","funded_amnt"]].hist(bins=50,figsize=(15,5))plt.show()兩張直方圖在分布上幾乎一致，意味著借款人只要被貸款公司審核通過，基本都能按申請額度足額獲得資助金額。另外，10000、12000、15000、20000、35000左右的金額是最常被借款人申請的額度。

112025/11/27接下來再按年度特征來考察公司發(fā)放的貸款總額。原數(shù)據(jù)中issue_d字段表示貸款發(fā)放的時(shí)間，精確到月份，格式為“mmm-yyyy”例如2015年10月開始發(fā)放的貸款，記為“Oct-2015”，我們只需要其中的年份部分，因此可以先將該日期字符轉(zhuǎn)換為日期類型，再提取其中的年份信息：

13.3數(shù)據(jù)探索與可視化

loan_data['year']=pd.to_datetime(loan_data['issue_d']).dt.year這樣我們在原始數(shù)據(jù)中新增了一個(gè)字段“year”，表示該貸款的年份。下列代碼使用柱狀圖查看2007～2015年各個(gè)年份的貸款總記錄數(shù)：

loan_counts_by_year=loan_data.groupby("year").size()loan_counts_by_year=loan_counts_by_year.sort_index()plt.bar(loan_counts_by_year.index,loan_counts_by_year.values)plt.xlabel("年份")plt.ylabel("貸款總記錄數(shù)")plt.xticks(year_counts.index,year_counts.index)plt.show()122025/11/2713.3數(shù)據(jù)探索與可視化

代碼中g(shù)roupby()方法可以對方法參數(shù)的指定字段進(jìn)行統(tǒng)計(jì)，得到一個(gè)DataFrameGroupBy對象，再調(diào)用該對象的size()方法，可以統(tǒng)計(jì)各個(gè)年份的記錄數(shù)量，返回一個(gè)Series對象，該對象的index為年份，value為某年份的記錄數(shù)量。最后使用matplotlib庫pyplot對象的bar()方法創(chuàng)建柱狀圖。如圖15.2所示，從2007年開始，貸款總數(shù)每一年都以翻倍的速度遞增，從2007年的不到1000筆，到2015年已經(jīng)增至超過40萬筆。

圖15.2各年貸款記錄總數(shù)對比132025/11/27通過圖表查看貸款金額：

13.3數(shù)據(jù)探索與可視化

average_loan_amnt=loan_data.groupby("year")["loan_amnt"].mean()average_funded_amnt=loan_data.groupby("year")["funded_amnt"].mean()average_loan_amnt=average_loan_amnt.sort_index()average_funded_amnt=average_funded_amnt.sort_index()plt.bar(average_loan_amnt.index,average_loan_amnt.values,width=0.4,label="平均申請貸款金額")plt.bar(average_funded_amnt.index+0.4,average_funded_amnt.values,width=0.4,label="平均發(fā)放貸款金額")plt.xlabel("年份")plt.ylabel("貸款金額")plt.xticks(average_loan_amnt.index+0.2,

average_loan_amnt.index)plt.legend()plt.show()圖15.3各年份平均申請貸款金額與平均發(fā)放貸款金額對比142025/11/2713.4數(shù)據(jù)準(zhǔn)備

原數(shù)據(jù)中有不少日期類型的屬性，需要首先予以處理。這里將其轉(zhuǎn)化為年份或月份表示的整型（其中issue_d在可視化一節(jié)中已經(jīng)處理過）。對于日期屬性中存在的空缺值，使用最大頻率值予以填充：

loan_data['last_pymnt_d']=pd.to_datetime(loan_data['last_pymnt_d'].fillna('2016-01-01')).apply(lambdax:int(x.strftime('%m')))loan_data['last_credit_pull_d']=pd.to_datetime(loan_data['last_credit_pull_d'].fillna("2016-01-01")).apply(lambdax:int(x.strftime('%m')))loan_data['earliest_cr_line']=pd.to_datetime(loan_data['earliest_cr_line'].fillna('2001-08-01')).apply(lambdax:int(x.strftime('%m')))152025/11/27對于分類變量屬性，如果只有兩個(gè)可選值，那么可以采用標(biāo)簽編碼，如果有兩個(gè)以上的可選值，則應(yīng)采用獨(dú)熱編碼（one-hot）。13.4數(shù)據(jù)準(zhǔn)備fromsklearnimportpreprocessingforcolinloan_data:ifloan_data[col].dtype=='object'andlen(list(loan_data[col].unique()))<=2:le=preprocessing.LabelEncoder()loan_data[col]=le.fit_transform(loan_data[col])經(jīng)過獨(dú)熱編碼后，整個(gè)數(shù)據(jù)集的特征屬性數(shù)量會(huì)大大增加。如有必要，可使用主成分分析法（PCA）做降維操作。工作年限（emp_length）特征對判斷后續(xù)分析有較大幫助，數(shù)據(jù)中其缺失值占比約5%，這里對該特征進(jìn)行一些處理。

首先考慮到不填寫工作年限的人大多未工作，因此可以認(rèn)為該字段的值為0，使用0值對缺失值進(jìn)行填補(bǔ)：

loan_data['emp_length'].fillna(value=0,inplace=True)162025/11/27

其次，當(dāng)前emp_length字段的取值為字符串：

13.4數(shù)據(jù)準(zhǔn)備emp_length

10+years291569

2years78870

<1year70605

3years70026

1year57095

5years55704

4years52529

7years44594

8years43955

6years42950

9years34657

Name:count,dtype:int64使用正則表達(dá)式將文字“years”去除，只保留數(shù)字，同時(shí)將小于1年的年限與1年進(jìn)行合并，即工作1年及以內(nèi)的設(shè)為“1”，未工作過的設(shè)為“0”：

172025/11/27loan_data['emp_length'].replace(to_replace='[^0-9]+',value='',inplace=True,regex=True)loan_data['emp_length'].value_counts().sort_values(ascending=False).plot(kind='bar',figsize=(8,5))13.4數(shù)據(jù)準(zhǔn)備圖15.4不同工作年限的記錄總數(shù)圖15.4將各個(gè)工作年限的記錄數(shù)畫成柱狀圖展示，可以看到，工作10年以上的記錄數(shù)量遠(yuǎn)高于其他年限，這是因?yàn)樵搶傩詾椤?0年以上”，包括11年、12年等多個(gè)年份，因此數(shù)據(jù)量理應(yīng)遠(yuǎn)高于其他單一年份。

182025/11/2713.4數(shù)據(jù)準(zhǔn)備最終剩下816722條記錄，這些記錄中已經(jīng)不存在缺失值。將借款狀態(tài)分為兩大類：“正常借貸”與“不良借貸”，如下是要分類的目標(biāo)變量：

bad_loan=['ChargedOff','Late(31-120days)','InGracePeriod','Late(16-30days)','Default','Doesnotmeetthecreditpolicy.Status:ChargedOff']target_list=[1ifiinbad_loanelse0foriinloan_data['loan_status']]

loan_data['TARGET']=target_list其他具有缺失值的記錄考慮直接刪除：

loan_data.dropna(inplace=True)其中“不良借貸”包括如15.1.1節(jié)所述的6種風(fēng)險(xiǎn)狀態(tài)，將其設(shè)為1，其余正常狀態(tài)為“正常借貸”，將其設(shè)為0，從而構(gòu)建一個(gè)新的字段，命名為“TARGET”。創(chuàng)建TARGET屬性后，loan_status屬性可以直接予以刪除。

192025/11/2713.5預(yù)測建模

分別使用人工神經(jīng)網(wǎng)絡(luò)(ANN)、XGBoost和隨機(jī)森林三種機(jī)器學(xué)習(xí)算法對借貸狀態(tài)進(jìn)行分類，嘗試預(yù)測其信用風(fēng)險(xiǎn)，具體來講預(yù)測在確定的某種特征下，其TARGET屬性為0(正常借貸)還是為1(不良借貸)。

為更好地評估算法，將全部數(shù)據(jù)拆分為訓(xùn)練集和測試集，訓(xùn)練集用于模型訓(xùn)練，測試集用戶模型檢驗(yàn)。訓(xùn)練集與測試集的比例為4:1。

fromsklearn.model_selectionimporttrain_test_splitX_train,X_test,y_train,y_test=

train_test_split

(loan_data.drop

(‘TARGET’,axis=1),

loan_data['TARGET'],test_size=0.2)對特征進(jìn)行歸一化處理，采用“最小最大縮放”法將各個(gè)特征值縮放至0～1的區(qū)間范圍：

fromsklearn.preprocessingimportMinMaxScalerscaler=MinMaxScaler()scaler.fit(X_train)X=scaler.transform(X_train)

y=y_train.values

13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型

人工神經(jīng)網(wǎng)絡(luò)（ArtificialNeuralNetwork，簡稱ANN）是受生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)啟發(fā)而設(shè)計(jì)的一種計(jì)算模型，用于模擬人腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能，以解決復(fù)雜的模式識別和數(shù)據(jù)處理問題。ANN由大量的人工神經(jīng)元（或稱為節(jié)點(diǎn)）組成，這些神經(jīng)元按照不同的層次和連接方式構(gòu)成網(wǎng)絡(luò)。每個(gè)神經(jīng)元接收來自其他神經(jīng)元的輸入，通過一系列加權(quán)和非線性變換后產(chǎn)生輸出，然后傳遞給下一層神經(jīng)元或者作為整個(gè)網(wǎng)絡(luò)的輸出。人工神經(jīng)網(wǎng)絡(luò)通常由三種層次的神經(jīng)元組成：輸入層（InputLayer）：接受外部輸入數(shù)據(jù)，并將數(shù)據(jù)傳遞給網(wǎng)絡(luò)的隱藏層。隱藏層（HiddenLayer）：位于輸入層和輸出層之間，負(fù)責(zé)對輸入數(shù)據(jù)進(jìn)行加權(quán)和變換，提取出數(shù)據(jù)中的特征。輸出層（OutputLayer）：將隱藏層傳遞過來的特征經(jīng)過進(jìn)一步的加權(quán)和變換后產(chǎn)生網(wǎng)絡(luò)的輸出結(jié)果。212025/11/27這里采用scikit-learn庫提供的多層感知器(MultilayerPerceptron，MLP)進(jìn)行模型訓(xùn)練。多層感知器是一種較為簡單和基礎(chǔ)的前饋型神經(jīng)網(wǎng)絡(luò)模型，由一個(gè)或多個(gè)隱藏層（中間層）組成，每個(gè)隱藏層包含多個(gè)神經(jīng)元（節(jié)點(diǎn)），以及一個(gè)輸入層和一個(gè)輸出層。目前常見的卷積神經(jīng)網(wǎng)絡(luò)（CNN）和循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）都是MLP的改進(jìn)和衍生模型。

13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型

fromsklearn.neural_networkimportMLPClassifierfromsklearn.model_selectionimportcross_val_scoreimportnumpyasnpfromsklearn.metricsimportclassification_reportcls=MLPClassifier(random_state=1,max_iter=300).fit(X,y)print(classification_report(y,cls.predict(X)))scores=cross_val_score(cls,X,y,scoring="accuracy",cv=10)print("平均準(zhǔn)確率:\t{0:.4f}".format(np.mean(scores)))

print("準(zhǔn)確率標(biāo)準(zhǔn)差:\t\t{0:.4f}".format(np.std(scores)))13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型

MLPClassifier具有多個(gè)可調(diào)參數(shù)，可以通過交叉驗(yàn)證等方法進(jìn)行調(diào)參。下面是一些常用的調(diào)參方法和參數(shù)：隱藏層大小（hidden_layer_sizes）：指定隱藏層的大小，可以是一個(gè)整數(shù)表示隱藏層中的節(jié)點(diǎn)數(shù)量，也可以是一個(gè)元組表示每個(gè)隱藏層中節(jié)點(diǎn)的數(shù)量。通常需要根據(jù)問題的復(fù)雜度和數(shù)據(jù)集的特征進(jìn)行調(diào)整。激活函數(shù)（activation）：指定隱藏層和輸出層的激活函數(shù)，常用的包括"relu"、"logistic"、"tanh"等。默認(rèn)是"relu"。優(yōu)化器（solver）：指定用于優(yōu)化權(quán)重的算法，常用的包括"adam"、"lbfgs"、"sgd"等。默認(rèn)是"adam"。學(xué)習(xí)率（learning_rate）：控制權(quán)重更新的步長，可以是常數(shù)、自適應(yīng)學(xué)習(xí)率或衰減學(xué)習(xí)率。具體取決于所選的優(yōu)化器。正則化參數(shù)（alpha）：控制模型的正則化程度，防止過擬合。批量大?。╞atch_size）：指定用于權(quán)重更新的樣本批量大小。最大迭代次數(shù)（max_iter）：指定訓(xùn)練過程中的最大迭代次數(shù)。早停（early_stopping）：控制是否使用早停技術(shù)來提前停止訓(xùn)練，防止過擬合。2025/11/27#定義參數(shù)網(wǎng)格param_grid={'hidden_layer_sizes':[(10,),(50,),(100,)],'activation':['relu','tanh'],‘solver’:[‘a(chǎn)dam’,‘sgd‘],}#使用GridSearchCV進(jìn)行參數(shù)搜索grid_search=GridSearchCV(cls,param_grid,cv=3)grid_search.fit(X,y)#輸出最佳參數(shù)和最佳得分print("BestParameters:",grid_search.best_params_)

print("BestScore:",grid_search.best_score_)

13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型

下面代碼以GridSearchCV對該模型進(jìn)行一個(gè)簡單的調(diào)參：上述代碼對三個(gè)參數(shù)進(jìn)行了網(wǎng)格調(diào)試：hidden_layer_sizes、activation、solver。網(wǎng)格調(diào)試是Scikit-learn庫中的一個(gè)模型評估工具，用于系統(tǒng)地搜索最佳模型參數(shù)的組合。GridSearchCV通過在參數(shù)網(wǎng)格中組合不同的參數(shù)值，然后使用交叉驗(yàn)證來評估每種參數(shù)組合的性能，最終找到最佳的參數(shù)組合。2025/11/27242025/11/27XGBoost（eXtremeGradientBoosting）是一種基于梯度提升樹（GradientBoostingTree）的機(jī)器學(xué)習(xí)算法，其核心在于集成學(xué)習(xí)中的提升方法。由于scikit-learn庫中沒有包含XGBoost模型，讀者需要在線下載XGBoost庫，如果使用conda包管理里，可以通過如下命令進(jìn)行下載安裝：13.5.2基于XGBoost的借貸分類模型

condainstallpy-xgboost安裝完畢后即可在代碼中使用import方式導(dǎo)入xgboost包fromsklearn.model_selectionimportcross_val_scoreimportxgboostasxgbimportnumpyasnpfromsklearn.metricsimportclassification_reportcls=xgb.XGBClassifier().fit(X,y)

print(classification_report(y,cls.predict(X)))

scores=cross_val_score(cls,X,y,scoring="accuracy",cv=10)print("平均準(zhǔn)確率:\t{0:.4f}".format(np.mean(scores)))

print("準(zhǔn)確率標(biāo)準(zhǔn)差:\t\t{0:.4f}".format(np.std(scores)))

13.5.2基于XGBoost的借貸分類模型

XGBoost同樣具有若干可調(diào)參數(shù)用于提高模型的性能和泛化能力。以下是一些常用的XGBoost調(diào)參方法和參數(shù)：樹的數(shù)量（n_estimators）：指定要構(gòu)建的決策樹的數(shù)量。增加樹的數(shù)量通常可以提高模型的性能，但也會(huì)增加訓(xùn)練時(shí)間和內(nèi)存消耗。樹的最大深度（max_depth）：指定決策樹的最大深度。增加深度可以增加模型的復(fù)雜度，但也可能導(dǎo)致過擬合。學(xué)習(xí)率（learning_rate）：控制每個(gè)樹的貢獻(xiàn)，降低學(xué)習(xí)率可以使模型更加穩(wěn)定，但需要增加樹的數(shù)量來保持模型的性能。列采樣比例（colsample_bytree）：指定每棵樹用于訓(xùn)練的特征的比例。這可以幫助減少過擬合，提高模型的泛化能力。行采樣比例（subsample）：指定每棵樹用于訓(xùn)練的樣本的比例。與列采樣類似，行采樣也可以幫助減少過擬合。正則化參數(shù)（reg_alpha、reg_lambda）：控制模型的正則化程度，幫助防止過擬合。早停策略（early_stopping_rounds）：指定在驗(yàn)證集上連續(xù)多少輪迭代中沒有改善時(shí)停止訓(xùn)練，以防止過擬合。特征重要性評估（importance_type）：指定計(jì)算特征重要性的方法，包括"gain"、"weight"、"cover"等。2025/11/2713.5.2基于XGBoost的借貸分類模型

#定義參數(shù)網(wǎng)格param_grid={'n_estimators':[100,200,300],'max_depth':[3,5,7],'learning_rate':[0.1,0.01,0.001],}

#使用GridSearchCV進(jìn)行參數(shù)搜索grid_search=GridSearchCV(cls,param_grid,cv=3)grid_search.fit(X,y)

#輸出最佳參數(shù)和最佳得分print("BestParameters:",grid_search.best_params_)print("BestScore:",grid_search.best_score_)讀者可以嘗試使用前一節(jié)介紹的網(wǎng)格調(diào)試GridSearchCV去尋找最佳參數(shù)，一個(gè)簡單的調(diào)參示例如下：

2025/11/2713.5.3基于隨機(jī)森林的借貸分類模型

隨機(jī)森林模型常用的超參數(shù)如下：樹的數(shù)量（n_estimators）：指定隨機(jī)森林中樹的數(shù)量。通常增加樹的數(shù)量可以提高模型的性能，但也會(huì)增加訓(xùn)練時(shí)間。樹的最大深度（max_depth）：指定樹的最大深度，控制樹的復(fù)雜度。較大的深度可能會(huì)導(dǎo)致過擬合，較小的深度可能會(huì)導(dǎo)致欠擬合。節(jié)點(diǎn)最少樣本數(shù)（min_samples_split）：指定拆分內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù)?？刂屏藰涞纳L，可以防止過擬合。葉子節(jié)點(diǎn)最少樣本數(shù)（min_samples_leaf）：指定葉子節(jié)點(diǎn)所需的最小樣本數(shù)?？刂屏巳~子節(jié)點(diǎn)的數(shù)量，可以防止過擬合。特征選擇策略（max_features）：指定用于拆分節(jié)點(diǎn)的特征數(shù)或比例。可以是整數(shù)、浮點(diǎn)數(shù)或字符串。常用的選項(xiàng)包括"auto"（sqrt(n_features)）、"sqrt"（sqrt(n_features)）、"log2"（log

人人文庫> 全部分類> 教育資料 > 課件下載

溫馨提示

1. 本站所有資源如無特殊說明，都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
2. 本站的文檔不包含任何第三方提供的附件圖紙等，如果需要附件，請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
3. 本站RAR壓縮包中若帶圖紙，網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽，若沒有圖紙預(yù)覽就沒有圖紙。
4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間，僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理，對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯，并不能對任何下載內(nèi)容負(fù)責(zé)。
6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容，請與我們聯(lián)系，我們立即糾正。
7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐

文檔簡介

溫馨提示

最新文檔

評論

Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章 金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐

文檔簡介

溫馨提示

最新文檔

評論

相關(guān)文檔

Python數(shù)據(jù)分析與實(shí)踐(第3版) 課件 -第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐