版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
Python數(shù)據(jù)分析與實(shí)踐12025/11/27第13章金融風(fēng)險(xiǎn)數(shù)據(jù)分析項(xiàng)目實(shí)踐本章學(xué)習(xí)目標(biāo):了解數(shù)據(jù)分析項(xiàng)目的基本步驟學(xué)會(huì)觀察數(shù)據(jù)和預(yù)處理數(shù)據(jù)探索和可視化選擇和訓(xùn)練模型模型調(diào)參和評估32025/11/2713.1實(shí)踐項(xiàng)目簡介
金融借貸是指金融機(jī)構(gòu)或個(gè)人向借款人提供資金或物品的行為,借款人需在未來償還借款本金和利息。金融借貸是現(xiàn)代經(jīng)濟(jì)的重要組成部分,在個(gè)人消費(fèi)、企業(yè)生產(chǎn)經(jīng)營、政府投資等方面發(fā)揮著重要作用。
本章基于一家叫做LendingClub的網(wǎng)絡(luò)信貸公司的用戶借貸金融數(shù)據(jù),分析借款人信用風(fēng)險(xiǎn)的相關(guān)影響因素。LendingClub是全球最大的P2P借貸平臺,總部位于美國加利福尼亞州舊金山。本案例提供的借款人借貸數(shù)據(jù)共計(jì)887379條記錄,包含借款人個(gè)人信息、貸款目的、貸款總額、貸款利率、月供、貸款狀態(tài)等共74個(gè)特征。后續(xù)我們將對這些特征進(jìn)行篩選和預(yù)處理。
42025/11/2713.2打開與查看數(shù)據(jù)
本章的數(shù)據(jù)文件名稱為loan.csv,文件格式為CSV,編碼格式為UTF-8。
首先需要為本案例創(chuàng)建一個(gè)工作區(qū)目錄,例如loan_lc,用于存放python代碼和數(shù)據(jù),另外請?jiān)谀繕?biāo)python環(huán)境中下載如下python模塊:NumPy、Pandas、Matplotlib以及Scikit-Learn。
本章以JupyterNotebook作為Python開發(fā)環(huán)境,讀者也可選擇其他開發(fā)環(huán)境,不影響代碼運(yùn)行。
將下載下來的原始數(shù)據(jù)loan.csv復(fù)制到項(xiàng)目工作區(qū)目錄loan_lc文件夾下,使用pandas加載數(shù)據(jù):
importpandasaspd
LOAN_DATA_PATH="loan.csv"loan_data=pd.read_csv(LOAN_DATA_PATH)52025/11/27使用DataFrame的head()方法查看數(shù)據(jù)示例:13.2打開與查看數(shù)據(jù)
loan_data.head(
)
由于head方法只能顯示數(shù)據(jù)集的前10、后10列屬性(如上圖所示),而原始數(shù)據(jù)集有74個(gè)屬性,因此該方法并不能很好地展示數(shù)據(jù)特征和詳情62025/11/27我們可使用info()方法查看數(shù)據(jù)字段詳情,該方法將列出數(shù)據(jù)集中所有字段的名稱、非空數(shù)據(jù)量和數(shù)據(jù)類型。13.2打開與查看數(shù)據(jù)loan_(
)
由于該數(shù)據(jù)集共有887379條數(shù)據(jù),因此如果某個(gè)字段的“Non-NullCount”值為887379,則表示該字段沒有空值,否則說明該字段的某些記錄存在空值,用887379減去“Non-NullCount”值即為該字段空值的數(shù)量。在所有74個(gè)字段中,有34個(gè)字段沒有空值,占比不到一半,而其余40個(gè)字段或多或少存在空值,之后需要進(jìn)一步處理。
72025/11/2713.3數(shù)據(jù)探索與可視化
首先對數(shù)據(jù)各個(gè)屬性特征進(jìn)行描述性統(tǒng)計(jì)分析,通過使用各種統(tǒng)計(jì)指標(biāo)和圖形來呈現(xiàn)數(shù)據(jù)的特征和模式,從而對數(shù)據(jù)進(jìn)行初步理解和分析
。通過value_counts()方法查看感興趣的屬性,尤其是分類變量(Nominal)屬性,從而了解該屬性有哪些可選值以及不同屬性取值在記錄數(shù)量上的分布。通過如下代碼查看數(shù)據(jù)集中l(wèi)oan_status(貸款狀態(tài))有哪些取值:
loan_data['loan_status'].value_counts()82025/11/2713.3數(shù)據(jù)探索與可視化
對于數(shù)值型屬性,我們使用describe()方法獲取其基礎(chǔ)統(tǒng)計(jì)描述信息,如均值、標(biāo)準(zhǔn)差、中位數(shù)、最大最小值等。以貸款利率為例:
loan_data['int_rate'].describe()可以看到該公司提供的借貸產(chǎn)品其利率在5.32%~29%之間,均值和中位數(shù)相近大約為13%,可知數(shù)據(jù)中影響均值的極值并不多,由Q1、Q3可知大多數(shù)人所申請到的貸款利率應(yīng)在10%~16%之間浮動(dòng)。
92025/11/27另一個(gè)值得關(guān)注的信息是貸款額度,即某申請人在該次借款申請中所獲得的貸款總金額:可見該公司所提供的最大貸款額度不超過3.5萬美元,大部分申請人獲批了1萬多元的信用貸款。由于均值比中位數(shù)高了1700,可見更多的人申請到了相對大額貸款,拉高了平均值。讀者可使用describe()方法自行查看其他數(shù)值型屬性的描述統(tǒng)計(jì)特征。
13.3數(shù)據(jù)探索與可視化
loan_data['funded_amnt'].describe()102025/11/27分別畫出申請貸款額度(loan_amnt)和批準(zhǔn)貸款額度(funded_amnt)的直方圖,直方圖能夠較好地展示數(shù)據(jù)的分布,查看分布特征:13.3數(shù)據(jù)探索與可視化
importmatplotlib.pyplotaspltloan_data[["loan_amnt","funded_amnt"]].hist(bins=50,figsize=(15,5))plt.show()兩張直方圖在分布上幾乎一致,意味著借款人只要被貸款公司審核通過,基本都能按申請額度足額獲得資助金額。另外,10000、12000、15000、20000、35000左右的金額是最常被借款人申請的額度。
112025/11/27接下來再按年度特征來考察公司發(fā)放的貸款總額。原數(shù)據(jù)中issue_d字段表示貸款發(fā)放的時(shí)間,精確到月份,格式為“mmm-yyyy”例如2015年10月開始發(fā)放的貸款,記為“Oct-2015”,我們只需要其中的年份部分,因此可以先將該日期字符轉(zhuǎn)換為日期類型,再提取其中的年份信息:
13.3數(shù)據(jù)探索與可視化
loan_data['year']=pd.to_datetime(loan_data['issue_d']).dt.year這樣我們在原始數(shù)據(jù)中新增了一個(gè)字段“year”,表示該貸款的年份。下列代碼使用柱狀圖查看2007~2015年各個(gè)年份的貸款總記錄數(shù):
loan_counts_by_year=loan_data.groupby("year").size()loan_counts_by_year=loan_counts_by_year.sort_index()plt.bar(loan_counts_by_year.index,loan_counts_by_year.values)plt.xlabel("年份")plt.ylabel("貸款總記錄數(shù)")plt.xticks(year_counts.index,year_counts.index)plt.show()122025/11/2713.3數(shù)據(jù)探索與可視化
代碼中g(shù)roupby()方法可以對方法參數(shù)的指定字段進(jìn)行統(tǒng)計(jì),得到一個(gè)DataFrameGroupBy對象,再調(diào)用該對象的size()方法,可以統(tǒng)計(jì)各個(gè)年份的記錄數(shù)量,返回一個(gè)Series對象,該對象的index為年份,value為某年份的記錄數(shù)量。最后使用matplotlib庫pyplot對象的bar()方法創(chuàng)建柱狀圖。如圖15.2所示,從2007年開始,貸款總數(shù)每一年都以翻倍的速度遞增,從2007年的不到1000筆,到2015年已經(jīng)增至超過40萬筆。
圖15.2各年貸款記錄總數(shù)對比132025/11/27通過圖表查看貸款金額:
13.3數(shù)據(jù)探索與可視化
average_loan_amnt=loan_data.groupby("year")["loan_amnt"].mean()average_funded_amnt=loan_data.groupby("year")["funded_amnt"].mean()average_loan_amnt=average_loan_amnt.sort_index()average_funded_amnt=average_funded_amnt.sort_index()plt.bar(average_loan_amnt.index,average_loan_amnt.values,width=0.4,label="平均申請貸款金額")plt.bar(average_funded_amnt.index+0.4,average_funded_amnt.values,width=0.4,label="平均發(fā)放貸款金額")plt.xlabel("年份")plt.ylabel("貸款金額")plt.xticks(average_loan_amnt.index+0.2,
average_loan_amnt.index)plt.legend()plt.show()圖15.3各年份平均申請貸款金額與平均發(fā)放貸款金額對比142025/11/2713.4數(shù)據(jù)準(zhǔn)備
原數(shù)據(jù)中有不少日期類型的屬性,需要首先予以處理。這里將其轉(zhuǎn)化為年份或月份表示的整型(其中issue_d在可視化一節(jié)中已經(jīng)處理過)。對于日期屬性中存在的空缺值,使用最大頻率值予以填充:
loan_data['last_pymnt_d']=pd.to_datetime(loan_data['last_pymnt_d'].fillna('2016-01-01')).apply(lambdax:int(x.strftime('%m')))loan_data['last_credit_pull_d']=pd.to_datetime(loan_data['last_credit_pull_d'].fillna("2016-01-01")).apply(lambdax:int(x.strftime('%m')))loan_data['earliest_cr_line']=pd.to_datetime(loan_data['earliest_cr_line'].fillna('2001-08-01')).apply(lambdax:int(x.strftime('%m')))152025/11/27對于分類變量屬性,如果只有兩個(gè)可選值,那么可以采用標(biāo)簽編碼,如果有兩個(gè)以上的可選值,則應(yīng)采用獨(dú)熱編碼(one-hot)。13.4數(shù)據(jù)準(zhǔn)備fromsklearnimportpreprocessingforcolinloan_data:ifloan_data[col].dtype=='object'andlen(list(loan_data[col].unique()))<=2:le=preprocessing.LabelEncoder()loan_data[col]=le.fit_transform(loan_data[col])經(jīng)過獨(dú)熱編碼后,整個(gè)數(shù)據(jù)集的特征屬性數(shù)量會(huì)大大增加。如有必要,可使用主成分分析法(PCA)做降維操作。工作年限(emp_length)特征對判斷后續(xù)分析有較大幫助,數(shù)據(jù)中其缺失值占比約5%,這里對該特征進(jìn)行一些處理。
首先考慮到不填寫工作年限的人大多未工作,因此可以認(rèn)為該字段的值為0,使用0值對缺失值進(jìn)行填補(bǔ):
loan_data['emp_length'].fillna(value=0,inplace=True)162025/11/27
其次,當(dāng)前emp_length字段的取值為字符串:
13.4數(shù)據(jù)準(zhǔn)備emp_length
10+years291569
2years78870
<1year70605
3years70026
1year57095
5years55704
4years52529
7years44594
8years43955
6years42950
9years34657
Name:count,dtype:int64使用正則表達(dá)式將文字“years”去除,只保留數(shù)字,同時(shí)將小于1年的年限與1年進(jìn)行合并,即工作1年及以內(nèi)的設(shè)為“1”,未工作過的設(shè)為“0”:
172025/11/27loan_data['emp_length'].replace(to_replace='[^0-9]+',value='',inplace=True,regex=True)loan_data['emp_length'].value_counts().sort_values(ascending=False).plot(kind='bar',figsize=(8,5))13.4數(shù)據(jù)準(zhǔn)備圖15.4不同工作年限的記錄總數(shù)圖15.4將各個(gè)工作年限的記錄數(shù)畫成柱狀圖展示,可以看到,工作10年以上的記錄數(shù)量遠(yuǎn)高于其他年限,這是因?yàn)樵搶傩詾椤?0年以上”,包括11年、12年等多個(gè)年份,因此數(shù)據(jù)量理應(yīng)遠(yuǎn)高于其他單一年份。
182025/11/2713.4數(shù)據(jù)準(zhǔn)備最終剩下816722條記錄,這些記錄中已經(jīng)不存在缺失值。將借款狀態(tài)分為兩大類:“正常借貸”與“不良借貸”,如下是要分類的目標(biāo)變量:
bad_loan=['ChargedOff','Late(31-120days)','InGracePeriod','Late(16-30days)','Default','Doesnotmeetthecreditpolicy.Status:ChargedOff']target_list=[1ifiinbad_loanelse0foriinloan_data['loan_status']]
loan_data['TARGET']=target_list其他具有缺失值的記錄考慮直接刪除:
loan_data.dropna(inplace=True)其中“不良借貸”包括如15.1.1節(jié)所述的6種風(fēng)險(xiǎn)狀態(tài),將其設(shè)為1,其余正常狀態(tài)為“正常借貸”,將其設(shè)為0,從而構(gòu)建一個(gè)新的字段,命名為“TARGET”。創(chuàng)建TARGET屬性后,loan_status屬性可以直接予以刪除。
192025/11/2713.5預(yù)測建模
分別使用人工神經(jīng)網(wǎng)絡(luò)(ANN)、XGBoost和隨機(jī)森林三種機(jī)器學(xué)習(xí)算法對借貸狀態(tài)進(jìn)行分類,嘗試預(yù)測其信用風(fēng)險(xiǎn),具體來講預(yù)測在確定的某種特征下,其TARGET屬性為0(正常借貸)還是為1(不良借貸)。
為更好地評估算法,將全部數(shù)據(jù)拆分為訓(xùn)練集和測試集,訓(xùn)練集用于模型訓(xùn)練,測試集用戶模型檢驗(yàn)。訓(xùn)練集與測試集的比例為4:1。
fromsklearn.model_selectionimporttrain_test_splitX_train,X_test,y_train,y_test=
train_test_split
(loan_data.drop
(‘TARGET’,axis=1),
loan_data['TARGET'],test_size=0.2)對特征進(jìn)行歸一化處理,采用“最小最大縮放”法將各個(gè)特征值縮放至0~1的區(qū)間范圍:
fromsklearn.preprocessingimportMinMaxScalerscaler=MinMaxScaler()scaler.fit(X_train)X=scaler.transform(X_train)
y=y_train.values
13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型
人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,簡稱ANN)是受生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)啟發(fā)而設(shè)計(jì)的一種計(jì)算模型,用于模擬人腦的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能,以解決復(fù)雜的模式識別和數(shù)據(jù)處理問題。ANN由大量的人工神經(jīng)元(或稱為節(jié)點(diǎn))組成,這些神經(jīng)元按照不同的層次和連接方式構(gòu)成網(wǎng)絡(luò)。每個(gè)神經(jīng)元接收來自其他神經(jīng)元的輸入,通過一系列加權(quán)和非線性變換后產(chǎn)生輸出,然后傳遞給下一層神經(jīng)元或者作為整個(gè)網(wǎng)絡(luò)的輸出。人工神經(jīng)網(wǎng)絡(luò)通常由三種層次的神經(jīng)元組成:輸入層(InputLayer):接受外部輸入數(shù)據(jù),并將數(shù)據(jù)傳遞給網(wǎng)絡(luò)的隱藏層。隱藏層(HiddenLayer):位于輸入層和輸出層之間,負(fù)責(zé)對輸入數(shù)據(jù)進(jìn)行加權(quán)和變換,提取出數(shù)據(jù)中的特征。輸出層(OutputLayer):將隱藏層傳遞過來的特征經(jīng)過進(jìn)一步的加權(quán)和變換后產(chǎn)生網(wǎng)絡(luò)的輸出結(jié)果。212025/11/27這里采用scikit-learn庫提供的多層感知器(MultilayerPerceptron,MLP)進(jìn)行模型訓(xùn)練。多層感知器是一種較為簡單和基礎(chǔ)的前饋型神經(jīng)網(wǎng)絡(luò)模型,由一個(gè)或多個(gè)隱藏層(中間層)組成,每個(gè)隱藏層包含多個(gè)神經(jīng)元(節(jié)點(diǎn)),以及一個(gè)輸入層和一個(gè)輸出層。目前常見的卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)都是MLP的改進(jìn)和衍生模型。
13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型
fromsklearn.neural_networkimportMLPClassifierfromsklearn.model_selectionimportcross_val_scoreimportnumpyasnpfromsklearn.metricsimportclassification_reportcls=MLPClassifier(random_state=1,max_iter=300).fit(X,y)print(classification_report(y,cls.predict(X)))scores=cross_val_score(cls,X,y,scoring="accuracy",cv=10)print("平均準(zhǔn)確率:\t{0:.4f}".format(np.mean(scores)))
print("準(zhǔn)確率標(biāo)準(zhǔn)差:\t\t{0:.4f}".format(np.std(scores)))13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型
MLPClassifier具有多個(gè)可調(diào)參數(shù),可以通過交叉驗(yàn)證等方法進(jìn)行調(diào)參。下面是一些常用的調(diào)參方法和參數(shù):隱藏層大小(hidden_layer_sizes):指定隱藏層的大小,可以是一個(gè)整數(shù)表示隱藏層中的節(jié)點(diǎn)數(shù)量,也可以是一個(gè)元組表示每個(gè)隱藏層中節(jié)點(diǎn)的數(shù)量。通常需要根據(jù)問題的復(fù)雜度和數(shù)據(jù)集的特征進(jìn)行調(diào)整。激活函數(shù)(activation):指定隱藏層和輸出層的激活函數(shù),常用的包括"relu"、"logistic"、"tanh"等。默認(rèn)是"relu"。優(yōu)化器(solver):指定用于優(yōu)化權(quán)重的算法,常用的包括"adam"、"lbfgs"、"sgd"等。默認(rèn)是"adam"。學(xué)習(xí)率(learning_rate):控制權(quán)重更新的步長,可以是常數(shù)、自適應(yīng)學(xué)習(xí)率或衰減學(xué)習(xí)率。具體取決于所選的優(yōu)化器。正則化參數(shù)(alpha):控制模型的正則化程度,防止過擬合。批量大?。╞atch_size):指定用于權(quán)重更新的樣本批量大小。最大迭代次數(shù)(max_iter):指定訓(xùn)練過程中的最大迭代次數(shù)。早停(early_stopping):控制是否使用早停技術(shù)來提前停止訓(xùn)練,防止過擬合。2025/11/27#定義參數(shù)網(wǎng)格param_grid={'hidden_layer_sizes':[(10,),(50,),(100,)],'activation':['relu','tanh'],‘solver’:[‘a(chǎn)dam’,‘sgd‘],}#使用GridSearchCV進(jìn)行參數(shù)搜索grid_search=GridSearchCV(cls,param_grid,cv=3)grid_search.fit(X,y)#輸出最佳參數(shù)和最佳得分print("BestParameters:",grid_search.best_params_)
print("BestScore:",grid_search.best_score_)
13.5.1基于人工神經(jīng)網(wǎng)絡(luò)的借貸分類模型
下面代碼以GridSearchCV對該模型進(jìn)行一個(gè)簡單的調(diào)參:上述代碼對三個(gè)參數(shù)進(jìn)行了網(wǎng)格調(diào)試:hidden_layer_sizes、activation、solver。網(wǎng)格調(diào)試是Scikit-learn庫中的一個(gè)模型評估工具,用于系統(tǒng)地搜索最佳模型參數(shù)的組合。GridSearchCV通過在參數(shù)網(wǎng)格中組合不同的參數(shù)值,然后使用交叉驗(yàn)證來評估每種參數(shù)組合的性能,最終找到最佳的參數(shù)組合。2025/11/27242025/11/27XGBoost(eXtremeGradientBoosting)是一種基于梯度提升樹(GradientBoostingTree)的機(jī)器學(xué)習(xí)算法,其核心在于集成學(xué)習(xí)中的提升方法。由于scikit-learn庫中沒有包含XGBoost模型,讀者需要在線下載XGBoost庫,如果使用conda包管理里,可以通過如下命令進(jìn)行下載安裝:13.5.2基于XGBoost的借貸分類模型
condainstallpy-xgboost安裝完畢后即可在代碼中使用import方式導(dǎo)入xgboost包fromsklearn.model_selectionimportcross_val_scoreimportxgboostasxgbimportnumpyasnpfromsklearn.metricsimportclassification_reportcls=xgb.XGBClassifier().fit(X,y)
print(classification_report(y,cls.predict(X)))
scores=cross_val_score(cls,X,y,scoring="accuracy",cv=10)print("平均準(zhǔn)確率:\t{0:.4f}".format(np.mean(scores)))
print("準(zhǔn)確率標(biāo)準(zhǔn)差:\t\t{0:.4f}".format(np.std(scores)))
13.5.2基于XGBoost的借貸分類模型
XGBoost同樣具有若干可調(diào)參數(shù)用于提高模型的性能和泛化能力。以下是一些常用的XGBoost調(diào)參方法和參數(shù):樹的數(shù)量(n_estimators):指定要構(gòu)建的決策樹的數(shù)量。增加樹的數(shù)量通常可以提高模型的性能,但也會(huì)增加訓(xùn)練時(shí)間和內(nèi)存消耗。樹的最大深度(max_depth):指定決策樹的最大深度。增加深度可以增加模型的復(fù)雜度,但也可能導(dǎo)致過擬合。學(xué)習(xí)率(learning_rate):控制每個(gè)樹的貢獻(xiàn),降低學(xué)習(xí)率可以使模型更加穩(wěn)定,但需要增加樹的數(shù)量來保持模型的性能。列采樣比例(colsample_bytree):指定每棵樹用于訓(xùn)練的特征的比例。這可以幫助減少過擬合,提高模型的泛化能力。行采樣比例(subsample):指定每棵樹用于訓(xùn)練的樣本的比例。與列采樣類似,行采樣也可以幫助減少過擬合。正則化參數(shù)(reg_alpha、reg_lambda):控制模型的正則化程度,幫助防止過擬合。早停策略(early_stopping_rounds):指定在驗(yàn)證集上連續(xù)多少輪迭代中沒有改善時(shí)停止訓(xùn)練,以防止過擬合。特征重要性評估(importance_type):指定計(jì)算特征重要性的方法,包括"gain"、"weight"、"cover"等。2025/11/2713.5.2基于XGBoost的借貸分類模型
#定義參數(shù)網(wǎng)格param_grid={'n_estimators':[100,200,300],'max_depth':[3,5,7],'learning_rate':[0.1,0.01,0.001],}
#使用GridSearchCV進(jìn)行參數(shù)搜索grid_search=GridSearchCV(cls,param_grid,cv=3)grid_search.fit(X,y)
#輸出最佳參數(shù)和最佳得分print("BestParameters:",grid_search.best_params_)print("BestScore:",grid_search.best_score_)讀者可以嘗試使用前一節(jié)介紹的網(wǎng)格調(diào)試GridSearchCV去尋找最佳參數(shù),一個(gè)簡單的調(diào)參示例如下:
2025/11/2713.5.3基于隨機(jī)森林的借貸分類模型
隨機(jī)森林模型常用的超參數(shù)如下:樹的數(shù)量(n_estimators):指定隨機(jī)森林中樹的數(shù)量。通常增加樹的數(shù)量可以提高模型的性能,但也會(huì)增加訓(xùn)練時(shí)間。樹的最大深度(max_depth):指定樹的最大深度,控制樹的復(fù)雜度。較大的深度可能會(huì)導(dǎo)致過擬合,較小的深度可能會(huì)導(dǎo)致欠擬合。節(jié)點(diǎn)最少樣本數(shù)(min_samples_split):指定拆分內(nèi)部節(jié)點(diǎn)所需的最小樣本數(shù)??刂屏藰涞纳L,可以防止過擬合。葉子節(jié)點(diǎn)最少樣本數(shù)(min_samples_leaf):指定葉子節(jié)點(diǎn)所需的最小樣本數(shù)??刂屏巳~子節(jié)點(diǎn)的數(shù)量,可以防止過擬合。特征選擇策略(max_features):指定用于拆分節(jié)點(diǎn)的特征數(shù)或比例。可以是整數(shù)、浮點(diǎn)數(shù)或字符串。常用的選項(xiàng)包括"auto"(sqrt(n_features))、"sqrt"(sqrt(n_features))、"log2"(log
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年醫(yī)務(wù)室服務(wù)合同
- 2025年智能溫控家居設(shè)備項(xiàng)目可行性研究報(bào)告
- 2025年綠色建筑設(shè)計(jì)與實(shí)施可行性研究報(bào)告
- 2025年產(chǎn)業(yè)園區(qū)綜合服務(wù)平臺項(xiàng)目可行性研究報(bào)告
- 2025年電商供應(yīng)鏈優(yōu)化系統(tǒng)可行性研究報(bào)告
- 消費(fèi)券發(fā)放協(xié)議書
- 純電車保價(jià)協(xié)議書
- 交房結(jié)算協(xié)議書
- 中韓薩德協(xié)議書
- 醫(yī)療器械注冊專員面試題及答案解析
- 晚會(huì)聘請導(dǎo)演協(xié)議書
- 電遷改監(jiān)理實(shí)施細(xì)則
- 《醫(yī)學(xué)美容技術(shù)》課件-實(shí)訓(xùn):VISIA皮膚檢測儀(理論)
- 促脈證中醫(yī)護(hù)理方案
- 排污許可合同模板
- 社區(qū)營養(yǎng)健康管理
- 《天皰瘡相關(guān)知識》課件
- 口服抗栓藥物相關(guān)消化道損傷防治專家共識(2021)解讀
- 敬老服務(wù)前臺工作總結(jié)
- 統(tǒng)編版(2024新版)七年級下冊歷史教材習(xí)題答案
- 《如何理解「銷售」》課件
評論
0/150
提交評論