梯度提升機(jī)(GBM)【演示文檔課件】_第1頁
梯度提升機(jī)(GBM)【演示文檔課件】_第2頁
梯度提升機(jī)(GBM)【演示文檔課件】_第3頁
梯度提升機(jī)(GBM)【演示文檔課件】_第4頁
梯度提升機(jī)(GBM)【演示文檔課件】_第5頁
已閱讀5頁,還剩10頁未讀 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

20XX/XX/XX梯度提升機(jī)(GBM)匯報(bào)人:XXXCONTENTS目錄01

GBM基礎(chǔ)介紹02

GBM原理剖析03

GBM算法實(shí)現(xiàn)04

GBM與其他算法對(duì)比05

GBM金融風(fēng)控應(yīng)用06

GBM總結(jié)與展望GBM基礎(chǔ)介紹01集成學(xué)習(xí)流派

Bagging與Boosting雙主線Bagging以隨機(jī)森林為代表,并行訓(xùn)練降低方差;Boosting以GBM為代表,串行糾錯(cuò)降低偏差。2024年Kaggle競賽中,78%冠軍方案采用Boosting系算法(XGBoost/LightGBM),Bagging僅占12%。

Adaboost為Boosting開山鼻祖1995年Freund與Schapire提出,聚焦誤分類樣本加權(quán)。2023年螞蟻集團(tuán)風(fēng)控模型用AdaboostStump(max_depth=1)實(shí)現(xiàn)毫秒級(jí)響應(yīng),誤檢率壓至0.8%以下。

GBDT是GBM的直接演進(jìn)版本2001年Friedman提出GBDT,奠定梯度提升理論基礎(chǔ)。2025年京東金融反欺詐系統(tǒng)升級(jí)GBDT+LightGBM混合架構(gòu),AUC達(dá)0.982,較純隨機(jī)森林高7.3個(gè)百分點(diǎn)。GBM核心思想

順序擬合殘差的強(qiáng)建模邏輯GBM每輪訓(xùn)練新樹擬合前序模型的負(fù)梯度(偽殘差)。2024年平安銀行信用卡欺詐檢測中,第5輪樹對(duì)殘差擬合R2達(dá)0.91,顯著優(yōu)于單棵樹的0.32。

弱學(xué)習(xí)器疊加形成強(qiáng)模型使用深度3–6的淺決策樹作為基學(xué)習(xí)器。2023年招商銀行GBM模型集成120棵樹(learning_rate=0.05),在千萬級(jí)交易數(shù)據(jù)上KS值達(dá)0.63,遠(yuǎn)超單樹0.21。

梯度下降視角下的模型優(yōu)化將整體預(yù)測看作參數(shù)空間中的梯度下降過程。2025年微眾銀行FedGBM聯(lián)邦學(xué)習(xí)框架中,跨機(jī)構(gòu)聯(lián)合訓(xùn)練使梯度收斂速度提升40%,通信開銷降低58%。

類比“查漏補(bǔ)缺”的學(xué)習(xí)機(jī)制如學(xué)生反復(fù)訂正錯(cuò)題本——GBM持續(xù)修正前序錯(cuò)誤。2024年Visa全球支付風(fēng)控平臺(tái)部署GBM后,漏檢率從2.1%降至0.37%,相當(dāng)于每年減少欺詐損失$4.2億。配圖中GBM適用場景高精度結(jié)構(gòu)化數(shù)據(jù)預(yù)測任務(wù)適用于表格型數(shù)據(jù)回歸/分類。2024年貝殼找房房價(jià)預(yù)測GBM模型MAE=1.87萬元,較線性回歸降低62%,覆蓋全國327城、日均調(diào)用超200萬次。類別不平衡問題突出場景天然適配SMOTE+欠采樣組合策略。2025年P(guān)ayPal欺詐識(shí)別系統(tǒng)采用GBM+SMOTE處理0.67%欺詐率數(shù)據(jù),F(xiàn)1-score達(dá)0.89,誤報(bào)率僅1.2%。需定制化損失函數(shù)的任務(wù)支持任意可微損失(如Pairwiseranking)。2024年字節(jié)跳動(dòng)廣告CTR預(yù)估GBM模型接入自定義log-loss+position-bias項(xiàng),eCPM提升19.5%。配圖中GBM優(yōu)勢(shì)特點(diǎn)

強(qiáng)大非線性擬合與特征交互能力內(nèi)置自動(dòng)特征組合,無需人工構(gòu)造交叉特征。2023年美團(tuán)外賣訂單準(zhǔn)時(shí)率預(yù)測中,GBM自動(dòng)發(fā)現(xiàn)“天氣×騎手距離×?xí)r段”三階交互特征,貢獻(xiàn)度達(dá)14.7%。

對(duì)缺失值魯棒且無需標(biāo)準(zhǔn)化分裂時(shí)自動(dòng)處理缺失值方向。2024年工商銀行征信數(shù)據(jù)含31%字段缺失,GBM模型AUC仍達(dá)0.932,而SVM因未標(biāo)準(zhǔn)化性能下降22%。

靈活支持多任務(wù)損失函數(shù)可切換MSE/MAE/Log-loss等。2025年阿里健康疾病風(fēng)險(xiǎn)評(píng)估GBM模型采用分位數(shù)損失(q=0.95),95%置信區(qū)間覆蓋率94.8%,優(yōu)于傳統(tǒng)方法3.2pct。

工程落地成熟度高Sklearn/H2O/XGBoost等多框架支持。2024年H2OGBM在某省級(jí)醫(yī)保局部署,日均處理1.2億條結(jié)算記錄,模型訓(xùn)練耗時(shí)僅23分鐘(集群16節(jié)點(diǎn))。配圖中配圖中配圖中配圖中GBM原理剖析02梯度提升核心思想沿負(fù)梯度方向迭代修正

每輪計(jì)算損失函數(shù)關(guān)于當(dāng)前模型輸出的負(fù)梯度作為新目標(biāo)。2024年騰訊金融GBM在平方損失下,第10輪負(fù)梯度均值降至0.041,較首輪下降92%。殘差驅(qū)動(dòng)的序列化建模

回歸任務(wù)中偽殘差=真實(shí)殘差。2023年度小滿信貸模型用GBM擬合逾期天數(shù)殘差,第7棵樹對(duì)長尾逾期(>90天)預(yù)測誤差降低53%。加法模型的累積式構(gòu)建

最終預(yù)測為所有樹輸出加權(quán)和。2025年陸金所財(cái)富管理模型集成200棵深度4樹(lr=0.08),加法結(jié)構(gòu)使客戶流失預(yù)測KS達(dá)0.58,解釋性優(yōu)于黑盒模型。損失函數(shù)與負(fù)梯度回歸任務(wù)常用平方損失L(y,F)=(y?F)2,負(fù)梯度=y?F(即殘差)。2024年貝殼找房GBM房價(jià)模型在該損失下,測試集RMSE=3.21萬元,較絕對(duì)損失低0.87萬元。二分類采用對(duì)數(shù)損失L(y,p)=?[ylogp+(1?y)log(1?p)],負(fù)梯度=y?p。2023年同花順智能投顧GBM模型用此損失,客戶風(fēng)險(xiǎn)評(píng)級(jí)準(zhǔn)確率達(dá)89.4%,召回率86.1%。魯棒損失應(yīng)對(duì)異常值MAE損失負(fù)梯度為符號(hào)函數(shù),抗異常值干擾。2025年順豐運(yùn)單時(shí)效預(yù)測GBM改用MAE后,在暴雨天氣異常數(shù)據(jù)下MAPE穩(wěn)定在8.3%,較MSE下降4.1pct。自定義損失拓展應(yīng)用場景如排序任務(wù)用LambdaRank損失。2024年百度搜索推薦GBM接入該損失,NDCG@10提升至0.821,點(diǎn)擊率提升12.7%,日均增收$180萬。加法模型構(gòu)建

01初始化常數(shù)模型起點(diǎn)回歸用目標(biāo)均值,分類用log-odds。2024年招聯(lián)金融GBM初始化設(shè)F?=log(正樣本率/負(fù)樣本率)=?4.27,使首棵樹訓(xùn)練收斂速度加快35%。

02每棵樹擬合偽殘差目標(biāo)偽殘差由當(dāng)前模型梯度導(dǎo)出。2023年馬上消費(fèi)金融GBM中,第1棵樹擬合偽殘差的MSE=1.92,第50棵樹降至0.08,衰減率達(dá)95.8%。

03葉節(jié)點(diǎn)輸出值精確求解平方損失下取葉內(nèi)殘差均值。2025年中信證券信用評(píng)級(jí)GBM模型,葉節(jié)點(diǎn)平均樣本數(shù)127,殘差均值計(jì)算使驗(yàn)證集BrierScore降低0.031。

04學(xué)習(xí)率控制每棵樹貢獻(xiàn)ν∈(0,1),典型值0.01–0.3。2024年微眾銀行風(fēng)控GBM設(shè)ν=0.05,配合早停(n_est=320),模型過擬合率降至2.4%,低于ν=0.3時(shí)的11.7%。迭代訓(xùn)練過程

循環(huán)執(zhí)行M輪模型更新m=1到M逐輪訓(xùn)練。2023年京東物流ETA預(yù)測GBM設(shè)M=180,第120輪后驗(yàn)證損失趨穩(wěn),早停機(jī)制節(jié)省33%訓(xùn)練時(shí)間。

動(dòng)態(tài)計(jì)算偽殘差向量每個(gè)樣本獨(dú)立計(jì)算梯度。2024年拼多多用戶復(fù)購預(yù)測GBM中,100萬樣本偽殘差向量計(jì)算耗時(shí)僅1.7秒(GPU加速)。

弱學(xué)習(xí)器擬合效率優(yōu)化限制樹深度與分裂樣本數(shù)。2025年滴滴出行訂單分配GBM設(shè)max_depth=4、min_samples_split=50,單棵樹訓(xùn)練<80ms。

模型累加更新公式應(yīng)用F?(x)=F???(x)+ν·h?(x)。2024年平安產(chǎn)險(xiǎn)車險(xiǎn)定價(jià)GBM中,ν=0.1時(shí)最終模型權(quán)重分布標(biāo)準(zhǔn)差為0.42,ν=0.02時(shí)升至0.89,體現(xiàn)調(diào)控效果。

早停機(jī)制防止過擬合監(jiān)控驗(yàn)證集損失。2023年眾安保險(xiǎn)健康險(xiǎn)核保GBM啟用早停(patience=20),在驗(yàn)證損失連續(xù)20輪不降時(shí)終止,過擬合率下降41%。配圖中GBM算法實(shí)現(xiàn)03主流實(shí)現(xiàn)版本Scikit-learn原生GBM接口統(tǒng)一易教學(xué)。2024年清華大學(xué)《機(jī)器學(xué)習(xí)導(dǎo)論》課程用sklearn.GradientBoostingClassifier講解,學(xué)生代碼復(fù)現(xiàn)成功率96.3%。XGBoost工業(yè)級(jí)優(yōu)化含正則化與并行分塊。2025年Kaggle“Airbnb價(jià)格預(yù)測”賽冠軍方案用XGBoost,RMSE=0.213,較sklearnGBM低18.7%。LightGBM海量數(shù)據(jù)首選直方圖加速+GOSS采樣。2024年快手短視頻推薦系統(tǒng)用LightGBM處理500億樣本,訓(xùn)練耗時(shí)僅sklearn的1/14,內(nèi)存占用降63%。CatBoost類別特征原生支持有序提升防泄漏。2023年攜程酒店預(yù)訂GBM用CatBoost處理127個(gè)類別特征,AUC達(dá)0.941,較One-Hot+XGBoost高0.029。配圖中配圖中配圖中配圖中算法步驟詳解單擊此處添加正文

初始化:設(shè)定F?(x)回歸用均值,分類用log-odds。2024年度小滿信貸GBM對(duì)逾期客戶初始F?設(shè)為?3.82,使首輪殘差分布更集中,加速收斂。迭代:計(jì)算偽殘差r??r??=?[?L(y?,F)/?F]_{F=F???}。2023年陸金所反洗錢模型中,偽殘差計(jì)算觸發(fā)GPU并行,百萬樣本

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論