版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
01目錄CONTENTS算法簡(jiǎn)介02模型創(chuàng)建算法簡(jiǎn)介1PartMinimalistwindAI本案例使用了6種機(jī)器學(xué)習(xí)的算法生成模型:XGBOOST(XGB)、GradientBoostingDecisionTree(GBDT)、隨機(jī)森林RandomForest(RF)、LightGradientBoostingMachine(LightGBM)、k最近鄰算法(KNN)和支持向量機(jī)(SVM)。算法簡(jiǎn)介XGBOOST算法原理是不斷地添加樹,不斷地進(jìn)行特征分裂來(lái)生長(zhǎng)一棵樹。每次添加一個(gè)樹,其實(shí)是學(xué)習(xí)一個(gè)新函數(shù),去擬合上次預(yù)測(cè)的殘差。當(dāng)訓(xùn)練完成得到k棵樹,要預(yù)測(cè)一個(gè)樣本的分?jǐn)?shù),其實(shí)就是根據(jù)這個(gè)樣本的特征,在每棵樹中會(huì)落到對(duì)應(yīng)的一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)就對(duì)應(yīng)一個(gè)分?jǐn)?shù),最后只需要將每棵樹對(duì)應(yīng)的分?jǐn)?shù)加起來(lái)就是該樣本的預(yù)測(cè)值。1.XGBOOST(XGB)算法簡(jiǎn)介2.GradientBoostingDecisionTree(GBDT)算法簡(jiǎn)介決策樹梯度迭代(GradientBoosting,GB)縮減ShrinkageBagging+決策樹=隨機(jī)森林bagging技術(shù)通過合適的投票機(jī)制把多個(gè)分類器的學(xué)習(xí)結(jié)果綜合為一個(gè)更準(zhǔn)確的分類結(jié)果。集成學(xué)習(xí)采用新訓(xùn)練集訓(xùn)練一種或多種基本分類器,并通過選擇合適的投票機(jī)制,形成組合分類器。最后,運(yùn)用組合分類器對(duì)測(cè)試集中的樣本進(jìn)行預(yù)測(cè),獲取這些樣本的標(biāo)記。3.隨機(jī)森林RandomForest(RF)算法簡(jiǎn)介L(zhǎng)ightGBM(LightGradientBoostingMachine)是一個(gè)實(shí)現(xiàn)GBDT算法的框架,支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的準(zhǔn)確率、支持分布式可以快速處理海量數(shù)據(jù)等優(yōu)點(diǎn)。4.LightGradientBoostingMachine(LightGBM)算法簡(jiǎn)介根據(jù)k個(gè)最近的鄰居的狀態(tài)來(lái)決定樣本的狀態(tài),類似“物以類聚,人以群分”。核心思想是,為了預(yù)測(cè)測(cè)試樣本的類別,可以尋找所有訓(xùn)練樣本中與該測(cè)試樣本“距離”最近的前K個(gè)樣本,這K個(gè)樣本大部分屬于哪一類,那么就認(rèn)為這個(gè)測(cè)試樣本也屬于哪一類,即最相近的K個(gè)樣本投票來(lái)決定該測(cè)試樣本的類別。5.k最近鄰算法(KNN)算法簡(jiǎn)介5.k最近鄰算法(KNN)算法簡(jiǎn)介當(dāng)K=3時(shí),圖中第一個(gè)圈包含了三個(gè)圖形,其中三角形2個(gè),正方形一個(gè),該圓的則分類結(jié)果為三角形。當(dāng)K=5時(shí),第二個(gè)圈中包含了5個(gè)圖形,三角形2個(gè),正方形3個(gè),則以3:2的投票結(jié)果預(yù)測(cè)圓為正方形類標(biāo)??傊?,設(shè)置不同的K值,可能預(yù)測(cè)得到不同的結(jié)果。支持向量機(jī)(SVM)算法是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面,可以將問題化為一個(gè)求解凸二次規(guī)劃的問題。6.支持向量機(jī)(SVM)算法簡(jiǎn)介模型創(chuàng)建2Part模型創(chuàng)建1.XGB算法實(shí)現(xiàn)n_estimators,使用多少棵樹來(lái)擬合,即多少次迭代。本案例中分別取950、1000、1100max_depth,每一棵樹最大深度,本案例中默認(rèn)取3max_features,尋找最佳分割時(shí)要考慮的特征數(shù)量。random_state,隨機(jī)數(shù)種子,設(shè)定值表示保證每次構(gòu)建的模型是相同的n_jobs設(shè)定工作的core數(shù)量模型創(chuàng)建2.GBDT算法實(shí)現(xiàn)n_estimators分別取500、400、500;max_features設(shè)置為“sqrt”;max_depth設(shè)置為3模型創(chuàng)建3.RF算法實(shí)現(xiàn)模型創(chuàng)建4.LightGBM算法實(shí)現(xiàn)模型創(chuàng)建5.KNN算法實(shí)現(xiàn)n_neighbors,默認(rèn)值5,表示選擇n個(gè)鄰居,本案例中使用值7,8,6。p,默認(rèn)值2,控制Minkowski度量方法的值整型,p=1為曼哈頓距離,p=2為歐式距離。本案例中值為1,2,1模型創(chuàng)建6.SVM算法實(shí)現(xiàn)C:懲罰系數(shù),即對(duì)誤差的寬容度。C越高,說(shuō)明越不能容忍出現(xiàn)誤差,容易過擬合。C越小,容易欠擬合。C過大或過小,泛化能力變差。本案例中參數(shù)使用100。gamma隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。本案例中參數(shù)使用0
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 護(hù)理研究培訓(xùn)課程
- 內(nèi)科護(hù)理消化系統(tǒng)疾病護(hù)理
- 腦梗護(hù)理中的健康教育
- 外科護(hù)理科研方法
- 腦震蕩護(hù)理質(zhì)量管理與效果評(píng)價(jià)
- 疝氣護(hù)理中的引流管護(hù)理
- 水電解質(zhì)與酸堿平衡
- 骨折病人的康復(fù)案例分析
- 聽課件的策略與方法
- 奢侈品銷售話術(shù)
- 2025年中國(guó)激光安全防護(hù)眼鏡行業(yè)市場(chǎng)全景分析及前景機(jī)遇研判報(bào)告
- 鐵路隧道及地下工程施工階段異常工況安全處置指導(dǎo)意見暫行
- 兒科護(hù)理副高答辯題庫(kù)及答案解析
- 煤礦消防安全培訓(xùn)報(bào)道課件
- 精神衛(wèi)生防治業(yè)務(wù)技能競(jìng)賽理論試題庫(kù)300題(含答案)
- 公司變更主體重新簽合同三方協(xié)議
- 2024csco前列腺癌診療指南
- 技術(shù)標(biāo)準(zhǔn)解讀-洞察及研究
- 基礎(chǔ)會(huì)計(jì)知識(shí)課件
- 上海市社區(qū)工作者管理辦法
- 餐廳員工加班管理辦法
評(píng)論
0/150
提交評(píng)論