《人工智能應(yīng)用素養(yǎng)》-11-5.模型創(chuàng)建 - V2_第1頁(yè)
《人工智能應(yīng)用素養(yǎng)》-11-5.模型創(chuàng)建 - V2_第2頁(yè)
《人工智能應(yīng)用素養(yǎng)》-11-5.模型創(chuàng)建 - V2_第3頁(yè)
《人工智能應(yīng)用素養(yǎng)》-11-5.模型創(chuàng)建 - V2_第4頁(yè)
《人工智能應(yīng)用素養(yǎng)》-11-5.模型創(chuàng)建 - V2_第5頁(yè)
已閱讀5頁(yè),還剩13頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

01目錄CONTENTS算法簡(jiǎn)介02模型創(chuàng)建算法簡(jiǎn)介1PartMinimalistwindAI本案例使用了6種機(jī)器學(xué)習(xí)的算法生成模型:XGBOOST(XGB)、GradientBoostingDecisionTree(GBDT)、隨機(jī)森林RandomForest(RF)、LightGradientBoostingMachine(LightGBM)、k最近鄰算法(KNN)和支持向量機(jī)(SVM)。算法簡(jiǎn)介XGBOOST算法原理是不斷地添加樹,不斷地進(jìn)行特征分裂來(lái)生長(zhǎng)一棵樹。每次添加一個(gè)樹,其實(shí)是學(xué)習(xí)一個(gè)新函數(shù),去擬合上次預(yù)測(cè)的殘差。當(dāng)訓(xùn)練完成得到k棵樹,要預(yù)測(cè)一個(gè)樣本的分?jǐn)?shù),其實(shí)就是根據(jù)這個(gè)樣本的特征,在每棵樹中會(huì)落到對(duì)應(yīng)的一個(gè)葉子節(jié)點(diǎn),每個(gè)葉子節(jié)點(diǎn)就對(duì)應(yīng)一個(gè)分?jǐn)?shù),最后只需要將每棵樹對(duì)應(yīng)的分?jǐn)?shù)加起來(lái)就是該樣本的預(yù)測(cè)值。1.XGBOOST(XGB)算法簡(jiǎn)介2.GradientBoostingDecisionTree(GBDT)算法簡(jiǎn)介決策樹梯度迭代(GradientBoosting,GB)縮減ShrinkageBagging+決策樹=隨機(jī)森林bagging技術(shù)通過合適的投票機(jī)制把多個(gè)分類器的學(xué)習(xí)結(jié)果綜合為一個(gè)更準(zhǔn)確的分類結(jié)果。集成學(xué)習(xí)采用新訓(xùn)練集訓(xùn)練一種或多種基本分類器,并通過選擇合適的投票機(jī)制,形成組合分類器。最后,運(yùn)用組合分類器對(duì)測(cè)試集中的樣本進(jìn)行預(yù)測(cè),獲取這些樣本的標(biāo)記。3.隨機(jī)森林RandomForest(RF)算法簡(jiǎn)介L(zhǎng)ightGBM(LightGradientBoostingMachine)是一個(gè)實(shí)現(xiàn)GBDT算法的框架,支持高效率的并行訓(xùn)練,并且具有更快的訓(xùn)練速度、更低的內(nèi)存消耗、更好的準(zhǔn)確率、支持分布式可以快速處理海量數(shù)據(jù)等優(yōu)點(diǎn)。4.LightGradientBoostingMachine(LightGBM)算法簡(jiǎn)介根據(jù)k個(gè)最近的鄰居的狀態(tài)來(lái)決定樣本的狀態(tài),類似“物以類聚,人以群分”。核心思想是,為了預(yù)測(cè)測(cè)試樣本的類別,可以尋找所有訓(xùn)練樣本中與該測(cè)試樣本“距離”最近的前K個(gè)樣本,這K個(gè)樣本大部分屬于哪一類,那么就認(rèn)為這個(gè)測(cè)試樣本也屬于哪一類,即最相近的K個(gè)樣本投票來(lái)決定該測(cè)試樣本的類別。5.k最近鄰算法(KNN)算法簡(jiǎn)介5.k最近鄰算法(KNN)算法簡(jiǎn)介當(dāng)K=3時(shí),圖中第一個(gè)圈包含了三個(gè)圖形,其中三角形2個(gè),正方形一個(gè),該圓的則分類結(jié)果為三角形。當(dāng)K=5時(shí),第二個(gè)圈中包含了5個(gè)圖形,三角形2個(gè),正方形3個(gè),則以3:2的投票結(jié)果預(yù)測(cè)圓為正方形類標(biāo)??傊?,設(shè)置不同的K值,可能預(yù)測(cè)得到不同的結(jié)果。支持向量機(jī)(SVM)算法是一類按監(jiān)督學(xué)習(xí)方式對(duì)數(shù)據(jù)進(jìn)行二元分類的廣義線性分類器,其決策邊界是對(duì)學(xué)習(xí)樣本求解的最大邊距超平面,可以將問題化為一個(gè)求解凸二次規(guī)劃的問題。6.支持向量機(jī)(SVM)算法簡(jiǎn)介模型創(chuàng)建2Part模型創(chuàng)建1.XGB算法實(shí)現(xiàn)n_estimators,使用多少棵樹來(lái)擬合,即多少次迭代。本案例中分別取950、1000、1100max_depth,每一棵樹最大深度,本案例中默認(rèn)取3max_features,尋找最佳分割時(shí)要考慮的特征數(shù)量。random_state,隨機(jī)數(shù)種子,設(shè)定值表示保證每次構(gòu)建的模型是相同的n_jobs設(shè)定工作的core數(shù)量模型創(chuàng)建2.GBDT算法實(shí)現(xiàn)n_estimators分別取500、400、500;max_features設(shè)置為“sqrt”;max_depth設(shè)置為3模型創(chuàng)建3.RF算法實(shí)現(xiàn)模型創(chuàng)建4.LightGBM算法實(shí)現(xiàn)模型創(chuàng)建5.KNN算法實(shí)現(xiàn)n_neighbors,默認(rèn)值5,表示選擇n個(gè)鄰居,本案例中使用值7,8,6。p,默認(rèn)值2,控制Minkowski度量方法的值整型,p=1為曼哈頓距離,p=2為歐式距離。本案例中值為1,2,1模型創(chuàng)建6.SVM算法實(shí)現(xiàn)C:懲罰系數(shù),即對(duì)誤差的寬容度。C越高,說(shuō)明越不能容忍出現(xiàn)誤差,容易過擬合。C越小,容易欠擬合。C過大或過小,泛化能力變差。本案例中參數(shù)使用100。gamma隱含地決定了數(shù)據(jù)映射到新的特征空間后的分布,gamma越大,支持向量越少,gamma值越小,支持向量越多。本案例中參數(shù)使用0

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論