機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第七章_第1頁
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第七章_第2頁
機(jī)器學(xué)習(xí)原理、算法與應(yīng)用 課后習(xí)題答案 第七章_第3頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

集成學(xué)習(xí)可分為哪幾類?每類的代表算法是什么?答:集成學(xué)習(xí)主要分為如下三類:Bagging(并行式):通過自助采樣(Bootstrap)訓(xùn)練多個獨(dú)立模型,投票/平均結(jié)果。代表算法如隨機(jī)森林(RandomForest)。Boosting(串行式):迭代訓(xùn)練弱學(xué)習(xí)器,調(diào)整樣本權(quán)重以修正前序錯誤。代表算法如AdaBoost、GBDT、XGBoost、LightGBM。Stacking(模型融合):組合異構(gòu)基學(xué)習(xí)器的輸出,訓(xùn)練元學(xué)習(xí)器進(jìn)行最終預(yù)測。代表算法如Stacking(基學(xué)習(xí)器可為SVM、神經(jīng)網(wǎng)絡(luò)等)。使用包外數(shù)據(jù)的好處是什么?答:包外數(shù)據(jù)(Out-of-Bag,OOB)是Bagging算法中沒有被采樣到的數(shù)據(jù)。包外數(shù)據(jù)可以直接用作驗(yàn)證集,用于對模型的泛化能力進(jìn)行評估;可以用于輔助剪枝過程,幫助選擇最優(yōu)的樹結(jié)構(gòu);可以用于估計(jì)決策樹中各節(jié)點(diǎn)的后驗(yàn)概率;可以用于輔助早期停止的策略,減小過擬合的風(fēng)險(xiǎn)。隨機(jī)森林需要剪枝嗎?為什么?答:隨機(jī)森林不需要剪枝。因?yàn)樵陔S機(jī)森林算法中,決策樹的構(gòu)建過程中沒有進(jìn)行剪枝,而是允許樹完全生長。由于隨機(jī)森林通過引入樣本擾動和特征擾動的機(jī)制,減少了模型的過擬合風(fēng)險(xiǎn),因此不需要剪枝。為什么說Bagging可以減少弱分類器的方差,而Boosting可以減少弱分類器的偏差?答:Bagging通過多次采樣和集成多個基學(xué)習(xí)器,每個基學(xué)習(xí)器獨(dú)立訓(xùn)練,其預(yù)測結(jié)果的方差主要來源于數(shù)據(jù)采樣的差異。集成后,方差會隨著基學(xué)習(xí)器數(shù)量的增加而減小。而Boosting通過迭代訓(xùn)練基學(xué)習(xí)器,每個新的基學(xué)習(xí)器重點(diǎn)關(guān)注之前基學(xué)習(xí)器預(yù)測錯誤的樣本。這種機(jī)制能夠逐步糾正偏差,最終減小整體模型的偏差。是否可以通過在多個服務(wù)器上并行來加速bagging集成的訓(xùn)練?boosting集成或stacking集成呢?答:Bagging集成:可以并行加速。因?yàn)槊總€基學(xué)習(xí)器的訓(xùn)練是獨(dú)立的,可以在多個服務(wù)器上同時(shí)訓(xùn)練不同的基學(xué)習(xí)器。Boosting集成:難以并行加速。因?yàn)锽oosting是迭代訓(xùn)練,每個基學(xué)習(xí)器的訓(xùn)練依賴于前一個基學(xué)習(xí)器的結(jié)果,難以直接并行化。Stacking集成:可以部分并行加速?;鶎W(xué)習(xí)器的訓(xùn)練可以并行,但元學(xué)習(xí)器的訓(xùn)練需要等待基學(xué)習(xí)器完成。簡述隨機(jī)森林為何比決策樹Bagging集成的訓(xùn)練速度更快。答:隨機(jī)森林在構(gòu)建決策樹時(shí)引入了隨機(jī)特征選擇,減少了每個節(jié)點(diǎn)分裂時(shí)需要考慮的特征數(shù)量,從而加快了訓(xùn)練速度。此外,隨機(jī)森林不需要剪枝,進(jìn)一步減少了訓(xùn)練時(shí)間。簡述Bagging通常為何難以提升樸素貝葉斯分類器的性能。答:樸素貝葉斯分類器的預(yù)測結(jié)果對訓(xùn)練數(shù)據(jù)的分布非常敏感,而Bagging算法通過有放回的采樣生成不同的訓(xùn)練集,可能導(dǎo)致樸素貝葉斯分類器在不同訓(xùn)練集上的預(yù)測結(jié)果差異較小,從而難以通過集成方法顯著提升性能。某公司招聘員工,考查身體、業(yè)務(wù)能力、發(fā)展?jié)摿@三項(xiàng)。身體分為合格1、不合格0兩級,業(yè)務(wù)能力和發(fā)展?jié)摿Ψ譃樯?,中2,下3三級。分類為合格1,不合格-1兩類。已知10個人的數(shù)據(jù),如下REF_Ref171370410\h表7-2所示,假設(shè)弱分類器為決策樹樁,試用AdaBoost算法學(xué)習(xí)一個強(qiáng)分類器。表7-SEQ表7-\*ARABIC2原始數(shù)據(jù)12345678910身體0011101110業(yè)務(wù)1321211132潛力3123322111分類-1-1-1-1-1-111-1-1答:可以通過初始化樣本權(quán)重,迭代訓(xùn)練弱分類器,計(jì)算錯誤率,更新樣本權(quán)重,最終加權(quán)組合弱分類器得到強(qiáng)分類器。樣本身體(0/1)業(yè)務(wù)(1/2/3)潛力(1/2/3)分類(y)初始權(quán)重

D1?1013-10.12031-10.1..................10021-10.1迭代過程:第一輪(t=1t=1):最優(yōu)樹樁:身體=1→預(yù)測1(否則-1)誤分類樣本:1,2,6,10(權(quán)重和=0.4)錯誤率∈1權(quán)重α更新權(quán)重:誤分類樣本權(quán)重增加第二輪(t=2t=2):最優(yōu)樹樁:業(yè)務(wù)能力=1→預(yù)測-1(否則1)聚焦上一輪誤分類樣本,重新計(jì)算...第三輪(t=3t=3):最優(yōu)樹樁:發(fā)展?jié)摿?1→預(yù)測1(否則-1)累積錯誤率顯著下降最終強(qiáng)分類器:H(x)=利用Boosting方法實(shí)現(xiàn)MNIST手寫體數(shù)字識別。答:可以使用AdaBoost算法或GBDT算法在MNIST數(shù)據(jù)集上進(jìn)行訓(xùn)練,通過迭代訓(xùn)練弱分類器,構(gòu)建強(qiáng)分類器,實(shí)現(xiàn)手寫數(shù)字識別。實(shí)例代碼如下:importnumpyasnpfromsklearn.ensembleimportAdaBoostClassifierfromsklearn.treeimportDecisionTreeClassifierfromsklearn.datasetsimportfetch_openmlfromsklearn.metricsimportaccuracy_score#加載數(shù)據(jù)mnist=fetch_openml('mnist_784',version=1)X,y=mnist.data,mnist.targetX_train,X_test=X[:60000],X[60000:]y_train,y_test=y[:60000],y[60000:]#使用決策樹樁作為弱分類器base_clf=DecisionTreeClassifier(max_depth=1)#樹樁#AdaBoost集成adaboost=AdaBoostClassifier(base_estimator=base_clf,n_estimators=200,learning_rate=0.

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論