版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
集成學(xué)習(xí)方法范文集成學(xué)習(xí)方法集成可以說是現(xiàn)在非?;鸨臋C(jī)器了。它本身不是一個(gè)單獨(dú)的機(jī)器學(xué)習(xí)算法,而是通過構(gòu)建并結(jié)合多個(gè)機(jī)器學(xué)習(xí)器來完成學(xué)習(xí)任務(wù)。接下來搜集了集成學(xué)習(xí)方法,僅供大家參考。集成學(xué)習(xí)是機(jī)器學(xué)習(xí)算法中非常強(qiáng)大的工具,有人把它稱為機(jī)器學(xué)習(xí)中的“屠龍刀”,非常萬能且有效,在各大機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘競(jìng)賽中使用非常廣泛。它的思想非常簡(jiǎn)單,___多個(gè)模型的能力,達(dá)到“三個(gè)臭皮匠,賽過諸葛亮”的效果。集成學(xué)習(xí)中概念是很容易理解的,但是好像沒有同一的術(shù)語,很多書本上寫得也不一樣,越看越模糊。這里我把集成學(xué)習(xí)分為兩個(gè)大類,第一大類稱為模型融合,與臺(tái)大機(jī)器學(xué)習(xí)技法課上的blending概念相似,模型融合其實(shí)是個(gè)再學(xué)習(xí)的過程。第一步是訓(xùn)練出多個(gè)不同的強(qiáng)學(xué)習(xí)器,然后考慮如何將這多個(gè)學(xué)習(xí)器組合起來,更進(jìn)一步提高性能。第二大類稱為機(jī)器學(xué)習(xí)元算法,這類算法本身就是多模型組合的結(jié)果,只是元算法中的基算法(base_algorithm一般會(huì)比較弱),稱為弱模型的組合,例如RF、GDBT。實(shí)際中,我們總可以根據(jù)實(shí)際問題,訓(xùn)練出多個(gè)功能強(qiáng)大學(xué)習(xí)器,為了進(jìn)一步提高學(xué)習(xí)器的能力,可以嘗試將這些學(xué)習(xí)組合起來,這個(gè)過程就是模型融合。一般來說模型能在一定程度上提高性能,有時(shí)使模型的預(yù)測(cè)能力更加強(qiáng)大,有時(shí)增加模型的泛化能力,顯而易見的壞處是多模型的學(xué)習(xí)加上再學(xué)習(xí)的過程會(huì)增加計(jì)算的代價(jià)。模型融合在競(jìng)賽中十分常見,屢試不爽,融合方法恰當(dāng),一般能提高成績(jī)。常用的獲得不同模型的方法由于不同的訓(xùn)練模型得到不同的模型,例如處理分類的LR、SVM、RF等由于同一訓(xùn)練模型調(diào)節(jié)不同參數(shù)獲得不同的模型,例如GDBT中迭代次數(shù),每個(gè)樹的復(fù)雜度等有些算法本身就有一定的隨機(jī)性,如PLA由于訓(xùn)練數(shù)據(jù)不同得到不同的模型,如交叉驗(yàn)證、隨機(jī)抽樣上面這些生成不同模型可以組合生成更多不同的模型,比較常用的是最前面的兩個(gè)模型融合的方法通過驗(yàn)證(validation)的方式,從第一步中訓(xùn)練出的多個(gè)模型中挑選最佳的模型,作為最終的模型。這種方式必須要驗(yàn)證,不同使Ein最小,否則很容易過擬合。統(tǒng)一融合(Uniformblending),分類時(shí)使用一人一票的'投票方式,回歸時(shí)使用多個(gè)模型的平均值。這種方式的優(yōu)點(diǎn)是一般泛化能力會(huì)得到加強(qiáng),但是只能保證比那些模型中最差的模型要好,不能保證能得到比那些不同模型中的最好的模型要好線性融合(Linearblending),三次學(xué)習(xí),使用線性模型將第一步中學(xué)習(xí)到的學(xué)習(xí)器組合起來,用得好可以提高模型性能,但是要注意有過擬合的風(fēng)險(xiǎn)。堆融合(Anyblending、stacking),任何其它非線性模型將那些學(xué)習(xí)器組合起來,有過擬合的風(fēng)險(xiǎn),注意驗(yàn)證。模型融合在實(shí)際中十分常見,下面是臺(tái)大在xxKDDCup獲得冠軍時(shí)使用的模型融合方法,先用了anyblending(stacking)處于領(lǐng)先群的位置,最后的linearblend使得臺(tái)大獲得冠軍。機(jī)器學(xué)習(xí)元算法分為兩類:Averagingmethods和BoostingmethodsAveragingmethods核心是引入隨機(jī)(對(duì)樣本、特征屬性隨機(jī)取樣)學(xué)習(xí)產(chǎn)生多個(gè)___的模型,然后平均所有模型的預(yù)測(cè)值。一般而言,這種方法,會(huì)減小方差(varian),不太會(huì)過擬合。主要包括bagging、RF。Boostingmethods逐步加強(qiáng)方法,該方法___學(xué)習(xí)多個(gè)模型,提高模型的準(zhǔn)確率。不同的是,它是基于前面模型的訓(xùn)練結(jié)果(誤差),生成新的模型,從而減小偏差(bias)。一般而言,這種方比上者的準(zhǔn)確率高一點(diǎn),但是也不是絕對(duì)的。它的缺點(diǎn)是有過擬合的風(fēng)險(xiǎn),另外,由于它每個(gè)模型是“序列化”(有前后關(guān)系)產(chǎn)生的,不易并行化。它的代表是AdaBoost、GDBT。BaggingBagging在原始樣本中隨機(jī)抽樣獲取子集,用隨機(jī)抽樣的子集訓(xùn)練基學(xué)習(xí)器(base_estitor),然后對(duì)每個(gè)基學(xué)習(xí)器的結(jié)果求平均,最終得到的預(yù)測(cè)值。隨機(jī)獲取樣本子集的方法有很多中,最常用的是有放回抽樣的booststrap,也可以是不放回的抽樣?;鶎W(xué)習(xí)器可以是相同的模型,也可以是不同的,一般使用的是同一種基學(xué)習(xí)器,最常用的是DT決策樹。由于bagging提供了一種降低方差(varian___)的方式,所以一般會(huì)使用比較強(qiáng)、復(fù)雜的基學(xué)習(xí)器模型(e.g.fullydevelopeddecisiontrees),作為對(duì)比在boosting方法中會(huì)使用非常弱的基學(xué)習(xí)器模型(e.g.shallowdecisiontrees)。在sklearn中實(shí)現(xiàn)了基于bagging的分類和回歸方法,主要設(shè)置參數(shù)為基學(xué)習(xí)器的類型、迭代次數(shù)(子模型的個(gè)數(shù))、獲取訓(xùn)練子集的方式。由于bagging訓(xùn)練每個(gè)模型可以并行,還可以設(shè)置n_jobs訓(xùn)練模型使用的多少個(gè)cpu核。隨機(jī)森林(RF)RF在實(shí)際中使用非常頻繁,其本質(zhì)上可bagging并無不同,只是RF更具體一些。一般而言可以將RF理解為bagging和DT(CART)的結(jié)合。RF中基學(xué)習(xí)器使用的是CART樹,由于算法本身能降低方差(varian),所以會(huì)選擇完全生長(zhǎng)的CART樹。抽樣方法使用bootstrap,除此之外,RF認(rèn)為隨機(jī)程度越高,算法的效果越好。所以RF中還經(jīng)常隨機(jī)選取樣本的特征屬性、甚至于將樣本的特征屬性通過映射矩陣映射到隨機(jī)的子空間來增大子模型的隨機(jī)性、多樣性。RF預(yù)測(cè)的結(jié)果為子樹結(jié)果的平均值。RF具有很好的降噪性,相比單棵的CART樹,RF模型邊界更加平滑,置信區(qū)間也比較大。一般而言,RF中,樹越多模型越穩(wěn)定。AdaBoostAdaBoost是一種Boosting方法,與Bagging不同的是,Adaboost中不同的子模型必須是串行訓(xùn)練獲得的,每個(gè)新的子模型都是根據(jù)已訓(xùn)練出的模型性能來進(jìn)行訓(xùn)練的,而且Boosting算法中基學(xué)習(xí)器為弱學(xué)習(xí)。弱學(xué)習(xí)器可以理解為只比隨機(jī)猜測(cè)好一點(diǎn),在二分類情況下,錯(cuò)誤率略低0.5即可,實(shí)際中常使用s___lldecisiontrees。AdaBoost中每個(gè)訓(xùn)練樣本都有一個(gè)權(quán)重,這些權(quán)重構(gòu)成了一個(gè)向量亞,初始值都為為Wi=1/N。Adaboost中每次迭代生成新的子模型使用的訓(xùn)練數(shù)據(jù)都相同,但是樣本的權(quán)重會(huì)不一樣。AdaBoost會(huì)根據(jù)當(dāng)前的錯(cuò)誤率,增大錯(cuò)誤樣本權(quán)重,減小正確樣本權(quán)重的原則更新每個(gè)樣本的權(quán)重。不斷重復(fù)訓(xùn)練和調(diào)整權(quán)重,直到訓(xùn)練錯(cuò)誤率或弱學(xué)習(xí)器的個(gè)數(shù)滿足用戶指定的值為止。Adaboost的最終結(jié)果為每個(gè)弱學(xué)習(xí)器加權(quán)的結(jié)果。使用sklearn中的Adaboot時(shí),主要調(diào)節(jié)的參數(shù)有n_estitor(多少棵樹)、—x_depth(每棵樹的深度。復(fù)雜度)或者min_samples_leaf(最少的葉子節(jié)點(diǎn))。GDBTGDBT也是一種Boosting方法,每個(gè)子模型是根據(jù)已訓(xùn)練出的學(xué)習(xí)器的性能(殘差)訓(xùn)練出來的,子模型是串行訓(xùn)練獲得,不易并行化。GDBT使用非常廣泛的,能分類,能回歸預(yù)測(cè)。GDBT基于殘差學(xué)習(xí)的算,沒有AdaBoost中的樣本權(quán)重的概念。GDBT結(jié)合了梯度迭代和回歸樹,準(zhǔn)確率非常高,但是也有過擬合的風(fēng)險(xiǎn)。GDBT中迭代的殘差的梯度,殘差就是目前結(jié)合所有得到的訓(xùn)練器預(yù)測(cè)的結(jié)果與實(shí)際值的差值,不理解可以參考另一篇___,里面有一個(gè)實(shí)例介紹如何基于殘差來學(xué)習(xí)預(yù)測(cè)人的年齡。GDBT的使用也非常的簡(jiǎn)單,主要調(diào)節(jié)的參數(shù)有確定需要多少棵樹(n_estitor)、每棵樹的復(fù)雜度(x_depth,x_leaf_node)、損失函數(shù)(loss)以及學(xué)習(xí)率(learning_rating)。為了防止過擬合一般學(xué)習(xí)率會(huì)選小一點(diǎn)的(.集成學(xué)習(xí)概述從下圖,我們可以對(duì)集成學(xué)習(xí)的思想做一個(gè)概括。對(duì)于訓(xùn)練集數(shù)據(jù),我們通過訓(xùn)練若干個(gè)個(gè)體學(xué)習(xí)器,通過一定的結(jié)合策略,就可以最終形成一個(gè)強(qiáng)學(xué)習(xí)器,以達(dá)到博采眾長(zhǎng)的目的。也就是說,集成學(xué)習(xí)有兩個(gè)主要的問題需要解決,第一是如何得到若干個(gè)個(gè)體學(xué)習(xí)器,第二是如何選擇一種結(jié)合策略,將這些個(gè)體學(xué)習(xí)器___成一個(gè)強(qiáng)學(xué)習(xí)器。.集成學(xué)習(xí)之個(gè)體學(xué)習(xí)器上一節(jié)我們講到,集成學(xué)習(xí)的第一個(gè)問題就是如何得到若干個(gè)個(gè)體學(xué)習(xí)器。這里我們有兩種選擇。第一種就是所有的個(gè)體學(xué)習(xí)器都是一個(gè)種類的,或者說是同質(zhì)的。比如都是決策樹個(gè)體學(xué)習(xí)器,或者都是神經(jīng)網(wǎng)絡(luò)個(gè)體學(xué)習(xí)器。第二種是所有的個(gè)體學(xué)習(xí)器不全是一個(gè)種類的,或者說是異質(zhì)的。比如我們有一個(gè)分類問題,對(duì)訓(xùn)練集采用支持向量機(jī)個(gè)體學(xué)習(xí)器,邏輯回歸個(gè)體學(xué)習(xí)器和樸素貝葉斯個(gè)體學(xué)習(xí)器來學(xué)習(xí),再通過某種結(jié)合策略來確定最終的分類強(qiáng)學(xué)習(xí)器。目前來說,同質(zhì)個(gè)體學(xué)習(xí)器的應(yīng)用是最廣泛的,一般我們常說的集成學(xué)習(xí)的方法都是指的同質(zhì)個(gè)體學(xué)習(xí)器。而同質(zhì)個(gè)體學(xué)習(xí)器使用最多的模型是CART決策樹和神經(jīng)網(wǎng)絡(luò)。同質(zhì)個(gè)體學(xué)習(xí)器按照個(gè)體學(xué)習(xí)器之間是否存在依賴關(guān)系可以分為兩類,第一個(gè)是個(gè)體學(xué)習(xí)器之間存在強(qiáng)依賴關(guān)系,一系列個(gè)體學(xué)習(xí)器基本都需要串行生成,代表算法是boosting系列算法,第二個(gè)是個(gè)體學(xué)習(xí)器之間不存在強(qiáng)依賴關(guān)系,一系列個(gè)體學(xué)習(xí)器可以并行生成,代表算法是bagging和隨機(jī)森林(RandomForest)系列算法。下面就分別對(duì)這兩類算法做一個(gè)概括總結(jié)。.集成學(xué)習(xí)之boostingboosting的算法原理我們可以用一張圖做一個(gè)概括如下:從圖中可以看出,Boosting算法的工作機(jī)制是首先從訓(xùn)練集用初始權(quán)重訓(xùn)練出一個(gè)弱學(xué)習(xí)器1,根據(jù)弱學(xué)習(xí)的學(xué)習(xí)誤差率表現(xiàn)來更新訓(xùn)練樣本的權(quán)重,使得之前弱學(xué)習(xí)器1學(xué)習(xí)誤差率高的訓(xùn)練樣本點(diǎn)的權(quán)重變高,使得這些誤差率高的點(diǎn)在后面的弱學(xué)習(xí)器2中得到更多的重視。然后基于調(diào)整權(quán)重后的訓(xùn)練集來訓(xùn)練弱學(xué)習(xí)器2.,如此重復(fù)進(jìn)行,直到弱學(xué)習(xí)器數(shù)達(dá)到事先指定的數(shù)目丁,最終將這T個(gè)弱學(xué)習(xí)器通過___策略進(jìn)行整合,得到最終的強(qiáng)學(xué)習(xí)器。Boosting系列算法里最著名算法主要有AdaBoost算法和提升樹(boostingtree)系列算法。提升樹系列算法里面應(yīng)用最廣泛的是梯度提升樹(GrantBoostingTree)。AdaBoost和提升樹算法的原理在后面的文章中會(huì)專門來講。.集成學(xué)習(xí)之baggingBagging的算法原理和boosting不同,它的弱學(xué)習(xí)器之間沒有依賴關(guān)系,可以并行生成,我們可以用一張圖做一個(gè)概括如下:從上圖可以看出,bagging的個(gè)體弱學(xué)習(xí)器的訓(xùn)練集是通過隨機(jī)采樣得到的。通過T次的隨機(jī)采樣,我們就可以得到T個(gè)采樣集,對(duì)于這T個(gè)采樣集,我們可以分別—的訓(xùn)練出T個(gè)弱學(xué)習(xí)器,再對(duì)這T個(gè)弱學(xué)習(xí)器通過—策略來得到最終的強(qiáng)學(xué)習(xí)器。對(duì)于這里的隨機(jī)采樣有必要做進(jìn)一步的介紹,這里一般采用的是自助采樣法(Bootstapsampling),即對(duì)于m個(gè)樣本的原始訓(xùn)練集,我們每次先隨機(jī)采集一個(gè)樣本放入采樣集,接著把該樣本放回,也就是說下次
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年紅色歡慶-開工儀式策劃
- 2026年房地產(chǎn)成交中的談判策略
- 2025年高職電子信息工程技術(shù)(電子信息應(yīng)用)試題及答案
- 2025年高職第三學(xué)年(數(shù)字媒體技術(shù))動(dòng)畫制作基礎(chǔ)測(cè)試題及答案
- 2025年大學(xué)工商管理(運(yùn)營管理)試題及答案
- 2025年中職水產(chǎn)養(yǎng)殖技術(shù)(水產(chǎn)動(dòng)物營養(yǎng)與飼料)試題及答案
- 2025年高職第一學(xué)年(護(hù)理學(xué))兒科護(hù)理期末測(cè)試試題及答案
- 2025年中職(農(nóng)資營銷與服務(wù))農(nóng)資推廣階段測(cè)試題及答案
- 2025年大學(xué)中藥學(xué)(中藥炮制工程)試題及答案
- 2026年按摩推拿教學(xué)(推拿應(yīng)用)試題及答案
- 2026年陜西省森林資源管理局局屬企業(yè)公開招聘工作人員備考題庫及參考答案詳解1套
- 承包團(tuán)建燒烤合同范本
- 電力線通信技術(shù)
- 人工流產(chǎn)手術(shù)知情同意書
- 2025秋人教版七年級(jí)全一冊(cè)信息科技期末測(cè)試卷(三套)
- 教師三筆字培訓(xùn)課件
- 鋼鐵燒結(jié)機(jī)脫硫脫硝施工方案
- 中國醫(yī)藥行業(yè)中間體出口全景分析:破解政策難題深挖全球紅利
- 搶工補(bǔ)償協(xié)議書
- 山東省青島市城陽區(qū)2024-2025學(xué)年九年級(jí)上學(xué)期語文期末試卷(含答案)
- 孕婦尿液捐獻(xiàn)協(xié)議書
評(píng)論
0/150
提交評(píng)論