版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
第7章
集成學(xué)習(xí)與實(shí)現(xiàn)集成學(xué)習(xí)的概念Bagging算法隨機(jī)森林算法Boosting算法集成學(xué)習(xí)第7章
在機(jī)器學(xué)習(xí)中,利用各模型之間的差異性來(lái)構(gòu)建比采用單個(gè)模型更好的模型,其目標(biāo)是為了提出一個(gè)在性能上具有一定競(jìng)爭(zhēng)力并且還比較穩(wěn)定的預(yù)測(cè)算法,但是在現(xiàn)實(shí)中往往不會(huì)如愿,反而會(huì)得到多個(gè)各具特色的分類器,為了集成這些分類器的優(yōu)點(diǎn),集成算法被提出。
集成算法是一種通過(guò)構(gòu)建和結(jié)合多個(gè)學(xué)習(xí)器以完成學(xué)習(xí)任務(wù)的算法,當(dāng)前主流的集成算法分為兩種:第一種為Bagging算法,該算法訓(xùn)練多個(gè)分類器,這些分類器之間相互獨(dú)立,不存在強(qiáng)依賴關(guān)系,在訓(xùn)練過(guò)后,利用集成策略將各個(gè)分類器最終結(jié)果進(jìn)行集成,以得到最終的結(jié)果;第二種為Boosting算法,該算法是一種將弱學(xué)習(xí)器提升為強(qiáng)學(xué)習(xí)器的算法,需要利用上一個(gè)分類器的結(jié)果對(duì)下一個(gè)分類器性能做調(diào)整訓(xùn)練,以達(dá)到增強(qiáng)學(xué)習(xí)器的目的。集成學(xué)習(xí)第7章集成學(xué)習(xí)(ensemblelearning)也稱多分類器系統(tǒng)或基于委員會(huì)的學(xué)習(xí),它是將多個(gè)基礎(chǔ)學(xué)習(xí)器(也稱個(gè)體學(xué)習(xí)器)通過(guò)結(jié)合策略進(jìn)行結(jié)合,形成一個(gè)性能優(yōu)良的集成學(xué)習(xí)器來(lái)完成學(xué)習(xí)任務(wù)的一種方法,如圖1所示。在集成學(xué)習(xí)中,個(gè)體學(xué)習(xí)器一般由一個(gè)現(xiàn)有的學(xué)習(xí)算法(如C4.5決策樹(shù)算法)從訓(xùn)練數(shù)據(jù)中訓(xùn)練得到。圖1集成學(xué)習(xí)的一般結(jié)構(gòu)1.集成學(xué)習(xí)的原理分析7.1.1集成學(xué)習(xí)的概念集成學(xué)習(xí)第7章在訓(xùn)練集成學(xué)習(xí)模型時(shí):如果所有個(gè)體學(xué)習(xí)器都是同類模型(如集成學(xué)習(xí)模型中每個(gè)個(gè)體學(xué)習(xí)器都是決策樹(shù)模型),則由這些同類個(gè)體學(xué)習(xí)器相結(jié)合產(chǎn)生的集成學(xué)習(xí)模型稱為同質(zhì)集成模型,同質(zhì)集成模型中的個(gè)體學(xué)習(xí)器亦稱“基學(xué)習(xí)器”,相應(yīng)的學(xué)習(xí)算法稱為“基學(xué)習(xí)算法”如果個(gè)體學(xué)習(xí)器不是同類模型(如集成學(xué)習(xí)模型中同時(shí)包含決策樹(shù)分類模型和k近鄰分類模型),則由這些不同類別的個(gè)體學(xué)習(xí)器相結(jié)合產(chǎn)生的集成學(xué)習(xí)模型稱為異質(zhì)集成模型,異質(zhì)集成模型中的個(gè)體學(xué)習(xí)器常稱為“組件學(xué)習(xí)器”。1.集成學(xué)習(xí)的原理分析5表7-4集成學(xué)習(xí)模型性能不變學(xué)習(xí)器測(cè)試樣本1測(cè)試樣本2測(cè)試樣本3模型預(yù)測(cè)準(zhǔn)確率個(gè)體學(xué)習(xí)器1√√×66.6%個(gè)體學(xué)習(xí)器2√√×66.6%個(gè)體學(xué)習(xí)器3√√×66.6%集成學(xué)習(xí)器√√×66.6%2.個(gè)體學(xué)習(xí)器對(duì)集成學(xué)習(xí)模型性能的影響表7-3集成學(xué)習(xí)模型性能降低學(xué)習(xí)器測(cè)試樣本1測(cè)試樣本2測(cè)試樣本3模型預(yù)測(cè)準(zhǔn)確率個(gè)體學(xué)習(xí)器1√××33.3%個(gè)體學(xué)習(xí)器2×√×33.3%個(gè)體學(xué)習(xí)器3××√33.3%集成學(xué)習(xí)器×××0表7-2集成學(xué)習(xí)模型性能提升學(xué)習(xí)器測(cè)試樣本1測(cè)試樣本2測(cè)試樣本3模型預(yù)測(cè)準(zhǔn)確率個(gè)體學(xué)習(xí)器1√√×66.6%個(gè)體學(xué)習(xí)器2×√√66.6%個(gè)體學(xué)習(xí)器3√×√66.6%集成學(xué)習(xí)器√√√100%集成學(xué)習(xí)是通過(guò)一定的結(jié)合策略將多個(gè)個(gè)體學(xué)習(xí)器進(jìn)行結(jié)合得到的模型。模型的性能會(huì)受到個(gè)體學(xué)習(xí)器的預(yù)測(cè)準(zhǔn)確率、多樣性和數(shù)量等因素的影響。(1)個(gè)體學(xué)習(xí)器的預(yù)測(cè)準(zhǔn)確率與多樣性對(duì)集成學(xué)習(xí)模型性能的影響。例如,在二分類任務(wù)中,如果3個(gè)不同的個(gè)體學(xué)習(xí)器在3個(gè)測(cè)試樣本中的預(yù)測(cè)準(zhǔn)確率都是66.6%,則集成學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確率可能能夠達(dá)到100%,即集成學(xué)習(xí)模型的性能有所提升,如表7-2所示(√表示樣本預(yù)測(cè)正確,×表示樣本預(yù)測(cè)錯(cuò)誤);如果3個(gè)不同的個(gè)體學(xué)習(xí)器在3個(gè)測(cè)試樣本中的預(yù)測(cè)準(zhǔn)確率都是33.3%,則集成學(xué)習(xí)模型的預(yù)測(cè)準(zhǔn)確率可能為0,即集成學(xué)習(xí)模型的性能有所降低,如表7-3所示;如果3個(gè)個(gè)體學(xué)習(xí)器是3個(gè)相同的學(xué)習(xí)器,則集成學(xué)習(xí)模型的性能不會(huì)發(fā)生變化,如表7-4所示。集成學(xué)習(xí)第7章集成學(xué)習(xí)第7章可見(jiàn),要獲得好的集成學(xué)習(xí)模型,個(gè)體學(xué)習(xí)器應(yīng)“好而不同”,即個(gè)體學(xué)習(xí)器要有一定的預(yù)測(cè)準(zhǔn)確率(一般個(gè)體學(xué)習(xí)器的預(yù)測(cè)準(zhǔn)確率應(yīng)大于60%),并且各個(gè)個(gè)體學(xué)習(xí)器之間要有差異(多樣性)。2.個(gè)體學(xué)習(xí)器對(duì)集成學(xué)習(xí)模型性能的影響(1)個(gè)體學(xué)習(xí)器的預(yù)測(cè)準(zhǔn)確率與多樣性對(duì)集成學(xué)習(xí)模型性能的影響。集成學(xué)習(xí)第7章例如,在二分類任務(wù)中,假設(shè)個(gè)體學(xué)習(xí)器的預(yù)測(cè)誤差率相互獨(dú)立,則集成學(xué)習(xí)模型的預(yù)測(cè)誤差率為其中,T表示個(gè)體學(xué)習(xí)器的數(shù)量,表示個(gè)體學(xué)習(xí)器的預(yù)測(cè)誤差率??梢?jiàn),隨著集成學(xué)習(xí)模型中個(gè)體學(xué)習(xí)器數(shù)目T的增大,集成學(xué)習(xí)模型的預(yù)測(cè)誤差率將呈指數(shù)級(jí)下降,最終趨向于零。然而,這個(gè)結(jié)論是基于假設(shè)“個(gè)體學(xué)習(xí)器的誤差相互獨(dú)立”得到的。在現(xiàn)實(shí)任務(wù)中,個(gè)體學(xué)習(xí)器是為解決同一問(wèn)題而訓(xùn)練出來(lái)的,顯然它們不可能相互獨(dú)立。事實(shí)上,個(gè)體學(xué)習(xí)器的“準(zhǔn)確性”和“多樣性”本身就存在沖突,一般準(zhǔn)確性較高之后,要增加多樣性就必須犧牲準(zhǔn)確性。所以說(shuō),如何訓(xùn)練出“好而不同”的個(gè)體學(xué)習(xí)器,是集成學(xué)習(xí)研究的核心內(nèi)容。2.個(gè)體學(xué)習(xí)器對(duì)集成學(xué)習(xí)模型性能的影響(2)個(gè)體學(xué)習(xí)器的數(shù)量對(duì)集成學(xué)習(xí)模型性能的影響。集成學(xué)習(xí)第7章、3集成學(xué)習(xí)的結(jié)合策略當(dāng)模型的預(yù)測(cè)結(jié)果是數(shù)值型數(shù)據(jù)時(shí),最常用的結(jié)合策略是平均法,即模型的預(yù)測(cè)結(jié)果是每個(gè)個(gè)體學(xué)習(xí)器預(yù)測(cè)結(jié)果的平均值,平均法包含簡(jiǎn)單平均法和加權(quán)平均法兩種。假設(shè)集成學(xué)習(xí)模型中包含T個(gè)個(gè)體學(xué)習(xí)器,其中,個(gè)體學(xué)習(xí)器對(duì)樣本x的預(yù)測(cè)值表示為,則簡(jiǎn)單平均法的計(jì)算公式為加權(quán)平均法的計(jì)算公式為(1).平均法集成學(xué)習(xí)第7章加權(quán)平均法的權(quán)重一般是從訓(xùn)練集中學(xué)習(xí)得到的?,F(xiàn)實(shí)任務(wù)中的訓(xùn)練樣本通常不充分或存在噪聲,這使得模型從訓(xùn)練集中學(xué)習(xí)得到的權(quán)重并不完全可靠,尤其對(duì)規(guī)模較大的數(shù)據(jù)集來(lái)說(shuō),要學(xué)習(xí)的權(quán)重太多,模型容易產(chǎn)生過(guò)擬合現(xiàn)象。因此,加權(quán)平均法不一定優(yōu)于簡(jiǎn)單平均法。一般而言,在個(gè)體學(xué)習(xí)器性能差異較大時(shí)宜使用加權(quán)平均法,而在個(gè)體學(xué)習(xí)器性能相近時(shí)宜使用簡(jiǎn)單平均法。集成學(xué)習(xí)第7章在分類任務(wù)中,通常使用投票法。具體流程為每個(gè)個(gè)體學(xué)習(xí)器從類別標(biāo)簽集合中預(yù)測(cè)出一個(gè)標(biāo)簽,然后通過(guò)投票決定最終的模型預(yù)測(cè)結(jié)果。投票法分為絕對(duì)多數(shù)投票法、相對(duì)多數(shù)投票法和加權(quán)投票法3種。(1)絕對(duì)多數(shù)投票法:某標(biāo)簽票數(shù)超過(guò)半數(shù),則模型預(yù)測(cè)為該標(biāo)簽,否則拒絕預(yù)測(cè)。這在可靠性要求較高的學(xué)習(xí)任務(wù)中是一個(gè)很好的機(jī)制。(2)相對(duì)多數(shù)投票法:預(yù)測(cè)值為票數(shù)最多的標(biāo)簽,如果同時(shí)有多個(gè)標(biāo)簽獲得最高票數(shù),則從中隨機(jī)選取一個(gè)。(3)加權(quán)投票法:與加權(quán)平均法類似,在投票時(shí)需要考慮個(gè)體學(xué)習(xí)器的權(quán)重。(2).投票法集成學(xué)習(xí)第7章當(dāng)訓(xùn)練集很大時(shí),一種更為強(qiáng)大的結(jié)合策略是學(xué)習(xí)法。學(xué)習(xí)法是指通過(guò)一個(gè)學(xué)習(xí)器將各個(gè)個(gè)體學(xué)習(xí)器進(jìn)行結(jié)合的一種策略,通常把個(gè)體學(xué)習(xí)器稱為初級(jí)學(xué)習(xí)器,用于結(jié)合的學(xué)習(xí)器稱為次級(jí)學(xué)習(xí)器或元學(xué)習(xí)器。點(diǎn)撥學(xué)習(xí)法的典型代表是Stacking,Stacking先從初始數(shù)據(jù)集中訓(xùn)練出初級(jí)學(xué)習(xí)器,然后“生成”一個(gè)新數(shù)據(jù)集用于訓(xùn)練次級(jí)學(xué)習(xí)器。在這個(gè)新數(shù)據(jù)集中,各個(gè)初級(jí)學(xué)習(xí)器的輸出值是特征變量,而初始樣本的標(biāo)簽仍然是新數(shù)據(jù)集中對(duì)應(yīng)樣本的標(biāo)簽。對(duì)于一個(gè)待測(cè)樣本,初級(jí)學(xué)習(xí)器可預(yù)測(cè)出該樣本的所屬類別,然后將各個(gè)初級(jí)學(xué)習(xí)器的輸出值(預(yù)測(cè)完成的類別標(biāo)簽)作為次級(jí)學(xué)習(xí)器的輸入值傳入次級(jí)學(xué)習(xí)器,次級(jí)學(xué)習(xí)器即可輸出集成學(xué)習(xí)模型的最終預(yù)測(cè)結(jié)果。(3).學(xué)習(xí)法集成學(xué)習(xí)第
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 醫(yī)院臨床藥房禮儀與藥品服務(wù)
- 醫(yī)院護(hù)理禮儀與溝通
- 2026年保定職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性考試備考題庫(kù)有答案解析
- 護(hù)理學(xué)科交叉融合與挑戰(zhàn)
- 醫(yī)院檔案管理員檔案管理禮儀
- 護(hù)理崗位禮儀規(guī)范與實(shí)施
- 眼科疾病微創(chuàng)手術(shù)技術(shù)解析
- 2026年菏澤醫(yī)學(xué)專科學(xué)校高職單招職業(yè)適應(yīng)性測(cè)試模擬試題有答案解析
- 臨床檢驗(yàn)技術(shù)培訓(xùn)與規(guī)范
- 護(hù)理專業(yè)學(xué)生的臨床實(shí)習(xí)管理與評(píng)價(jià)
- 房產(chǎn)代持委托協(xié)議書
- 2025內(nèi)蒙古能源集團(tuán)智慧運(yùn)維公司運(yùn)維人員社會(huì)招聘105人筆試參考題庫(kù)附帶答案詳解
- 船廠安全生產(chǎn)管理制度
- 2024-2025學(xué)年上海青浦區(qū)高一上學(xué)期數(shù)學(xué)期末區(qū)統(tǒng)考試卷 (2025.01)(含答案)
- 《土木工程力學(xué)(本)》形考作業(yè)1-5參考答案
- 年度驗(yàn)證工作總結(jié)
- 運(yùn)輸管理組組長(zhǎng)安全生產(chǎn)崗位責(zé)任制模版(2篇)
- GB/T 44819-2024煤層自然發(fā)火標(biāo)志氣體及臨界值確定方法
- 毒理學(xué)中的替代測(cè)試方法
- 第四單元地理信息技術(shù)的應(yīng)用課件 【高效課堂+精研精講】高中地理魯教版(2019)必修第一冊(cè)
- 2023年版測(cè)量結(jié)果的計(jì)量溯源性要求
評(píng)論
0/150
提交評(píng)論