版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用數(shù)據(jù)挖掘(第二版)第七章集成學習of642高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用
集成學習是數(shù)據(jù)挖掘算法的一種,本質(zhì)上是將多個基學習器通過有效融合集成為一個強學習器,從而提高泛化精度。在人臉識別、NLP等領(lǐng)域有廣泛應用。圖像識別自然語言處理7.1集成學習的概念第七章集成學習7.2
Bagging算法與隨機森林算法7.3
Boosting算法3.1數(shù)據(jù)挖掘概述7.5多樣性習題7.4結(jié)合策略of643高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用7.6實戰(zhàn)案例
集成學習是在建立基學習器的基礎(chǔ)上進行有效融合集成形成強學習器,其中包括3個主要階段性工作:一是基學習器的構(gòu)建設(shè)計;二是基學習器的集成方法;三是基學習器結(jié)果的整合。7.1.1集成學習的構(gòu)建of6447.1集成學習的概念第七章集成學習
集成學習的兩個主要工作一般可以劃分為訓練和檢驗兩個階段。訓練階段是訓練形成集成模型,主要針對訓練樣本數(shù)據(jù)集,劃分多個基學習器按照一定的融合集成規(guī)則形成一個強學習器;檢驗階段是驗證調(diào)整集成模型,主要針對測試樣本數(shù)據(jù)集,對多個基學習器的預測結(jié)果按照一定的集成整合規(guī)則形成集成預測結(jié)果。7.1.1集成學習的構(gòu)建of6457.1集成學習的概念第七章集成學習7.1.1集成學習的構(gòu)建of6467.1集成學習的概念第七章集成學習同質(zhì)集成學習同質(zhì)集成學習是指基學習器的類型為同一類學習器,如都是決策樹的基分類器集成為強決策樹異質(zhì)集成學習異質(zhì)集成學習是不同類型的基學習器的集成,如決策樹與神經(jīng)網(wǎng)絡的集成,如疊加法(Sta按照基學習器的類型異同7.1.1集成學習的構(gòu)建of6477.1集成學習的概念第七章集成學習根據(jù)基學習器的生成順序串行組合經(jīng)典的集成學習方法Boosting及其改進的AdaBoosting、GDBT(GradientBoostingDecisionTree)并行組合Bagging及在此基礎(chǔ)上的隨機森林算法混合拓撲組合兩階段集成學習(Two-PhasesEnsembleLeaming,TPEL)是一種先串行后并行7.1.2集成學習的優(yōu)勢of6487.1集成學習的概念第七章集成學習兼聽則明,偏聽則暗三個臭皮匠,賽過諸葛亮7.1.2集成學習的優(yōu)勢of6497.1集成學習的概念第七章集成學習集成學習在統(tǒng)計上的有效性7.1.2集成學習的優(yōu)勢of64107.1集成學習的概念第七章集成學習集成學習在計算上的有效性7.1.2集成學習的優(yōu)勢of64117.1集成學習的概念第七章集成學習集成學習在表示上的有效性7.1.2集成學習的優(yōu)勢of64127.1集成學習的概念第七章集成學習集成學習的準確性二分類問題集成學習分類正確集成學習分類不正確的概率根據(jù)霍夫丁不等式,集成學習誤差7.1.2集成學習的優(yōu)勢of64137.1集成學習的概念第七章集成學習集成學習的準確性根據(jù)霍夫丁不等式,集成學習誤差集成學習誤差上限受到基學習器數(shù)量N和基學習器誤差
決定,當基學習器數(shù)量N越多時,誤差上限越??;當基學習器誤差
時,基學習器誤差越小,集成學習誤差上限越小。結(jié)論7.1.2集成學習的優(yōu)勢of64147.1集成學習的概念第七章集成學習集成學習的多樣性結(jié)論基學習器從數(shù)據(jù)集正確率樣本1樣本2樣本3C1√√×66.67%C2×√√66.67%C3√×√66.67%C4×√√66.67%集成學習EL1={C1、C2、C3},EL2={C2、C3、C4},觀察EL1中的C1、C2、C3,兩兩之間的相似度為33.33%,EL2中的C2、C3、C4中,C2與C4的相似度為100%,與C1的相似度為33.33%。
按照大數(shù)原則進行集成,EL1在數(shù)據(jù)集的分類精度(正確率)為100%,集成比基學習器精度都要高。然而,EL2在數(shù)據(jù)集的分類精度(正確率)為66.67%,與基學習器相當,集成并沒有提高預測效果。7.2Bagging算法與隨機森林算法第七章集成學習7.1集成學習的概念7.3
Boosting算法3.1數(shù)據(jù)挖掘概述7.5多樣性習題7.4結(jié)合策略of6415高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用7.6實戰(zhàn)案例of64167.2Bagging算法與隨機森林算法第七章集成學習Bagging算法是指通過引導程序使用一個訓練集的多個版本,即放回抽樣,每一個數(shù)據(jù)集都來訓練一個不同的模型,對訓練模型通過整合輸出形成一個最終的預測結(jié)果。1.基本概念
Bagging算法(引導聚集算法),又稱為裝袋算法。Bagging算法可與其他分類、回歸算法結(jié)合,在提高其在確率、穩(wěn)定性的同時,通過降低結(jié)果的方差,避免過擬合的發(fā)生。7.2.1Bagging算法基本思想of64177.2Bagging算法與隨機森林算法第七章集成學習2.數(shù)據(jù)樣本
對于M個樣本的數(shù)據(jù)集,按照有放回抽樣方式(BootstrapSample)隨機抽取m(m≤M)個樣本,經(jīng)過N次抽樣形成不同的數(shù)據(jù)集,每個數(shù)據(jù)集按照學習算法構(gòu)建基學習器,最后按照結(jié)合策略形成強學習器,這種強學習器就是將基學習器的學習結(jié)果組合形成最終學習結(jié)果。
有放回抽樣方式就是從我們的訓練集中采集固定個數(shù)的樣本,但是每采集一個樣本后,都將樣本放回。也就是說,之前采集到的樣本在放回后有可能繼續(xù)被采集到。對于Bagging算法,一般會隨機采集和訓練集樣本數(shù)M一樣個數(shù)的樣本m,即設(shè)定m=M。這樣得到的采樣集和訓練集樣本的個數(shù)相同,但是樣本內(nèi)容不同。如果我們對有m個樣本訓練集做N次的隨機采樣,則由于隨機性,N個采樣集各不相同。
7.2.1Bagging算法基本思想of64187.2Bagging算法與隨機森林算法第七章集成學習2.數(shù)據(jù)集劃分
對于M個樣本數(shù)據(jù)集,會存在36.8%的樣本不會被抽取到,這類數(shù)據(jù)可以作為包外數(shù)據(jù)(OutOfBag),可用作驗證集對泛化性能進行“包外估計”。7.2.1Bagging算法基本思想of64197.2Bagging算法與隨機森林算法第七章集成學習被抽到的訓練數(shù)據(jù)包外數(shù)據(jù)數(shù)據(jù)集36.8%1.算法流程
對于M個樣本數(shù)據(jù)集,會存在36.8%的樣本不會被抽取到,這類數(shù)據(jù)可以作為包外數(shù)據(jù)(OutOfBag),可用作驗證集對泛化性能進行“包外估計”。7.2.2Bagging算法流程of64207.2Bagging算法與隨機森林算法第七章集成學習2.算法特點
Bagging算法具有控制方差、性能高效、應用廣泛等優(yōu)點,通過多個基學習器在樣本抽樣上的多樣性,實現(xiàn)集成上的方差變小,提升泛化能力;通過并行對訓練數(shù)據(jù)集進行抽樣構(gòu)建基學習器,實現(xiàn)基學習器的并行構(gòu)建,提升集成學習模型的構(gòu)建效率,減少構(gòu)建消耗時間;Bagging算法中多個基學習器學習結(jié)果進行有效組合,可直接適用于分類問題和回歸預測,具有廣泛應用場景。從“偏差-方差分解”的角度看,Bagging算法主要關(guān)注降低方差,因此它在不剪枝決策樹、神經(jīng)網(wǎng)絡等易受樣本擾動的學習器上效用更為明顯。7.2.2Bagging算法流程of64217.2Bagging算法與隨機森林算法第七章集成學習1.算法概述
隨機森林(RandomForest,RF)算法是Bagging算法的一個擴展變體,是在以決策樹為基學習器構(gòu)建Bagging集成的基礎(chǔ)上,在決策樹的訓練過程中進一步引入了隨機屬性選擇。7.2.3隨機森林算法of64227.2Bagging算法與隨機森林算法第七章集成學習2.算法特點
隨機森林算法結(jié)構(gòu)簡單、容易實現(xiàn)、計算開銷小,并且在很多現(xiàn)實任務中展現(xiàn)出強大的性能,被譽為“代表集成學習技術(shù)水平的方法”。可以看出,隨機森林算法對Bagging集成學習只做了小改動,但是與Bagging算法中基學習器的“多樣性”僅通過樣本擾動(通過對初始訓練集采樣)而來不同,隨機森林算法中基學習器的多樣性不僅來自樣本擾動,還來自屬性擾動,這就使得最終集成的泛化性能可通過個體學習器之間差異度的增加而進一步提升。隨機森林算法可以處理高維數(shù)據(jù),模型的泛化能力較強,訓練模型時速度快、并行化,可以處理不平衡數(shù)據(jù),有包外數(shù)據(jù)(OOB)作為驗證數(shù)據(jù)集,對缺失值、異常值不敏感,模型訓練結(jié)果準確度高,具有Bagging算法能夠收斂于更小的泛化誤差等優(yōu)點。當數(shù)據(jù)噪聲比較大時,隨機森林算法會產(chǎn)生過擬合現(xiàn)象。7.2.3隨機森林算法of64237.2Bagging算法與隨機森林算法第七章集成學習7.3Boosting算法第七章集成學習7.1集成學習的概念7.2Bagging算法與隨機森林算法3.1數(shù)據(jù)挖掘概述7.5多樣性習題7.4結(jié)合策略of6424高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用7.6實戰(zhàn)案例
Boosting算法也是一種基于數(shù)據(jù)集重抽樣算法,與Bagging算法主要區(qū)別在于,需要動態(tài)調(diào)整訓練樣本中各數(shù)據(jù)權(quán)重,每一次迭代增加不能正確學習樣本權(quán)重,相對地降低了能被正確學習的樣本權(quán)重,從而提升在整個訓練樣本數(shù)據(jù)集上的學習正確率。of64257.3Boosting算法第七章集成學習1.算法流程
Boosting算法第一次構(gòu)建基學習器時給每一個訓練數(shù)據(jù)樣本賦予動態(tài)權(quán)重,加強分類錯誤樣本權(quán)重。在下一次,基學習器采用新的樣本權(quán)重進行隨機抽樣構(gòu)建新的基學習器并以此類推構(gòu)建多個基學習器,直到遞進生成的基學習器精度不再明顯提升或滿足精度需求,最后這多個基學習器形成一個精度較高的強學習器。7.3.1Boosting算法流程of64267.3Boosting算法第七章集成學習1.算法流程Boosting算法最典型的是Adaptive
Boosting算法,簡稱AdaBoost算法,其基本流程描述如下。強學習器。7.3.1Boosting算法流程of64277.3Boosting算法第七章集成學習2.算法特點為了提升集成模型的差異化,Boosting算法是一個逐步遞進的方法,每一個學習器都是前一個的通過調(diào)整樣本權(quán)重的改進模型,不存在兩個相同的基學習器。從“偏差-方差分解”的角度看,Boosting算法主要提升基學習器的準確率,降低偏差,因此,Boosting算法能基于泛化性能相當弱的學習器構(gòu)建出很強的集成。Boosting算法問題在于更多關(guān)注不能正確分類樣本數(shù)據(jù),對于邊界樣本會導致權(quán)重失衡,產(chǎn)生“退化問題”。7.3.1Boosting算法流程of64287.3Boosting算法第七章集成學習1.BoostingTree算法
BoostingTree算法是以分類樹或回歸樹為基本分類器的提升方法。該方法實際采用加法模型(基函數(shù)的線性組合)與前向分步算法。對分類問題決策樹是二叉分類樹,對回歸問題決策樹是二叉回歸樹。
對于二分類問題,提升樹分類算法只需將AdaBoost算法中的基本分類器限制為二類分類樹即可,這時的提升樹分類算法可以說是AdaBoost算法的特殊情況。7.3.2Boosting系列算法of64297.3Boosting算法第七章集成學習2.GBDT算法
GBDT(GradientBoostingDecisionTree)又叫MART(MultipleAdditiveRegressionTree),是一種迭代的決策樹算法,該算法由多棵決策樹組成,所有樹的預測結(jié)果集成后得到結(jié)論,是Boosting系列算法之一。它在被提出之初就和支持向量機一起被認為是泛化能力較強的算法。
作為GBDT基學習器的決策樹是回歸樹,而不是分類樹,GBDT用來做回歸預測,調(diào)整后也可以用于分類。
GBDT的核心思想在于,每一棵決策樹學的是之前所有決策樹結(jié)論和的殘差,這個殘差就是一個加預測值后能得真實值的累加量。7.3.2Boosting系列算法of64307.3Boosting算法第七章集成學習3.XGBoost算法
XGBoost(eXtremeGradientBoosting)是經(jīng)過優(yōu)化的分布式梯度提升庫,旨在高效、靈活且可移植。XGBoost是大規(guī)模并行BoostingTree的工具,它是目前最快最好的開源BoostingTree工具包,比常見的工具包快10倍以上。
XGBoost算法和GBDT算法兩者都是Boosting算法,除工程實現(xiàn)、解決問題上的一些差異外,最大的不同就是目標函數(shù)的定義。XGBoost算法的改進是在求解損失函數(shù)極值時使用了牛頓法,將損失函數(shù)泰勒展開到二階,另外損失函數(shù)中加入了正則化項。訓練時的目標函數(shù)由兩部分構(gòu)成,第一部分為梯度提升算法損失,第二部分為正則化項。7.3.2Boosting系列算法of64317.3Boosting算法第七章集成學習7.4結(jié)合策略第七章集成學習7.1集成學習的概念7.2Bagging算法與隨機森林算法7.5多樣性習題7.3Boosting算法of6432高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用7.6實戰(zhàn)案例
典型集成學習描述了如何通過訓練樣本數(shù)據(jù)得到基學習器,下面我們關(guān)注集成學習的檢驗階段,即如何將各基學習器的預測結(jié)果進行有效整合集成形成集成學習預測結(jié)果并進行檢驗。基學習器的整合方式可以分為3個層次,即決策層次輸出、排序?qū)哟屋敵龊投攘繉哟屋敵?。基學習器結(jié)果集成屬于決策層次集成,一般包括兩大類集成方法,即投票方法(Voting)和疊加方法(Stacking)。of64337.4結(jié)合策略第七章集成學習
投票方法是指對各基學習器的分類結(jié)果按照某種原則進行投票表決,得到集成預測分類結(jié)果。投票方法可分為普通投票和貝葉斯投票兩種。普通投票方法可以分為均等投票和賦權(quán)投票兩類,賦權(quán)投票是給投票專家賦予不同權(quán)重,均等投票則是以相同權(quán)重進行投票,可以將均等投票視作各專家投票權(quán)重的特殊情況。根據(jù)應用背景需求,按投票原則又可以分為一票否決、一致表決、大數(shù)原則和閥值表決等。對于回歸問題,可以通過平均值、加權(quán)求和、中位數(shù)、最大數(shù)等方式進行整合。貝葉斯投票是根據(jù)每個基學習器的歷史分類表現(xiàn)通過貝葉斯定理賦予不同的權(quán)重,根據(jù)各基學習器的權(quán)重進行投票。由于不能覆蓋各基學習器的所有樣本空間,且不能正確給出各基學習器的先驗概率,貝葉斯投票的效能不及普通投票的效能。7.4.1投票方法Votingof64347.4結(jié)合策略第七章集成學習
Stacking算法是1992年Worlpert提出的StackedGeneralization的學習模型,對基學習器的學習結(jié)果進行再集成得到集成模型預測結(jié)果。往往采用Leave-One-Out的交叉驗證(CrossValidation,CV)方法訓練基學習器,將各基學習器的訓練結(jié)果和原數(shù)據(jù)集D中的樣本x綜合起來,作為強學習器的輸入訓練實例,訓練學習得到最終預測結(jié)果。7.4.2疊加方法Stackingof64357.4結(jié)合策略第七章集成學習7.5多樣性第七章集成學習7.1集成學習的概念7.2Bagging算法與隨機森林算法7.4結(jié)合策略習題7.3Boosting算法of6436高級大數(shù)據(jù)人才培養(yǎng)叢書之一,大數(shù)據(jù)挖掘技術(shù)與應用7.6實戰(zhàn)案例
基學習器的準確性和相互之間的多樣性,對于集成學習的泛化精度(泛化能力和預測精度)具有重要意義?;鶎W習器的準確性高于隨機猜想(精度高于0.5)即可通過集成得到較好預測效果,如何度量和構(gòu)建基學習器之間的多樣性則是提升集成學習泛化能力的重要途徑和方式。of64377.5多樣性第七章集成學習
集成學習多樣性是指參與集成的基學習器之間的多樣性。多樣性是融合了基學習器的差異性、獨立性和互補性的泛化概念。差異性主要體現(xiàn)在學習器的相互區(qū)別獨立性主要體現(xiàn)在學習器間的相互不關(guān)聯(lián)程度互補性體現(xiàn)在集成學習器中對全集的覆蓋程度7.5.1多樣性的概念of64387.5多樣性第七章集成學習
學習器的差異性主要是學習器在數(shù)據(jù)樣本、特征屬性和算法參數(shù)3個方面的差異性,本質(zhì)是在訓練和測試數(shù)據(jù)樣本上具有的不同預測表現(xiàn)。
學習器的獨立性用于描述對于同一測試樣本數(shù)據(jù)一組(兩個或多個)學習器的不關(guān)聯(lián)程度,一般用分類錯誤概率的相關(guān)程度來描述。
學習器的互補性是指在全體測試數(shù)據(jù)集上任一樣本數(shù)據(jù)均存在一個學習器能夠正確予以分類。7.5.1多樣性的概念of64397.5多樣性第七章集成學習差異性獨立性互補性
學習器的差異性主要是學習器在數(shù)據(jù)樣本、特征屬性和算法參數(shù)3個方面的差異性,本質(zhì)是在訓練和測試數(shù)據(jù)樣本上具有的不同預測表現(xiàn)。
學習器的獨立性用于描述對于同一測試樣本數(shù)據(jù)一組(兩個或多個)學習器的不關(guān)聯(lián)程度,一般用分類錯誤概率的相關(guān)程度來描述。
7.5.2多樣性的作用of64407.5多樣性第七章集成學習Bias-Variance分解Error-Ambiguity分解
7.5.3多樣性的度量of64417.5多樣性第七章集成學習不合度量相關(guān)系數(shù)Q-統(tǒng)計量
7.5.3多樣性的度量of64427.5多樣性第七章集成學習k-統(tǒng)計量雙次失敗度量基于熵的度量
7.5.3多樣性的度量of64437.5多樣性第七章集成學習KW-方差難度度量廣義多樣性度量一致失效多樣性度量7.5.3多樣性的度量of64447.5多樣性第七章集成學習7.5.4多樣性的構(gòu)建of64457.5多樣性第七章集成學習7.5.4多樣性的構(gòu)建of64467.5多樣性第七章集成學習(1)數(shù)據(jù)重抽樣構(gòu)建相異數(shù)據(jù)集。通過在訓練數(shù)據(jù)集上的樣本重抽樣方法,如典型的BootstrapSampling方法構(gòu)建數(shù)據(jù)集,并使用敏感學習器,如ID3、C4.5等,從而構(gòu)建出多樣性的基學習器。采用這種多樣性構(gòu)建的集成學習算法包括Bagging、AdaBoost等集成學習算法,以及基于Bagging的改進算法DECORATE。(2)特征選擇構(gòu)建不同的特征子集。當數(shù)據(jù)集特征數(shù)較多時,如高維數(shù)據(jù)集,可以通過特征選擇方法構(gòu)建多個不同的特征子集,并據(jù)此構(gòu)建多樣性的基學習器、對于特征選擇構(gòu)建多樣性基學習器,一般基學習器應當采用穩(wěn)定的學習器,如貝葉斯分類器,聚類算法學習器等。(3)構(gòu)建不同結(jié)構(gòu)的基學習器。對于同質(zhì)學習器可以使用不同的算法參數(shù),如分類樹中的深度、剪裁條件等,聚類算法中距離、核等。對于異質(zhì)學習器目前尚缺乏統(tǒng)一多樣性度量和構(gòu)建方法。(4)采用動態(tài)的基學習器結(jié)合方法。與前述3種方法構(gòu)建多樣性的基學習器不同,動態(tài)結(jié)合方法是在集成學習的基學習器結(jié)合階段,
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 格林酒店財務制度
- 深圳總工會財務制度
- 襄陽電梯協(xié)會財務制度
- 兩人公司合作財務制度
- 公司食堂財務制度
- 企業(yè)銷售財務制度
- 農(nóng)藥產(chǎn)品進貨查驗制度
- 瑯琊臺薪酬管理制度研究(3篇)
- 企業(yè)抖音櫥窗管理制度(3篇)
- 底板破除施工方案(3篇)
- 統(tǒng)編版2024八年級上冊道德與法治第一單元復習課件
- 園林綠化養(yǎng)護日志表模板
- 電池回收廠房建設(shè)方案(3篇)
- 《建筑工程定額與預算》課件(共八章)
- 鐵路貨運知識考核試卷含散堆裝等作業(yè)多知識點
- 幼兒游戲評價的可視化研究
- 跨區(qū)銷售管理辦法
- 金華東陽市國有企業(yè)招聘A類工作人員筆試真題2024
- 2025年6月29日貴州省政府辦公廳遴選筆試真題及答案解析
- 管培生培訓課件
- 送貨方案模板(3篇)
評論
0/150
提交評論