圖說圖解機器學習(第2版) 課件 11. 決策樹_第1頁
圖說圖解機器學習(第2版) 課件 11. 決策樹_第2頁
圖說圖解機器學習(第2版) 課件 11. 決策樹_第3頁
圖說圖解機器學習(第2版) 課件 11. 決策樹_第4頁
圖說圖解機器學習(第2版) 課件 11. 決策樹_第5頁
已閱讀5頁,還剩54頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

人工智能基礎

--

決策樹大綱決策樹簡介防止過擬合提高準確性和健壯性KNIME實現(xiàn)大綱決策樹簡介決策樹簡介決策樹也叫分類樹或回歸樹。葉子節(jié)點給出分類內部節(jié)點代表某個特征。分支代表某個決策規(guī)則通常采用自上而下的方法,在每一步選擇一個最好的屬性來分裂。"最好"的定義是使得子節(jié)點中的訓練集盡量的純。不同的算法使用不同的指標來定義"最好"。男性?十歲以上?死亡有兄弟姐妹或者配偶?死亡幸存幸存是否是否否是Male?Agedover10?DeathSiblingsorspouse?DeathSurviveSurviveYNYNNY決策樹簡介決策樹優(yōu)點:易于理解、易于解釋可視化決策樹缺點:容易過擬合。如果某些類別占據(jù)主導地位,則決策樹學習器構建的決策樹會有偏差。因此推薦做法是在數(shù)據(jù)集與決策樹擬合之前先使數(shù)據(jù)集保持均衡。

大綱防止過擬合什么情況是過擬合紅色測試數(shù)據(jù),綠色訓練數(shù)據(jù)紅色訓練數(shù)據(jù),綠色測試數(shù)據(jù)AB提交損失函數(shù)單選題2分防止過擬合過擬合樹深度損失其他數(shù)據(jù)訓練數(shù)據(jù)0防止過擬合過擬合防止過擬合樹與過擬合d防止過擬合樹與過擬合需要這么深的樹嗎?防止過擬合樹與過擬合1.

需要這么深的樹嗎?3.

樣本數(shù)目會不會太少了2.

錯誤率下降的夠快嗎你認為什么情況容易發(fā)生過擬合樹太深樹太淺和樹沒關系不知道ABCD提交單選題2分防止過擬合樹深度(d)與判定邊界d=1d=2d=4d=7防止過擬合樹深度(d)與判定邊界1247樹深度損失函數(shù)其他數(shù)據(jù)訓練數(shù)據(jù)防止過擬合根據(jù)深度提前結束不要讓樹長到最大,不要細節(jié)劃分過于細致深度d到底多少為好呢?樹深度損失函數(shù)其他數(shù)據(jù)訓練數(shù)據(jù)防止過擬合提前結束不要讓樹長到最大,不要細節(jié)劃分過于細致深度d到底多少為好呢?樹深度損失函數(shù)其他數(shù)據(jù)訓練數(shù)據(jù)可以是測試數(shù)據(jù)嗎?防止過擬合測試集:絕對禁止使用測試數(shù)據(jù)進行訓練測試集要對模型的整個訓練學習過程保持完全的徹底的無知!訓練的時候絕對不能使用測試集!樹深度損失函數(shù)其他數(shù)據(jù)訓練數(shù)據(jù)可以是測試數(shù)據(jù)嗎?防止過擬合驗證集為了找到一個更好的d,需要添加另外一個集合

驗證集訓練集(60%)驗證集(20%)測試集(20%)防止過擬合驗證集d就是一個超參數(shù)訓練集(60%)驗證集(20%)測試集(20%)不能通過訓練由模型學習到的參數(shù)叫做超參數(shù)

HyperParameter訓練模型參數(shù)尋找好的超參數(shù)測試模型樹深度損失函數(shù)驗證集訓練集閾值太低容易過擬合欠擬合AB提交錯誤率閾值錯誤率驗證集訓練集單選題1分防止過擬合限制樹的深度可能有一個問題有的分支可能深一些更好根據(jù)錯誤率決定是否結束如果錯誤率降低小于閾值,停止錯誤率閾值錯誤率驗證集訓練集防止過擬合還有很多情況,數(shù)據(jù)分類到一定時候,數(shù)據(jù)量已經(jīng)很少,不具備足夠的代表性了,結束樣本數(shù)閾值損失函數(shù)驗證集訓練集防止過擬合提前結束限制樹深度:一定深度后停止分類錯誤:如果不能有效降低分類錯誤就停止分裂節(jié)點最小樣本數(shù):如果節(jié)點包含過少節(jié)點就停止分裂節(jié)點(一定要做)防止過擬合提前結束優(yōu)點:不需要完全展開所有數(shù)據(jù),速度快缺點:可能結束太早,導致欠擬合(過擬合的反面)

超參數(shù)損失函數(shù)驗證集測試集怎么可能找不到?你以為實際是這樣的?防止過擬合提前結束優(yōu)點:不需要完全展開所有數(shù)據(jù),速度快缺點:可能結束太早,導致欠擬合(過擬合的反面)

超參數(shù)損失函數(shù)驗證集測試集其實比這個還難看?。。。???防止過擬合提前結束優(yōu)點:不需要完全展開所有數(shù)據(jù),速度快缺點:可能結束太早,導致欠擬合(過擬合的反面)剪枝解決欠擬合問題提前結束也叫:預剪枝這里說的剪枝也叫:后剪枝防止過擬合剪枝pruning:把細枝末節(jié)剪掉,防止陷入細節(jié)先將這棵樹長出來,再修剪掉不需要的??防止過擬合剪枝pruning:把細枝末節(jié)剪掉,防止陷入細節(jié)父節(jié)點錯誤率比子節(jié)點少,剪掉子節(jié)點0.40.30.60.70.80.60.40.30.20.4此節(jié)點錯誤率子節(jié)點平均錯誤率錯誤率更大了,剪除大綱提高準確性和健壯性對比左右兩圖,哪一個更可能是過擬合左邊右邊AB提交單選題2分假設右圖沒有過擬合發(fā)生,左圖會比右圖情況差在哪里結果不準結果受到參入變化影響大AB提交單選題2分假設左圖沒有欠擬合發(fā)生,右圖會比左圖情況差在哪里結果不準結果受到參入變化影響大AB提交單選題2分提高準確性和健壯性簡單了不準,復雜了也不準,怎么辦三個臭皮匠賽過諸葛亮可能嗎?弱分類器可以組合成強分類器嗎?弱分類器:簡單的模型決策樹優(yōu)化方法組合算法ensemble:提高準確率和健壯性袋裝Bagging:隨機森林:類似袋裝進行抽樣,而且對特征也進行抽樣,提升boosting:與裝袋類似,基本思想方法都是把多個弱分類器集成成強分類器。在數(shù)據(jù)量不足的情況下極其適用組合算法弱分類器組合成為強分類器三個臭皮匠賽過諸葛亮Boostrap(自助抽樣):隨機有放回的抽樣????????????????????????????????????????????????自助抽樣:隨機拿出來,沒吃,又放回去了組合算法袋裝(Bagging,Bootstrap

Aggregating):自助抽樣n個樣本集,建立n個決策樹模型,然后投票兄弟姐妹分別工作然后少數(shù)服從多數(shù)投票決定??????????????????????????????????????????????????每個模型權重一樣袋裝使用多少個模型奇數(shù)個偶數(shù)個AB提交單選題1分組合算法堆疊(Stacking):自助抽樣n個樣本集,建立n個決策樹模型,然后再用一個“集成者”決定聽取各方意見做決策??????????????????????????????????????????????????每個模型權重一樣集成者組合算法袋裝雖然每個模型方差很大,但是綜合起來方差很小組合算法隨機森林:類似袋裝進行自助抽樣,而且對特征也進行抽樣,每次抽m個特征(m一般為所有特征的平方根)防止特征之間的相關兄弟姐妹分別工作然后少數(shù)服從多數(shù)投票決定??????????????????????????????????????????????????隨機森林使用多少個模型奇數(shù)個偶數(shù)個AB提交單選題1分組合算法提升boosting:與裝袋類似,基本思想方法都是把多個弱分類器集成成強分類器。不過與裝袋不同,裝袋的每一步都是獨立抽樣提升每一次迭代則是基于前一次的數(shù)據(jù)進行修正,提高前一次模型中分錯樣本在下次抽中的概率子承父業(yè),不斷做大??????????????????????????????????????????????????提升使用多少個模型奇數(shù)個偶數(shù)個無所謂不知道ABCD提交單選題1分組合算法提升(Adaboost

為例)組合算法提升(Adaboost

為例)增大錯誤數(shù)據(jù)的權重f1組合算法提升(Adaboost

為例)根據(jù)新的權重重新劃分盡量將權重大數(shù)據(jù)的劃分正確f2組合算法提升(Adaboost

為例)w1*f1w2*f2模型權重w:模型越好權重越大數(shù)據(jù)權重:劃分錯誤權重大+=肯定沒問題不確定適當數(shù)量的弱分類器可以組成強分類器f組合算法提升(Adaboost

為例)w1*f1w2*f2++。。。。。。f=增多弱分類器的數(shù)目,提高準確率大綱KNIME實現(xiàn)KNIME實現(xiàn)使用KNIME建立模型分析泰坦尼克號KNIME實現(xiàn)使用驗證集小結&提問決策樹每一步選擇最好的屬性分裂決策樹優(yōu)化可以采?。杭糁徒M合算法??????????????????????????????????????????????????0??1??????模型理解程度:線性回歸理解較好大概理

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論