《機器學習項目案例開發(fā)》課件 9.2決策樹-構造_第1頁
《機器學習項目案例開發(fā)》課件 9.2決策樹-構造_第2頁
《機器學習項目案例開發(fā)》課件 9.2決策樹-構造_第3頁
《機器學習項目案例開發(fā)》課件 9.2決策樹-構造_第4頁
《機器學習項目案例開發(fā)》課件 9.2決策樹-構造_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領

文檔簡介

人工智能技術與應用9.決策樹課程概況—基本情況PART01決策樹算法構造衡量標準樹的組成衡量標準衡量標準節(jié)點選擇-信息增益二分類問題的熵:

不確定性越大,得到的熵值也就越大

當p=0或p=1時,H(p)=0,隨機變量完全沒有不確定性

當p=0.5時,H(p)=1,此時隨機變量的不確定性最大如何決策一個節(jié)點的選擇信息增益:表示特征X使得類Y的不確定性減少的程度(分類后的專一性,希望分類后的結(jié)果是同類在一起)決策樹的概念決策樹構建實例:數(shù)據(jù):是近兩周(14天)的打球情況,特征為天氣表現(xiàn)、溫度、適度、是否有風4種不同的環(huán)境,特征:outlook天氣、temperature溫度、humidity濕度、windy有風、目標:怎么選擇分類的特征,構造決策樹決策樹的概念根節(jié)點選擇問題:4種劃分方式

那個特征是根節(jié)點判斷依據(jù)是什么信息增益樹的組成信息增益:求熵:在14天的數(shù)據(jù)中,有9天有打球,5天沒有打球。所以此時的熵為:按照outlook特征分類計算熵樹的組成

樹的組成常用的決策樹算法:ID3:信息增益(有什么問題呢?)C4.5:信息增益率(解決ID3問題,考慮自身熵)CART:使用GINI系數(shù)來當做衡量標準GINI系數(shù):(和熵的衡量標準類似,計算方式不相同)

C4.5信息增益率對于IV而言,a分類數(shù)目越多,IV值越大樹的組成信息增益:計算其他的信息增益:????????(outlook)=0.247????????(temperature)=0.029

????????(windy)=0.048????????(humidity)=0.152一般而言,信息增益越大,則表示使用特征

對數(shù)據(jù)集劃分所獲得的“純度提升”越大。所以信息增益可以用于決策樹劃分屬

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論