數(shù)據(jù)挖掘與數(shù)據(jù)分析 第六章課后習(xí)題及答案_第1頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第六章課后習(xí)題及答案_第2頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第六章課后習(xí)題及答案_第3頁
數(shù)據(jù)挖掘與數(shù)據(jù)分析 第六章課后習(xí)題及答案_第4頁
全文預(yù)覽已結(jié)束

付費下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)

文檔簡介

第六章課后習(xí)題答案詳解1.試闡述隨機(jī)森林算法原理。答:Bagging是一種在原始數(shù)據(jù)集上通過有放回抽樣重新選出k個新數(shù)據(jù)集來訓(xùn)練分類器的集成技術(shù)。它使用訓(xùn)練出來的分類器的集合來對新樣本進(jìn)行分類,然后用多數(shù)投票或者對輸出求均值的方法統(tǒng)計所有分類器的分類結(jié)果,結(jié)果最高的類別即為最終標(biāo)簽。此類算法可以有效降低偏差和方差。隨機(jī)森林在bagging和決策樹的基礎(chǔ)上實現(xiàn),在這二者之上進(jìn)行了改進(jìn)。隨機(jī)森林使用的弱學(xué)習(xí)器為決策樹,各個決策樹之間沒有依賴關(guān)系,可以并行生成。普通的決策樹在節(jié)點上所有的n個樣本特征中選擇一個最優(yōu)的來進(jìn)行決策樹的分割,而隨機(jī)森林則是選擇節(jié)點上的一部分特征(特征個數(shù)小于n,選擇的特征個數(shù)越少,則模型越為健壯)。然后在隨機(jī)選擇的部分特征中選擇一個最優(yōu)的特征來進(jìn)行樹的分割(雙層選擇),這樣可以進(jìn)一步增強(qiáng)模型的泛化能力。輸入:樣本集;弱分類器迭代次數(shù)T輸出:強(qiáng)分類器步驟:(1)對于t=1,2...,T:a)對訓(xùn)練集進(jìn)行第t次隨機(jī)采樣,共采集m次,得到包含m個樣本的采樣集b)用不同的采樣集分別訓(xùn)練決策樹模型,在訓(xùn)練決策樹模型的節(jié)點的時候,在節(jié)點上所有的樣本特征中選擇部分樣本特征,然后在部分特征中選擇一個最優(yōu)的特征分割決策樹。(2)如果是分類算法預(yù)測,則T個弱學(xué)習(xí)器投出最多票數(shù)的類別或者類別之一為最終類別。如果是回歸算法,T個弱學(xué)習(xí)器得到的回歸結(jié)果進(jìn)行算術(shù)平均得到的值為最終的模型輸出。孤立森林借鑒于隨機(jī)森林,但是與隨機(jī)森林方法存在一定的差異,請試著闡述這些差異。答:兩者有下述幾點差異:(1)隨機(jī)森林是有監(jiān)督學(xué)習(xí),隔離森林是無監(jiān)督學(xué)習(xí)。(監(jiān)督指的是數(shù)據(jù)沒有明確歸類標(biāo)簽的,也就是預(yù)期結(jié)果的意思。)(2)孤立森林對于每一個決策樹的建立,均采用隨機(jī)選擇的方法確定劃分特征,并對劃分特征隨機(jī)選擇一個劃分閾值,這與隨機(jī)森林存在區(qū)別,隨機(jī)森林是從特征的隨機(jī)子集中選擇一個特征。隨機(jī)森林有哪些優(yōu)勢和劣勢。答:隨機(jī)森林的優(yōu)劣勢如下:(1)隨機(jī)森林優(yōu)點:①隨機(jī)森林能夠處理很高維度的數(shù)據(jù),由于特征子集是隨機(jī)選擇的,所以不用做特征選擇。②在創(chuàng)建隨機(jī)森林的時候,對generlizationerror使用的是無偏估計,模型泛化能力強(qiáng)。③訓(xùn)練速度快,容易做成并行化方法,可以大大提升訓(xùn)練速度。④對于不平衡的數(shù)據(jù)集來說,隨機(jī)森林模型可以平衡誤差。⑤由于隨機(jī)森林采用了隨機(jī)采樣,訓(xùn)練出的模型的方差較小,從而具有更強(qiáng)的泛化能力。⑥隨機(jī)森林模型對部分特征缺失不敏感,因此,允許原始數(shù)據(jù)集中存在一定的數(shù)據(jù)缺失,具有較強(qiáng)的魯棒性。隨機(jī)森林缺點①隨機(jī)森林模型在某些噪音比較大的數(shù)據(jù)集上,容易陷入過擬合,使得模型在新的數(shù)據(jù)集上的預(yù)測或分類性能表現(xiàn)差。②隨機(jī)森林模型對于取值劃分比較多的特征對應(yīng)的數(shù)據(jù)集不易產(chǎn)生令人滿意的模型擬合效果。試著利用開源數(shù)據(jù)集,在R下對隨機(jī)森林模型進(jìn)行實踐。答:讀取數(shù)據(jù):#1.數(shù)據(jù)導(dǎo)入#相關(guān)庫導(dǎo)入library(data.table)library(C50)library(splitstackshape)library(rattle)library(rpart.plot)library(knitr)#使用iris數(shù)據(jù)集根據(jù)花萼花瓣的長度和寬度預(yù)測鳶尾花的屬種Data_iris<-irishead(Data_iris)輸出:str(Data_iris)輸出:table(Data_iris$Species)輸出:數(shù)據(jù)預(yù)處理:#數(shù)據(jù)預(yù)處理#加上一列ID方便分離訓(xùn)練集和測試集Data_iris$ID<-c(1:nrow(Data_iris))#由于iris數(shù)據(jù)集較簡單直接使用,用四個自變量來預(yù)測屬種,不需要進(jìn)行屬性篩選#檢查數(shù)據(jù)集中是否有缺失值sum(is.na(Data_iris))輸出:0#結(jié)果為0,數(shù)據(jù)集中無缺失項,同時樣本容量為150不需要進(jìn)行分層抽樣#劃分訓(xùn)練集和數(shù)據(jù)集set.seed(432)#第一種獲取訓(xùn)練集方式:使用分層抽樣的方式獲取訓(xùn)練樣本#train_data<-stratified(Data_iris,group=c('Species'),size=35,replace=FALSE)#第二種獲取訓(xùn)練集方式:隨機(jī)抽樣train_data<-Data_iris[sample(nrow(Data_iris),size=nrow(Data_iris)*(0.7),replace=FALSE,prob=NULL),]train_data<-as.data.frame(train_data)test_data<-Data_iris[!(Data_iris$ID%in%train_data$ID),]隨機(jī)森林訓(xùn)練:#隨機(jī)森林訓(xùn)練#導(dǎo)入相關(guān)庫library(gmodels)library(caret)control<-trainControl(method="repeatedcv",number=5,repeats=4)#RandomForest,Species為因變量,其余做自變量迭代次數(shù)為4次set.seed(100)rfModel<-train(Species~Sepal.Length+Sepal.Width+Petal.Length+Petal.Width,data=train_data,method="rf",trControl=control)模型驗證:#隨機(jī)森林模型驗證special_test_rf<-predict(rfModel,test_data)CrossTable(test_data$Species,special_test_rf,

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論