機(jī)器學(xué)習(xí)實(shí)戰(zhàn)11-adaboost元算法_第1頁
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)11-adaboost元算法_第2頁
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)11-adaboost元算法_第3頁
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)11-adaboost元算法_第4頁
機(jī)器學(xué)習(xí)實(shí)戰(zhàn)11-adaboost元算法_第5頁
已閱讀5頁,還剩16頁未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

1、Machine Perception and Interaction Group (MPIG) .cn 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(11)陳洪云MPIG Open Seminar 0183公眾號(hào):mpig_robotAdaBoost元算法(下)示例:在一個(gè)難數(shù)據(jù)集上應(yīng)用Adaboost收集數(shù)據(jù):提供的文本文件準(zhǔn)備數(shù)據(jù):確保類別標(biāo)簽是+1和-1 分析數(shù)據(jù):手工檢查數(shù)據(jù)訓(xùn)練算法:在數(shù)據(jù)上,用adaBoostTrainDS()函數(shù)訓(xùn)練出一系列的分類器測試算法:我們擁有兩個(gè)數(shù)據(jù)集。在不采用隨機(jī)抽樣的方法下,我們就可以對(duì)AdaBoost和Logistics回歸的結(jié)果進(jìn)行完全對(duì)等的比較使用算法:觀察該例子上的錯(cuò)誤率自適

2、應(yīng)數(shù)據(jù)加載函數(shù)def loadDataSet(fileName): numFeat = len(open(fileName).readline().split(t) dataMat = labelMat = fr = open(fileName) for line in fr.readlines(): lineArr = curLine = line.strip().split(t) for i in range(numFeat - 1): lineArr.append(float(curLinei) dataMat.append(lineArr) labelMat.append(float(

3、curLine-1) return dataMat, labelMatdataArr, LabelArr = loadDataSet(horseColicTraining2.txt)weakClassArr, aggClassEst = adaBoostTrainDS(dataArr, LabelArr,40)print(weakClassArr)predictions = adaClassify(dataArr, weakClassArr)errArr = np.mat(np.ones(len(dataArr), 1)print(訓(xùn)練集的錯(cuò)誤率:%.3f% % float(errArrpre

4、dictions != np.mat(LabelArr).T.sum() / len(dataArr) * 100)觀察測試錯(cuò)誤率一欄,就會(huì)發(fā)現(xiàn)測試錯(cuò)誤率在達(dá)到了最小值之后又開始上升,這種現(xiàn)象稱之為過擬合。表1 不同弱分類器數(shù)目情況下的AdaBoost測試和分類錯(cuò)誤率非均衡分類問題 非均衡分類問題是指在分類器訓(xùn)練時(shí)正例數(shù)目和反例數(shù)目不相等(相差很大),錯(cuò)分正例和錯(cuò)分反例的代價(jià)也不同。實(shí)例:檢測患疝病的馬匹是否存活的系統(tǒng)過濾垃圾郵件系統(tǒng)癌癥檢測分類性能度量指標(biāo)分類性能指標(biāo):正確率、召回率及ROC曲線一般情況下,都是基于錯(cuò)誤率來衡量分類器任務(wù)的成功程度,錯(cuò)誤率是指在所有測試樣例中錯(cuò)分的樣例比例。實(shí)

5、際上,這樣的度量錯(cuò)誤掩蓋了樣例如何被分錯(cuò)的事實(shí)。在機(jī)器學(xué)習(xí)中,有一個(gè)普遍適用的工具-混淆矩陣(confusion matrix),它可以幫助人們更好的了解分類中的錯(cuò)誤。表2 一個(gè)三類問題的混淆矩陣表3 一個(gè)二類問題的混淆矩陣正確率(Precision):TP/(TP+FP) 表示預(yù)測為正例的樣本中的真正正例的比例召回率(Recall):TP/(TP+FN) 表示預(yù)測為正例的真實(shí)正例占所有真實(shí)正例的比例。另一個(gè)度量標(biāo)準(zhǔn):ROC曲線(ROC curve),ROC代表接收者操作特征(receiver operating characteristic),最早在二戰(zhàn)期間用于構(gòu)建雷達(dá)系統(tǒng)。圖1 利用10個(gè)

6、單層決策樹的AdaBoost馬疝病檢測系統(tǒng)的ROC曲線 ROC曲線不但可以用于比較分類器,還可以基于成本效益分析來做出決策。對(duì)不同的ROC曲線進(jìn)行比較的一個(gè)指標(biāo)是曲線下的面積(Area Unser the Curve ,AUC),AUC給出的是分類器的平均性能值,當(dāng)然它并不能完全代替對(duì)整條曲線的觀察。一個(gè)完美分類器的AUC是1 ,而隨機(jī)猜測的AUC則為0.5def plotROC(predStrengths,classLabels): cur = (1.0,1.0) ySum = 0.0 numPosClas = sum(array(classLabels) = 1.0) yStep = 1/

7、float(numPosClas) xStep = 1/float(len(classLabels)-numPosClas) sortedIndicies = predStrengths.argsort() fig = plt.figure() fig.clf() ax = plt.subplot(111) for index in sortedIndicies.tolist()0: if classLabelsindex = 1.0: delX = 0;delY = yStep; else: delX = xStep;delY = 0; ySum += cur1 ax.plot(cur0,c

8、ur0-delX,cur1,cur1-delY,c = b) cur = (cur0-delX,cur1-delY)ax.plot(0,1,0,1,b-)plt.xlabel(False Positive Rate);plt.ylabel(True Positive Rate)plt.title(ROC curve for Adaboost Horse Colic Detection System)ax.axis(0,1,0,1)plt.show()print the Area Under the Curve is: ,ySum*xStep圖2 利用40個(gè)單層決策樹的AdaBoost馬疝病檢測

9、系統(tǒng)的ROC曲線基于代價(jià)函數(shù)的分類器決策控制除了調(diào)節(jié)分類器的閾值之外,我們還有一些其他可以用于處理非均勻分類代價(jià)問題的方法,其中的一種稱之為代價(jià)敏感的學(xué)習(xí)(cost-sensitive learning)在分類算法中,有很多方法可以用來引入代價(jià)信息AdaBoost中,可以基于代價(jià)函數(shù)來調(diào)整錯(cuò)誤向量權(quán)重D在樸素貝葉斯中,可以選擇具有最小期望代價(jià)而不是最大概率的類別作為最后的結(jié)果在SVM中,可以在代價(jià)函數(shù)中對(duì)于不同的類別選擇不同的參數(shù)C處理非均衡問題的數(shù)據(jù)抽樣方法另外一種針對(duì)非均衡問題調(diào)節(jié)分類器 的方法,就是對(duì)分類器的訓(xùn)練數(shù)據(jù)進(jìn)行改造。這可以通過欠抽樣或者過抽樣來實(shí)現(xiàn)。過抽樣意味著復(fù)制樣例,而欠抽樣意味著刪除樣例。不管采用哪種方式,數(shù)據(jù)都會(huì)從原始形式改造為新形式。抽樣過程則可以通過隨機(jī)抽樣或者某個(gè)預(yù)定方式來實(shí)現(xiàn)。本章小結(jié)集成方法通過組合多個(gè)分類器的分類結(jié)果,獲得了比簡單的單分類器更好的分類結(jié)果。有一些利用不同分類器的集成方法,但是本章只介紹了那些同一類分類器的集成方法。多個(gè)分類器組合可能會(huì)進(jìn)一步凸顯單個(gè)分類器的不足,比如過擬合問題。AdaBoost算法:Adaboost以弱學(xué)習(xí)器作為基分類器,并且輸入數(shù)據(jù),使

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

最新文檔

評(píng)論

0/150

提交評(píng)論