版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、Machine Perception and Interaction Group (MPIG) .cn 機(jī)器學(xué)習(xí)實(shí)戰(zhàn)(11)陳洪云MPIG Open Seminar 0183公眾號(hào):mpig_robotAdaBoost元算法(下)示例:在一個(gè)難數(shù)據(jù)集上應(yīng)用Adaboost收集數(shù)據(jù):提供的文本文件準(zhǔn)備數(shù)據(jù):確保類別標(biāo)簽是+1和-1 分析數(shù)據(jù):手工檢查數(shù)據(jù)訓(xùn)練算法:在數(shù)據(jù)上,用adaBoostTrainDS()函數(shù)訓(xùn)練出一系列的分類器測試算法:我們擁有兩個(gè)數(shù)據(jù)集。在不采用隨機(jī)抽樣的方法下,我們就可以對(duì)AdaBoost和Logistics回歸的結(jié)果進(jìn)行完全對(duì)等的比較使用算法:觀察該例子上的錯(cuò)誤率自適
2、應(yīng)數(shù)據(jù)加載函數(shù)def loadDataSet(fileName): numFeat = len(open(fileName).readline().split(t) dataMat = labelMat = fr = open(fileName) for line in fr.readlines(): lineArr = curLine = line.strip().split(t) for i in range(numFeat - 1): lineArr.append(float(curLinei) dataMat.append(lineArr) labelMat.append(float(
3、curLine-1) return dataMat, labelMatdataArr, LabelArr = loadDataSet(horseColicTraining2.txt)weakClassArr, aggClassEst = adaBoostTrainDS(dataArr, LabelArr,40)print(weakClassArr)predictions = adaClassify(dataArr, weakClassArr)errArr = np.mat(np.ones(len(dataArr), 1)print(訓(xùn)練集的錯(cuò)誤率:%.3f% % float(errArrpre
4、dictions != np.mat(LabelArr).T.sum() / len(dataArr) * 100)觀察測試錯(cuò)誤率一欄,就會(huì)發(fā)現(xiàn)測試錯(cuò)誤率在達(dá)到了最小值之后又開始上升,這種現(xiàn)象稱之為過擬合。表1 不同弱分類器數(shù)目情況下的AdaBoost測試和分類錯(cuò)誤率非均衡分類問題 非均衡分類問題是指在分類器訓(xùn)練時(shí)正例數(shù)目和反例數(shù)目不相等(相差很大),錯(cuò)分正例和錯(cuò)分反例的代價(jià)也不同。實(shí)例:檢測患疝病的馬匹是否存活的系統(tǒng)過濾垃圾郵件系統(tǒng)癌癥檢測分類性能度量指標(biāo)分類性能指標(biāo):正確率、召回率及ROC曲線一般情況下,都是基于錯(cuò)誤率來衡量分類器任務(wù)的成功程度,錯(cuò)誤率是指在所有測試樣例中錯(cuò)分的樣例比例。實(shí)
5、際上,這樣的度量錯(cuò)誤掩蓋了樣例如何被分錯(cuò)的事實(shí)。在機(jī)器學(xué)習(xí)中,有一個(gè)普遍適用的工具-混淆矩陣(confusion matrix),它可以幫助人們更好的了解分類中的錯(cuò)誤。表2 一個(gè)三類問題的混淆矩陣表3 一個(gè)二類問題的混淆矩陣正確率(Precision):TP/(TP+FP) 表示預(yù)測為正例的樣本中的真正正例的比例召回率(Recall):TP/(TP+FN) 表示預(yù)測為正例的真實(shí)正例占所有真實(shí)正例的比例。另一個(gè)度量標(biāo)準(zhǔn):ROC曲線(ROC curve),ROC代表接收者操作特征(receiver operating characteristic),最早在二戰(zhàn)期間用于構(gòu)建雷達(dá)系統(tǒng)。圖1 利用10個(gè)
6、單層決策樹的AdaBoost馬疝病檢測系統(tǒng)的ROC曲線 ROC曲線不但可以用于比較分類器,還可以基于成本效益分析來做出決策。對(duì)不同的ROC曲線進(jìn)行比較的一個(gè)指標(biāo)是曲線下的面積(Area Unser the Curve ,AUC),AUC給出的是分類器的平均性能值,當(dāng)然它并不能完全代替對(duì)整條曲線的觀察。一個(gè)完美分類器的AUC是1 ,而隨機(jī)猜測的AUC則為0.5def plotROC(predStrengths,classLabels): cur = (1.0,1.0) ySum = 0.0 numPosClas = sum(array(classLabels) = 1.0) yStep = 1/
7、float(numPosClas) xStep = 1/float(len(classLabels)-numPosClas) sortedIndicies = predStrengths.argsort() fig = plt.figure() fig.clf() ax = plt.subplot(111) for index in sortedIndicies.tolist()0: if classLabelsindex = 1.0: delX = 0;delY = yStep; else: delX = xStep;delY = 0; ySum += cur1 ax.plot(cur0,c
8、ur0-delX,cur1,cur1-delY,c = b) cur = (cur0-delX,cur1-delY)ax.plot(0,1,0,1,b-)plt.xlabel(False Positive Rate);plt.ylabel(True Positive Rate)plt.title(ROC curve for Adaboost Horse Colic Detection System)ax.axis(0,1,0,1)plt.show()print the Area Under the Curve is: ,ySum*xStep圖2 利用40個(gè)單層決策樹的AdaBoost馬疝病檢測
9、系統(tǒng)的ROC曲線基于代價(jià)函數(shù)的分類器決策控制除了調(diào)節(jié)分類器的閾值之外,我們還有一些其他可以用于處理非均勻分類代價(jià)問題的方法,其中的一種稱之為代價(jià)敏感的學(xué)習(xí)(cost-sensitive learning)在分類算法中,有很多方法可以用來引入代價(jià)信息AdaBoost中,可以基于代價(jià)函數(shù)來調(diào)整錯(cuò)誤向量權(quán)重D在樸素貝葉斯中,可以選擇具有最小期望代價(jià)而不是最大概率的類別作為最后的結(jié)果在SVM中,可以在代價(jià)函數(shù)中對(duì)于不同的類別選擇不同的參數(shù)C處理非均衡問題的數(shù)據(jù)抽樣方法另外一種針對(duì)非均衡問題調(diào)節(jié)分類器 的方法,就是對(duì)分類器的訓(xùn)練數(shù)據(jù)進(jìn)行改造。這可以通過欠抽樣或者過抽樣來實(shí)現(xiàn)。過抽樣意味著復(fù)制樣例,而欠抽樣意味著刪除樣例。不管采用哪種方式,數(shù)據(jù)都會(huì)從原始形式改造為新形式。抽樣過程則可以通過隨機(jī)抽樣或者某個(gè)預(yù)定方式來實(shí)現(xiàn)。本章小結(jié)集成方法通過組合多個(gè)分類器的分類結(jié)果,獲得了比簡單的單分類器更好的分類結(jié)果。有一些利用不同分類器的集成方法,但是本章只介紹了那些同一類分類器的集成方法。多個(gè)分類器組合可能會(huì)進(jìn)一步凸顯單個(gè)分類器的不足,比如過擬合問題。AdaBoost算法:Adaboost以弱學(xué)習(xí)器作為基分類器,并且輸入數(shù)據(jù),使
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 開發(fā)項(xiàng)目獎(jiǎng)勵(lì)金制度
- 建立重要急需教學(xué)專題立項(xiàng)招標(biāo)制度
- 工程結(jié)算審核風(fēng)險(xiǎn)控制制度
- 工廠安全生產(chǎn)風(fēng)險(xiǎn)分級(jí)管控制度
- 山西建投質(zhì)量驗(yàn)收制度
- 湖南中醫(yī)藥大學(xué)《專業(yè)論文寫作與專業(yè)英語》2023-2024學(xué)年第二學(xué)期期末試卷
- 江西信息應(yīng)用職業(yè)技術(shù)學(xué)院《診斷學(xué)2醫(yī)技》2023-2024學(xué)年第二學(xué)期期末試卷
- 天津石油職業(yè)技術(shù)學(xué)院《機(jī)械制造基礎(chǔ)(二)》2023-2024學(xué)年第二學(xué)期期末試卷
- 岳陽職業(yè)技術(shù)學(xué)院《醫(yī)學(xué)檢驗(yàn)有機(jī)化學(xué)》2023-2024學(xué)年第二學(xué)期期末試卷
- 農(nóng)村公廁長效管護(hù)制度
- 《建筑施工常見問題》課件
- 職高計(jì)算機(jī)單招操作題庫單選題100道及答案
- 通信工程部的職責(zé)與技術(shù)要求
- 簡愛插圖本(英)夏洛蒂·勃朗特著宋兆霖譯
- 焊接專業(yè)人才培養(yǎng)方案
- 第二屆全國技能大賽江蘇省選拔賽焊接項(xiàng)目評(píng)分表
- 糖尿病護(hù)士年終總結(jié)
- 第20課 《美麗的小興安嶺》 三年級(jí)語文上冊(cè)同步課件(統(tǒng)編版)
- 糖尿病基礎(chǔ)知識(shí)培訓(xùn)2
- 手工藝品加工合同
- 研學(xué)旅行概論第六章
評(píng)論
0/150
提交評(píng)論