版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第七章R的支持向量機(jī):數(shù)據(jù)預(yù)測學(xué)習(xí)目標(biāo)理論方面,理解支持向量分類和支持向量回歸的基本原理,適用性和方法特點(diǎn)實(shí)踐方面,掌握R的支持向量預(yù)測、應(yīng)用以及結(jié)果解讀,能夠正確運(yùn)用支持向量法實(shí)現(xiàn)數(shù)據(jù)的分類預(yù)測支持向量分類概述支持向量機(jī)傾向給出把握程度更高的預(yù)測結(jié)果。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論基礎(chǔ)上發(fā)展起來的一種數(shù)據(jù)挖掘方法,支持向量機(jī)分為支持向量分類機(jī):用于研究輸入變量與二分類型輸出變量的關(guān)系及新數(shù)據(jù)預(yù)測,簡稱為支持向量分類(SVC)支持向量回歸機(jī):用于研究輸入變量與數(shù)值型輸出變量的關(guān)系及新數(shù)據(jù)預(yù)測,簡稱為支持向量回歸(SVR)支持向量分類的基本思路設(shè)支持向量分類的分析對象是包含n個觀測的訓(xùn)練樣本,每個觀測有p個輸入(特征)變量和一個輸出變量可將訓(xùn)練樣本中的n個觀測看成p維特征空間上的n個點(diǎn),以點(diǎn)的不同形狀(或顏色)代表輸出變量的不同類別取值。支持向量分類的建模目的,就是以訓(xùn)練樣本為研究對象,在p維特征空間中找到一個超平面,能將兩類樣本有效分開支持向量分類的基本思路超平面定義:可以有多條能夠?qū)⒓t色方塊和黃色圓點(diǎn)分開的直線支持向量分類的基本思路最大邊界超平面是支持向量分類的超平面。最大邊界超平面,是距兩個類別(-1類和1類)的邊界觀測點(diǎn)最遠(yuǎn)的超平面支持向量分類的基本思路最大邊界超平面的特點(diǎn):第一,它不僅是距訓(xùn)練樣本集中的邊界觀測點(diǎn)最遠(yuǎn)的,也是距測試樣本集中的邊界觀測點(diǎn)最遠(yuǎn)的第二,最大邊界超平面僅取決于兩類別的邊界觀測點(diǎn)支持向量分類的三種情況線性可分樣本:樣本觀測點(diǎn)可被超平面線性分開樣本完全線性可分樣本無法完全線性可分支持向量分類的三種情況線性不可分樣本:樣本觀測點(diǎn)無法被超平面線性分開線性可分下的支持向量分類如何求解超平面分別將兩類的最“外圍”樣本觀測點(diǎn)連線,形成兩個多邊形,它是關(guān)于各類樣本點(diǎn)集的凸包,即為最小凸多邊形,各自類的樣本觀測點(diǎn)均在多邊形內(nèi)或邊上以一類的凸包邊界為基準(zhǔn)線,找到另一類凸包邊界上的點(diǎn),過該點(diǎn)做基準(zhǔn)線的平行線,得到一對平行線可以有多條這樣的基準(zhǔn)線和對應(yīng)的平行線,找到能正確分割兩類且相距最遠(yuǎn)的一對平行線并做平行線的垂線。最大邊界超平面(線)即是該垂線的垂直平分線線性可分下的支持向量分類如何求解超平面對于任意觀測觀測Xi:超平面參數(shù)求解的目標(biāo)是使d最大,且需滿足上式(約束條件):線性可分下的支持向量分類如何求解超平面線性可分下的支持向量分類如何求解超平面線性可分下的支持向量分類如何求解超平面構(gòu)造拉格朗日函數(shù)對參數(shù)求偏導(dǎo),且令偏導(dǎo)數(shù)為0因?yàn)閍i0,超平面系數(shù)向量是訓(xùn)練樣本中,所有ai>0的觀測的輸入和輸出變量的線性組合ai=0的觀測對超平面沒有作用,只有ai>0的觀測點(diǎn)才對超平面的系數(shù)向量產(chǎn)生影響,這樣的觀測點(diǎn)即為支持向量。最大邊界超平面完全由支持向量決定線性可分下的支持向量分類如何求解超平面上述問題的對偶問題需滿足的KKT條件KKT條件使得:ai>0的觀測點(diǎn)(即支持向量),均落在類邊界線上線性可分下的支持向量分類如何利用超平面進(jìn)行分類預(yù)測決策函數(shù):廣義線性可分下的支持向量分類如何求解超平面采用“寬松”策略,引入松弛變量i廣義線性可分下的支持向量分類如何求解超平面采用“寬松”策略,引入松弛變量i廣義線性可分下的支持向量分類如何求解超平面可調(diào)參數(shù):可調(diào)參數(shù)C是一個損失懲罰參數(shù),用于平衡模型復(fù)雜度和預(yù)測誤差線性不可分下的支持向量分類線性不可分的一般解決途徑:特征空間的非線性轉(zhuǎn)換核心思想認(rèn)為:低維空間中的線性不可分問題,通過非線性轉(zhuǎn)換,可轉(zhuǎn)化為高維空間中的線性可分問題。即一切線性不可分問題都可通過適當(dāng)?shù)姆蔷€性空間轉(zhuǎn)換變成線性可分問題線性不可分下的支持向量分類維災(zāi)難:隨著特征空間維度的不斷升高,超平面被估參數(shù)個數(shù)的增長驚人對于p維特征空間產(chǎn)生d階交乘時,需估的模型參數(shù)個數(shù)為:線性不可分下的支持向量分類支持向量分類克服維災(zāi)難的途徑因:參數(shù)和決策結(jié)果取決于變換處理后的觀測內(nèi)積K()一般為核函數(shù)線性不可分下的支持向量分類常見的核函數(shù)一旦核函數(shù)確定下來,參數(shù)估計(jì)和預(yù)測時就不必事先進(jìn)行特征空間的映射變換處理,更無須關(guān)心非線性映射函數(shù)()的具體形式,只需計(jì)算相應(yīng)的核函數(shù),便可完成所有計(jì)算多分類的支持向量分類可采用1對1(one-versus-one)策略或1對多(one-versus-all)策略,將二分類支持向量分類拓展到多分類預(yù)測問題中支持向量回歸支持向量回歸以訓(xùn)練樣本集為數(shù)據(jù)對象,通過分析輸入變量和數(shù)值型輸出變量之間的數(shù)量關(guān)系,對新觀測的輸出變量值進(jìn)行預(yù)測支持向量回歸與一般線性回歸支持向量回歸支持向量回歸的基本思路支持向量回歸遵循損失函數(shù)最小原則下的超平面參數(shù)估計(jì)為降低過擬合風(fēng)險(xiǎn)采用-不敏感損失函數(shù):當(dāng)觀測X輸出變量的實(shí)際值與其預(yù)測值的絕對偏差不大于事先給定的時,認(rèn)為該觀測不對損失函數(shù)貢獻(xiàn)“損失”,損失函數(shù)對此呈不敏感“反應(yīng)”支持向量回歸-不敏感損失函數(shù)-帶落入-帶中的樣本對超平面沒有影響,未落入帶中的觀測將決定超平面,是支持向量在多輸入變量的情況下,-帶會演變?yōu)橐粋€柱形“管道”,其內(nèi)樣本的誤差將被忽略,支持向量是位于其外的樣本,其拉格朗日乘子ai不等于0支持向量回歸-帶落入-帶中的樣本對超平面沒有影響,未落入帶中的觀測將決定超平面,是支持向量在多輸入變量的情況下,-帶會演變?yōu)橐粋€柱形“管道”,其內(nèi)樣本的誤差將被忽略,支持向量是位于其外的樣本,其拉格朗日乘子ai不等于0“管道”半徑很重要支持向量回歸支持向量回歸的目標(biāo)函數(shù)約束條件i是支持向量回歸引入松弛變量,是樣本觀測點(diǎn)距管道的豎直方向上的距離i也可定義為:約束條件為:支持向量回歸的R函數(shù)svm函數(shù)svm(formula=R公式,data=數(shù)據(jù)框名,scale=TRUE/FALSE,type=支持向量機(jī)類型,kernel=核函數(shù)名,gamma=g,degree=d,cost=C,epsilon=0.1,na.action=na.omit/na.fail)tune.svm函數(shù)tune.svm(formula=R公式,data=數(shù)據(jù)框名,scale=TRUE/FALSE,type=支持向量機(jī)類型,kernel=核函數(shù)名,gamma=參數(shù)向量,degree=參數(shù)向量,cost=參數(shù)向量,na.action=na.omit/na.fail)支持向量回歸的R實(shí)現(xiàn)利用R模擬線性可分下的支持向量分類在線性可分的原則下,隨機(jī)生成訓(xùn)練樣本集和測試樣本集采用線性核函數(shù),比較當(dāng)損失懲罰參數(shù)較大和較小下的支持向量個數(shù)和最大邊界超平面利用10折交叉驗(yàn)證找到預(yù)測誤差最小下的損失懲罰參數(shù)利用最優(yōu)模型對測試樣本集做預(yù)測支持向量回歸的R實(shí)現(xiàn)利用R模擬線性不可分下的支持向量分類在線性不可分的原則下,隨機(jī)生成訓(xùn)練樣本集和測試樣本集采用徑向基核函數(shù),利用10折交叉驗(yàn)證找到預(yù)測誤差最小下的最優(yōu)參數(shù)和最優(yōu)模型利用最優(yōu)模型對測試樣本集做預(yù)測支持向量回歸的R實(shí)現(xiàn)利用R模多分類的支持向量分類在線性不可分的原則下,隨機(jī)生成訓(xùn)練樣本集。其中的輸入變
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026江蘇連云港東海水晶產(chǎn)業(yè)發(fā)展集團(tuán)有限公司招聘專業(yè)技術(shù)人員2人考試備考試題及答案解析
- 2026湖南省煙草專賣局系統(tǒng)考試聘用人員272人考試備考試題及答案解析
- 豐城市衛(wèi)健系統(tǒng)公開招聘編外人員【18人】考試備考試題及答案解析
- 2026河南鄭州市黃河科技學(xué)院附屬中學(xué)招聘考試參考題庫及答案解析
- 2026年貴州城市職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性考試備考試題帶答案解析
- 2026年南京市雨花臺區(qū)教育局所屬學(xué)校公開招聘教師68人考試備考題庫及答案解析
- 2026江蘇省數(shù)據(jù)集團(tuán)中層管理崗位招聘1人筆試備考題庫及答案解析
- 2026廣西崇左市人民醫(yī)院招聘(第二批次)考試備考題庫及答案解析
- 2026湖北武漢市華中農(nóng)業(yè)大學(xué)園藝林學(xué)學(xué)院招聘葡萄栽培與品質(zhì)調(diào)控方向?qū)H谓處熆荚噮⒖碱}庫及答案解析
- 2026云南曲靖市宣威市發(fā)展和改革局招聘編制外工作人員5人考試備考試題及答案解析
- 新疆農(nóng)林牧特色課件
- 2025四川成都益民集團(tuán)所屬企業(yè)招聘財(cái)務(wù)綜合崗等崗位備考題庫及答案1套
- 國資與私有企業(yè)合作運(yùn)營案例分享
- 個人船只轉(zhuǎn)讓協(xié)議書
- 2025微博x益普索手機(jī)行業(yè)社交生態(tài)解析及熱點(diǎn)價(jià)值洞察白皮書
- 拼接屏系統(tǒng)維護(hù)施工方案
- 甲狀腺腫瘤的課件
- 新型鋁合金雨棚施工方案
- 武警中隊(duì)營房及附屬工程項(xiàng)目可行性研究報(bào)告
- 2025年國家開放大學(xué)《社會調(diào)查研究方法》期末考試復(fù)習(xí)試題及答案解析
- 《數(shù)字經(jīng)濟(jì)概論》全套教學(xué)課件
評論
0/150
提交評論