【《線性SVM 分類概述》1800字】_第1頁
【《線性SVM 分類概述》1800字】_第2頁
【《線性SVM 分類概述》1800字】_第3頁
【《線性SVM 分類概述》1800字】_第4頁
【《線性SVM 分類概述》1800字】_第5頁
全文預(yù)覽已結(jié)束

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)

文檔簡介

-PAGEIII-線性SVM分類概述SVM原理簡單歸結(jié)于一句話就是最大化離超平面最近點(支持向量)到該平面的距離。如圖2.1所示。圖2.1線性分類實例SVM方法是通過一個非線性映射P,把樣本空間映射到一個高維乃至無窮維的特征空間中,使得原來樣本空間線性不可分問題轉(zhuǎn)化為在樣本空間在線性可分的問題,通俗來講就是升維和線性化。升維,就是把樣本向高維空間做映射的過程,一般這會增加計算的復(fù)雜性,甚至?xí)稹熬S數(shù)爆炸”,因而人們很少過問。但是就分類、回歸問題來說,在低維樣本空間無法線性處理的樣本集,很可能在高維特征空間卻可以通過一個線性超平面實現(xiàn)線性劃分。如上圖2.1所示,,即為分離超平面,雖然對于線性可分的數(shù)據(jù)集來說,這樣能用的超平面有無窮多個,但是幾何間隔最大的分離超平面卻是唯一的。假設(shè)給定一個特征空間上的訓(xùn)練數(shù)據(jù)集,其中為第i個特征向量,為類標(biāo)記,當(dāng)它等于+1時為正例;為-1時為負(fù)例。再假設(shè)訓(xùn)練數(shù)據(jù)集是線性可分的。幾何間隔: (2.1)數(shù)據(jù)標(biāo)簽定義:由于決策方程為,令,則得到 (2.2)優(yōu)化的目標(biāo):找到一條線(滿足),使得離該線最近的點能夠最遠(yuǎn),點與直線距離(幾何間隔)根據(jù)公式2.2可以化簡為。由此可得優(yōu)化目標(biāo): (2.3)由于,得到新的目標(biāo)函數(shù)。由拉格朗日乘子法,得到 (2.4)約束條件:。分別對求偏導(dǎo),得到兩個條件(由于對偶性質(zhì)),對求偏導(dǎo)可得:;對b求偏導(dǎo)得:??梢缘玫较鄳?yīng)對偶式: (2.5)把代入到公式2.1原始拉格朗日函數(shù)可得: (2.6)由此可得決策函數(shù)為: (2.7)非線性SVMSVM要處理非線性問題,使無解問題變得有解,就是給線性目標(biāo)函數(shù)添加了一個正則項,限制條件添加了一個松弛變量,即最小化: (2.8)限制條件:,是事先設(shè)定的參數(shù),是正則項,不能太大。太大就不能達到優(yōu)化目的。在解決實際問題的時候,將原始空間中的樣本映射到高維特征空間中,使樣本在特征空間中可以線性分離。對于非線性關(guān)系,需要選擇合適的非線性特征集,并將數(shù)據(jù)作為新的表達式寫入。換句話說,需要應(yīng)用固定的非線性映射將數(shù)據(jù)映射到特征空間,并在該空間中使用線性學(xué)習(xí)器。因此,請考慮對假設(shè)集使用這種類型的函數(shù): (2.9)因此決策函數(shù)可以表示為: (2.10)核函數(shù)方法可以在特征空間直接計算。核函數(shù)方法我們將低維空間的內(nèi)積運算定義為核函數(shù)。簡單來說,核函數(shù)就是低維空間的內(nèi)積的某個函數(shù),即核函數(shù)就是低維空間的內(nèi)積。因為在機器學(xué)習(xí)中求解的過程需要用到內(nèi)積運算,而變換后的高維空間的內(nèi)積不好求,所以定義了核函數(shù),換句話說有了核函數(shù)就不需要知道那個映射是什么,從而可以直接計算出高維空間中兩個數(shù)據(jù)點之間的距離和角度。推導(dǎo)如下: (2.11) (2.12)支持向量機利用核函數(shù)將輸入空間中線性不可分的數(shù)據(jù)映射為高維非線性。該空間實現(xiàn)了樣本在高維特征空間中的線性分類,即核函數(shù)在高維特征空間中隱式的表示原始低維空間中的數(shù)據(jù),并在其中訓(xùn)練線性分類器,訓(xùn)練過程不需要知道具體的非線性映射。因此,高維特征空間中所有向量的內(nèi)積運算都是通過原空間的核函數(shù)來實現(xiàn)的,不需要在高維特征空間中進行非常復(fù)雜的內(nèi)積運算,算法的復(fù)雜度也不受維數(shù)的影響,在高維特征空間中的推廣能力也不受影響。核函數(shù)的選擇要構(gòu)造不同的支持向量機,就需要滿足Mercer條件不同的核函數(shù)。核函數(shù)構(gòu)造是支持向量機的主要技術(shù),其選擇直接影響到泛化和學(xué)習(xí)機器學(xué)習(xí)的能力。不同的核函數(shù)定義了不同的特征空間和非線性變換,因此選擇不同的核函數(shù)來訓(xùn)練支持向量機將導(dǎo)致完全不同的分類效果。共有6種常見的核功能類型:線性核,多項式核,徑向基核,傅立葉核,樣條核和sigmoid核。通常,如果特征數(shù)量遠(yuǎn)大于樣本數(shù)量,則使用線性核。如果特征數(shù)量遠(yuǎn)小于樣本數(shù)量,則通常使用RBF。當(dāng)將Sigmoid函數(shù)用作內(nèi)核函數(shù)時,支持向量機是多層感知神經(jīng)網(wǎng)絡(luò)。支持向量機方法用于在設(shè)計過程(訓(xùn)練)的數(shù)量(神經(jīng)網(wǎng)絡(luò)體系結(jié)構(gòu)的確定)和輸入節(jié)點中隱藏層節(jié)點的權(quán)重期間自動定義隱藏層節(jié)點。另外,支持向量機的理論基礎(chǔ)決定了它最終獲得了全局最優(yōu)值,而不是局部最小值,并且還確保了它對未知樣本具有良好的泛化能力而不會過度學(xué)習(xí)。在選擇內(nèi)核函數(shù)解決實際問題時,常用的方法有:一種是利用專家的先驗知識預(yù)先定義內(nèi)核函數(shù)。另一種是使用交叉驗證方法,即在選擇內(nèi)核功能時嘗試使用不同的內(nèi)核功能并總結(jié)出具有最小誤差的內(nèi)核功能是效果最佳的內(nèi)核功能。第三是采用Smits及其同事提出的混合核函數(shù)方法,與以前的兩種方法相比,該方法目前是選擇核函數(shù)的主要

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論