基于MATLAB的SVR回歸模型的設計及實現(xiàn)_第1頁
基于MATLAB的SVR回歸模型的設計及實現(xiàn)_第2頁
基于MATLAB的SVR回歸模型的設計及實現(xiàn)_第3頁
基于MATLAB的SVR回歸模型的設計及實現(xiàn)_第4頁
基于MATLAB的SVR回歸模型的設計及實現(xiàn)_第5頁
已閱讀5頁,還剩18頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

1、-基于MATLAB的SVR回歸模型的設計與實現(xiàn)The Design and Implementation of SVR Regression Model Based on MATLAB學生:王新蕾學生*:10780232專業(yè)名稱:電子信息科學與技術指導教師:艷講師計算機與信息工程學院2014年6月10日獨創(chuàng)性聲明本人聲明所呈交的畢業(yè)論文是本人在指導教師指導下進展的研究工作和取得的研究成果,除了文中特別加以引用標注之處外,論文中不包含其他人已經發(fā)表或撰寫過的研究成果,沒有偽造數(shù)據(jù)的行為。畢業(yè)論文作者簽名:簽字日期:畢業(yè)論文使用授權書本畢業(yè)論文作者完全了解學校有關保存、使用論文的規(guī)定。同意學校保存

2、并向有關管理部門或機構送交論文的復印件和電子版,允許論文被查閱和借閱。本人授權*城建大學可以將本論文的全部或局部容編入有關數(shù)據(jù)進展檢索,可以采用影印、縮印或掃描等復制手段保存和匯編本論文。的畢業(yè)論文在解密后適用本授權說明畢業(yè)論文作者簽名:指導教師簽名:簽字日期: 簽字日期:摘 要 支持向量機是根據(jù)統(tǒng)計學習理論提出的一種新的學習方法,近年來受到了國外學術界的廣泛重視,并已在模式識別和函數(shù)估計中得到廣泛應用。支持向量機理論的最大特點是由有限的訓練集樣本得到的小的誤差保證對獨立的測試集仍保持小的誤差。從而通過支持向量機(SVM)理論,可以建立支持向量回歸(SVR)預測模型,以解決各種實際問題。SVR

3、算法是模式識別中應用比擬廣泛的算法模型之一,它是支持向量機在函數(shù)逼近和回歸估計中的應用。在SVR回歸分析中,使用支持向量機可以使回歸函數(shù)盡量平滑,其泛化能力強。本文論述了支持向量回歸的根本原理和思想,介紹了支持向量回歸算法以及所用到的幾種常見的核函數(shù)即線性核、多項式核、徑向基函數(shù)核、高斯核。本設計主要實現(xiàn)的功能有:數(shù)據(jù)集的創(chuàng)立、核函數(shù)的選取、參數(shù)的設置、訓練集的回歸、數(shù)據(jù)集的保存與翻開。通過不同核函數(shù)的選取以及相應參數(shù)的設置對輸入數(shù)據(jù)集進展回歸。此模型主要解決非線性回歸模型的預測。通過實驗改變各個參數(shù)的不同取值對訓練集進展回歸,并分別統(tǒng)計出支持向量的個數(shù),回歸性能,程序運行時間。最后對回歸的結

4、果進展分析,得出各參數(shù)對回歸性能的影響。關鍵詞:支持向量回歸;訓練算法;核函數(shù);線性判別. z-ABSTRACTSupport vector machine (SVM) is a new method of studybased on statistical learning theory which has attracted e*tensive attentions by academic circles both at home and abroad in recent years. It has been widely used in pattern recognition and f

5、unction estimation. The biggest characteristic of support vector machine (SVM) theory is that a small error limited by the training set of sample can ensure the independent test sets small error. Thus a support vector regression (SVR) forecasting modelcan be built by support vector machine (SVM) the

6、ory and it can solve various practical problems.SVR algorithm model is one of pattern recognition algorithm, which is more widely used in appro*imation of function and the application of the regression estimate. In the SVR regression analysis, using support vector machine (SVM) can smooth regression

7、 function as far as possible. Its generalization ability is strong.This paper discusses the basic principle of support vector regression and introduces support vector regression algorithm andseveral mon kernel functions (the linear kernel, polynomial kernel and radial basis function (RBF) kernel, th

8、e Gaussian kernel etc.). This essaysuccessfully makesthese functions work: the creation of data sets, the selection of kernel function, parameter settings, return of the training set, the preservation and open of the data set. We acplish the return of input of data set through the selection of diffe

9、rent kernel functions and the setting of corresponding parameter. This model is mainly to solve the nonlinear regression model prediction. Then, the same issue is done through the e*periment to change the values of different parameters, and the statistics, the number of support vector regression, pe

10、rformance of program running time are accounted. Finally, we have analysis the results of regression and gained the influence of various parameters on the return performance.Key words: Support Vector Regression; Training Algorithms; Kernel Function; Linear Discrimination Analysis. z-目 錄第1章緒論11.1 課題研

11、究背景11.2 國外研究現(xiàn)狀11.3 課題研究目的21.4 課題研究使用的開發(fā)工具31.5論文組織構造3第2章支持向量機回歸原理52.1 支持向量機52.2 支持向量回歸52.2.1 回歸初步形式52.2.2 線性支持向量回歸62.2.3 非線性支持向量回歸62.3支持向量回歸核函數(shù)72.4 支持向量回歸算法82.4.1 支持向量回歸的算法的根底82.4.2 回歸算法102.4.3 關于算法的幾點說明11第3章基于Matlab實現(xiàn)SVR的總體設計133.1 總體設計思想133.2 功能模塊的劃分及相關流程圖133.2.1 主要功能模塊的劃分133.2.2 實現(xiàn)程序的主要框架圖133.2.3 支

12、持向量回歸模型的流程圖14第4章基于支持向量回歸模型的實現(xiàn)164.1模型的功能描述164.2 運行結果174.2.1 主界面174.2.2 功能描述界面17運行過程及結果184.2.4 命令窗口的顯示結果244. 3系統(tǒng)的性能分析及結論24第5章總結27致28參考文獻29. z-第1章緒論支持向量機(SVM)是在統(tǒng)計學習理論根底上提出的一種新的學習方法。支持向量機 SVM 是一種比擬好的實現(xiàn)了構造風險最小化思想的方法。它的優(yōu)點是理論完備、訓練時間短、全局優(yōu)化強、適應性好、泛化性能好等。SVM已經成為目前國外研究的熱點。本課題研究的SVR是支持向量機在函數(shù)回歸中的應用。1.1課題研究背景基于支持

13、向量的學習是現(xiàn)代智能技術中的重要方面,研究從觀測數(shù)據(jù)樣本出發(fā)尋找規(guī)律,利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進展預測.包括模式識別、神經網(wǎng)絡等在,現(xiàn)有支持向量機器學習方法共同的重要理論根底之一是統(tǒng)計學.傳統(tǒng)統(tǒng)計學研究的是樣本數(shù)目趨于無窮大時的漸近理論,現(xiàn)有學習方法也多是基于此假設.但在實際問題中,樣本數(shù)往往是有限的,因此一些理論上很優(yōu)秀的學習方法實際中表現(xiàn)卻可能不盡人意。與傳統(tǒng)統(tǒng)計學相比,統(tǒng)計學習理論Statistical Learning Theory或SLT是一種專門研究小樣本情況下機器學習規(guī)律的理論.V. Vapnik等人從六、七十年代開場致力于此方面研究,到九十年代中期,隨著其理論的不

14、斷開展和成熟,也由于神經網(wǎng)絡等學習方法在理論上缺乏實質性進展,統(tǒng)計學習理論開場受到越來越廣泛的重視。統(tǒng)計學習理論是建立在一套較堅實的理論根底之上的,為解決有限樣本學習問題提供了一個統(tǒng)一的框架.它能將很多現(xiàn)有方法納入其中,有望幫助解決許多原來難以解決的問題比方神經網(wǎng)絡構造選擇問題、局部極小點問題等;同時,在這一理論根底上開展了一種新的通用學習方法支持向量機Support Vector Machine或SVM,它已初步表現(xiàn)出很多優(yōu)于已有方法的性能。通過結果風險最小化準則和核函數(shù)方法,較好地解決了模式分類器復雜性核推廣性之間的矛盾,引起了模式識別領域學者的極大關注。從此迅速的開展起來,現(xiàn)在已經在許多

15、領域生物信息學,文本分類、手寫體識別、人臉檢測等 都取得了成功的應用,并且在研究過程中,取得了與傳統(tǒng)方法可比或更好的結果,還豐富了自身的容如快速訓練算法等,從而更加推動了它在其他模式識別領域的應用。由于其出色的學習性能,該技術已成為當前國際機器學習界的研究熱點,在模式識別、回歸估計、函數(shù)逼近等領域有了廣泛的應用。本課題就是研究它在回歸估計中的應用。1.2國外研究現(xiàn)狀支持向量機一經提出,就得到國外學者的高度關注。雖然支持向量機開展時間很短,但是由于它的產生是基于統(tǒng)計學習理論的,因此具有堅實的理論根底。近幾年涌現(xiàn)出的大量令人矚目的理論研究成果,更為其應用研究奠定了堅實根底。如Anthony et

16、al.(1999等人給出了關于硬鄰域支持向量機學習誤差的嚴格理論界限,Shawe-Taylor2000和Cristianini 2000也給出了類似的關于軟鄰域支持向量機和回歸情況下的誤差界限;Weston et al.1998和Vapnik1995,1998等研究了支持向量機的泛化性能及其在多值分類和回歸問題的擴展問題;Smola1998和Schoelkopf1999提出了支持向量機一般意義下的損失函數(shù)數(shù)學描述;脊回歸是由Tikhonov 提出的一種具有特殊形式的正則化網(wǎng)絡,Girosi1990、Poggio1975等將其應用到正則化網(wǎng)絡的學習中, Smola et al.1999研究了狀態(tài)

17、空間中脊回歸的應用,Girosi1990、Smola1998、Schoelkopf1999等討論了正則化網(wǎng)絡和支持向量機的關系。隨著支持向量機理論上深入研究,出現(xiàn)了許多變種支持向量機,如Smolaetal.1999提出的用于分類和回歸支持向量機。另外,一些學者還擴展了支持向量機概念,如Mangasarian1997等人的通用支持向量機GeneralisedSVMs。雖然SVM 方法在理論上具有很突出的優(yōu)勢, 但與其理論研究相比,應用研究尚相比照擬滯后, 到目前,SVM已用于數(shù)據(jù)分類、回歸估計、函數(shù)逼近等領域.應用最為廣泛的當屬模式識別領域,在模式識別方面最突出的應用研究是貝爾實驗室對美國郵政手

18、寫數(shù)字庫進展的實驗,這是一個可識別性較差的數(shù)據(jù)庫, 人工識別平均錯誤率是2.5% , 用決策樹方法識別錯誤率是16.2% , 兩層神經網(wǎng)絡中錯誤率最小的是5.9% , 專門針對該特定問題設計的五層神經網(wǎng)絡錯誤率為5.0% (其中利用了大量先驗知識) , 而用三種SVM 方法得到的錯誤率分別為4.0%、4.1% 和4.2% , 且其中直接采用了16×16的字符點陣作為SVM 的輸入, 并沒有進展專門的特征提取。說明了SVM方法較傳統(tǒng)方法有明顯的優(yōu)勢, 同時也得到了不同的SVM 方法可以得到性能相近的結果。實驗還觀察到,三種SVM求出的支持向量中有80%以上是重合的,它們都只是總樣本中很

19、少的一局部,說明支持向量本身對不同方法具有一定的不敏感性遺憾的是這些結論僅僅是有限的實驗中觀察到的現(xiàn)象,如果能得到證明,將會使SVM的理論和應用有更大的突破。圍繞這一字符識別實驗,還提出了一些對SVM的改良,比方引入關于不變性的知識、識別和去除樣本集中的野值、通過樣本集預處理提高識別速度等,相關的應用還包括SVM與神經網(wǎng)絡相結合對筆跡進展在線適應.除此之外,MIT用SVM進展的人臉檢測實驗也取得了較好的效果,可以較好地學會在圖像中找出可能的人臉位置.其它有報道的實驗領域還包括文本識別、人臉識別、三維物體識別、遙感圖像分析等,在函數(shù)回歸估計方面主要用于非線性系統(tǒng)識別問題、時間序列預測、機場游客吞

20、吐量的預測問題及多維自由曲面的重建問題等。1.3課題研究目的此課題的設計目的在于訓練及提高自己能綜合運用所學專業(yè)知識分析、解決實際問題的能力;掌握文獻檢索、資料查詢的根本方法以及獲取新知識的能力;系統(tǒng)的利用支持向量回歸相關理論知識和編程技能,利用MATLAB開發(fā)平臺和相關的統(tǒng)計學工具箱及支持向量回歸算法,設計改良并實現(xiàn)基于MATLAB的SVR回歸模型的實驗系統(tǒng),通過運用M文件編寫回歸算法、GUI組件編寫主界面、編寫程序和裝載數(shù)據(jù)文件完成實驗界面的各個功能。從而熟悉了MATLAB編程、GUI組件編寫用戶界面以及回歸算法的程序實現(xiàn),同時也了解了支持向量回歸算法在實際問題預測模型中的應用。1.4課題

21、研究使用的開發(fā)工具此課題主要運用MATLAB開發(fā)平臺,MATLAB既是一種直觀、高效的計算機語言,同時又是一個科學計算平臺。它為數(shù)據(jù)分析和數(shù)據(jù)可視化、算法和應用程序開發(fā)提供了最核心的數(shù)學和高級圖形工具。根據(jù)它提供的500多個數(shù)學和工程函數(shù),工程技術人員和科學工作者可以在它的集成環(huán)境互或編程以完成各自的計算。本課題研究用MATLAB程序編寫回歸算法和GUI組件編寫用戶界面來實現(xiàn)支持向量回歸模型的設計。開發(fā)工具的優(yōu)點:1編程效率高:Matlab是一種面向科學與工程計算的高級語言,允許用數(shù)學形式的語言來編寫程序,這樣就更接近我們書寫計算算法公式的思維方式。Matlab語言是一種解釋執(zhí)行的語言,與其他

22、語言相比,它把編輯,編譯,連接和執(zhí)行融為一體,提高了程序的運行速度,同時也便于修改和調試。2高效方便的矩陣和數(shù)組運算:在回歸過程中,輸入的數(shù)據(jù)集,運算的變量以及很多參數(shù)都是以數(shù)組,向量形式出現(xiàn)的,運算這些數(shù)據(jù)復雜,易出錯而且費時,所以方便高效的數(shù)組向量運算就顯得尤為重要,而Matlab恰好具有這樣便利的功能。并且Matlab語言還像其他語言一樣規(guī)定了矩陣的算術運算符,關系運算符,邏輯運算符,條件運算符及賦值運算符。這給編寫程序帶來很大方便。在支持向量回歸算法中包含了大量的數(shù)學模型和復雜的運算公式,所以用Matlab語言進展代碼編寫比擬簡單,編程效率比擬高。3方便的繪圖功能:本課題借助于Matl

23、ab的繪圖功能,能較為方便的建立支持向量回歸過程中的演示圖形。Matlab有一系列繪圖函數(shù)命令,功能強大,使用方便。在執(zhí)行繪圖函數(shù)時是通過使用不同的圖形對象來實現(xiàn)圖形創(chuàng)立功能的這些圖形對象包括直線、文本、曲面等等。Matlab創(chuàng)立一個圖形對象時總會給該對象制定一個獨一無二的標識符,這個標識符就稱為句柄。通過使用句柄,用戶可以方便地句柄所指定的對象,通過修改對象的屬性使圖形完全符合用戶的要求。1.5論文組織構造本論文主要針對回歸型SVM在算法性能和推廣能力兩方面進展一些探討,全文共分5章,安排如下:第1章主要研究SVM研究背景和國外研究現(xiàn)狀,介紹了課題研究背景以及可以研究所用的開發(fā)工具。第2章詳

24、細推導了線性情況下回歸機算法,然后引入了核函數(shù)將線性算法推廣到非線性算法。還介紹了VC維數(shù)、構造風險最小化。第3章此章介紹了本課題的總體設計思路和功能模塊的劃分及相關流程圖。第4章介紹支持向量回歸模型的實現(xiàn),及結果分析。第5章對支持向量回歸進展了分析與總結。. z-第2章支持向量機回歸原理回歸預測研究從觀測數(shù)據(jù)出發(fā)尋找規(guī)律,利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進展回歸預測?;貧w預測的目的是根據(jù)給定的訓練樣本集 來估計*系統(tǒng)輸入和輸出之間的依賴關系,即尋找最優(yōu)函數(shù) ,使它能夠反映訓練集的數(shù)據(jù)走向趨勢,從而實現(xiàn)對未知輸出做盡可能準確的預測。2.1支持向量機支持向量機是Cortes和Vapnik于

25、1995年首先提出的,它在解決小樣本、非線性及高維模式識別中有許多特有的優(yōu)勢,并能推廣應用到函數(shù)擬合等其他機器學習問題中。支持向量機方法是建立在統(tǒng)計學習理論的VC維原理根底上的,根據(jù)有限的樣本信息在模型的復雜性和學習能力之間尋求最正確折衷,以期獲得最好的推廣能力。VC維數(shù):模式識別方法中VC維的直觀定義是:對一個指示函數(shù)集,如果存在h個樣本能夠被函數(shù)集中的函數(shù)按所有可能的2h種形式分開,則稱函數(shù)集能夠把h個樣本打散;函數(shù)集的VC維就是它能打散的最大樣本數(shù)目h。假設對任意數(shù)目的樣本都有函數(shù)能將它們打散,則函數(shù)集的VC維是無窮大。有界實函數(shù)的VC維可以通過用一定的閾值將它轉化成指示函數(shù)來定義。VC

26、維反映了函數(shù)集的學習能力,VC維越大則學習機器越復雜(容量越大),目前尚沒有通用的關于任意函數(shù)集VC維計算的理論,只對一些特殊的函數(shù)集知道其VC維。Vapnik和Chervonenkis在1968年又發(fā)現(xiàn)了下面的規(guī)律:VC維對于一個指示函數(shù)集,如果其生長函數(shù)是線形的,則它的VC維為無窮大;而如果生長函數(shù)以參數(shù)為h的對數(shù)函數(shù)為界,則函數(shù)集的VC維是有限的且等于h。VC就是取Vapnik和Chervonenkis名字的首字而成。所以,學習機器所實現(xiàn)的指示函數(shù)集的VC維有限就是ERM方法一致性的一個充分必要條件,這一條件不依賴于概率測度。而且,一個有限的VC維意味著快的收斂速度。2.2支持向量回歸在

27、引入支持向量回歸之前,首先要對回歸問題進展形式化,并因此抽象出學習機的形式化概念。線形情形,支持向量回歸問題可形象的理解為在誤差帶尋求一個最為平坦的直線,此直線回歸訓練,并具有最小的損失。對于非線形情形,同支持向量機識別,通過向高維空間映射,將問題轉化為高維空間(Hilbert空間)的線形回歸問題,并且使用核函數(shù)來求得最優(yōu)解?;貧w初步形式回歸問題是個古老的數(shù)學問題,在工程上也有大量的應用背景。在傳統(tǒng)經典的回歸中,盡管存在著多種估計的方法,但研究的大局部集中在最小二乘法。這種分析方法稱為綜合分析,其主要目的是將數(shù)據(jù)聚集在一起,并綜合出數(shù)據(jù)的一個擬合模型。接著同樣重要的一個階段是案例分析。這里數(shù)據(jù)

28、被用于檢驗擬合模型對被研究的關系是否適宜、有用。其結果可能導致對原先指定的擬合模型的修改,此后,回復至綜合分析。在具體實施中,則大量的借助統(tǒng)計學的理論和技術。如參數(shù)估計與假設檢驗等一些知識。而本設計主要討論的回歸方法則側重于Vapnik的統(tǒng)計學習理論,從問題的模型確立到問題解決途徑上可能和經典的回歸不大一樣,但本質是一致的?;貧w問題可形式化為:給定一個訓練集合,其元素有*個未知的分布觀測得到(此處的觀測可能夾雜*種噪聲):with 和一個函數(shù)族 根本回歸問題是要找到一個函數(shù),此函數(shù)風險最小化表達式: 其中,C是損失函數(shù),它指出和之間的過失將如何被懲罰,因為未知,不能直接對進展估值,而是要通過計

29、算如下的經歷風險: 并通過對R進展限界。其中為所謂的泛化錯誤上界,根據(jù)Vapnik的理論,它依賴于用來進展回歸的函數(shù)族。2.2.2線性支持向量回歸支持向量回歸建立在統(tǒng)計學學習理論的根底之上,并維持以上提出的學習機的模型但采取完全不同的策略。在這里取為維超平面:損失函數(shù)一般有多種形式,根據(jù)實際問題的不同可選用不同的損失函數(shù)。此處給一般情形:含有誤差帶的損失函數(shù),這樣的函數(shù)滿足以下形式:并且對非0時的損失函數(shù)要求具備凸性。學習的結果使得在的周圍形成一個精度為的誤差帶。其線性支持向量回歸機的結果是線形的。2.2.3非線性支持向量回歸對于非線性回歸,保持以上的策略不變,但首先對輸入數(shù)據(jù)進展非線性預處理

30、。使用非線性映射把數(shù)據(jù)從原空間映射到一個高維特征空間,再在高維特征空間進展線性回歸。同理,在非線性空間中也只考慮高維特征空間的點積運算:,而不必明確知道是什么。其關鍵問題是核函數(shù)的采用。此時,非線性支持向量機回歸具有以下模型:取為:損失函數(shù)和能力控制策略同線性支持向量回歸,其求解結果具有如下形式: 因此,支持向量機回歸通過將最小化經歷風險和能力控制規(guī)約在一個目標中,一并將其轉化為一個凸二次優(yōu)化問題的求解途徑不僅實現(xiàn)了構造風險最小化的原則,而且由于嚴格的凸性要求使問題求解在可行域中總能搜索到最優(yōu)解,而不會陷入局部最小。在非線性情形,使用核函數(shù)技巧,通過只計算輸入空間的數(shù)量積防止了維數(shù)災難問題。從

31、求解結果我們可以看出,最終的解,決定于輸入模式的數(shù)量積,而與輸入模式的維數(shù)無關,其計算規(guī)模正比于輸入模式中支持向量的個數(shù)。因而可有效地處理高維空間的問題,而不受到維數(shù)的限制。2.3支持向量回歸核函數(shù)支持向量機的一個引人注目的特點是用核函數(shù)代替向量間的積運算來實現(xiàn)非線性變換,而不需要非線性的具體形式。研究人員根據(jù)這一思想改造經典的線性算法并構造出對應的基于核函數(shù)的非線性形式。支持向量回歸模型最重要的一個參數(shù)就是核函數(shù)。選擇什么樣的核函數(shù),就意味著將訓練樣本映射到什么樣的空間去進展線性劃分。支持向量機回歸算法的技巧在于不直接計算復雜的非線性變換,而是計算非線性變換的點積,即核函數(shù),從而大大簡化了計

32、算。通過把核函數(shù)引入到一些學習算法,可以方便地把線性算法轉換為非線性算法,我們將其與支持向量機一起稱為基于核函數(shù)的方法。在高維特征空間實際上只需要進展點積運算,可以用原空間中的函數(shù)實現(xiàn)的,甚至沒有必要知道變換的形式。根據(jù)泛函的有關理論,只要一種核函數(shù)滿足Mercer條件,它就對應*一變換空間中的點積。因此,在最優(yōu)分類面中采用適當?shù)狞c積函數(shù)就可以實現(xiàn)*一非線性變換后的線性分類,而計算復雜度卻沒有增加。鈴證明了核函數(shù)存在性定理,并提出了尋找核函數(shù)的算法。核函數(shù)存在性定理說明:給定一個訓練樣本集,就一定存在一個相應的函數(shù),訓練樣本通過該函數(shù)映射到高維特征空間的相是線性可分的。進一步研究了支持矢量機的

33、支持向量集與核函數(shù)的關系,研究說明對非線性可分情況,對一個特定的核函數(shù),給定的樣本集中的任意一個樣本都可能成為一個支持向量。這意味這在一個支持向量機下觀察到的特征在其它支持向量機下其它核函數(shù)并不能保持。因此,對解決具體問題來說,選擇適宜的核函數(shù)使很重要的。SVM 由訓練樣本集和核函數(shù)完全描述,因此采用不同的核函數(shù)就可以構造實現(xiàn)輸入空間中不同類型的非線性決策面的學習機,導致不同的支持向量算法。本課題研究的幾種核函數(shù)如下:線性核 多項式核 徑向基函數(shù)核 Bsplines核 2.4支持向量回歸算法支持向量回歸的算法的根底1.尋求方向約束最優(yōu)化的一種方法是在可行空間按一定的方向逐步搜索,逼真最優(yōu)點,這

34、就涉及到尋求最優(yōu)方向的問題。對給定問題的可行域S中點*,對于*個非零n維向量存在,當時使得:的方向被稱為*處的尋優(yōu)方向,而對于正定的歸整約束,理論上可保證在一定的迭代次數(shù)后收斂。2.對偶差另一種約束最優(yōu)化的方法是從對偶理論入手,利用對偶差和KKT條件來尋找最優(yōu)點。對于可行的主變量和對偶變量,凸最小化問題的主目標函數(shù)的解常常比(凸最大化的)對偶目標函數(shù)的解要大。當且僅當在最優(yōu)化解處這兩個解才相等。因此對偶差常被作為衡量目標函數(shù)變量的當前解和最優(yōu)解距離的一種度量,此理論來自Lagrange函數(shù)的鞍點特性。以此為根底的算法則通過逐步加強KKT條件,并通過對偶差來進展評估,來逼真最優(yōu)點。3.不敏感損失

35、函數(shù)支持向量機方法是從解決模式識別問題開展起來的,在支持向量分類機中,一般來說,可以用少量的支持向量來表示決策函數(shù),即具有稀疏性。當把該方法推廣到回歸問題時,很重要的一點就是希望找到適宜的支持向量回歸(SVR)算法,仍然保持這個性質。從上述回歸問題的數(shù)學提法可以看出,為建立算法,需要選擇適當?shù)膿p失函數(shù)?,F(xiàn)介紹回歸估計中最常見的一種損失函數(shù),它可以保持稀疏性。不敏感損失函數(shù)其中 ,這里是事先取定的一個正數(shù),不敏感損失函數(shù)的含義是,當*點的觀測值y與預測值之差不超過給定的時,則認為在該點的預測值是無損失的,盡管預測值和觀測值y可能并不完全相等,如下面損失函數(shù)圖像2-1所示。圖2-1損失函數(shù)圖象如果

36、為單變量線性函數(shù) ,當樣本點位于兩條虛線之間的帶子里時,則認為在該點沒有損失,我們稱兩條虛線構成的帶子為帶。只有當樣本點位于帶之外時,才有損失出現(xiàn),例如,下列圖2-2中處的損失為圖2-2不敏感損失帶容易看出,不敏感損失函數(shù)有一個特點:對樣本點來說,存在著一個不為目標函數(shù)提供任何損失值的區(qū)域,即帶。這個特點是其他許多損失函數(shù)并不具備的。我們可以期望,在帶的樣本點,不會出現(xiàn)在決策函數(shù)中。2.4.2回歸算法利用核函數(shù)將輸入數(shù)據(jù)映射到高維特征空間( 通常是無限維),在特征空間實現(xiàn)線性回歸,估計函數(shù)具有如下形式:這里,映射到特征空間,表示特征空間中的積,且為從訓練數(shù)據(jù)集D估計函數(shù),典型的支持向量回歸最小

37、化正則化風險泛函:這里正則化參數(shù)為正數(shù),損失函數(shù)選擇為不敏感損失函數(shù),形式如下:可以通過解二次規(guī)劃的優(yōu)化問題來最小化正則化風險泛函。解可以表達為在特征空間與函數(shù)的線性組合有關的形式:這里系數(shù)通過解二次規(guī)劃問題確定,對于的點稱為支持向量。核函數(shù)對應映射到特征空間的數(shù)據(jù)的積,即:核函數(shù)可以是任意滿足Mercer條件的對稱函數(shù),因此,估計函數(shù)也可以具有如下形式:因此支持向量的拓撲構造如下列圖2-3所示:圖2-3支持向量回歸拓撲圖對于,試圖求解如下有約束的二次規(guī)劃問題:這里C是待確定的常數(shù),是松弛變量,同時首先要先設定的值。2.4.3關于算法的幾點說明1.算法的收斂性說明根據(jù)Osuna的理論,在實現(xiàn)算

38、法中每一步迭代都將減少目標函數(shù)的值,進而保證了算法的收斂性。并且在算法中利用了許多策略和一些啟發(fā)式規(guī)則來進展聯(lián)合優(yōu)化,進一步充分保證了算法的收斂速度。2.算法元素掃描啟發(fā)式規(guī)則對于非敏感損失函數(shù),KKT條件為:和由此進一步推出關于取值的三種情形: 數(shù)據(jù)位于誤差帶外 數(shù)據(jù)位于誤差帶上 數(shù)據(jù)位于誤差帶3.算法中的關于KKT條件的判斷便是依據(jù)上面三式外循環(huán)首先在整個數(shù)據(jù)集合上掃描違反KKT條件的元素,當在整個數(shù)據(jù)集合上掃描一遍之后,外循環(huán)開場在非邊界元素(Lagrange乘子不為0和C)集合上掃描違反KKT條件的元素,直至所有非邊界元素都以的精度滿足KKT條件。然后外循環(huán)重新在整個數(shù)據(jù)集合上掃描。外

39、循環(huán)如此交替在整個數(shù)據(jù)集合上進展一次掃描和在非邊界元素集合上進展多遍掃描,直至算法終止。4.算法的效率在算法運行過程中,CPU的時間集中在最有可能違反KKT條件的元素集合,邊界元素可能停留在邊界,而非邊界元素將會在其它元素被優(yōu)化的同時向邊界移動。假設算法在非邊界元素集合上迭代直至此集合自相容,然后再在整個集合上掃描尋找在非邊界元素優(yōu)化的同時變?yōu)檫`反KKT條件的邊界元素。這樣可保證算法的效率。. z-第3章 基于Matlab實現(xiàn)SVR的總體設計3.1總體設計思想支持向量回歸的最終就是尋求一目標函數(shù),并使得其損失函數(shù)的數(shù)學期望最小,這樣才能得到最準確的回歸曲線以反映訓練集的數(shù)據(jù)走向趨勢。該回歸算法

40、主要解決非線形回歸預測問題,對訓練集采用線性、非線性核函數(shù)進展回歸。通過對各種參數(shù)的設置得到不同性能的回歸曲線,以便于熟悉其中參數(shù)對回歸算法的影響。3.2功能模塊的劃分及相關流程圖主要功能模塊的劃分從總體上說,按照需求分析,可以把要實現(xiàn)的功能劃分為三個主要的功能模塊:1 GUI圖形用戶界面模塊,即系統(tǒng)的主界面。2實驗簡介模塊,簡單說明各個函數(shù)的功能。3支持向量回歸模型設計的實驗模塊,實現(xiàn)支持向量回歸的各種功能(手動創(chuàng)立數(shù)據(jù)集、裝載現(xiàn)有的數(shù)據(jù)集、設置各種相應的參數(shù)、保存數(shù)據(jù)集、進展回歸演示)。實現(xiàn)程序的主要框架圖下列圖3-1中說明了程序設計的總體框圖,并沒有把所有的函數(shù)列出來,只是列出了主要的程

41、序。SVR.m:實現(xiàn)用戶圖形界面模塊(主界面)。about.m:查看系統(tǒng)的各實現(xiàn)功能的簡單說明。uiregress.m:實現(xiàn)了支持向量回歸的演示實驗模塊。svr.m:支持向量回歸的計算。svrplot.m:一維空間回歸作圖問題。svroutput.m:輸出與輸入之間的轉化計算 。svrerror.m:輸入,輸出異常 。svkernel.m:核函數(shù)。圖 3-1程序框圖支持向量回歸模型的流程圖支持向量回歸模型的總流程圖如圖3-2所示。圖3-2 支持向量回歸模型總的流程圖. z-第4章基于支持向量回歸模型的實現(xiàn)4.1模型的功能描述本課題是基于支持向量回歸模型的設計與實現(xiàn),已經按照需現(xiàn)了各種功能。具體

42、實現(xiàn)的功能如下:1) 創(chuàng)立一個GUI圖形用戶界面即主界面,主界面按鈕及菜單功能描述如下:按鈕功能介紹設置路徑:在matlab中,運行任何的文件都必須位于當前路徑或搜索路徑。此按鈕將當前目錄下的子目錄添加為搜索路徑,使得子目錄中的文件可以被當前目錄中的文件調用運行。否則,系統(tǒng)將不能正常工作。由于本實驗的各個函數(shù)在包含在一個文件夾中因而也可以不設置路徑。進入實驗簡介:簡單了解SVR,查看各個函數(shù)要實現(xiàn)的根本功能。進入支持向量回歸模型演示實驗:進展回歸模型演示具體的各個功能塊見下(2)中有詳細介紹。 退出實驗:退出系統(tǒng)。該主界面點擊實驗簡介或演示實驗都將出現(xiàn)動態(tài)的等待進度條,此功能沒有實際用途但可以

43、使設計美觀。2) 通過編寫M文件uiregress.m文件,實現(xiàn)顯示支持矢量機機器學習模型的功能。(1)下拉式菜單核函數(shù)的選取:用戶通過此菜單項選擇擇一個核函數(shù),然后進展回歸實驗。(2)編輯框輸入?yún)?shù)值懲罰系數(shù)C,其初始值設定為20,設置值一般大于0.1,對于該參數(shù)對回歸性能的影響在后面說明。不敏感系數(shù),其初始值設為0.01,參數(shù)對回歸性能的影響也在后面介紹。(3)編輯框顯示信息顯示統(tǒng)計支持向量的個數(shù),回歸性能。(4)按鈕裝載數(shù)據(jù):進展已存在數(shù)據(jù)文件的裝載。數(shù)據(jù)輸入:用戶手動創(chuàng)立數(shù)據(jù),用鼠標點擊將在坐標軸上產生點集。去除數(shù)據(jù):用戶想去除當前數(shù)據(jù)時點擊該按鈕,以便重新創(chuàng)立數(shù)據(jù)集。保存數(shù)據(jù):對創(chuàng)立

44、的數(shù)據(jù)保存,以便下一次直接裝載調用?;貧w:對創(chuàng)立的數(shù)據(jù)集或裝載的數(shù)據(jù)集進展回歸,得到回歸曲線。3) Matlab命令窗口 在命令窗口我們將會獲得算法運行時間,支持向量的個數(shù),回歸性能。4.2 運行結果 主界面運行結果如下列圖4-1所示。圖4-1主界面模塊運行結果功能描述界面運行結果如下列圖4-2所示。圖4-2實驗簡介運行界面運行過程及結果1 支持向量回歸模型實驗運行界面如圖4-3所示。圖4-3 支持向量機回歸模型實驗界面2 手動輸入數(shù)據(jù),并保存,如下列圖4-4所示。圖4-4手動輸入數(shù)據(jù)3 裝載上面保存的數(shù)據(jù),如下列圖4-5所示。圖4-5裝載數(shù)據(jù)裝載aa數(shù)據(jù)文件后的數(shù)據(jù)顯示,如下列圖4-6所示。

45、圖4-6裝載數(shù)據(jù)后的顯示結果3 使用不同的核函數(shù)的回歸結果1線性核函數(shù)線性核函數(shù)的懲罰系數(shù)設為10,不敏感系數(shù)0.01為,此時支持向量數(shù)24,回歸性能92.3%,如下列圖4-7所示。圖4-7回歸結果圖改變不敏感系數(shù)增大為0.02,此時支持向量個數(shù)為22,回歸性能84.6%,如下列圖4-8所示。支持向量數(shù)減少,回歸性能下降。圖4-8改變參數(shù)取值后的回歸圖2多項式核函數(shù)多項式核函數(shù),設置此時多項式次數(shù)為3,如下列圖4-9所示。由回歸結果看出次數(shù)偏低,性能不是很好。圖4-9選擇多項式核函數(shù)的回歸圖形增大多項式次數(shù)Degree為5,并減少不敏感系數(shù)至0.01,回歸性能提高到88.5%,如下列圖4-10

46、所示。圖4-10改變參數(shù)取值后的回歸圖形3高斯徑向基核函數(shù)高斯徑向基核函數(shù)Sigma(RBF寬度)為0.2懲罰系數(shù)10,不敏感參數(shù)為0.01,此時支持向量的個數(shù)為14,回歸性能53.8%,如下列圖4-11所示。圖4-11選擇高斯核函數(shù)的回歸圖形現(xiàn)增大懲罰系數(shù)C至40,其它參數(shù)不變,支持向量數(shù)增多到15,回歸性能提高到57.7%,如下列圖4-12所示。圖4-12改變參數(shù)取值后的回歸圖形降低不敏感系數(shù)至0.001,回歸性能提高到96.2%,如下列圖4-13所示。圖4-13改變參數(shù)后的回歸圖形增大不敏感系數(shù)為0.06,回歸性能明顯下降,為38.5%,如下列圖4-14所示。圖4-14改變參數(shù)取值后的回

47、歸圖形4結論本實驗選取了線性核函數(shù)、多項式核函數(shù)和高斯徑向基核函數(shù),這三個核函數(shù)進展實驗,改變其參數(shù)懲罰系數(shù)、不敏感系數(shù)、RBF寬度以及多項式次數(shù),對回歸帶來了明顯的影響。通過此實驗充分的顯示了,不同的核函數(shù)其回歸性能差異,以及其參數(shù)對回歸的影響。 命令窗口的顯示結果以線性核函數(shù)為例,命令窗口顯示如下列圖4-15所示。 圖4-15命令窗口顯示結果算法運行時間0.1s,支持向量數(shù)24,性能92.3%。由于手動輸入的訓練集數(shù)量相對較少,同時算法的運行效率比擬高,所以算法運行時間一般很短。 4. 3系統(tǒng)的性能分析及結論支持向量回歸方法性能的好壞往往依賴于核函數(shù)及其寬度系數(shù),懲罰因子C以及不敏感系數(shù)等

48、參數(shù)的選擇。不敏感系數(shù)原則上反映了SVM對數(shù)據(jù)中躁聲幅度的容許界限.為選定適當?shù)闹?應考慮采集樣本時可能帶有的躁聲分布的狀況.假設躁聲服從正態(tài)分布,當密度函數(shù)分布較寬(即方差較大)時,宜采用較大的,而當分布較窄時,應選用較小的。應用SVM訓練時,不敏感系數(shù)的大小控制支持向量個數(shù)的多少,當較小時,參與回歸的支持向量將增多,同時訓練時間也有所增加。在不敏感系數(shù)過小時,可能導致過擬合;而過大時則可能造成欠擬合。此外,不敏感系數(shù)還控制模型的泛化推廣能力。在實際求解中,的取值過小,支持向量的數(shù)目變化不大,但模型的求解時間將增加。取值過大,其精度降低,推廣性能差。因此,不敏感系數(shù)的取值一般在0.001到0

49、.1之間。懲罰系數(shù)C的選擇也將影響回歸函數(shù)的擬合精度與預報能力,通常擬合誤差隨C的增大而下降,但下降的速度也越來越小,當C增至一定值后,其下降將漸平緩,幾乎不再隨C的增大而減小。因是SVM只要求擬合誤差超過允許精度的局部降至最小所致。同時,預測誤差也將隨懲罰系數(shù)C的增大而下降,但并非單調,當C增大到一定值后,預測誤差也可能有所上升,這也是過擬合所致。另外訓練時間也將隨C的增加而上升。通過將映射函數(shù)積運算替換為核函數(shù),使輸入數(shù)據(jù)映射到高維空間中進展線性擬合來得到非線性回歸函數(shù)。因此,對于非線性問題還存在核函數(shù)及其參數(shù)的影響。下面對使用幾種常見的核函數(shù)的參數(shù)對回歸性能的影響比擬:表4-1線性核函數(shù)

50、懲罰系數(shù)C不敏感系數(shù)輸入向量個數(shù)支持向量個數(shù)回歸性能 10001262492.3%100005262596.2%10005262596.2%0.500052626100%結論:隨著不敏感系數(shù)的減少(在一定的圍)支持向量的個數(shù)增多,回歸性能下降。懲罰系數(shù)C從0.5增至1,其支持向量個數(shù)減少,性能下降。表4-2多項式核函數(shù)多項式次數(shù)懲罰系數(shù)C不敏感系數(shù)輸入向量個數(shù)支持向量個數(shù)回歸性能 3100.0012626100%310001262388.5%410001262492.3%510001262388.5%結論:從表中可以看出不敏感系數(shù)的增大,支持向量個數(shù)減少,對應回歸性能下降。多項式次數(shù)的選擇要看

51、數(shù)據(jù)的分布,并不是次數(shù)越高,回歸性能越好。表4-3高斯徑向基核函數(shù) 徑向基寬度懲罰系數(shù)C不敏感系數(shù)輸入向量個數(shù)支持向量個數(shù)回歸性能 0110001262076.9%0310001261765.4%0510001262284.6%110001262492.3%1210001262284.6%12100005262492.3%結論:由圖可以看出徑向基寬度對性能的影響并不是簡單的單調遞增或是遞減。徑向基寬度從0.1到0.3再到0.5,其支持向量的個數(shù)先減少再增加。其不敏感系數(shù)從0.01減小到0.005,支持向量個數(shù)增加,回歸性有所提高。. z-第5章總結基于支持向量機方法的回歸估計以可控制的精度逼近

52、任一非線性函數(shù),同時具有全局最優(yōu)、良好的泛化能力等優(yōu)越性能,因此支持向量機的應用非常廣泛。目前支持向量機主要應用在金融時間序列預測如股票預測、期貨預測等和非線性系統(tǒng)參數(shù)辨識、建模與控制等一些方面。本文針對回歸問題,描述了支持向量機的根本方法、理論、回歸算法及當前國外對于支持向量回歸的研究容、方向??偨Y了設計支持向量回歸機的模型選擇方面的進展。模型選擇包括核函數(shù)的選擇、模型正則化參數(shù)C、不敏感參數(shù)等方面容。核函數(shù)的選擇是支持向量機理論研究的一個核心問題。在實際應用中, RBF核函數(shù)是目前在支持向量機中被應用得最廣泛的一種核函數(shù)。對于初學者來說, RBF 核無疑是優(yōu)先考慮的核函數(shù)之一。當然, 在實際應用中也可以采用多種核函數(shù)進展比擬研究, 通過模型的性能指標, 選出推廣性能最優(yōu)的一種核函數(shù)。在固定的核

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論