下載本文檔
版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
基于支持向量機的科研立項評審系統(tǒng)研究
統(tǒng)計學習理論是在傳統(tǒng)統(tǒng)計基礎上發(fā)展起來的一種具有堅實理論基礎的機械學習方法。自20世紀90年代以來,由于三個原因,它已經(jīng)形成了一個相對完整的理論體系。統(tǒng)計學習理論是由自身的三個方面組成的。提出了新的支持向量機的新方法。由于神經(jīng)網(wǎng)絡和其他學習方法都很困難,這項研究開始受到關注。目前,SVM已應用到很多領域:醫(yī)療診斷、主成分分析和降噪處理、新類別檢測等。國內(nèi)的一些學者也注意到了這一新的研究方向?;痦椖康牧㈨椩u審是一種典型的綜合評價問題,且歷來受到廣大科技工作者、各級基金委員會及評審專家的關注,如何最大限度地克服各種主觀因素的干擾,將有限的科研資金投入到最有希望取得明顯科研成果的科研項目中去,使其發(fā)揮最大的效果成為問題的焦點。本文采用SVM理論,建立基金項目立項評審決策系統(tǒng):根據(jù)評審專家對各申請項目各項指標的評價,對基金項目進行二值分類(資助與不資助),從而決定評審的結(jié)果。研究結(jié)果表明:與其它方法相比,本方法能取得更好的評審結(jié)果。1支持向量機的發(fā)展傳統(tǒng)統(tǒng)計學是包括神經(jīng)網(wǎng)絡在內(nèi)的眾多機器學習方法的理論基礎,它是學習樣本數(shù)目趨于無窮大時刻的漸近理論,然而在實際中,樣本數(shù)目往往是有限的,即這一條件得不到滿足。因此,基于傳統(tǒng)統(tǒng)計學的機器學習方法所取得的學習效果經(jīng)常不盡人意。VladimirN.Vapnik等人自20世紀60年代開始,一直致力于小樣本情況下機器學習理論的研究工作,并由此而發(fā)展成為統(tǒng)計學習理論,指出經(jīng)驗風險最小并不能保證期望風險最小;提出了結(jié)構風險最小化原理(StructureRiskMinimization,SRM);給出核心概念VC維(Vapnik-ChervonenkisDimension),指出為了最小化期望風險必須同時最小化經(jīng)驗風險和VC維。支持向量機是統(tǒng)計學習理論中最新的內(nèi)容,也是最實用的部分。正因為SVM的提出,才促進了SLT的推廣與發(fā)展。1.1族同分布觀測系統(tǒng)最優(yōu)期望風險機器學習是指在未知概率密度函數(shù)P(X)和聯(lián)合概率分布函數(shù)F(X,y)的情況下,僅根據(jù)n個獨立同分布觀測樣本在一族函數(shù)f(X,W),W∈?中求一個最優(yōu)函數(shù)f(X,W0),使預測的期望風險取最小。式中L[y,f(X,W)]為采用f(X,W)對y進行預測而造成的損失。對于兩類分類問題,損失函數(shù)可定義為:1.2經(jīng)驗風險最小期望風險的估算由于未知分布函數(shù)F(X,y),因此無法計算式(2)的期望風險最小值,而只能由樣本式(1)來估算。因為由經(jīng)驗數(shù)據(jù)計算得出,所以稱其為經(jīng)驗風險。所謂的經(jīng)驗風險最小化原理就是用最小經(jīng)驗風險來代替最小期望風險。目前的機器學習方法大多是基于經(jīng)驗風險最小化原理的,如在神經(jīng)網(wǎng)絡的學習算法中,使對訓練樣本的學習誤差趨于最小甚至0。1.3vc維的定義為了研究從經(jīng)驗風險最小推廣到期望風險最小的條件,統(tǒng)計學習理論定義了VC維這一極其重要的概念,詳細定義由生長函數(shù)給出。模式識別方法中的VC維的直觀定義為:對一個指示函數(shù)集,如果存在h個樣本能夠被函數(shù)集中的函數(shù)按所有可能的2h種形式分開,則稱函數(shù)集能夠把h個樣本打散;函數(shù)集的VC維就是它能打散的最大樣本數(shù)h。VC維在統(tǒng)計學習理論中扮演很重要的角色,然而除了一些特殊的例子,如n維實數(shù)空間中線性分類器和線性實函數(shù)的VC維是n+1,大部分情形下的VC維是無法精確計算的,如常用的前饋多層神經(jīng)網(wǎng)絡的VC維。1.4mp/wsf實際上,從經(jīng)驗風險最小而推至期望風險最小沒有可靠的理論依據(jù)。統(tǒng)計理論指出:經(jīng)驗風險Remp(W)和實際風險R(W)之間至少以1-η的概率滿足如下關系:其中n是樣本數(shù),h是函數(shù)集的VC維。由(5)式得出,期望風險不僅與經(jīng)驗風險有關,而且與VC維和學習樣本有關。Vapnik指出:為最小化期望風險,必須同時最小化經(jīng)驗風險和VC維,即結(jié)構風險最小化原理。1.5svm的基本方法支持向量機的研究最初是針對模式識別中的兩類線性可分問題,如圖1。分割線1和分割線2都能正確地將兩類樣本分開,即都能保證使經(jīng)驗風險最小(為0),這樣的分割線有無限多條,但分割線1使兩類樣本的間隙最大,稱之為最優(yōu)分類線(更高維即為最優(yōu)分類平面)。統(tǒng)計學習理論指出最優(yōu)分類線(平面)的置信范圍最小。設線性可分樣本集為(Xi,yi),是類別標號。d維空間中線性判別函數(shù)的一般形式為g(X)=W?X+b,分類面方程為將判別函數(shù)歸一化,使兩類所有樣本都滿足g(X)≥1,這很容易實現(xiàn),只需等比例調(diào)節(jié)W和b即可。這樣,分類間隔就等于,因此,求間隔最大變?yōu)榍笞钚?。滿足的樣本點,離分類線(平面)距離最小,它們決定了最優(yōu)分類線(平面),稱之為支持向量。圖1中帶斜杠的樣本即為SV。可見,求最優(yōu)分類面的問題轉(zhuǎn)化為優(yōu)化問題:本優(yōu)化問題可以轉(zhuǎn)化為通過對(8)的求解,可得最優(yōu)分類函數(shù)為式中b的求解可通過任選一支持向量,由(7)式的約束方程(此時取等號)求出。根據(jù)KT條件,對于大多數(shù)的樣本而言,αi=0。對應αi≠0的樣本即為支持向量。(9)式也說明由支持向量集決定的分類面和由全體樣本集決定的分類面是等價的。對于線性不可分問題,Vapnik引入了核空間理論:將低維的輸入空間數(shù)據(jù)通過非線性映射函數(shù)映射到高維屬性空間,將分類問題轉(zhuǎn)化到屬性空間進行。可以證明,如果選用適當?shù)挠成浜瘮?shù),輸入空間線性不可分問題在屬性空間將轉(zhuǎn)化為線性可分問題。這種非線性映射函數(shù)被稱之為核函數(shù)。從理論上講,滿足Mercer條件的對稱函數(shù)K(X,X′)都可以作為核函數(shù)。引入核函數(shù)后,以上各式中向量的內(nèi)積都用核函數(shù)代替。從上面的討論不難看出,具體應用SVM的步驟為:選擇適當?shù)暮撕瘮?shù)→求解優(yōu)化方程,獲得支持向量及相應的Lagrange算子→寫出最優(yōu)分界面方程。上面介紹的是二值分類器,基于SVM的多值分類器的構造可以通過組合多個二值子分類器來實現(xiàn),具體的構造方法有一對一和一對多兩種。2基金項目成績評審嚴格地講,不同級別、不同地方的科研立項評審方法存在差異,如國家自然科學基金較為強調(diào)基礎理論研究,而省部級基金則可能更為重視與本地、本部門應用的結(jié)合。然而,由于各基金主管部門相互之間經(jīng)驗的借鑒和交流,評審的總體思路和具體操作過程大同小異,差別在于具體數(shù)據(jù)的處理形式上。在此以廣東省自然科學基金評審過程為例,說明科研立項評審的具體操作。基金項目立項評審主要是通過多名申請課題所在學科內(nèi)的專家對申請課題的各項指標進行評估,這些指標是在多年評審中歸納出的一個體系,它可以分為4大項,每一大項又包含3~5個具體指標,如表1所示?;痦椖苛㈨椩u審的具體操作過程大致可以分為3個階段。(1)打分由5~7個學術專家按表1所示的指標集對申請課題的各項指標進行打分,一般每個指標可以依照水平的高低打A,B,C,D4個值,這樣對每一項申請指標都會得到5~7份原始專家評審表。(2)綜合由工作人員采取某一方法將這些原始表格進行綜合,得到一份與原始表格格式完全一致的綜合表格。(3)排序?qū)λ玫木C合表格按得分高低進行排序,排序公式可為式中xi為第i個指標的得分,wi為第i個指標的權重。得分高的即獲得資助。在有些地區(qū)可能還會進行下一步驟:協(xié)調(diào)與評議,即基金委員會根據(jù)學科分布、地區(qū)平衡等因素對排序靠前的項目進行協(xié)調(diào),在此基礎上,可能還會請通過協(xié)調(diào)的項目的負責人集中進行答辯,最后再由評委根據(jù)負責人的答辯成績結(jié)合評審專家的打分成績決定最后的資助情況。從上面的介紹可以看出,在評審的各個階段都可能存在人為主觀因素的干擾:打分過程主要依賴學術專家個人的知識范圍、精神狀態(tài)、道德水準等;綜合與排序兩步驟所取得的結(jié)果與所選擇的參數(shù)和方法緊密相關;協(xié)調(diào)和評議更可能會給某些人提供好處。3基于svm的耐評系統(tǒng)設計設計基于SVM的立項評審系統(tǒng)實質(zhì)上就是將SVM理論應用到模式識別上,即通過學習確定兩類申請項目的分界面。圖2給出了基于SVM理論的立項評審系統(tǒng)的設計方法框圖。本評審系統(tǒng)設計主要涉及3個方面:從較多的樣本數(shù)據(jù)中選擇支持向量;由支持向量建造基于SVM的評審系統(tǒng);對未知類別樣本進行評審。3.1支持向量的向量提取以1999年的工程類項目為例,該年總共有131個申請項目,從中隨機選擇81個項目作為學習樣本,剩余50個樣本留作評審用。由于本系統(tǒng)具有較強的線性關系,因此可直接采用向量的內(nèi)積作為核函數(shù),即將81個學習樣本各指標的綜合得分及與之對應的評審結(jié)果代入(8)式,并求解該方程即得到支持向量集及與各支持向量對應的Lagrange系數(shù)。本例中共有17個支持向量。3.2最合適的分類將上一步獲得的支持向量集及與各支持向量對應的Lagrange系數(shù)代入(7)式和(9)式,可得最優(yōu)分類面3.3對評價模型的改進利用最優(yōu)分類面進行評審,將評審樣本依下式分類為了進一步提高評審的精度
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 限購后購房合同(標準版)
- 2026年醫(yī)院中央空調(diào)系統(tǒng)維保合同
- 2025年南方城市高端住宅區(qū)配套設施建設項目可行性研究報告
- 2025年室內(nèi)空氣凈化器研發(fā)項目可行性研究報告
- 物流叫車合同范本
- 2025年健康旅游項目可行性研究報告
- 2025年算力中心建設與運營項目可行性研究報告
- 煤礦企業(yè)合同范本
- 城市工程師面試題及答案
- 船體焊接工考試題目集
- 2020年科學通史章節(jié)檢測答案
- 長期臥床患者健康宣教
- 穿刺的并發(fā)癥護理
- 設計公司生產(chǎn)管理辦法
- 企業(yè)管理綠色管理制度
- 2025年人工智能訓練師(三級)職業(yè)技能鑒定理論考試題庫(含答案)
- 2025北京八年級(上)期末語文匯編:名著閱讀
- 小學美術教育活動設計
- 蜜雪冰城轉(zhuǎn)讓店協(xié)議合同
- 低分子肝素鈉抗凝治療
- 重慶城市科技學院《電路分析基礎》2023-2024學年第二學期期末試卷
評論
0/150
提交評論