已閱讀5頁,還剩70頁未讀, 繼續(xù)免費閱讀
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報或認(rèn)領(lǐng)
文檔簡介
論文題目:基于支持向量機(jī)的測井曲線預(yù)測儲層參數(shù)方法 專 業(yè): 應(yīng)用數(shù)學(xué) 碩 士 生: (簽名) 指導(dǎo)老師: 劉葉玲 (簽名) 摘 要 支持向量機(jī)由于其諸多的優(yōu)良特性 , 近年來引起了廣泛的關(guān)注,已經(jīng)成為一個十分活躍的研究領(lǐng)域。本文較全面地研究了支持向量機(jī)的理論及應(yīng)用方法,討論了支持向量機(jī)中高斯核函數(shù)參數(shù)的選擇問題,首次將支持向量機(jī)用于測井參數(shù)屬性估 計儲層屬性中。 本文中,首先對支持向量機(jī)的理論基礎(chǔ) 統(tǒng)計學(xué)習(xí)理論作了一個概述,主要論述了學(xué)習(xí)過程的一致性,如何控制學(xué)習(xí)過程的推廣能力等問題,其次,對簡單的線性可分?jǐn)?shù)據(jù),詳細(xì)介紹了線性支持向量機(jī)的工作原理,即尋找具有最大的分離超平面;核函數(shù)的實質(zhì)是通過一非線性映射把原空間上非線性可分的數(shù)據(jù)映射到另一個特征空間上的線性可分?jǐn)?shù)據(jù),然后利用與線性支持向量機(jī)完全一樣的方法,在該空間建立一個超平 面 ,使其在原空間對應(yīng)著一個非線性超曲 面 ,通過引入一個核函數(shù)使所有的計算在原空間完成。同時針對本文主要討論的回歸問題給以詳細(xì)地 說明,支持向量機(jī)的解最終歸結(jié)為一個凸二次規(guī)劃,有全局最優(yōu)解。簡單介紹了支持向量機(jī)較常用的訓(xùn)練算法 序貫最小優(yōu)化算法,自己編程用 現(xiàn)了該算法 ,數(shù)值試驗結(jié)果表明支持向量機(jī)具有較強(qiáng)的學(xué)習(xí)能力。另外本文具體討論了支持向量機(jī)中高斯核函數(shù)中參數(shù) 對支持向量機(jī)學(xué)習(xí)預(yù)測性能的影響, 證明了 參數(shù) 趨于零和無窮大情況下支持向量機(jī)的性質(zhì), 指出高斯核函數(shù)具有描述樣本相似程度這一性質(zhì),通過數(shù)值實驗和理論分析給出了一種選 擇高斯核函數(shù)的方法 拐點法。進(jìn)一步指出樣本數(shù)據(jù)標(biāo)準(zhǔn)化對學(xué)習(xí)預(yù)測的影響,給出了標(biāo)準(zhǔn)化后選擇較優(yōu)高斯核函數(shù)參數(shù)的一個大致范圍。 最后根據(jù)石油地質(zhì)勘探的實際問題,將支持向量機(jī)運(yùn)用測井曲線預(yù)測儲層參數(shù) 孔隙度、參透率,同時與反向傳播神經(jīng)網(wǎng)絡(luò)函數(shù)逼近法預(yù)測進(jìn)行比較,結(jié)果表明,該方法預(yù)測精度高,方法穩(wěn)定有效。支持向量機(jī)較好的解決了小樣本測井勘探的實際問題。 關(guān) 鍵 詞: 支持向量機(jī),回歸估計,高斯核函數(shù),測井曲線,儲層參數(shù) 研究類型: 應(yīng)用研究 資助項目:國家科技部項目( 04 : VM : ( ( a of is a in VM of at we VM in In we an is of to We is to We to a a In an in we a in We in at VM is a at it a We of in it by of VM We VM VM in We of In we a a , we s we of to of , to in We VM in P of P It is as an VM in a : 錄 I 目 錄 1 緒論 . 1 究的目的和意義 . 1 球物理勘探的應(yīng)用研究歷史及現(xiàn)狀 . 1 計模式識別在地質(zhì)勘探中的應(yīng)用 . 1 線性智能技術(shù)在地質(zhì)勘探中的應(yīng)用 . 錯誤 !未定義書簽。 于小樣本的非線性智能技術(shù)在地質(zhì)勘探中的應(yīng)用 . 3 文研究內(nèi)容和研究方法 . 4 2 統(tǒng)計學(xué)習(xí)理論 . 6 習(xí)問題的表示 . 6 于實例學(xué)習(xí)的一般模型 . 6 種主要的學(xué)習(xí)問題 . 7 驗風(fēng)險最小化歸納原理 . 8 計學(xué)習(xí)理論的核心內(nèi)容 . 9 習(xí)過程的一致性 . 9 習(xí)過程收斂速度的界 . 12 制學(xué)習(xí)過程推廣能力 . 14 3 支持向量機(jī) . 17 持向量簡介 . 17 最優(yōu)分類面 . 17 義最優(yōu)分類超平面 . 19 類支持向量機(jī) . 20 維空間中的推廣 . 20 函數(shù) . 21 造支持向量機(jī) . 22 歸支持向量機(jī) . 23 性支持向量回歸機(jī) . 24 線性支持向量回歸機(jī) . 26 4 支持向量機(jī)的訓(xùn)練算法與核函數(shù)參數(shù)的討論 . 29 持向量機(jī)的訓(xùn)練算法 . 29 持向量機(jī)的預(yù)測能力研究 . 30 持向量機(jī)的內(nèi)插性能研究 . 30 目 錄 支持向量機(jī)的外推性能研究 . 33 持向量機(jī)的抗噪音性能研究 . 34 斯核函數(shù)參數(shù)選擇討論 . 36 斯核函數(shù)參數(shù)的優(yōu)選: . 36 斯核函數(shù)參數(shù) 0& 情況下的支持向量機(jī)性質(zhì) . 43 5 用支持向量機(jī)預(yù)測儲層參數(shù) . 47 言 . 47 持向量機(jī)預(yù)測儲層參數(shù)的一般方法 . 48 井屬性的優(yōu)選與標(biāo)準(zhǔn)化 . 50 用實例 . 52 測井曲線預(yù)測孔隙度 . 52 測井曲線預(yù)測滲透率 . 56 持向量機(jī)應(yīng)用于預(yù)測儲層參數(shù)應(yīng)注意的問題 . 60 6 結(jié)論 . 62 論 . 62 望 . 62 致 謝 . 64 參考文獻(xiàn) . 65 附 錄 . 69 1 緒論 1 1 緒論 究的目的和意義 本課題的主要目的是研究支持向量機(jī)預(yù)測儲層巖性參數(shù)問題。儲層巖性參數(shù),如孔隙度、滲透率是石油地質(zhì)和工程的兩個重要的參數(shù),儲層巖石滲透率和孔隙度分布的不均勻性直接影響油氣分布、運(yùn)移和開采。在油氣勘探中,儲層巖性參數(shù)是地質(zhì)工作者估計儲層含油氣含量、確定井位的主要根據(jù)。開采井位確定的好壞直接影響著油氣的開采層本。因此,預(yù)測巖石滲透率和孔隙度的分布是儲層描述的重 要內(nèi)容 ,對油田勘探和開發(fā)具有重要的意義。 由于儲層分布的多相性和非均勻性,因此無論是直接或間接的測量孔隙度和滲透率都是一個非常困難和代價昂貴的工作??紫抖群蜐B透率與測井屬性參數(shù)如聲波時差、自然伽瑪、巖石密度、電阻率、自然電位、中子密度等有關(guān),但并非都存在著明確的一一對應(yīng)關(guān)系,在估計孔隙度和滲透率的過程中,測井的數(shù)目往往是固定且有限的,因此,很難用精確的算法來描述。 統(tǒng)計學(xué)習(xí)理論 (稱 12是一種處理小樣本的統(tǒng)計理論,為研究有限樣本情況下的統(tǒng) 計模式識別和更廣泛的機(jī)器學(xué)習(xí)問題建立了一個較好的理論框架,同時發(fā)展了一種新的模式識別方法 支持向量機(jī) (稱 能較好地解決小樣本學(xué)習(xí)問題。目前,統(tǒng)計學(xué)習(xí)理論與支持向量機(jī)已經(jīng)成為國際上機(jī)器學(xué)習(xí)領(lǐng)域的研究熱點。但支持向量機(jī)方法也存在一些問題,如對一般函數(shù)的 (稱 定問題、訓(xùn)練算法的改進(jìn)問題及核函數(shù)的選擇及參數(shù)的確定問題,尚未有很好的確定辦法。 本文主要是利用支持向量機(jī)方法,通過測井屬性參數(shù)來預(yù)測儲層參數(shù) 孔隙度和滲透率,同時本文還討論支持向量機(jī)中核函數(shù)性質(zhì)及參數(shù)選擇問題。 球物理勘探的應(yīng)用研究歷史及現(xiàn)狀 計模式識別在地質(zhì)勘探中的應(yīng)用 建立在概率論和數(shù)理統(tǒng)計理論基礎(chǔ)上的統(tǒng)計模式識別技術(shù)是一種傳統(tǒng)的模式識別方法,有較為完善的理論基礎(chǔ)。但對于目前地質(zhì)儲層的精確描述、老油田的再開發(fā),統(tǒng)計方法正遇到越來越大的挑戰(zhàn)。許多地質(zhì)工作者致力于這方面的研究,法國石油研究院等提出用典型相關(guān)分析預(yù)測儲層參數(shù)。他們認(rèn)為,在儲層參數(shù)的預(yù)測中,有許多地震屬性與某一儲層參數(shù)相關(guān),那么可用多種屬性預(yù)測這一參數(shù),然而 這些地震屬性與該參數(shù)西安科技大學(xué)碩士學(xué)位論文 2 的相關(guān)性有大有小,有些作用重復(fù),相互抵消,因此他們通過典型相關(guān)分析優(yōu)選出一組地震屬性或測井屬性,用于預(yù)測該儲層參數(shù)。 在傳統(tǒng)方法中,判別分析和回歸分析技術(shù)是一種常用的、受歡迎的方法 34,由于儲層參數(shù)與測井曲線或地震數(shù)據(jù)之間關(guān)系是非線性的,沒有明確的一一對應(yīng)關(guān)系,而判別分析與線性回歸分析是一種線性分析方法,雖然簡單,但需要把非線性關(guān)系線性化,所以 00 人工智能系統(tǒng)的發(fā)展和計算應(yīng)用的可能。幾十年來,模式識別研究取得了大量的成果,應(yīng)用研究到許多領(lǐng)域。 模式識別技術(shù)是分析地質(zhì)、地球物理、地 震資料、遙感與測井資料的有力工具。在油氣勘探中,人們根據(jù)測井?dāng)?shù)據(jù)、巖芯采樣及地震數(shù)據(jù)分析地下結(jié)構(gòu)、分類巖相、預(yù)測儲層參數(shù)(如孔隙度、滲透率)和預(yù)測油氣儲存情況,實際上是模式識別的應(yīng)用。 對于將模式識別應(yīng)用于勘探來說,在 70 年代以前,雖然已有學(xué)者在統(tǒng)計和多變量分析方面做過一些分散的努力,但將經(jīng)典的模式識別方法用于勘探問題并未被認(rèn)真考慮過 8。近年來隨著計算機(jī)技術(shù)和模式識別技術(shù)的發(fā)展,這方面的應(yīng)用越來越多,已有許多地質(zhì)學(xué)家、地球物理學(xué)家、石油工程師、應(yīng)用數(shù)學(xué)和計算機(jī)專家致力于這方面的研究。 非線性智能反演技術(shù) 在地球物理領(lǐng)域的應(yīng)用始于 20 世紀(jì) 80 年代中期。由于大部分地球物理問題屬于多參數(shù)、多極值的非線性優(yōu)化反演問題,各種線性反演技術(shù)遇到了難以逾越的障礙和困難,使得非線性智能反演技術(shù)的研究得到迅猛發(fā)展。 ,10最先提出用模擬退火方法,解決反演難度較大的自動剩余靜校正問題, 人 11最先研究利用遺傳算法進(jìn)行地震波形的非線性多參數(shù)反演 傳算法、模擬退火算法以及各種改進(jìn)或變形方法在自動剩余靜校正 12、 演 13、層狀介質(zhì)反演14、地震子波估計、地震波形參 數(shù)反演等 15方面得到了廣泛應(yīng)用,且取得了初步的研究成果。 20 世紀(jì) 80 年代末,人工神經(jīng)網(wǎng)絡(luò)技術(shù)在地球物理領(lǐng)域的應(yīng)用也悄然興起,主要研究在模式識別上的應(yīng)用。最初主要用網(wǎng)絡(luò)模型來識別 “亮點 ”,地震波同相軸的追蹤、地震道的編輯和地震波初至拾取、地震波波形參數(shù)反演以及測井儲層參數(shù)反演、測井解釋和油氣橫向預(yù)測等。 在國內(nèi),地球物理界的許多學(xué)者也致力于這方面的研究,肖慈殉 16、楊斌 17等研究了人工神經(jīng)網(wǎng)絡(luò)測井自動解釋方法,彭真明 18、尹成 19用改進(jìn)遺傳算法作剩余靜校正量的計算。王向公 20神經(jīng)網(wǎng)絡(luò)在 地層對比中的應(yīng)用,蔡煜東 21用人工神經(jīng)網(wǎng)絡(luò)建立油田采收率模型,魏永佩 22人工神經(jīng)網(wǎng)絡(luò)及其在油氣勘探開發(fā)中的應(yīng)用,曹思遠(yuǎn) 23研究了儲層預(yù)測中神經(jīng)網(wǎng)絡(luò)的應(yīng)用,楊建禮 24研究了如何應(yīng)用人工神經(jīng)網(wǎng)絡(luò)進(jìn)行油氣預(yù)測,姬戰(zhàn)懷25研究了用測井曲線預(yù)測儲層參數(shù) 正則化神經(jīng)網(wǎng)絡(luò)方法。另外,地礦部物化探研究所楊文采 26,27、中國地質(zhì)大學(xué)姚姚 28、成都理工學(xué)院王山四 122等專家學(xué)者為此作了大量有益的研究工作。 隨著油氣勘探開發(fā)的不斷深入,勘探目標(biāo)隨著油氣勘探開發(fā)的不斷深入,逐漸變深1 緒論 3 變小和更加復(fù)雜 ,勘探領(lǐng)域已由原來的構(gòu)造油氣藏向隱蔽油氣藏延伸?,F(xiàn)有的地震采集、處理及儲層預(yù)測技術(shù)的精度已不能滿足日益復(fù)雜的勘探對象的要求。以生物工程為基礎(chǔ)的遺傳算法、以統(tǒng)計物理學(xué)為基礎(chǔ)的模擬退火和以人工智能為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)等非線性智能技術(shù),雖然為儲層預(yù)測帶來了生機(jī)但在實際應(yīng)用中還是遇到了難于克服的困難,如計算速度、算法的穩(wěn)定性和收斂性、神經(jīng)網(wǎng)絡(luò)的推廣預(yù)測能力、網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計不靈活、權(quán)值獲取規(guī)則單一、易陷入局部最優(yōu)解、推廣預(yù)測能力差等不足 30 神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)需要大量的學(xué)習(xí)樣本,樣本越多樣本含有總體的變化規(guī)律的信息 越多,對儲層的預(yù)測就更準(zhǔn)確。然而在實際的地質(zhì)資料解釋中,可作為訓(xùn)練樣本的取芯數(shù)據(jù)及測井?dāng)?shù)據(jù)是很少的,因此大多數(shù)情況下,用神經(jīng)網(wǎng)絡(luò)解釋測井或地震數(shù)據(jù)是一種小樣本的學(xué)習(xí)問題。這必然使神經(jīng)網(wǎng)絡(luò)方法預(yù)測性能降低 25,所以尋找在小樣本下的預(yù)測方法是油氣測井勘探的關(guān)鍵所在。 于小樣本的非線性智能技術(shù)在地質(zhì)勘探中的應(yīng)用 基于數(shù)據(jù)的機(jī)器學(xué)習(xí)問題是現(xiàn)代智能技術(shù)中的重要方面。研究從觀測數(shù)據(jù)出發(fā)尋找規(guī)律,利用這些規(guī)律對未來數(shù)據(jù)或無法觀測的數(shù)據(jù)進(jìn)行預(yù)測,包括模式識別、神經(jīng)網(wǎng)絡(luò)等在內(nèi),現(xiàn)有機(jī)器學(xué)習(xí)方法共同的重要理論 基礎(chǔ)之一是統(tǒng)計學(xué)。傳統(tǒng)統(tǒng)計學(xué)研究的是漸進(jìn)理論,即當(dāng)樣本數(shù)目趨于無窮大時的極限性質(zhì),現(xiàn)有學(xué)習(xí)方法多是基于此假設(shè)。但在實際問題中,樣本數(shù)往往是有限的,這時很多方法都難以取得理想的效果。 其同事早在二十世紀(jì)六十年代就開始研究有限樣本情況下的機(jī)器學(xué)習(xí)問題,由于當(dāng)時這些研究尚不十分完善,在解決模式識別、回歸估計等問題中往往趨于保守且數(shù)學(xué)上比較艱澀,而 90 年代以前并沒有提出能夠?qū)⑵淅碚撚糜趯嵺`的較好的方法,加之當(dāng)時正處于其他學(xué)習(xí)方法飛速發(fā)展的時期,因此,這些研究一直沒有得到充分 的重視。直到 90 年代中期,有限樣本情況下的機(jī)器學(xué)習(xí)理論研究逐漸成熟起來,形成了一個較完善的理論體系 統(tǒng)計學(xué)習(xí)理論。同時,神經(jīng)網(wǎng)絡(luò)等較新興的機(jī)器學(xué)習(xí)方法的研究則遇到一些重要的困難,如:如何確定網(wǎng)絡(luò)結(jié)構(gòu)的問題、過學(xué)習(xí)與欠學(xué)習(xí)問題、局部極小點問題等等。在這種情況下,試圖從更本質(zhì)上研究機(jī)器學(xué)習(xí)的統(tǒng)計學(xué)習(xí)理論逐步得到重視。 19921995 年,在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的機(jī)器學(xué)習(xí)方法 支持向量機(jī) 35在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其 他機(jī)器學(xué)習(xí)問題中。 法的幾個主要優(yōu)點有: 目標(biāo)是得到現(xiàn)有信息下的最優(yōu)解而不僅僅是樣本數(shù)趨于無窮大時的最優(yōu)值; 理論上說,得到的將是全局最優(yōu)點,解決了在神經(jīng)網(wǎng)絡(luò)方法中無法避免的局部極值問題; 西安科技大學(xué)碩士學(xué)位論文 4 高維空間中構(gòu)造線性逼近函數(shù)來實現(xiàn)原空間中的非線性逼近函數(shù),特殊性質(zhì)能保證學(xué)習(xí)機(jī)有較好的推廣能力,同時,它巧妙地解決了維數(shù)問題,使其算法復(fù)雜度與維數(shù)無關(guān)。 近幾年來該算法已經(jīng)在模式識別領(lǐng)域得到 了廣泛的應(yīng)用 ,并且已經(jīng)在文本分類、圖像識別、手寫字識別 63、蛋白質(zhì)同源檢測及基因表達(dá) 64等方面取得了巨大的成功,對于小樣本的分類問題 , 有調(diào)節(jié)參數(shù)較少、運(yùn)算速度快等優(yōu)點。通過地震或測井等信息進(jìn)行油氣預(yù)測是一種典型的非線性分類器設(shè)計問題 ,它具有已知樣本數(shù)較少、屬性空間維數(shù)高、沒有明確的對應(yīng)關(guān)系模型等特點。目前國內(nèi)有少量學(xué)者已開始致力于支持向量機(jī)預(yù)測含油氣性這一領(lǐng)域的研究,其中最早的有:姚凱豐,李衍達(dá) 43, 一種基于 征選擇的油氣預(yù)測方法;樂友喜,袁全社 44, 支持向量機(jī)方法在儲層預(yù)測 中的應(yīng)用。其中這些預(yù)測所選擇的核函數(shù)是多項式核,張彥周 45采用窗口核函數(shù)估計儲層厚度。 本文在此基礎(chǔ)上針對某工區(qū)特殊的地質(zhì)分布,主要用于測井曲線預(yù)測儲層數(shù)性曲線及孔隙度和滲透率,支持向量機(jī)中運(yùn)用高斯核函數(shù)來預(yù)測,并研究如何選擇支持向量機(jī)的參數(shù),來實現(xiàn)最優(yōu)的預(yù)測效果,同時將此預(yù)測方法與神經(jīng)網(wǎng)絡(luò)方法進(jìn)行了比較。 文研究內(nèi)容和研究方法 具體來說, 基于支持向量機(jī)的測井曲線預(yù)測儲層參數(shù)方法 的研究內(nèi)容和相應(yīng)的方法包括在下述六章: 第一章:緒論。闡述支持向量機(jī)在測井屬性參數(shù)預(yù)測地質(zhì)屬性數(shù)據(jù)中的應(yīng)用研究課題提出的目的和意義,在綜合查閱各類相關(guān)文獻(xiàn)和分析專利檢索及手工檢索結(jié)果的基礎(chǔ)上評述國內(nèi)外研究概況和存在的問題,確定本文研究內(nèi)容的意義和研究方法的可行性。 第二章:統(tǒng)計學(xué)習(xí)理論。主要介紹了統(tǒng)計學(xué)習(xí)理論的一些核心概念和重要定理,分析機(jī)器學(xué)習(xí)的表示問題的內(nèi)涵,特別是了解小樣本學(xué)習(xí)問題的理論基礎(chǔ)。 第三章:支持向量機(jī)。主要介紹支持向量機(jī)原理方法,包括支持向量機(jī)簡介;簡要介紹支持向量機(jī)在分類及回歸問題中的應(yīng)用。 第四章:支持向量機(jī)的訓(xùn)練算法與核函數(shù)選擇討論。研究支持向量機(jī)的訓(xùn)練算法,核函數(shù)參數(shù)對支持向量機(jī)性能的影響, 談?wù)摿酥С窒蛄繖C(jī)的預(yù)測能力,及對于給定的樣本如何選擇合適的核函數(shù)問題。 第五章:支持向量機(jī)預(yù)測儲層參數(shù)。本章是研究的重點,主要是依據(jù)測井屬性參數(shù)用支持向量機(jī)預(yù)測儲層屬性孔隙度,滲透率。其中包括測井屬性的優(yōu)選方法,怎樣才能得到較好的預(yù)測結(jié)果,并將此結(jié)果與神經(jīng)網(wǎng)絡(luò)預(yù)測結(jié)果進(jìn)行了比較。 第六章:結(jié)論。總結(jié)各章研究成果。 本課題的技術(shù)路線: 1 緒論 5 圖 本課題采取的技術(shù)路線 收集資料研究支持向量機(jī)理論 收集地震勘探和測井資料、數(shù)據(jù) 訓(xùn)練 預(yù)測試驗 論 文 研究 數(shù)選擇問題 屬性數(shù)據(jù)的處理優(yōu)選、標(biāo)準(zhǔn)化 西安科技大學(xué)碩士學(xué)位論文 6 2 統(tǒng)計學(xué)習(xí)理論 在 20 世紀(jì) 60 年代前蘇聯(lián)學(xué)者 V. 人提出統(tǒng)計學(xué)習(xí)理論,該理論研究從給定數(shù)據(jù)集中估 計函數(shù)依賴關(guān)系的方法。這是一個非常普遍的問題,涵蓋了統(tǒng)計學(xué)的若干重要論題,特別是判別分析、回歸分析和密度估計問題。統(tǒng)計學(xué)習(xí)理論是支持向量機(jī)的基礎(chǔ),但是 90 年代以前并沒有提出能夠?qū)⑵淅碚撚糜趯嵺`的較好的方法。加之當(dāng)時正處于其他學(xué)習(xí)方法飛速發(fā)展的時期,因此,這些研究一直沒有得到充分的重視。直到 90 年代中期,有限樣本情況下的機(jī)器學(xué)習(xí)理論研究逐漸成熟起來,形成了一個較完善的理論體系統(tǒng)計學(xué)習(xí)理論。在統(tǒng)計學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出了一種新的機(jī)器學(xué)習(xí)方法支持向量,在解決小樣本、非線性及高維模式識別問題中表現(xiàn)出許多特有的 優(yōu)勢,并能夠推廣應(yīng)用到函數(shù)擬合等其他機(jī)器學(xué)習(xí)問題中。為了對學(xué)習(xí)問題進(jìn)一步的研究,我們有必要對統(tǒng)計學(xué)習(xí)理論及 理論進(jìn)行探討。下面主要參考文獻(xiàn) 1對統(tǒng)計學(xué)習(xí)理論作一概述。 本章主要介紹了統(tǒng)計學(xué)習(xí)理論的一些核心概念和重要定理,共分為 2 節(jié):第 1 節(jié)介紹了學(xué)習(xí)問題的一般表示方法;第 2 節(jié)統(tǒng)計學(xué)習(xí)理論的核心內(nèi)容。 習(xí)問題的表示 于實例學(xué)習(xí)的一般模型 從樣本中尋找依賴關(guān)系的模型,我們稱為從實例學(xué)習(xí)的模型。模型包括三個組成部分(見圖 (1)產(chǎn)生器 (G),產(chǎn)生隨機(jī)向量 , n NR 是實數(shù), n 是向量的維數(shù),它是從某一確定但又未知的分布 (2)訓(xùn)練器 (S),對每個輸入向量 x 返回一個輸出值 y ,產(chǎn)生輸出的依據(jù)是某一確定但又未知的條件分布函數(shù) F x y 。 (3)學(xué)習(xí)機(jī)器 (它能夠?qū)崿F(xiàn)一定的函數(shù) ,,其中 是參數(shù)集合,即它能對每個輸入向量 x 產(chǎn)生一個輸出值 y ,但是 y 不是唯一的,而是滿足 ,y f x , 為指標(biāo)集。 2 統(tǒng)計學(xué)習(xí)理論 7 圖 基于實例學(xué)習(xí)的模型示意圖 學(xué)習(xí)機(jī)器觀測到 l 個點對(我們稱為訓(xùn)練集) : 1 1 2 2, , , , , ,y x y x x (學(xué)習(xí)的問題就是從給定的函數(shù)集 ,中選擇出能夠最好地逼近系統(tǒng)反饋的函數(shù)。這種選擇是基于訓(xùn)練集的,訓(xùn)練集由根據(jù)聯(lián)合分布 ,F x y F x F x y 的隨機(jī)獨立抽取 出來的 l 個觀測組成,即觀測樣本 ( 為此引入一個損失函數(shù) ,L y f x 以度量在給定輸入 x 下系統(tǒng)反饋 y 與學(xué)習(xí)機(jī)給出的反饋 ,y f x 間的差異,并對該損失函數(shù)求期望得到風(fēng)險泛函: , , ,R L y f x d F x y (我們的目的是尋找 R 的最小值,僅有的條件是訓(xùn)練樣本 (而聯(lián)合概率分布 ,F x y 未知。 種主要的學(xué)習(xí)問題 基于經(jīng)驗數(shù)據(jù)最小化風(fēng)險泛函的學(xué)習(xí)問題是非常一般的。特別是它包括 3 個基本統(tǒng)計學(xué)問題: ( 1) 模式識別: 令系統(tǒng)的反饋值 0,1y , ,為指示函數(shù)集(指示函數(shù)僅取 0、 1 兩個值)。考慮損失函 數(shù) 0 , , 1 , ,y f xL y f x y f x (西安科技大學(xué)碩士學(xué)位論文 8 此時, (的泛函 R 實際上就是分類錯誤率,模式識別問題就是尋找一個函數(shù)使其極小化分類錯誤率。 ( 2)回歸估計: 令訓(xùn)練器的輸出 ,并令 ,為實數(shù)集合,取損失函數(shù)如下: 2, , ,L y f x y f x (回歸估計就是尋找一個函數(shù) 0,f x y d F y x ,使其極小化泛函 ( 0,是所求的回歸函數(shù)估計。 ( 3)密度估計: 在 給 定 獨 立 同 分 布 數(shù)據(jù)12,lx x 況 下 , 從 密 度 函 數(shù) 集 合 ,中尋找某一函數(shù) 0,使得風(fēng)險泛函 ( ,R L p x d F x (極小化,其中損失函數(shù)為 , l o g ,L p x p x。 通過上面的問題,我們得到了學(xué)習(xí)問題的一般表示:設(shè)定義在空間 Z 上的概率測度 習(xí)的目標(biāo)就是在給定的函數(shù)集 ,上最小化風(fēng)險泛函 ,R Q z d F z (其中 給定了一定獨立同分布的樣本: 12, , , lz z z(驗風(fēng)險最小化歸納原理 在未知分布 們最小化( 我們依靠建立在訓(xùn)練樣本集 (的經(jīng)驗風(fēng)險泛函 2 統(tǒng)計學(xué)習(xí)理論 9 11 ,le m p (來代替實際風(fēng)險 R ,這一原則稱作經(jīng)驗風(fēng)險最小化歸納原則( 稱 則)。實質(zhì)上是用使經(jīng)驗風(fēng)險 (小的函數(shù) ,近使風(fēng)險 (最小的函數(shù) 0,對于一個歸納原則,如果對于任何觀測 數(shù)據(jù),學(xué)習(xí)機(jī)器都依照這一原則來選擇逼近,則我們說這一歸納原則定義了一個學(xué)習(xí)過程。在學(xué)習(xí)理論中 則起著決定性作用。其實, 則是非常一般性的,如回歸估計問題中最小二乘法、概率密度估計中的最大似然法等都是 則的具體體現(xiàn)。 用 則代替期望風(fēng)險最小化并沒有經(jīng)過充分的理論論證,只是直觀上合理的想當(dāng)然做法,但這種思想?yún)s在多年的機(jī)器學(xué)習(xí)方法研究中占據(jù)了主要地位。人們多年來將大部分注意力集中到如何更好地最小化經(jīng)驗風(fēng)險上,而實際上 ,即使可以假定當(dāng) l 趨向于無窮大時 (趨近于 (,在很多問題中的樣本數(shù)目也離無窮大相去甚遠(yuǎn)。那么在有限樣本下 則得到的結(jié)果能使真實風(fēng)險也較小嗎? 計學(xué)習(xí)理論的核心內(nèi)容 統(tǒng)計學(xué)習(xí)理論就是研究小樣本統(tǒng)計估計和預(yù)測的理論 ,主要內(nèi)容包括四個方面: (1) 基于 則的學(xué)習(xí)過程具有一致性 ; (2) 學(xué)習(xí)過程收斂速度的非漸進(jìn)性理論 ,即學(xué)習(xí)過程收斂速度的問題 ; (3) 控制學(xué)習(xí)過程推廣能力的理論 ,即研究如何控制學(xué)習(xí)過程的推廣能力 ; (4) 構(gòu)造學(xué)習(xí)算法理論 ,即研究如何構(gòu)造能夠控制推廣能力的學(xué)習(xí)機(jī)器 ; 這一節(jié)我們簡要介紹前三個方面的內(nèi)容,第四個內(nèi)容將在下一章詳細(xì)說明。 習(xí)過程的一致性 設(shè) ,是對給定的獨立同分布觀測12, , , lz z 最小化的函數(shù)。 定義 于函數(shù)集 ,,定義其子集如下: : , ,c Q z d F z c 西安科技大學(xué)碩士學(xué)位論文 10 如果對于函數(shù)集的任意非空子集 , 都有 ,i n f i n le m 成立,則我們說 則對函數(shù)集 ,和概率分布 下簡稱一致性。 定理 函數(shù)集 ,滿足條件: ,A Q z d F z B A R B 即 那么, 則一致性的充分必要條件是: 0 , 0s u pl i m P R R E M (即是指經(jīng)驗風(fēng)險 在函數(shù)集 ,上在 (義下一致收斂于實際風(fēng)險 R 。 定義 示函數(shù)集合的熵 ) 設(shè) ,是指示函數(shù)集,考慮樣本12,lz z z,令 12, , , ,q Q z Q z ,我們用 1 , lN z z 表示 q 取不同值
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年中藥購銷員(中級)(理論知識)試題及答案
- 2025年大學(xué)人體斷層解剖學(xué)(斷層結(jié)構(gòu)識別)試題及答案
- 2025年大學(xué)第四學(xué)年(歷史學(xué))世界近現(xiàn)代史綜合測試試題及答案
- 2025年高職編導(dǎo)(影視編導(dǎo))試題及答案
- 2025年大學(xué)生物(生物化學(xué))試題及答案
- 2025年中職(舞蹈表演)舞蹈基本功試題及答案
- 2025年高職藥品質(zhì)量與安全(藥品風(fēng)險評估)試題及答案
- 2025年高職茶葉生產(chǎn)與應(yīng)用(茶葉營銷實務(wù))試題及答案
- 2026年安徽審計職業(yè)學(xué)院高職單招職業(yè)適應(yīng)性測試備考題庫有答案解析
- 2026年貴州交通職業(yè)技術(shù)學(xué)院單招綜合素質(zhì)筆試模擬試題帶答案解析
- 湖北省武漢市洪山區(qū)2024-2025學(xué)年五年級上學(xué)期期末數(shù)學(xué)試卷
- 甲醇的生產(chǎn)畢業(yè)論文
- 2025秋季新版八上語文新增名著《紅巖》必考考點總結(jié)
- 直招軍官筆試題目及答案
- 2024-2025學(xué)年浙江省杭州市學(xué)軍中學(xué)高一(上)期末英語試卷
- 產(chǎn)業(yè)基金設(shè)立及管理流程
- 家具設(shè)計方案
- DB31T+1545-2025衛(wèi)生健康數(shù)據(jù)分類分級要求
- 《人工智能基礎(chǔ)》課程標(biāo)準(zhǔn)
- 青少年無人機(jī)培訓(xùn)課件
- 教師課程開發(fā)能力提升專題培訓(xùn)心得體會
評論
0/150
提交評論