半監(jiān)督式學習_第1頁
半監(jiān)督式學習_第2頁
半監(jiān)督式學習_第3頁
半監(jiān)督式學習_第4頁
半監(jiān)督式學習_第5頁
已閱讀5頁,還剩2頁未讀 繼續(xù)免費閱讀

付費下載

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

監(jiān)督式學主講:陳治宇習半半監(jiān)督式學習半監(jiān)督學習(Semi-SupervisedLearning,SSL)是模式識別和機器學習領域研究的重點問題,是監(jiān)督學習與無監(jiān)督學習相結合的一種學習方法。半監(jiān)督學習使用大量的未標記數(shù)據(jù),以及同時使用標記數(shù)據(jù),來進行模式識別工作。當使用半監(jiān)督學習時,將會要求盡量少的人員來從事工作,同時,又能夠帶來比較高的準確性,因此,半監(jiān)督學習正越來越受到人們的重視半監(jiān)督式學習起源與發(fā)展半監(jiān)督學習的研究的歷史可以追溯到20世紀70年代,這一時期,出現(xiàn)了自訓練(Self-Training)、直推學習(TransductiveLearning)、生成式模型(GenerativeModel)等學習方法。在半監(jiān)督學習成為一個熱門領域之后,出現(xiàn)了許多利用無類標簽的樣例提高學習算法預測精度和加快速度的學習方法,因此出現(xiàn)了大量改進的半監(jiān)督學習方法。Nigam等人將EM和樸素貝葉斯結合,通過引入加權系數(shù)動態(tài)調整無類標簽的樣例的影響提高了分類準確度,建立每類中具有多個混合部分的模型,使貝葉斯偏差減小。Zhou和Goldman提出了協(xié)同訓練改進算法,不需要充分冗余的視圖,而利用兩個不同類型的分類器來完成學習。Shang等人提出一種新的半監(jiān)督學習方法,能同時解決有類標簽樣本稀疏和具有附加無類標簽樣例成對約束的問題。半監(jiān)督式學習在半監(jiān)督學習中有三個常用的基本假設來建立預測樣例和學習目標之間的關系,有以下三個:(1)平滑假設(SmoothnessAssumption):位于稠密數(shù)據(jù)區(qū)域的兩個距離很近的樣例的類標簽相似,也就是說,當兩個樣例被稠密數(shù)據(jù)區(qū)域中的邊連接時,它們在很大的概率下有相同的類標簽;相反地,當兩個樣例被稀疏數(shù)據(jù)區(qū)域分開時,它們的類標簽趨于不同。(2)聚類假設(ClusterAssumption):當兩個樣例位于同一聚類簇時,它們在很大的概率下有相同的類標簽。這個假設的等價定義為低密度分離假設(LowSensitySeparationAssumption),即分類決策邊界應該穿過稀疏數(shù)據(jù)區(qū)域,而避免將稠密數(shù)據(jù)區(qū)域的樣例分到決策邊界兩側。。半監(jiān)督式學習(3)流形假設(ManifoldAssumption):將高維數(shù)據(jù)嵌入到低維流形中,當兩個樣例位于低維流形中的一個小局部鄰域內時,它們具有相似的類標簽。

流形假設的主要思想是同一個局部鄰域內的樣本數(shù)據(jù)具有相似的性質,因此其標記也應該是相似。這一假設體現(xiàn)了決策函數(shù)的局部平滑性。和聚類假設的主要不同是,聚類假設主要關注的是整體特性,流形假設主要考慮的是模型的局部特性。在該假設下,未標記的樣本數(shù)據(jù)就能夠讓數(shù)據(jù)空間變得更加密集,從而有利于更加標準地分析局部區(qū)域的特征,也使得決策函數(shù)能夠比較完滿地進行數(shù)據(jù)擬合。流形假設有時候也可以直接應用于半監(jiān)督學習算法中。例如,Zhu等人利用高斯隨機場和諧波函數(shù)進行半監(jiān)督學習,首先利用訓練樣本數(shù)據(jù)建立一個圖,圖中每個結點就是代表一個樣本,然后根據(jù)流形假設定義的決策函數(shù)的求得最優(yōu)值,獲得未標記樣本數(shù)據(jù)的最優(yōu)標記;Zhou等人利用樣本數(shù)據(jù)間的相似性建立圖,然后讓樣本數(shù)據(jù)的標記信息不斷通過圖中的邊的鄰近樣本傳播,直到圖模型達到全局穩(wěn)定狀態(tài)為止半監(jiān)督式學習分類SSL按照統(tǒng)計學習理論的角度包括直推(Transductive)SSL和歸納(Inductive)SSL兩類模式。直推SSL只處理樣本空間內給定的訓練數(shù)據(jù),利用訓練數(shù)據(jù)中有類標簽的樣本和無類標簽的樣例進行訓練,預測訓練數(shù)據(jù)中無類標簽的樣例的類標簽;歸納SSL處理整個樣本空間中所有給定和未知的樣例,同時利用訓練數(shù)據(jù)中有類標簽的樣本和無類標簽的樣例,以及未知的測試樣例一起進行訓練,不僅預測訓練數(shù)據(jù)中無

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論