下載本文檔
版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)
文檔簡介
1、精選優(yōu)質(zhì)文檔-傾情為你奉上多標記學習中LIFT算法的簡要概述作者:李星星來源:大眾科學·上旬2019年第02期 摘 要:在多標記學習體系內(nèi),關(guān)于現(xiàn)實內(nèi)的所有客觀對象,系統(tǒng)均會在輸入空間(屬性空間)通過使用一個樣本來描述這種對象的性質(zhì),而在輸出空間(類標空間)中則采用類標來描述這種對象所具有的語義信息。而其中一種基于特異性特征的多標記學習方法LIFT尤為重要。 關(guān)鍵詞:多標記學習;類別屬性;LIFT算
2、法 一、LIFT算法概述 在多標記學習體系內(nèi),關(guān)于現(xiàn)實內(nèi)的所有客觀對象,系統(tǒng)均會在輸入空間(屬性空間)通過使用一個樣本來描述這種對象的性質(zhì),而在輸出空間(類標空間)中則采用類標來描述這種對象所具有的語義信息。而多標記學習的任務就是替真實世界中擁有多種語義的那些客觀對象構(gòu)建分類器的模型,從而以便這種模型能夠高效地預測未知樣本擁有的所有相關(guān)標記。
3、0; 以前很多多標記學習方法應運而生,然而這些方法所采用的共同思想就是在同樣的特征空間中,利用相同的特征集合來預測樣本所有的類標。換言之,通過這類方法,多標記學習體系將得出的p個實值函數(shù)f1,f2,fp則是通過同樣特征集合所訓練而來。 雖然這些方法在性能上也實現(xiàn)了很好的魯棒性,但是這種思想也許并不是最好的選擇。比如說:當判斷一個學生是計算機系的學生還是藝術(shù)系的學生時,可以通過像代碼和藝術(shù)作品這類的特性就可以大致區(qū)別該學生的身份來;以上的信息特征和所對應的類別最相關(guān)、對該類別最具有
4、區(qū)分能力的屬性,這類特征也被稱之為類標特異性特征(Label-Specific Features)。對于此,本文將介紹一種基于特異性特征的多標記學習方法LIFT。 二、LIFT算法基本原理及步驟 在構(gòu)建多標記學習模型的過程中,已有的多標記學習方法基本都是在輸出空間(類標空間)的基礎(chǔ)上進行研究,而很少在輸入空間(特征空間)上進行研究?;诖?,與以往方法的思想不同,為了充分考察特征空間的性質(zhì),充分利用某一特定類標
5、lkL,k1,2,p的特異性特征,LIFT算法被提出以便應對這些多標記數(shù)據(jù)集。 假設(shè)x=IRk表示為包含k個維度的樣本空間,L=l1,l2,lp表示為類標向量,符號p表示為類別總數(shù)。S=(xi,Yi)|i=1,2,n表示為多標記學習的訓練集,符號n表示為訓練樣本的數(shù)目。則第i個樣本對象可看作是具有k個屬性值的一個向量xi=xi1,xi2,xik,其中xix,并且Yi=Yi1,Yi2,YiP包含于L,是樣本xi的地表真實類標?;谶@些性質(zhì),LIFT算法分為以下三個步驟:類標特異性特征構(gòu)建、分類模型架構(gòu)以
6、及未知樣本的預測。 (1)類標特異性特征構(gòu)建 對于LIFT算法,每一個類標lkL,訓練樣本均被劃分為兩個部分,即正訓練樣本子集Pk和負訓練樣本子集Nk。換句話說,Pk代表著由囊括類標lk的樣本所構(gòu)成的集合,同樣地,Nk代表著由不含類標lk的樣本所構(gòu)成的集合。它們的形式可表示如下: 在式(1)和(2)中,如果訓練樣本x
7、i涵蓋類標lk,則xi隸屬于Pk,否則的話,則xi隸屬于Nk。 為了獲得Pk和Nk的內(nèi)在屬性,LIFT方法分別對正訓練樣本集合Pk和負訓練樣本集合Nk上采用聚類分析方法。在先前文獻1, 2中,依據(jù)經(jīng)典而又有效的k-means方法來聚類分析。在此,將Pk劃分成mk個不相交的聚類,并且它的聚類中心被描述為 , 按照同樣的方式,Nk也被劃分成mk個不相交的聚類,其聚類中心被描述為 。正如我們所知,在多標記學習系統(tǒng)中
8、,經(jīng)常會 出現(xiàn)類別不平衡的問題,即Nk的聚類中心數(shù)目遠遠地超過Pk的聚類中心數(shù)目,形式化表示則為|Nk|20*|Pk|。因此,為了避免這個問題,LIFT算法對子集Pk和Nk設(shè)置了同樣的聚類中心數(shù)目。如此說來,LIFT算法對正訓練樣本子集Pk和負訓練樣本子集Nk的聚類信息則賦予了一樣的權(quán)重。具體而言,聚類中心數(shù)目以如下形式表示: 式中,|.|可表示為集合的勢,也稱作該集合的基數(shù)。并且0,1表示為一個可以控制聚類
9、數(shù)目的參數(shù)。 根據(jù)聚類自身的特性可以知道,子集Pk和Nk的聚類中心展現(xiàn)了它們樣本數(shù)據(jù)的內(nèi)部結(jié)構(gòu)特點。所以說,通過聚類中心,我們可以構(gòu)建出類標特異性特征,其形式如下所示: 式中,d(·,·)表示著兩不同樣本間的距離,在文獻25, 26中,歐氏距離通常被用來計算距離,其實在本文中,也嘗試用其他距離公式,如,閔可夫斯基距離來計算樣本間的距離,然而最后的效果卻和歐氏距離所得到的效果并無多的差異。因
10、此,本文最后還是使用歐氏距離。實際上,這是一個由原始的k維的特征空間向2mk維的類標特異性特征空間Nk的映射函數(shù) (2)分類模型架構(gòu) 在第二步中,LIFT算法則通過由上一步驟中所構(gòu)建的類標特異性特征空間Nk中的類標特異性特征k分別訓練出個分類模型Q1,Q2,Q。對于每一個類標lkL,依據(jù)映射函數(shù)k,從原始的訓練集S內(nèi)得到相應的具有n個樣本的二類訓練集Sk*,二類訓練集Sk*具有如下表示:
11、; 式中,如果lkYi,則p(lk,Yi)值為+1;否則其值為-1?;谝陨系姆治?,任何的一個二類學習算法都可以被用來誘導出類標lk所對應的一個分類模型Qk:NkR。 (3)未知樣本的預測 在最后一步中,在給出某一未知樣本x'x后,其預測類標子集可由如下公式表示 &
12、#160; 參考文獻 1Zhang M L, Wu L. Lift : Multi-Label Learning with Label-Specific FeaturesJ. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015, 37(1): 107-120. 2Zhang M L. LIFT: multi-label learning with label-specific f
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 呼吸系統(tǒng)疾病患者的營養(yǎng)支持
- 勞動爭議調(diào)查試題和答案
- 獸醫(yī)學題庫及答案
- 中級會計師考試模擬試題及答案
- 企業(yè)文化試題與答案(供參考)
- 《傳染病護理》考試試卷及答案
- 產(chǎn)科規(guī)培考試試題附答案
- 鹽山縣輔警考試公安基礎(chǔ)知識考試真題庫及答案
- 教師招聘考試教育學題庫及答案
- 稅法考試真題卷子及答案
- (一診)重慶市九龍坡區(qū)區(qū)2026屆高三學業(yè)質(zhì)量調(diào)研抽測(第一次)物理試題
- 2026新疆伊犁州新源縣總工會面向社會招聘工會社會工作者3人考試備考試題及答案解析
- 2026年榆能集團陜西精益化工有限公司招聘備考題庫完整答案詳解
- 2026廣東省環(huán)境科學研究院招聘專業(yè)技術(shù)人員16人筆試參考題庫及答案解析
- 2026年保安員理論考試題庫
- 駱駝祥子劇本殺課件
- DGTJ08-10-2022 城鎮(zhèn)天然氣管道工程技術(shù)標準
- 加油站安保反恐工作總結(jié)分享范文
- 反洗錢風險自評價制度
- 隱框、半隱框玻璃幕墻分項工程檢驗批質(zhì)量驗收記錄
- 包扎技術(shù)課件
評論
0/150
提交評論