基于Sparse_group_lasso相關(guān)懲罰項(xiàng)特征選擇研究_第1頁(yè)
基于Sparse_group_lasso相關(guān)懲罰項(xiàng)特征選擇研究_第2頁(yè)
基于Sparse_group_lasso相關(guān)懲罰項(xiàng)特征選擇研究_第3頁(yè)
基于Sparse_group_lasso相關(guān)懲罰項(xiàng)特征選擇研究_第4頁(yè)
基于Sparse_group_lasso相關(guān)懲罰項(xiàng)特征選擇研究_第5頁(yè)
已閱讀5頁(yè),還剩51頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

付費(fèi)下載

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

1、分類號(hào)0241.5編號(hào)論 文題目 基于Sparse group lasso相關(guān)懲罰項(xiàng)特征選擇研究指導(dǎo)教師吳慶標(biāo)教授學(xué)科(專業(yè))計(jì)算數(shù)學(xué)所在學(xué)院數(shù)學(xué)科學(xué)學(xué)院提交日期二零一八年一月陳文雯作者姓名二零一八年三月答辯日期浙江大學(xué)研究生學(xué)位論文獨(dú)創(chuàng)性聲明本人聲明所呈交的學(xué)位論文是本人在導(dǎo)師指導(dǎo)下進(jìn)行的研究工作及取得的 研究成果。除了文中特別加以標(biāo)注和致謝的地方外,論文中不包含其他人己經(jīng) 發(fā)表或撰寫過(guò)的研究成果,也不包含為獲得 浙江大學(xué)或其他教育機(jī)構(gòu)的學(xué)位 或證書而使用過(guò)的材料。與我一同工作的同志對(duì)本研究所做的任何貢獻(xiàn)均己在 論文中作了明確的說(shuō)明并表示謝意。學(xué)位論文作者簽名:簽字日期:“國(guó)3.3學(xué)位論文版

2、權(quán)使用授權(quán)書本學(xué)位論文作者完全了解 逝江歲 有權(quán)保留并向國(guó)家有關(guān)部門或機(jī)構(gòu)送 交本論文的復(fù)印件和磁盤,允許論文被查閱和借閱。本人授權(quán)浙江大學(xué)可以 將學(xué)位論文的全部或部分內(nèi)容編入有關(guān)數(shù)據(jù)庫(kù)進(jìn)行檢索和傳播,可以采用影 印、縮印或掃描等復(fù)制手段保存、匯編學(xué)位論文。(保密的學(xué)位論文在解密后適用本授權(quán)書)學(xué)位論文作者簽名:導(dǎo)師簽名筋4 j簽字n期:5.上.3簽字日期:公13摘 要隨著近年來(lái)數(shù)據(jù)量的爆炸式增長(zhǎng)以及大數(shù)據(jù)概念的持續(xù)升溫,數(shù)據(jù)降維技 術(shù)受到了越來(lái)越多的關(guān)注。特征選擇可以有效地進(jìn)行數(shù)據(jù)降維,也有各種各樣 的方法。許多學(xué)者使用懲罰回歸的方法來(lái)進(jìn)行特征的選擇,其中使用最廣泛 的方法之一就是Lasso

3、。目前,國(guó)內(nèi)外的學(xué)者在這方面己經(jīng)有很多的研究成果, 提出了包括Lasso、Group laso Fused lasso、Graph lasso在內(nèi)的許多方法。本文針對(duì)Sparse group lasso算法在實(shí)際應(yīng)用中存在的不足,以其為基礎(chǔ), 提出了算法三方面的改進(jìn):第一,改進(jìn)了損失函數(shù),在損失函數(shù)加入了組與組 之間的相關(guān)關(guān)系項(xiàng),以減小模型中非零特征間的共線性現(xiàn)象,得到進(jìn)一步稀疏 化的系數(shù);第二,增加了數(shù)據(jù)預(yù)處理步驟,豐富了用來(lái)建立模型的數(shù)據(jù)集,目 的是希望不僅能得到各組特征各自對(duì)結(jié)果的影響,還能得到它們共同產(chǎn)生的影 響;第三,將算法推廣到其他的線性模型,并以邏輯回歸為例給出了改進(jìn)之后 的損失

4、函數(shù)。最后,我們使用模擬數(shù)據(jù)來(lái)驗(yàn)證算法的效果,并將算法應(yīng)用在一 個(gè)電影評(píng)分的數(shù)據(jù)集上。關(guān)鍵詞:數(shù)據(jù)降維;特征選擇;Lasso; Sparse group lassoAbstractWith the explosive growth of data in recent years and the continuous rise of the concept of big data, data dimension reduction technology has drawn more and more attention. Feature selection can effectively red

5、uce the dimensionality of the data. There arc also a variety of methods to select features. Many scholars use the method of regression to carry out the selection of features, one of the most widely used is lasso. At present, scholars at home and abroad have made a lot of research achievements in thi

6、s field, and some methods including lasso, group lasso; fused lasso and graph lasso have been developed.In this paper, based on the shortcomings of sparse group lasso algorithm in practical application, this paper proposes three improvements in algorithm: Firstly, the loss function is improved, and

7、the correlation between group and group is added to the loss function to reduce collinearity between non-zero features in order to achieve further sparse coefficient. Secondly, it adds data preprocessing steps and enriches the data set used to fit the model. It is hoped that not only the influence o

8、f each groups featues on the result can be obtained, but also the common influence they have on each other. Thirdly, the algorithm is extended to other linear models, and the improved loss function is given by taking logistic regression as an example. Finally, we use simulated data to validate the a

9、lgorithm and apply the algorithm to a movie-scoring dataset.Keywords: Data dimension reduction; Feature selection; Lasso; Sparse group lasso TOC o 1-5 h z 獨(dú)創(chuàng)性聲明i摘要ii HYPERLINK l bookmark4 o Current Document Abstractiii目錄iv第一章緒論11.1研究背景與意義1 HYPERLINK l bookmark26 o Current Document 1.2線性變換降維方法2主成分分析2

10、1.2.2多維尺度分析31.2.3線性判別分析3獨(dú)立成分分析4 HYPERLINK l bookmark29 o Current Document 1.3嵌入法51.3.1基于懲罰項(xiàng)的特征選擇法51.3.2樹模型特征選擇法6 HYPERLINK l bookmark32 o Current Document 1.4國(guó)內(nèi)研究綜述91.5主要?jiǎng)?chuàng)新點(diǎn)101.6文章結(jié)構(gòu) 10第二章Lasso方法的應(yīng)用與研究現(xiàn)狀12 HYPERLINK l bookmark38 o Current Document Lasse方法概述 12目錄 TOC o 1-5 h z HYPERLINK l bookmark41

11、o Current Document Lasso方法應(yīng)用現(xiàn)狀12 HYPERLINK l bookmark44 o Current Document SCAD 13彈性網(wǎng)絡(luò)13 HYPERLINK l bookmark48 o Current Document 自適應(yīng) lasso 14 HYPERLINK l bookmark51 o Current Document Relaxed lasso 15 HYPERLINK l bookmark55 o Current Document Fused lasso 16 HYPERLINK l bookmark59 o Current Documen

12、t Graphical lasso 17 HYPERLINK l bookmark63 o Current Document 樹結(jié)構(gòu) Lass。 17 HYPERLINK l bookmark69 o Current Document 第三章基于Sparse group lasso相關(guān)懲罰項(xiàng)的特征選擇研究19 HYPERLINK l bookmark72 o Current Document Grouplasso 19 HYPERLINK l bookmark79 o Current Document Sparsegroup lasso 20 HYPERLINK l bookmark83 o

13、Current Document 3.3基于Sparse group lasso的相關(guān)懲罰項(xiàng)特征選擇法 233.3.1算法步驟273.3.2擴(kuò)展的線性模型273.3.3數(shù)值例子28第四章基于數(shù)據(jù)共享的Lasso方法30 HYPERLINK l bookmark100 o Current Document 4.1數(shù)據(jù)豐富型線性回歸30 HYPERLINK l bookmark103 o Current Document 4.2數(shù)據(jù)共享型Lasso 31 HYPERLINK l bookmark106 o Current Document 4.3算法的應(yīng)用32第五章總結(jié)和展望41主要研究 415.

14、2未來(lái)的發(fā)展方向4143參考文獻(xiàn)47致謝表 格 TOC o 1-5 h z CPSGL和SGL在模擬數(shù)據(jù)上的的均方誤差對(duì)比29CPSGLR和SGLR在模擬數(shù)據(jù)上的的均方誤差對(duì)比 294.1 CPSGL和SGL在電影數(shù)據(jù)集上的稀疏程度對(duì)比33Lasso和嶺回歸的區(qū)別61.2常見的決策樹模型8Fused lasso示意圖 164.1總體回歸效果344.2劇情片模型的系數(shù)344.3動(dòng)作片模型的系數(shù)354.4喜劇片模型的系數(shù)354.5恐怖片模型的系數(shù)364.6各種類型電影共同的系數(shù)374.7劇情片部分的系數(shù)374.8動(dòng)作片部分的系數(shù)384.9喜劇片部分的系數(shù)384.10恐怖片部分的系數(shù)39第一章緒論1

15、.1研究背景與意義數(shù)據(jù)挖掘的概念是第一次在1989年的KDD會(huì)議中提出的。經(jīng)過(guò)幾十年的 發(fā)展,數(shù)據(jù)挖掘技術(shù)已經(jīng)深入到各行各業(yè)了。在如今這個(gè)數(shù)據(jù)社會(huì)中,生活中 處處充斥著海量的數(shù)據(jù)。如何在這些數(shù)據(jù)中提取出有用的部分進(jìn)行“物盡其 用”?那么就要進(jìn)行數(shù)據(jù)降維了。降維可以分為記錄選取和特征選取兩個(gè)方面。 記錄選取較為簡(jiǎn)單,但是選擇恰當(dāng)?shù)臄?shù)據(jù)對(duì)結(jié)果也很重要。特征選擇是目前研 究很多的一個(gè)領(lǐng)域,方法也很多。同時(shí),特征工程在數(shù)據(jù)挖掘中也是一個(gè)至關(guān) 重要的環(huán)節(jié),找到一組合適的特征,對(duì)于結(jié)果起著決定性的作用。在開發(fā)特征 的過(guò)程中,我們總是習(xí)慣于盡量多地去找可能影響結(jié)果的因素,雖然并不知道 事實(shí)上對(duì)最后結(jié)果是否有

16、影響、有著什么樣的影響。然而,過(guò)多的特征往往會(huì) 造成“維度災(zāi)難”,出現(xiàn)過(guò)擬合的模型。同時(shí),特征之間可能還存在著某種線 性關(guān)系,因此,進(jìn)行維度的降低、維度的縮減就變得很必要了。本文主要聚焦于用特征選擇來(lái)做數(shù)據(jù)降維。特征選擇方法可以分為過(guò)濾法 (Filter),包裝法(Wrapper),混合法(Hybrid)和嵌入法(Embeded)。過(guò)濾法按照相關(guān)性對(duì)各個(gè)特征進(jìn)行評(píng)分,設(shè)定閾值或者待選擇闞值的個(gè)數(shù) 再來(lái)選擇特征。過(guò)濾法中比較典型的是用相關(guān)性來(lái)篩選特征,如皮爾森相關(guān) 系數(shù)、互信息等。包裝法根據(jù)目標(biāo)函數(shù),每次選擇若干特征,或者排除若干特 征,例如遞歸特征消除法。嵌入法根據(jù)某些機(jī)器學(xué)習(xí)模型來(lái)進(jìn)行特征選

17、擇,像 隨機(jī)森林、SVM、Lasso以及嶺回歸等回歸模型都可以進(jìn)行特征選擇?;旌戏?即是過(guò)濾法和嵌入法的混合,先用過(guò)濾方法從原始數(shù)據(jù)集中過(guò)濾出一個(gè)候選特 征子集,然后用封裝方法從候選特征子集中得到特征子集。本文主要以Sparse group lasso算法為基礎(chǔ),對(duì)特征選擇的方法進(jìn)行研究與改進(jìn)。1.2線性變換降維方法線性降維方法主要是為了尋求某種線性變換,將數(shù)據(jù)投影到一個(gè)低維的空 間上,并且盡可能多地保留數(shù)據(jù)的特征。1.2.1主成分分析主成分分析(Principal Component Analysis, PCA)是一種應(yīng)用非常廣泛 的數(shù)據(jù)降維方法,它的目標(biāo)是通過(guò)某種線性投影,將高維的數(shù)據(jù)映射

18、到低維空 間,在降低數(shù)據(jù)維度的同時(shí)盡量多地保留原來(lái)數(shù)據(jù)的特征。這個(gè)算法是1901年 由Karl Pearson作為機(jī)械中主軸定理的類似首先引入的川,到了20世紀(jì)30年代, Harold Hotelling把它擴(kuò)展成了一個(gè)獨(dú)立的算法并為其命名。將一個(gè)數(shù)據(jù)矩陣的 協(xié)方差矩陣的特征向量按照對(duì)應(yīng)特征值大小排列起來(lái),就是這個(gè)矩陣的主成 分。我們把樣本數(shù)據(jù)看作一個(gè)矩陣。對(duì)任意矩陣X = (X1,X2,.,Xp)t5協(xié)方差 矩陣為=(原=E (X - E (X) (X -劇X)有下述定理定理L2.1.設(shè)矩陣X協(xié)方差矩陣的特征值為人 A2 . Ap 0,對(duì)應(yīng)的單位 正交特征向量為ei,e2,.,ep,則X的第

19、k個(gè)主成分為Yk = %Xi + 弘2又2 + . + ekpXp k = 1,2, .p)其中 = (e&i, e*2, : e 燦),且(A: = 1; 2, .p) /= 1,2, .p).f var(K) = cck =從cov(H,V;)=成2勺=01.2.2多維尺度分析多維尺度分析(Multi-dimcntional Scaling, MDS)凹也是較早期的一-種 數(shù)據(jù)降維方法,1958年由Togerson提出。MDS是一種研究多維空間中對(duì)象之間 相似性和差異性的一種多元統(tǒng)計(jì)方法,旨在將對(duì)象投射到一個(gè)N維的空間,使 得能夠盡量保持對(duì)象之間的相對(duì)距離不變。MDS可以反映出影響研究對(duì)象

20、之間 關(guān)系的某個(gè)維度。假如有一個(gè)距離矩陣D0如0,2勿.001,2涉2,00可以通過(guò)這個(gè)矩陣計(jì)算出點(diǎn)的相對(duì)位置距離矩陣X,使得可以通過(guò)X反過(guò) 來(lái)計(jì)算距離矩陣與原距離矩陣D差距最小的不相似矩陣K :=)nxn o MDS的 目標(biāo)是找到n個(gè)向量工1,.,xn e 使得IS - Xje 1. ,n0可以使用不同的范數(shù)定義,因此可以得到不同的對(duì)(/ = 1,.皿)。可以把MDS看作一個(gè)優(yōu)化問(wèn)題:minXt (恒 一叼II -知)2i道秘nn k-LDA是為樣本尋找一個(gè)到低維空間的映射,使得類間方差相對(duì)類內(nèi)方差更 大,也就是要解決ma*四p (佛&k), subject to 伙嵩A 1,強(qiáng)=0,VS

21、/c上面式子中的解及就叫做第k個(gè)判別向量。一般來(lái)說(shuō),有K-1個(gè)非平凡判別 向量??梢杂檬缯f(shuō)代替為來(lái)解決這個(gè)問(wèn)題,流是對(duì)稱矩陣鞏的平方根,于 是變?yōu)榱私庖粋€(gè)標(biāo)準(zhǔn)的特征值問(wèn)題。1.2.4獨(dú)立成分分析獨(dú)立成分分析(Independent Component Analysis, ICA)是主成分分析的 一種拓展,它可以只在二階的獨(dú)立性上實(shí)施,因此定義了正交的方向。獨(dú)立成 分分析尋找一個(gè)能夠最小化其成分之間統(tǒng)計(jì)獨(dú)立性的線性變換|巾ICA可以 應(yīng)用在數(shù)據(jù)分析與壓縮、貝葉斯檢測(cè)、資源定位、盲定位和解卷積方面。給定數(shù)據(jù)矩陣知ICA希望學(xué)習(xí)到一組基向量,它們以列向量的形式構(gòu)成 矩陣W,滿足其特征是稀疏的并且基底

22、正交。ICA的目標(biāo)函數(shù)是:J四)=|W 圳 1 加入標(biāo)準(zhǔn)正交性約束后,相當(dāng)于求解優(yōu)化問(wèn)題:mm|Rx|1; WWT = I這個(gè)問(wèn)題沒(méi)有簡(jiǎn)單的解析解,可以使用梯度下降法來(lái)求解。1.3嵌入法除了線性變換的方法進(jìn)行降維之外還可以使用嵌入法。嵌入法主要是使用 機(jī)器學(xué)習(xí)算法和模型計(jì)算各個(gè)特征對(duì)結(jié)果的貢獻(xiàn)程度,然后按照貢獻(xiàn)度的大小 進(jìn)行特征的選擇。隨著最近機(jī)器學(xué)習(xí)、人工智能的大熱,這種方法也受到了更 大的關(guān)注。嵌入法中使用比較廣泛的主要包括基于懲罰項(xiàng)的特征選擇法和樹模 型特征選擇法。1.3.1基于懲罰項(xiàng)的特征選擇法按照懲罰項(xiàng)的不同,主要有嶺回歸(ridge regression)和Lasso (Least

23、 Absolute Shrinkage and Selection Operator)方法,分別對(duì)應(yīng)于足和h懲罰項(xiàng)。嶺回歸又叫吉洪諾夫正則化(Tikhonov regularization),命名于俄羅斯數(shù) 學(xué)家Andrey Nikolayevich Tikhonov,常用于不適定問(wèn)題的正規(guī)化。它在普通最 小二次回歸的基礎(chǔ)上加入了范數(shù)約束,目標(biāo)函數(shù)可以表示為miny - X/3l +aplLasso和嶺回歸的區(qū)別在于加入的是/范數(shù)約束,它的目標(biāo)函數(shù)是min?y - XPW2 + a因?yàn)槎呤褂玫姆稊?shù)約束不同,所以得到的效果不同。嶺回歸旨在把系數(shù) 變得更小,有關(guān)聯(lián)的特征系數(shù)會(huì)被壓縮得更相似;而L

24、缺so的目標(biāo)是使相關(guān)性 越低的特征系數(shù)越小。圖1.1: Lasso和嶺回歸的區(qū)別如圖1.1所示,左邊是Laso,右邊是嶺回歸,圖中紅線和藍(lán)色區(qū)域的切點(diǎn) 就是目標(biāo)函數(shù)的最優(yōu)解。當(dāng)區(qū)域?yàn)榱庑螘r(shí),我們可以明顯看出相比于圓性能更 容易相切到坐標(biāo)軸上,這也是Lasso更適合用于特征稀疏化的原因閂。1.3.2樹模型特征選擇法除了基于懲罰項(xiàng)的特征選擇法之外,應(yīng)用比較廣泛的特征選擇法還有 樹模型。最經(jīng)典的決策樹模型是Quinlan在1986年提出的ID3算法回。ID3結(jié) 點(diǎn)分裂的標(biāo)準(zhǔn)是信息增益(Information Gain)o設(shè)數(shù)據(jù)集S有s個(gè)樣本,樣 本中所屬類別集合C有m個(gè)元素G,C2,這m個(gè)類別把S分

25、為m個(gè)子集S,S2.,Sm,其中樣本$中的樣本個(gè)數(shù)為心 則樣本集的信息炳為inE(S) = -Pilog2Pii=l其中彷=土設(shè)s中某個(gè)屬性為A, A有n個(gè)不同的屬性值A(chǔ)把S劃分為n個(gè)子集S”, s計(jì)表示0 = 1,2n)中屬于類C(i =)的個(gè)數(shù),則呂中屬于G的概率為Pij =31 j + $2頊 + * * + smj則子集的信息炳為mE(Sj) = Pijlog2Piji=l故根據(jù)屬性A劃分后的樣本集合的信息嫡為E(A) = - s以+ 為:.+”(&)j=lS則劃分后的信息增益為gain(A) = E(S) - E(A)簡(jiǎn)單來(lái)說(shuō),信息增益就是分類前的信息炳減去分類后的信息嫡。ID3算

26、法存在的缺陷在于會(huì)傾向于選擇取值較多的特征,而實(shí)際并不應(yīng)該選擇這樣 的屬性。C4.5算法作為ID3的改進(jìn)版本,采用信息增益率作為結(jié)點(diǎn)分裂的標(biāo)準(zhǔn) 7o設(shè)樣本集S中某個(gè)屬性為A, A有n個(gè)不同屬性值化2:.,如,A把S劃分 為n個(gè)子集Si,曷,則分割信息量為Splitlnfo(A)=n那么信息增益率為GainRatio(A) = 費(fèi)、 7 Sphtlnfo(A)C4.5還加入了勇枝的過(guò)程,避免了出現(xiàn)過(guò)擬合的情況。Breinian等人在 1984年提出的回歸及分類樹(Classification and Regression Trees, CART)卜采用Gini指數(shù)作為結(jié)點(diǎn)分裂的標(biāo)準(zhǔn),也是一種應(yīng)用

27、廣泛的 決策樹算法。與嫡類似,總體內(nèi)包含類別的雜亂程度和Gini指數(shù)成正比,因此 選擇Gini指數(shù)最小的屬性作為分類屬性。對(duì)于樣本總數(shù)為$的樣本集S,切是類 別j在S中出現(xiàn)的概率,則樣本集S的Gini指數(shù)為GiniS) = 1 j對(duì)于二分類問(wèn)題,如果樣本集S被某個(gè)屬性A劃分為兩部分S和S2,分別具有&和S2個(gè)樣本。則屬性A劃分樣本集S所得的Gini指數(shù)為Gini(A) = Gini(Si) + Gini(S2)ss用樹模型進(jìn)行特征選擇的主要思想就是,計(jì)算用每個(gè)特征進(jìn)行分裂的標(biāo)準(zhǔn),這個(gè)值越好的特征就是越重要的。如圖1.2所示,就是一棵常見的決策樹。圖1.2:常見的決策樹模型隨著海量數(shù)據(jù)的增加以及

28、需求的復(fù)雜化,簡(jiǎn)單的樹模型已經(jīng)不能滿足應(yīng) 用的需要了,于是出現(xiàn)了一系列的集成學(xué)習(xí)樹模型,如隨機(jī)森林(Random forest )、GBDT (Gradient boosting decision tree )、XGBoost等 * 系列算法。 這些算法可以給特征加上一個(gè)重要度的權(quán)重,因此可以進(jìn)行特征選擇。 用Python語(yǔ)言編寫的Scikit-learn模塊可以很方便快速地用這些機(jī)器學(xué)習(xí)算法 做特征選擇。1.4國(guó)內(nèi)研究綜述國(guó)內(nèi)的研究者們對(duì)數(shù)據(jù)降維也有許多的研究。徐燕等人針對(duì)現(xiàn)存方法在文本分類降維時(shí)的不足,構(gòu)造了新的高性能特征 選擇函數(shù),提出了一種基于區(qū)分類別能力的高性能特征選擇方法啊,將其應(yīng)

29、用 在多個(gè)語(yǔ)料集上,和己有的有效方法相比較,取得了更優(yōu)的效果。李正欣等人針對(duì)傳統(tǒng)的數(shù)據(jù)降維方法無(wú)法保留多元時(shí)間序列主要特征的缺 點(diǎn),提出了基于共同主成分的多元時(shí)間序列降維方法。這種方法通過(guò)把各個(gè)多 元時(shí)間序列向一個(gè)公共的低維空間上投影,保持了降維空間的同構(gòu)性,提高了 降維的有效性訴爪同時(shí),該方法計(jì)算復(fù)雜度也下降了,具有良好的適用性。何進(jìn)榮等人在2014年提出的基于邊界判別投影的數(shù)據(jù)降維法,可以提取出 具有判別性能的低維特征。這種有監(jiān)督的線性變換降維方法的思想和線性判別 分析比較類似,目標(biāo)都是最小化類內(nèi)距離,最大化類間距離。邊界判別投影可 以很好地保持?jǐn)?shù)據(jù)流形的幾何結(jié)構(gòu)和判別結(jié)構(gòu),并且可以降低計(jì)

30、算復(fù)雜度I爪 而它最大的優(yōu)點(diǎn)是可以應(yīng)用于超大數(shù)據(jù)集。鄭思龍等人為了將降維方法更好地應(yīng)用于信號(hào)處理領(lǐng)域,提出了基于字典 學(xué)習(xí)的非線性降維方法。用這種方法進(jìn)行降維后的數(shù)據(jù),不僅保留了原始信號(hào) 的重要特征,還可以很好地恢復(fù)出原始信號(hào),而且在噪聲較大的情況下,也有 不錯(cuò)的效果馮。張少龍等人借助流形學(xué)習(xí)的核框架,提出了一種融合局部線性嵌入和等距 映射的非線性降維方法。這種方法既可以保持?jǐn)?shù)據(jù)點(diǎn)間的局部鄰域關(guān)系,又可 以保持?jǐn)?shù)據(jù)點(diǎn)間的全局距離關(guān)系;巾徐峻嶺等人提出了一種基于互信息的無(wú)監(jiān)督特征選擇法來(lái)達(dá)到數(shù)據(jù)降維的 效果。他們使用綜合考慮了相關(guān)度和冗余度的特征選擇標(biāo)準(zhǔn)來(lái)評(píng)價(jià)特征的重要 度,并且可以同時(shí)處理數(shù)值

31、型和非數(shù)值型的數(shù)據(jù)。這個(gè)方法先計(jì)算出每個(gè)特征 的相關(guān)度,之后再使用向前搜索法對(duì)特征進(jìn)行重要度排序1 lo張振海等人提出的基于信息炳的多標(biāo)簽特征選擇算法是應(yīng)用在分類領(lǐng)域 的,算法的主要思想是采用特征與標(biāo)簽集合的信息增益來(lái)衡量一個(gè)特征與標(biāo)簽 集合之間的關(guān)系,先計(jì)算每一個(gè)特征與標(biāo)簽集合的信息增益,之后再根據(jù)設(shè)定 的閾值來(lái)選擇刪除不需要的特征。經(jīng)過(guò)實(shí)驗(yàn)驗(yàn)證,這種方法能夠提高分類 器的預(yù)測(cè)能力。1.5主要?jiǎng)?chuàng)新點(diǎn)本文基于Sparse group laso算法,提出了一種改進(jìn)的特征系數(shù)模型。本文 的主要?jiǎng)?chuàng)新點(diǎn)如下:我們目前要處理的數(shù)據(jù)集往往特征數(shù)巨大,針對(duì)這個(gè)問(wèn)題,我們 在Sparse group lass

32、o的基礎(chǔ)上改進(jìn)了損失函數(shù),在損失函數(shù)中加入了組與組之 間的相關(guān)關(guān)系懲罰項(xiàng),以減小模型中特征間的共線性現(xiàn)象,達(dá)到進(jìn)一步稀疏化 系數(shù)的目的;考慮到某些具有相同結(jié)構(gòu)的小數(shù)據(jù)集,如果我們直接用這些數(shù)據(jù)擬 合一個(gè)通用的模型,可能會(huì)得到適用性不太高的模型;如果每個(gè)小數(shù)據(jù)集都各 自對(duì)應(yīng)一個(gè)模型,這樣的計(jì)算量會(huì)較大。在這樣的情況下,我們?cè)跀?shù)據(jù)預(yù)處理 時(shí)增加一個(gè)豐富數(shù)據(jù)集的步驟,將所有類型的數(shù)據(jù)以某種方式組合在一起,使 其具有組結(jié)構(gòu),這樣來(lái)共同擬合一個(gè)模型,使得不僅能得到各組特征各自對(duì)結(jié) 果的影響,還能得到它們共同產(chǎn)生的影響;將該模型推廣到了其余線性模型,同時(shí)還將該模型同時(shí)應(yīng)用于模擬 數(shù)據(jù)和一個(gè)真實(shí)的電影數(shù)據(jù)集

33、,解決現(xiàn)實(shí)中的問(wèn)題。1.6文章結(jié)構(gòu)本文的結(jié)構(gòu)如下:第一章為緒論,主要引入了整個(gè)問(wèn)題的背景和研究意義,介紹了國(guó)內(nèi)外研 究情況,并簡(jiǎn)要概括了本文的主要?jiǎng)?chuàng)新點(diǎn)和文章的結(jié)構(gòu)。第二章主要針對(duì)Lasso方法展開敘述,綜述了Lasso目前的研究成果和已有 的算法。第三章介紹了新提出的基于Sparse group lasso的相關(guān)懲罰項(xiàng)特征選擇法, 并給出了算法的解決方法和算法步驟,并以邏輯回歸為例子,將算法推廣到了 更多的線性模型,并且用模擬數(shù)據(jù)驗(yàn)證了算法效果。第四章在算法中又加入了一個(gè)構(gòu)造組結(jié)構(gòu)數(shù)據(jù)集的數(shù)據(jù)預(yù)處理辦法,之后 又將新提出的算法應(yīng)用于一個(gè)真實(shí)的電影數(shù)據(jù)集,用MSE和詞云來(lái)對(duì)比新舊算 法的效果。

34、第五章作為結(jié)束,總結(jié)了目前研究的不足和今后的研究方向。2.1Lasso方法概述Lasso是Tibshirani在1996年提出的模型,它在普通線性回歸損失函數(shù)的 基礎(chǔ)上加入了八懲罰項(xiàng),以達(dá)到將部分和結(jié)果不相關(guān)特征的系數(shù)縮小為零的目 的。Tibshirani在文獻(xiàn)時(shí)中指出,提高普通線性回歸效果的兩種技術(shù)分別為 子集選擇(subset selection)和嶺回歸(ridge regression)。子集選擇的缺點(diǎn)是 其提供的可解釋模型可變性太大,數(shù)據(jù)的一點(diǎn)改變都可以變成一個(gè)不同的模 型。而嶺回歸無(wú)法將特征的系數(shù)稀疏化,只是會(huì)使系數(shù)的取值變得平均,將具 有共線性關(guān)系特征的系數(shù)變得相似。使用Lass

35、。模型得到的特征同時(shí)達(dá)到了子 集選擇以及參數(shù)估計(jì)的目的,因此應(yīng)用十分廣泛。根據(jù)數(shù)據(jù)結(jié)構(gòu)的不同,又逐 漸演化出 了Fused lasso, Graph lasso, Group lasso 以及樹結(jié)構(gòu)Lasso。2.2Lasso方法應(yīng)用現(xiàn)狀考慮普通的線性回歸框架。數(shù)據(jù)由長(zhǎng)度為口的響應(yīng)向量S以及nxp的特征 矩陣X組成。在許多應(yīng)用中都會(huì)出現(xiàn)的情況,這時(shí)不能用傳統(tǒng)的線性回 歸。為了解決這個(gè)問(wèn)題,Tibshirani在損失函數(shù)中加入了上范數(shù),即La踞。方法, 即求minWy - X/3l + a/3(2.1)Bradley Efron 等人在2004 年提出的LAR (Least Angle Regr

36、ession)算法 :可以用于得到Lasso的解。Lmso同時(shí)可以進(jìn)行特征選擇和參數(shù)估計(jì)兩個(gè)過(guò) 程,由于其能夠得到系數(shù)的稀疏表示這一特性,為高維特征稀疏化這一領(lǐng)域提 供了一個(gè)很新穎的思想,Lasso在當(dāng)時(shí)引起了很大的關(guān)注,但是還是在某些方 面會(huì)出現(xiàn)些難以避免的問(wèn)題。Hui Zou和Trevor Hastie在文獻(xiàn) 心中指出,在pn的時(shí)候,由于凸優(yōu) 化問(wèn)題的性質(zhì),最多能選出?2個(gè)特征,以及當(dāng)有一些特征之間相關(guān)性較高時(shí), Lasso傾向于只選擇其中某一個(gè)特征,而不在意選中的具體是哪個(gè)特征。SCADFan和Li指出Las$o估計(jì)對(duì)于絕對(duì)值較大的系數(shù)壓縮過(guò)大,可能會(huì)造成不必 要的模型偏差,并且推測(cè)La

37、sso估計(jì)不具有“哲人性質(zhì)(oracle properties),給 出了一種被簡(jiǎn)稱為SC AD ( Smoothly Clipped Absolute Deviation)的新方法 E* SCAD的懲罰函數(shù)定義為(2-2)(2-3)P瑚)=入1(。 入),for some a 2 and 0SCAD得到的解可以寫成S加(z)(|z| -入),(_ l)z_s2gr(z)aA)a-2】2,|z| 2A2A z aX從上面的式子可以看出,解決這個(gè)問(wèn)題有兩個(gè)未知的參數(shù)人和a.在實(shí)踐 中,我們可以用交叉驗(yàn)證或者廣義交叉驗(yàn)證來(lái)選擇最優(yōu)的參數(shù)。這樣的話計(jì)算 復(fù)雜度較高。這個(gè)算法有很強(qiáng)的統(tǒng)計(jì)理論背景,并且

38、經(jīng)過(guò)試驗(yàn)證明具有較高的準(zhǔn)確率, 計(jì)算的時(shí)候時(shí)間消耗比較少,在有噪聲的情況下也表現(xiàn)良好,但是缺陷在于造 成的偏差比較顯著。2.2.2彈性網(wǎng)絡(luò)針對(duì)原始Lasso算法的缺陷,Hui Zou等人在2005年提出了彈性網(wǎng)絡(luò)(Elastic Net)算法18,這個(gè)算法能夠篩選出一組具有相關(guān)性的特征。彈性網(wǎng)絡(luò)的損失 函數(shù)為 TOC o 1-5 h z pP1國(guó)X/3腮+入1E |.| +入2尸徘(2.4),=1頂=1這個(gè)過(guò)程可以被看作帶懲罰項(xiàng)的最小二乘法。設(shè)。=人2/(扃+人2),求上式 的最小解即求優(yōu)化問(wèn)題B = argminWy 一 X/3|質(zhì),p(2.5)subject to (1 - a) 5 |f

39、t| + oc t for some t,=1j=l其中(1 - a)Iftl + a E-=1度被稱作彈性網(wǎng)絡(luò)懲罰項(xiàng),這就是La%o和嶺回歸懲罰項(xiàng)的一個(gè)凸組合。彈性網(wǎng)絡(luò)可以看作是Lasso的一種概化,是一種 擬合與特征提取非常有效的模型。根據(jù)文獻(xiàn)卜句的結(jié)果,彈性網(wǎng)絡(luò)參數(shù)估計(jì)的結(jié)果有以下定理:定理2.2.1.給定數(shù)據(jù)(坊X),則彈性網(wǎng)絡(luò)的參數(shù)估計(jì)等于B = QTgmin*(X 二f )3 一 2X/3 + %|i容易得出(las so) = argminl3T( 0且Ann(7_1)/2 oo0 則包適應(yīng) Lasso 一定滿足:I.變量選擇的連續(xù)性:limnP(A =A) = 12漸近正態(tài),性

40、:據(jù)01)攻)f N(W x C)Relaxed lasso針對(duì)Lass。在特征數(shù)遠(yuǎn)大于樣本數(shù)時(shí)的稀疏高維數(shù)據(jù)收斂較慢的缺點(diǎn), Meinshausen提出了一種Relaxed lasso 網(wǎng) 算法作為改進(jìn)。假設(shè)入 0,oo), (0川n8械=argminpn E(K - X?伊偵人)2 + |問(wèn)|1(2.7)i=l其中是集合Ma g1,.,p的指示函數(shù)Me I,.,p、0, k 4.但項(xiàng)=牛(2.8)Relaxed lasso也可以很容易擴(kuò)展到其他廣義線性模型上。設(shè)1(,3)是在參 數(shù)白下的負(fù)log似然函數(shù),則就是估計(jì)州=argminpeMxK/3) + 釧 0lh其中3 e Mx可以理解為和

41、要求及=0, v& t Mx等價(jià)。通過(guò)實(shí)驗(yàn)驗(yàn)證,Relied laBso能生成更加稀疏的模型,而且在高維數(shù)據(jù)下, 準(zhǔn)確度總是不低于傳統(tǒng)的方法,并且計(jì)算復(fù)雜度也更低。經(jīng)過(guò)證實(shí),Relaxed l%so在有許多噪聲的條件下,如果參數(shù)人和。選擇恰當(dāng),它的收斂率不會(huì)受到噪 聲的影響。而這兩個(gè)參數(shù)的選擇一般是通過(guò)交叉驗(yàn)證來(lái)進(jìn)行的。如圖2.1所示, 參數(shù)f決定了在特征數(shù)何隨n增長(zhǎng)的收斂率。Fused lassoTibshirani等人在2005年提出的Fused lasso 川方法是針對(duì)當(dāng)特征是按照 某種具有特殊意義的順序排列起來(lái)時(shí)的一種算法,這個(gè)方法在特征數(shù)遠(yuǎn)大于樣 本數(shù)時(shí)尤其有效,并且經(jīng)過(guò)證實(shí),在基因

42、調(diào)控網(wǎng)絡(luò)推斷上的應(yīng)該效果較好.時(shí)。 Fused lasso定義為求解B = argminfiy 一 XP|%(2.9)subject to (1 a)|6si and 2 i ft-i - s2j=lj2第一個(gè)約束是為了使系數(shù)稀疏化,第二個(gè)約束是為了使得相鄰的兩個(gè)特征之間 的差別稀疏化。但是這個(gè)方法的缺點(diǎn)就是當(dāng)數(shù)據(jù)很多時(shí)運(yùn)算速度很慢。圖 2.1: Fused lasso示意圖如圖2.2所示,在二維的情況下,F(xiàn)used 1瞬s。就是尋求損失函數(shù)平方和的輪 廓第一次滿足&|歷| = si且為例-婦| = %。Graphical iasso如果數(shù)據(jù)是圖的結(jié)構(gòu),Meinshausen和Buhlmann

43、提出的基于Lasso的Neighborhood selection方法對(duì)于高維圖2.?具有良好的計(jì)算性能。Neighborhood selection分別估計(jì)了圖中每個(gè)結(jié)點(diǎn)的條件獨(dú)立限制因此也等同于對(duì)高斯線性模 型做了變量選擇。這個(gè)方法對(duì)于高維圖是連續(xù)的,連續(xù)性就可以轉(zhuǎn)移到懲罰參 數(shù)的選擇??紤]一個(gè)p維多變量正態(tài)分布的隨機(jī)變量X = (Xi,Xs.,X&N3)其中包括了如Xi作為響應(yīng)變量,Xk:2k 1,2 1.2,./ 。結(jié)點(diǎn)還滿足以下條件:(1)來(lái)自同一層的結(jié)點(diǎn)不重疊,換句話說(shuō)就是,楣=尹知1 j, k 0,求解1d ni= minxf(x) = -|x- v|2 + 人工詞|吃 11(2

44、.12)1=0 j=0將上述的公式記為辦(時(shí),這個(gè)方法的特點(diǎn)是:無(wú)論例)是否光滑,()都是連續(xù)可微的;7Fx(&)是個(gè)非擴(kuò)張算子。研究顯示,Moreau-Yosida正規(guī)化方法對(duì)于許多優(yōu)化算法起到了關(guān)鍵性的 作用。這個(gè)方法的效果和效率都非常不錯(cuò),并且可以應(yīng)用在許多計(jì)算視覺(jué)和生 物信息方面。第三章基于Sparse group lasso相關(guān)懲罰項(xiàng)的特征選擇研究近年來(lái)國(guó)內(nèi)外的學(xué)者也對(duì)Group lasso算法進(jìn)行了許多研究與應(yīng)用。針對(duì)數(shù) 據(jù)存在噪聲的情況,Elyaderani等人提出了 一個(gè)解袂的新思路32。Ochiai等 人將Group lasso應(yīng)用于最近大熱的深度學(xué)習(xí)框架中33,經(jīng)過(guò)改進(jìn)的算

45、法能夠 成功地選出可以有效進(jìn)行分類的隱藏層結(jié)點(diǎn)。Qingyang Li等人將Group lasso應(yīng) 用到了阿茲海默癥的基因?qū)W習(xí)中”,由于數(shù)據(jù)維度較大,現(xiàn)有的算法效率不 高,加入了Group lasso后在疾病的診斷上有著很好的效果,并且這是第一個(gè)結(jié) 合了Group lasso特征選擇法的離散特征選擇模型。同時(shí),Group lasso應(yīng)用在信 用評(píng)分上也有較高的準(zhǔn)確性,并且可解釋性較強(qiáng)3鄧Group lasso在許多回歸問(wèn)題中,某個(gè)解釋變量可能是以一組變量的形式表示的,也就 是說(shuō),某些特征在成組出現(xiàn)的時(shí)候才具有意義,最典型的應(yīng)用就是在生物統(tǒng)計(jì) 分析中,有的性狀是由多個(gè)基因控制的,需要多個(gè)基因組

46、合在一起表達(dá)出某種 性狀,這時(shí)基因作為特征就是成組出現(xiàn)的。假設(shè)特征被分為了m個(gè)不同的組, Yuan和Lin (2007)提出的方法Group lasso 11可用來(lái)解決這樣有分組特征的 回歸問(wèn)題。設(shè)有m組的特征,X,.,(時(shí)分別為各組特征矩陣,每組特征 數(shù)分別為趴,“m。設(shè)向1, K為dxd的對(duì)稱正定矩陣,我們定 義:hll/%,(3.1)/=11=1Yuan和Lin在文獻(xiàn)中使用Kj =是P)單位矩陣。則原 問(wèn)題轉(zhuǎn)化為求: TOC o 1-5 h z ?nm沖2吃阮-對(duì)必)脂+ A 面皮)|2(3.2)/I1=1其中X是X的列子矩陣,對(duì)應(yīng)組1的預(yù)測(cè)變量,伊)是組1的系數(shù)向量。這 個(gè)方法的稀疏性

47、由調(diào)整參數(shù)入決定,若每組的特征都只有一個(gè),則變成了普通 的Lgso問(wèn)題。這種思想同樣可以應(yīng)用到最小角回歸(Least Angle Regression, LAR )、 非負(fù)garrotte上。這些算法在非組結(jié)構(gòu)的數(shù)據(jù)上已經(jīng)有不錯(cuò)的效果了,在進(jìn)行 這種改進(jìn)后對(duì)于組結(jié)構(gòu)數(shù)據(jù)的特征選擇更是有效。但是這個(gè)方法仍然存在一定的缺陷。由于Group lasso給出了稀疏的組 特征,如果模型中包含某一個(gè)組的特征,則這個(gè)組中所有特征的系數(shù)都非 零。作者還指出,雖然Group lasso在結(jié)果上表現(xiàn)不錯(cuò),但是它不是分段線性 的,所以在大數(shù)據(jù)集上計(jì)算量很大。作者將Group lasso和Group LAR、Grou

48、p non-negative garrotte 進(jìn)行比較,發(fā)現(xiàn)Group non-negative garrotte 是計(jì)算最快 的一種組結(jié)構(gòu)算法。Sparse group lasso雖然Group lass。給出了稀疏的組特征,但有時(shí)我們想要同時(shí)滿足組內(nèi)和 組間的稀疏性。舉個(gè)例子,如果特征是各種基因,同時(shí)我們想要識(shí)別出某種 基因表達(dá)?;谶@樣的需求,Noah Simon等人于2013年又提出了Sparse group lasso算法I,-1 0若有m組特征數(shù)據(jù),Sparse group lasso的損失函數(shù)是:-mmmm頑g - E X%脂 + (1 v|/5(i)|2 + aX(3(3.3

49、)!=1其中。 0,1它是Lasso和Group lasso懲罰項(xiàng)的凸組合,這個(gè)模型實(shí)際上就是最初的Lasso和Group lasso的一個(gè)結(jié)合。這個(gè)模型與Zou和Hastie在2005年 提出的彈性網(wǎng)絡(luò)模型很類似,只是它的|2懲罰項(xiàng)在零點(diǎn)不可微,所以有些組 的系數(shù)可能全部都為零。上式是一個(gè)凸函數(shù),所以可以通過(guò)次梯度公式來(lái)解決 這個(gè)優(yōu)化問(wèn)題。對(duì)于第k個(gè)組,優(yōu)化解摩*)一定滿足上乂了廠入)=(1 oi)Xp,十 aXu其中r(T)是y除了第k組之外所有擬合值的殘差:門*)= -; X()lk(3.4)(3.5)砂/H舛|26 (M : |沖2 1)砰)/ 08(蛤=o(3-6)四和分別是肪叫2和

50、|網(wǎng)|1的次梯度Uj =(3-7)可以看出,如果滿足(3-8)|5(XWTr/n,A)|2 Jg) for all x and G*(E = J(E3: zjk+i = argminxGkT)4: k = k + l,go on to step 2 if not convergent從G(x)需要滿足的條件可以推出J(z/c+i) G大儀L+i) J。人3拾)J(:cQ這樣就保證了我們?cè)趦?yōu)化。(z)的過(guò)程中也在不停地優(yōu)化J(z)采用MM算法來(lái)最小化Sparse group lasso的損失函數(shù),先假設(shè)是一個(gè)固定點(diǎn),滿足,(一幻,8) J 1偵(-Bo) + (S - 時(shí)丁V, %) + 2|/

51、3 0o|履(3.13)其中t應(yīng)該足夠小,使得二次項(xiàng)在損失函數(shù)的Hessian矩陣中占據(jù)主導(dǎo)作用。將懲罰項(xiàng)加入其中有M(們=Z(r(_*),0o) + 0 - o)TVZ(7(_jk), 80)1(3-14)+ 旁 115 Ml + (1 。)人 |1列2 + allWIh我們的目標(biāo)就是要找到一個(gè)B來(lái)最小化上面的式子,這個(gè)問(wèn)題又等價(jià)于M(8) 211 一(為 - ,(尸(_a:o)H3 + (1 。)入11 倒2 +。入|倒1(3.15)Sparse group lasso的算法步驟歸納如下:Algorithm 2 Sparse group lasso算法步驟1: Step 1.(Outer

52、loop) Cyclically iterate through the groups;at each group (k) execute step 22: Step 2.Check if the groups coefficients are identically 0 by seeing if they satisfy|S(X(fc)r?*(_*;), aA)|2 (1 - a)A3: If not,execute step 34: Step 3.(Inner loop) Until convergence iterate:5: e =甜)&沁=竺 Z) =(1 一我;3)場(chǎng)海)+$( -

53、Wi),竺3.3 基于Sparse group lasso的相關(guān)懲罰項(xiàng)特征選擇法由于現(xiàn)在的數(shù)據(jù)往往特征數(shù)巨大,我們需要進(jìn)一步地稀疏化系數(shù)?;谶@種需求,我們提出了基于Sparse group lasso的相關(guān)懲罰項(xiàng)特征選擇法, 在Sparse group lasso的基礎(chǔ)上再加入了 一個(gè)懲罰項(xiàng)。設(shè)S=(X,g)定義一個(gè)數(shù)據(jù)集,其中y是九x 1的響應(yīng)向量,X是nxp的預(yù) 測(cè)矩陣,分為了M個(gè)組,n是觀測(cè)值的數(shù)量,p是預(yù)測(cè)變量數(shù)。新提出的損失函 數(shù)是:M1=11 M+ 京 E,(視X(W)- X(”)砰他(3.16)M+。人111 + (1 a)X |根()|2Z=1其中(質(zhì))是組1和v之間的相關(guān)系

54、數(shù)的絕對(duì)值。使用的解決方法和Simon等人提出的Sparse group lasso的一樣,因?yàn)閾p失 函數(shù)的改變并不會(huì)影響它的一些特性。由于損失函數(shù)和Santos等人在文獻(xiàn) :T中提出的有相似之處,可以使用相似的解決方法。針對(duì)這樣的問(wèn)題,一般采用近梯度方法(Proximal gradient menthod)2來(lái)解決。近梯度方法的優(yōu)化函數(shù)為F(勿)=/(游+,(時(shí)其中g(shù)(z)是凸函數(shù),六時(shí)是可微凸函數(shù),和g(z)是從F(z)分離的函數(shù)。先求一個(gè)proximal函數(shù)pro:Eg(x) = argm嗣如(g3) +- z監(jiān))當(dāng)g(z) = 0時(shí),proxg(x) = Q7,gm詁n(*|n 切分=

55、rr;當(dāng)g(.Q = A時(shí), pro.Tg(.T)= argminfier(fi - .r|) = R(rr);當(dāng)g(z) = t|*lh 時(shí), ?wo.t9(.t)可采 用 soft-thresholding 算法。此時(shí)優(yōu)化問(wèn)題變成了求解%(抄t 一益/(/T)算法步驟歸納如下:Algorithm 3 proximal gradient算法步驟1: Given ykiXkP 6 (0,1)2: Let A := A*13: repeat4: Let z := proxXg(yk -入/(*)5: break if f(z) Xa、1 1(3.21)0 bXa可微部分f由無(wú)懲罰項(xiàng)的損失函數(shù)和相

56、關(guān)系數(shù)懲罰項(xiàng)構(gòu)成,因此,(3.17)可 以重寫為:為+1。:= pmXg(0K)- 珂/農(nóng))- proxgbk+1(l) (3.22)(2(位)=見(位)+ (% )(3.23)(仇(鼠=- XSX()(3.24)9 M(:).扃=/”)T s(X伊)-X(“儼)(3.25)tl=lr(_z)是y的殘差:r(T)= g - X(W(3.26)在(3.23)中,以)必(為)和寸(異斗(時(shí)分別代表標(biāo)準(zhǔn)的最小二乘項(xiàng)和我們新 加入的相關(guān)系數(shù)懲罰項(xiàng)。結(jié)合公式(3.22) (3.25),最終的更新公式為:為+1)= (1 -(1 a)人|頃板+尸:赫)|2)+(S(板如入)+(3.27)根據(jù)文獻(xiàn),在某個(gè)給

57、定的迭代中,如果-,個(gè)除了組,之外的殘差小于個(gè)閾值,那么整個(gè)組的參數(shù)都為零。這個(gè)條件可以寫成:|S(X(DR(t), aA)|2 (1 - q)A n 舛)=0(3.28)3.3.1算法步驟我們的解決方法分為組內(nèi)和組外兩部分。對(duì)于某個(gè)給定的組,我們先用公 式(3.28)進(jìn)行判斷。若成立,則這組的系數(shù)全部為0,反之不全為0,我們?cè)龠M(jìn) 行接下來(lái)的組內(nèi)迭代部分。具體的算法步驟歸納如下:Algorithm 4 CPSGL算法步驟一1: initialize 為=02: input 夕,X = (X。),X(2),., XW), A, a, kmax3: for each group Z = 1,2,.

58、, M do do4; if |S(X),r(_2),s)|2 (1 - ot)X then5: 砰)=06: else7: while number of iterations k 數(shù)據(jù)共享型Lasso (Data shared lasso) 等。4.1數(shù)據(jù)豐富型線性回歸假設(shè)有一個(gè)高質(zhì)量觀測(cè)值的小數(shù)據(jù)集,以及一個(gè)有成本較低觀測(cè)值的大數(shù) 據(jù)集。它們有相似但是不相同的統(tǒng)計(jì)特征。Aiyou Chen等人受到谷歌一個(gè)應(yīng)用 的啟發(fā),提出了數(shù)據(jù)豐富型線性回歸(Data enriched linear regression) 3lo 他們的小數(shù)據(jù)集是一組由概率樣本選擇的消費(fèi)者,分享了人們的互聯(lián)網(wǎng)瀏覽記 錄

59、以及電視的觀看記錄數(shù)據(jù)。另一組更大的數(shù)據(jù)集沒(méi)有經(jīng)過(guò)概率樣本選擇,但 是加入了數(shù)據(jù)收集的過(guò)程。目標(biāo)是對(duì)來(lái)自小數(shù)據(jù)集的人群做出個(gè)預(yù)測(cè)。如果 數(shù)據(jù)在兩個(gè)數(shù)據(jù)集中的分布是相同的,簡(jiǎn)單地將這兩個(gè)數(shù)據(jù)集合在一起就可以 了。如果大數(shù)據(jù)集和小的完全不一樣,直接將大數(shù)據(jù)集加入小數(shù)據(jù)集就是無(wú)益 的。Data enriched linear regression是簡(jiǎn)單將兩個(gè)數(shù)據(jù)集合并和分別擬合不同模 型之間的一種混合。使用收縮方法來(lái)作為對(duì)于兩個(gè)不同的回歸模型之間差別的 懲罰項(xiàng)。使用的懲罰項(xiàng)和調(diào)整策略,都顯示出這個(gè)算法對(duì)于小的數(shù)據(jù)集更感興 趣,目標(biāo)是使用來(lái)自大數(shù)據(jù)集的可能有偏差的數(shù)據(jù)來(lái)豐富對(duì)小數(shù)據(jù)的分析??紤]一個(gè)響應(yīng)

60、變量為Y 6 R,預(yù)測(cè)變量X E踏的線性模型。小數(shù)據(jù)集的模 型為Yi =+ , i E S假設(shè)大數(shù)據(jù)集的數(shù)據(jù)服從Yi = X我0 + g) + 勺3 6 B小數(shù)據(jù)集的樣本數(shù)量為n,大數(shù)據(jù)集的樣本數(shù)量為N。有幾類興趣的出發(fā) 點(diǎn)。首先舉個(gè)例子,S中Y總體來(lái)說(shuō)都和B中的Y有差別,但是有相似的趨勢(shì)。 也就是說(shuō),也許只有t的截距部分是非零的。更普遍地,X中某些但不是所有 的部分的影響可能在兩個(gè)數(shù)據(jù)集中是不同的??梢栽?的每個(gè)部分應(yīng)用假設(shè)檢 驗(yàn),但是計(jì)算量巨大。設(shè)Xs ee 6 IK%均=X*Xs,Vb = X卷Xb基本的方法是將所有數(shù)據(jù)合并,再在T上加一個(gè)收縮懲罰項(xiàng)。我們就是最小化(焉 一 X*Y +

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論