版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
第六章偏最小二乘方法偏最小二乘方法(PLS-PartialLeastSquares))是近年來發(fā)展起來的一種新的多元統(tǒng)計(jì)分析法,現(xiàn)已成功地應(yīng)用于分析化學(xué),如紫外光譜、氣相色譜和電分析化學(xué)等等。該種方法,在化合物結(jié)構(gòu)-活性/性質(zhì)相關(guān)性研究中是一種非常有用的手段。如美國Tripos公司用于化合物三維構(gòu)效關(guān)系研究的CoMFA(ComparativeMolecularFieldAnalysis)方法,其中,數(shù)據(jù)統(tǒng)計(jì)處理部分主要是PLS。在PLS方法中用的是替潛變量,其數(shù)學(xué)基礎(chǔ)是主成分分析。替潛變量的個(gè)數(shù)一般少于原自變量的個(gè)數(shù),所以PLS特別適用于自變量的個(gè)數(shù)多于試樣個(gè)數(shù)的情況。在此種情況下,亦可運(yùn)用主成分回歸方法,但不能夠運(yùn)用一般的多元回歸分析,因?yàn)橐话愣嘣貧w分析要求試樣的個(gè)數(shù)必須多于自變量的個(gè)數(shù)?!?.1多元線性回歸(MLR)若自變量為m個(gè),xj(j=1,2,…,m),因變量為y,在y與xj間,我們可以建立一線性模型,即(6.1a)(6.1b)
(6.1c)在式中,bj為回歸系數(shù)。在式(6.1)中僅有一個(gè)試樣,若有n個(gè)試樣,即為yi(i=1,2,…,n),它的列向量形式為y,b與原來相同,矢量xj’為矩陣X的行,則:
y=Xb+e若用圖形表示,則為:
y=XB+e1m11
n
n
nm在此情況下,n為試樣數(shù),m為自變量數(shù)。有如下三種情況:(1)m>n,即變量數(shù)多于試樣數(shù),對于b來說,則有無窮多個(gè)解。(2)m=n,變量數(shù)與試樣數(shù)相等,若矩陣X滿秩時(shí),則矢量b有唯一解。但是,在實(shí)際工作中,這種情況是極少能碰到的。此時(shí)我們有:e=y–Xb=0(3)m<n,變量數(shù)小于試樣數(shù),盡管我們得不到準(zhǔn)確解b,但是可以使殘差矢量e盡可能小而得到解,e=y–Xb這就是我們所熟知的最小二乘法。其解為:(6.2)在上邊的敘述中,因變量為1個(gè),而事實(shí)上可以有多個(gè)因變量。如有兩個(gè)因變量y1和y2,我們可以簡單地寫成兩個(gè)線性方程:y1=Xb1+e;y2=Xb2+e若用矩陣標(biāo)表示,則:由此得到Y(jié)=XB+
E對于2-P個(gè)因變量的圖形表示為:Y
=X
B+E2-p2-p2-pn
mnm
n最小二乘的解為:(6.3)多元線性回歸應(yīng)用很廣泛,因?yàn)樵谠S多情況下該種方法具有良好的性能。但是,此種方法也有固有的缺點(diǎn)。假若體系的響應(yīng)(即因變量)呈現(xiàn)線性,無干擾,無溶液間的相互作用,低噪聲無共線性,則多元線性回歸是一種非常好的方法。事實(shí)上,完全滿足上述條件比較困難。當(dāng)噪聲較強(qiáng),或干擾較嚴(yán)重時(shí),有可能導(dǎo)致所得數(shù)學(xué)模型失真,如下例:運(yùn)用式(6.3)則可得B矩陣:所用數(shù)學(xué)模型有效性的量度可用Err:式中,yik
為矩陣Y中第i行第k列的矩陣元,為由矩陣B所得的計(jì)算值,
ik為前面所介紹的矩陣E的矩陣元。此例中,Err=0.49。若由于噪音使得X增廣一列(注意:對于試樣濃度的測定,它并不包含有用信息),即:由此得到的B矩陣為:對于此模型,Err=0.07。它比前者為小,這就意味著對于矩陣Y,第二個(gè)數(shù)學(xué)模型比第個(gè)要更有效,這是一種假象。由于X中引入最后一列,使得B2中上部3*3部分與前邊所提B不相等(B為真實(shí)模型)。由B2計(jì)算所得Y盡管誤差要小,但其數(shù)學(xué)模型所描述的自變量與因變量間的關(guān)系并不真實(shí)。其原因主要為多元線性回歸方法是采用整個(gè)X矩陣來建立數(shù)學(xué)模型,而并不顧及在X中的信息與真實(shí)模型相關(guān)與否。很顯然,若所得結(jié)果偏離了其實(shí)際數(shù)學(xué)模型,則對于未知試樣的預(yù)測也是錯(cuò)誤的。為了克服多元線性回歸的不足,在數(shù)學(xué)方法上引進(jìn)了主成分回歸方法(PCR)?!?.2主成分回歸主成分回歸可分為兩步:測定主成分?jǐn)?shù),并由主成分分析將X矩陣降維;對于降維的X矩陣再進(jìn)行線性回歸分析。主成分分析的概念在前一章已經(jīng)作了介紹。所謂主成分,它為一新的變量,而該新變量是原變量xij的線性組合。第一個(gè)主成分所能解釋原變量的方差量最大,第二個(gè)次之,第三個(gè)再次之,等等。也就是說,主成分是一種線性組合,用它來表征原來變量時(shí)所產(chǎn)生的平方誤差最小。運(yùn)用主成分分析,原變量矩陣X可以表達(dá)為得分(即主成分)矩陣T,而T由X在本征矢量P上的投影所得。主成分與矩陣X的本征矢量一一對應(yīng),即T
=
XP。設(shè)矩陣X的階為I*J,若T的階與J相等,則主成分回歸與多元線性回歸所得結(jié)果相同,并不能顯示出主成分回歸的優(yōu)越之處。選取的主成分?jǐn)?shù)一般應(yīng)該比J
小,而刪去那些不重要的主成分,因?yàn)檫@些主成分所包含的信息主要是噪聲,由此所得的回歸方程穩(wěn)定性較好。另外,由X所定義的空間可以進(jìn)一步來說明主成分回歸與多元線性回歸的區(qū)別。多元線性回歸應(yīng)用了由X的列所定義的全部空間,而主成分回歸所占用的是一子空間。當(dāng)X的J列中,有一列可為其它J—1列的線性組合時(shí),則X可用J-1列的矩陣T來描述,而并不丟失信息。新的矩陣T定義了X的一個(gè)子空間。綜合上述,X可由它的得分矩陣T來描述(由于刪去與小的本征值相應(yīng)的維,所以T的維小于X的維):
T=XP若用圖形表示,則為:T=XPama
n
nm由此可得多線性方程:
Y=TB+E其解為:其圖形表示為:
Y=TB+Epppa
n
n
na主成分分析可以解決共線問題,同時(shí)由于去掉了不太重要的主成分,因而可以削弱噪聲(隨機(jī)誤差)所產(chǎn)生的影響。但是,由于主成分回歸為二步法,若在第一步中消去的是有用的主成分,而保留的是噪聲,則在第二步多元線性回歸所得結(jié)果就將偏離真實(shí)的數(shù)學(xué)模型?!?.3偏最小二乘(PLS)§6.3.1基本原理為了敘述上的方便,我們首先引進(jìn)“因子”的概念。一個(gè)因子為原來變量的線性組合,所以矩陣的某一主成分即為一因子,而某矩陣的諸主成分是彼此相互正交的,但因子不一定,因?yàn)橐灰蜃涌捎赡骋怀煞纸?jīng)坐標(biāo)旋轉(zhuǎn)而得。在主成分回歸中,第一步,在矩陣X的本征矢量或因子數(shù)測試中,所處理的僅為X矩陣,而對于矩陣Y中信息并未考慮。事實(shí)上,Y中亦可能包含非有用的信息。所以很自然的一種想法是,在矩陣X因子的測試中應(yīng)同時(shí)考慮矩陣Y的作用。偏最小二乘正是基于這種思想的一種回歸方法。偏最小二乘和主成分分析很相似,其差別在于用于描述變量Y中因子的同時(shí)也用于描述變量X。為了實(shí)現(xiàn)這一點(diǎn),在數(shù)學(xué)上是以矩陣Y的列去計(jì)算矩陣X的因子,與此同時(shí),矩陣Y的因子則由矩陣X的列去預(yù)測。其數(shù)學(xué)模型為:(6.4)及(6.5)此處,T和U的矩陣元分別為X和Y的得分,而P和Q的矩陣元分別為X和Y的裝載,E和F分別為運(yùn)用偏最小二乘模型法去擬合X和Y所引進(jìn)的誤差。T=XP(主成分分析)TP’=XPP’PP’=IX=TP’(因子分析)在理想的情況下,X中誤差的來源和Y中的誤差的來源完全相同,即影響X與Y的因素相同。但實(shí)際上,X中誤差與Y中誤差并不相關(guān),因而t≠u,但當(dāng)兩個(gè)矩陣同時(shí)用于確定因子時(shí),則X和Y的因子具有如下關(guān)系:u=bt+e(6.6)式中b所表征的即為u和t間的內(nèi)在關(guān)系。為了使因子T既可描述X矩陣,同時(shí)又可描述Y矩陣,則需采取折衷方案,即將T進(jìn)行坐標(biāo)旋轉(zhuǎn)。顯然,坐標(biāo)旋轉(zhuǎn)后的T因子對于X矩陣的表達(dá)已不再是最優(yōu)的狀況。如假設(shè)X矩陣和Y矩陣均為6*3,即行為6,列為3。在列空間,X和Y矩陣的行分別示于圖6.1(上部)。PLS第一個(gè)因子(t和u)方向在各自的空間均可解釋試樣的最大偏差。若PLS模型是正確的,將t對u作圖則可得一線性關(guān)系。事實(shí)上,PLS要將各自空間中的因子進(jìn)行折衷以增加t對u的相關(guān)性(圖6.1下部)。由于這種折衷才可使所得數(shù)學(xué)模型較好地同時(shí)描述X和Y。在行空間,情況與列空間類同。圖6.1PLS處理的圖形表示如有矩陣(見§6.2):數(shù)據(jù)的預(yù)處理為:每列減去相應(yīng)列的平均值(mean-centered),PLS所得結(jié)果為:將t對u作圖(圖6.2)可顯示出二者的線性關(guān)系,其斜率b=0.53。圖6.2矩陣X的因子
t對矩陣Y的因子u作圖對于未知試樣的預(yù)測,要應(yīng)用X和Y的得分模型及相關(guān)性bi。若有L個(gè)因子,則bl為表達(dá)第l個(gè)因子相關(guān)性的系數(shù),其步驟為:由未知試樣的測定值x末通過校正模型(式(6.4)計(jì)算出t末,進(jìn)而由(式6.6)及bl可計(jì)算未知試樣的得分矢量u末,最后由校正模型(式6.5)得未知試樣含量。u=bt+e(6.4)(6.5)(6.6)§6.3.2偏最小二乘算法1.校正模型的建立首先我們從一最簡單的模型開始,然后給出偏最小二乘的完整算法。若僅有二矩陣塊(block),即X塊和Y塊。對于X:(1)將某xj賦值給tstart,即tstart=xj;(5)比較步(2)和步(4)中的t,若二者相等,則停,否則轉(zhuǎn)到(2)。對于Y:(1)將某yj賦值給ustart即ustart=yi(5)比較步(2)和步(4)中的u,若二者相等,則停,否則到步(2)。在上述的算法中,X和Y是分別獨(dú)立進(jìn)行的,為了建立二者內(nèi)在的相關(guān)性,則將得分t和u在步(2)中的位置相交換(上述算法中的括號(hào)內(nèi)部分);(1)令(8)將步(4)中t與前一次迭代所得t相比較,若二者相等(有一定的舍入誤差),則停,否則轉(zhuǎn)入步(2)[若Y為一維,即僅一個(gè)變量,則跳過步(5)—(8),并置q=1]。此算法一般收斂很快。所得到的為X和Y的經(jīng)過旋轉(zhuǎn)的主成分,即t不互相正交,其原因是在主成分計(jì)算中,運(yùn)算的順序發(fā)生了變化。因此,將權(quán)重w’(見上述運(yùn)算中括號(hào)內(nèi)等式)替代p’,并在收斂之后,再加入:以得到正交的t值。由,則可計(jì)算新的t,t=Xp/p,其實(shí)此即為T的相互正交并非絕對必要,但當(dāng)與主成分回歸比較時(shí),t正交的條件還是需要滿足的。當(dāng)預(yù)測時(shí),需將ω’作同樣的標(biāo)準(zhǔn)化處理:,否則,將引入誤差。然后,t可用于內(nèi)部的相關(guān):(下腳意為對于h因子,大小為n*1),此處。其殘差的計(jì)算分別為:將uh代入第二式,則得混合方程:由此混合方程可使模型參數(shù)用于測試集的預(yù)測。2.偏最小二乘算法下面給出完整的一種偏最小二乘算法:若X和Y均已經(jīng)過標(biāo)準(zhǔn)化處理。對于每一主成分:對于X塊:對于Y:收斂測試:(8)將步(4)中t與前一次迭代所得t相比較,若二者相等(包括一定的舍入誤差),到步(9),否則到步(2)[若Y僅有一個(gè)變量,則跳過步(5)—(8),并置q=1]。計(jì)算X的裝載,并重新標(biāo)準(zhǔn)化得分及權(quán)重:(p’,q’和ω’用于預(yù)測;t和u
用于
分類或診斷)。計(jì)算回歸系數(shù)b以用于內(nèi)部關(guān)聯(lián):對于主成分h計(jì)算殘差:之后,回到步(1),去進(jìn)行下一主成分的運(yùn)算,(注:當(dāng)?shù)谝粋€(gè)主成分運(yùn)算之后,X在步(2),(4)和步(9)及Y
在步(5)和步(7)將分別由它們的殘差Eh和Fh代替)。3.未知樣本預(yù)測數(shù)學(xué)模型的求取,目的是用于未知樣本的預(yù)測。其步驟為:(1)如校正部分,將X及Y標(biāo)準(zhǔn)化(此時(shí)試樣數(shù)為n1,而不是n)。(2)
h=0,Y=(均值)(3)
h=h+1(4)
h>α(主成分?jǐn)?shù))到步(5),否則到步(3)。(5)得到的Y為已經(jīng)標(biāo)準(zhǔn)化,因此需按照標(biāo)準(zhǔn)化步驟的相反操作,將之恢復(fù)到原始坐標(biāo)。4.關(guān)于主成分?jǐn)?shù)若X和Y間關(guān)系符合線性模型,則描述模型的主成分?jǐn)?shù)應(yīng)與模型的維數(shù)相等。主成分?jǐn)?shù)是偏最小二乘模型的重要性質(zhì)。由于測試數(shù)據(jù)一般隱含噪聲,故主成分?jǐn)?shù)通常與X的秩不相等。如前已述及,在實(shí)際問題的處理中,總是要消去一些因子(成分),因?yàn)檫@些因子所表征的主要是測試誤差、噪聲及由于變量間相關(guān)所引起的共線問題等。確定主成分?jǐn)?shù)的一種方法是以式(6.8)中Fh的模數(shù)為判據(jù)。圖6.3為模數(shù)對主成分?jǐn)?shù)所得關(guān)系曲線,可以選定某值作為門限,當(dāng)小于此值時(shí),則停止迭代。圖6.3與偏最小二乘中因子書的關(guān)系另一種方法是運(yùn)用F檢驗(yàn)來測試內(nèi)在相關(guān)性(innerrelation)以確證所建立的模型。再一種方法為交叉驗(yàn)證法。在這種方法中計(jì)算一統(tǒng)計(jì)量PRESS(predictionresidualsumofsquares),即預(yù)測殘差之平方和。如圖6.4所示,顯然,人們總是希望采用某一主成分?jǐn)?shù)時(shí)所產(chǎn)生的PRESS為最小。但最小的位置常難以準(zhǔn)確確定。用這種方法確定主成數(shù)非常類似于測定下限的概念。所謂測定下限即在噪聲存在下最小可以檢出的信號(hào)。在圖6.4的情況下,因子數(shù)可取4—8。圖6.4PRESS與因子數(shù)的關(guān)系5.應(yīng)用實(shí)例—腐植酸和木質(zhì)磺酸鹽的熒光分光光度分析[5]磺酸木質(zhì)素(ligninsulfonate)是水中的一種污染物,可用熒光分光光度法測定.盡管此種方法具有高靈敏度和高選擇性,但在磺酸木質(zhì)素的測試中腐植酸和去污劑中的光白劑(opticalwhitener)對其嚴(yán)重干擾。這三種化合物的發(fā)射光
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 兼職培訓(xùn)師課件
- 養(yǎng)老院入住老人法律法規(guī)宣傳教育制度
- 企業(yè)員工培訓(xùn)與個(gè)人發(fā)展計(jì)劃制度
- 企業(yè)內(nèi)部保密工作流程制度
- 2026湖北武漢市青山區(qū)社區(qū)衛(wèi)生服務(wù)中心編外聘用制人員招聘40人參考題庫附答案
- 2026福建南平市屬醫(yī)療衛(wèi)生單位第九屆“人才南平校園行”緊缺急需人才招聘18人考試備考題庫附答案
- 2026福建省儲(chǔ)備糧管理有限公司莆田直屬庫招聘1人備考題庫附答案
- 2026福建省順昌人力資源服務(wù)有限公司( 就業(yè)見習(xí)崗位)招聘1人考試備考題庫附答案
- 2026西北工業(yè)大學(xué)航空學(xué)院飛行器綜合設(shè)計(jì)數(shù)智化技術(shù)陜西省高等學(xué)校重點(diǎn)實(shí)驗(yàn)室招聘科研助理人員1人備考題庫附答案
- 公共交通車輛更新淘汰制度
- 2026年江蘇經(jīng)貿(mào)職業(yè)技術(shù)學(xué)院高職單招職業(yè)適應(yīng)性測試參考題庫含答案解析
- 2025秋滬科版(五四制)(新教材)初中科學(xué)六年級(jí)第一學(xué)期知識(shí)點(diǎn)及期末測試卷及答案
- 開磷集團(tuán)(電池級(jí)磷酸一銨)項(xiàng)目環(huán)評(píng)報(bào)告
- 氣動(dòng)元件與基本回路
- 安川機(jī)器人IO信對照表
- 案例(母線PT反充電)
- 甘肅省住院醫(yī)師規(guī)范化培訓(xùn)實(shí)施方案
- 讓課堂煥發(fā)生命的活力
- 上海市歷年中考語文文言文閱讀試題45篇(含答案與翻譯)(截至2021年)
- 丁類(D類)功率放大器
- 九年級(jí)英語全冊 各單元話題及語法要點(diǎn) 魯教版
評(píng)論
0/150
提交評(píng)論