版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡介
1、第六章 幾種常見的數(shù)據(jù)預(yù)處理方法6.1數(shù)據(jù)歸一化、標(biāo)準(zhǔn)化和變換方法6.1.1數(shù)據(jù)歸一化 化學(xué)中經(jīng)常通過對事物進(jìn)行量測所獲得的數(shù)據(jù)來了解事物,這里的數(shù)據(jù)就是模式的各個(gè)特征變量的測量值,這些測量值可用各種不同的儀器、方法獲得,因而不僅其量綱不一樣,其絕對值大小有時(shí)也會有幾個(gè)數(shù)量級之差。如研究宇宙鐵隕石試樣的分類,以樣本中各種元素的含量作為特征變量,其中鎳含量約為50000µgg數(shù)量級,而鎵含量在50µgg數(shù)量級。這時(shí),如鎵含量變化10µgg,其影響與鎳含量變化10000µgg相當(dāng)。所以若原始數(shù)據(jù)不經(jīng)預(yù)處理直接用于分類,則鎵含量的變化對分類的影響將完全被鎳含量
2、的波動所掩蓋。還有有的數(shù)據(jù)甚至沒有計(jì)量性質(zhì)(如顏色分為紅、黃、白等),如將這些數(shù)據(jù)不加處理,直接用來分類,可能會得到錯(cuò)誤的結(jié)果7-29。因此在模式識別分類前必須首先對化學(xué)原始數(shù)據(jù)進(jìn)行預(yù)處理。常用的數(shù)據(jù)預(yù)處理方法有7-30: 1、數(shù)據(jù)歸一化、標(biāo)準(zhǔn)化和變換方法2、數(shù)據(jù)壓縮3、異常數(shù)據(jù)檢測方法和空缺值處理方法4、噪聲數(shù)據(jù)處理方法5、其它一些數(shù)據(jù)預(yù)處理方法。下面我們首先介紹數(shù)據(jù)歸一化方法。(1)數(shù)值歸一化法 當(dāng)數(shù)據(jù)包含不同量綱的多種變量時(shí),數(shù)值間的差別可能很大,例如有些有機(jī)酸的離解常數(shù)(pKa)數(shù)值大約為個(gè)位數(shù)或?yàn)樨?fù)數(shù),沸點(diǎn)數(shù)據(jù)則約為幾十?dāng)z氏度或數(shù)百攝氏度。再如所采用的單位不同,數(shù)據(jù)的大小也會有很大的
3、差別,如毫摩爾濃度與摩爾濃度相差1000倍。如果將這種不同種類、不同量綱、數(shù)值大小差別很大的數(shù)據(jù)組合在一起進(jìn)行模式識別,勢必會影響到正確的分類。常用的解決方法就是對數(shù)據(jù)進(jìn)行數(shù)值歸一化。數(shù)值歸一化就是把各個(gè)變量的數(shù)據(jù)都線性地變換到一個(gè)新的標(biāo)尺上,在新標(biāo)尺上,每個(gè)變量的最大值都為1。第i個(gè)變量數(shù)值歸一化公式為 (6-1)式中xi,old為原始數(shù)據(jù);xi,new為變換后的新數(shù)據(jù);xmax為原始數(shù)據(jù)中的最大值;n為數(shù)據(jù)中變量個(gè)數(shù)。該變換保證了各變量的數(shù)據(jù)都1。有時(shí)為了將數(shù)據(jù)規(guī)范為01之間的數(shù)值,即變換后數(shù)據(jù)的最小值為0,最大值為1,也常用下述公式進(jìn)行預(yù)處理: (6-2)式中,xmin為原始數(shù)據(jù)中的最小
4、值。數(shù)值歸一化可以保證各變量的變化幅度處于同一水平上,從而消除了數(shù)據(jù)本身差別帶來的影響。但其缺點(diǎn)是,若數(shù)值集合中有一個(gè)數(shù)值很大,則其余各值都會相差不大。(2)方差歸一化法 方差可以用來描述變量的變化幅度,而在處理化學(xué)數(shù)據(jù)時(shí),有時(shí)我們更關(guān)注數(shù)據(jù)的變化幅度,因此從方差這個(gè)角度進(jìn)行數(shù)據(jù)歸一化就是方差歸一化方法,常用下面的公式進(jìn)行變換, (6-3) 式中,m為變量i的均值;Vj為該變量的方差。經(jīng)變換后的數(shù)據(jù)方差為1,它保證了各變量的方差一致,各變量在分類過程中影響程度相同。6.1.2數(shù)據(jù)標(biāo)準(zhǔn)化數(shù)據(jù)的標(biāo)準(zhǔn)化(normalization)是將數(shù)據(jù)按比例縮放,使之落入一個(gè)小的特定區(qū)間。在某些比較和評價(jià)的指標(biāo)
5、處理中經(jīng)常會用到,去除數(shù)據(jù)的單位限制,將其轉(zhuǎn)化為無量綱的純數(shù)值,便于不同單位或量級的指標(biāo)能夠進(jìn)行比較和加權(quán)。常見的方法有以下幾種:(1)min-max標(biāo)準(zhǔn)化(Min-max normalization)也叫離差標(biāo)準(zhǔn)化,是對原始數(shù)據(jù)的線性變換,使結(jié)果落到0,1區(qū)間,轉(zhuǎn)換函數(shù)如下: (6-4)其中max為樣本數(shù)據(jù)的最大值,min為樣本數(shù)據(jù)的最小值。這種方法有一個(gè)缺陷就是當(dāng)有新數(shù)據(jù)加入時(shí),可能導(dǎo)致max和min的變化,需要重新定義。(2)log函數(shù)轉(zhuǎn)換通過以10為底的log函數(shù)轉(zhuǎn)換的方法同樣可以實(shí)現(xiàn)歸一下,具體方法如下: (6-5)很多介紹都中x*=log10(x),其實(shí)是有問題的,這個(gè)結(jié)果并非一定
6、落到0,1區(qū)間上,應(yīng)該還要除以log10(max),max為樣本數(shù)據(jù)最大值,并且所有的數(shù)據(jù)都要大于等于1。(3)atan函數(shù)轉(zhuǎn)換 用反正切函數(shù)也可以實(shí)現(xiàn)數(shù)據(jù)的歸一化: (6-6)使用這個(gè)方法需要注意的是如果想映射的區(qū)間為0,1,則數(shù)據(jù)都應(yīng)該大于等于0,小于0的數(shù)據(jù)將被映射到-1,0區(qū)間上。而并非所有數(shù)據(jù)標(biāo)準(zhǔn)化的結(jié)果都映射到0,1區(qū)間上,其中最常見的標(biāo)準(zhǔn)化方法就是Z標(biāo)準(zhǔn)化,也是SPSS中最為常用的標(biāo)準(zhǔn)化方法。(4)z-score 標(biāo)準(zhǔn)化(zero-mean normalization)也叫標(biāo)準(zhǔn)差標(biāo)準(zhǔn)化,經(jīng)過處理的數(shù)據(jù)符合標(biāo)準(zhǔn)正態(tài)分布,即均值為0,標(biāo)準(zhǔn)差為1,其轉(zhuǎn)化函數(shù)為: (6-7)其中為所有樣
7、本數(shù)據(jù)的均值,為所有樣本數(shù)據(jù)的標(biāo)準(zhǔn)差。6.1.3數(shù)據(jù)的變換方法 (1)加權(quán)變換法 歸一化方法是把各個(gè)變量對分類的影響都拉到同一個(gè)水平上,而加權(quán)變換則是人為地加大某個(gè),或某些變量的影響。其做法就是在不同的變量上乘以不同的權(quán)值,權(quán)值越大影響越大。當(dāng)然,權(quán)值不能隨便加,一般要根據(jù)專家的意見,或經(jīng)驗(yàn)等來選擇。(2)變量變換法 變量變換就是對原變量進(jìn)行某些數(shù)學(xué)變換,常用的數(shù)學(xué)變換包括平方、開方、對數(shù)等,即 (6-8) 對光譜數(shù)據(jù)還經(jīng)常進(jìn)行傅立葉變換、Hadamard變換等。變量變換的目的是改變數(shù)據(jù)的標(biāo)度,更好的適應(yīng)分類。 (3)變量組合法 根據(jù)實(shí)際情況,也可以把兩個(gè)或多個(gè)變量進(jìn)行組合,組合方式有多種,例
8、如變量相加、變量相減、加權(quán)相加、加權(quán)相減和變量相比等??傊瑢τ诓煌那闆r可以采用不同的預(yù)處理方法,這不但需要正確理解各種預(yù)處理方法的物理意義,同時(shí)也必須結(jié)合不同問題的具體化學(xué)經(jīng)驗(yàn)來對原始數(shù)據(jù)進(jìn)行預(yù)處理,不可統(tǒng)而論之。所以我們在選取數(shù)據(jù)的預(yù)處理方法的時(shí)候要選擇哪個(gè)最適合我們模型的方法。6.2數(shù)據(jù)降維方法在科學(xué)研究的的過程中,我們要經(jīng)常對我們得到的數(shù)據(jù)進(jìn)行處理。我們所得到的這些數(shù)據(jù)有可能會處于比較高的維度空間,例如,我們在處理一個(gè)圖片序列時(shí),我們通常把它拉成一個(gè)向量。這樣我們就得到了一維的序列,如果對二維數(shù)據(jù)直接處理有可能會出現(xiàn)以下問題:首先,維數(shù)災(zāi)難問題,巨大的計(jì)算量將會加大問題的難度;其次這
9、些數(shù)據(jù)通常沒有反映出數(shù)據(jù)的本質(zhì)特征,如果直接對他們進(jìn)行處理不會得到理想的結(jié)果。所以,我們通常需要先對數(shù)據(jù)進(jìn)行降維處理。我們通常進(jìn)行降維的目的有:1.壓縮數(shù)據(jù)減少存儲量。2,去噪聲處理。3,從數(shù)據(jù)中提取特征以便于進(jìn)行分類。4,將數(shù)據(jù)投影到低維可視空間,以便于看清數(shù)據(jù)分布。 數(shù)據(jù)降維的方法可以分為線性降維和非線性降維,而非線性降維又分為基于核函數(shù)的方法和基于特征值的方法。線性降維方法主要有主成分分析(PCA)、獨(dú)立成分分析(ICA) 、線性決策分析(LDA) 、局部特征分析(LFA)等等。基于核函數(shù)的非線性降維方法有基于核函數(shù)的主成分分析(KPCA) 、基于核函數(shù)的獨(dú)立成分分析(KICA) 、基于
10、核函數(shù)的決策分析(KDA)等等。基于特征值得非線性將違法有ISOMAP和LLE。下面對這些方法做一簡單介紹。1. PCAPCA是一種線性降維方法。他的主要思想就是重構(gòu),也就是希望盡可能的保留數(shù)據(jù)信息。它使得投影哈偶方差最大的方向?qū)?shù)據(jù)進(jìn)行投影。最后會歸結(jié)為一個(gè)求取特征值和特征向量的問題,所以他的特點(diǎn)就是簡單容易操作,即使他是一個(gè)線性降維方法任然得到了廣泛應(yīng)用。2.LDALDA他也是一種線性降維方法。他的主要思想是分類思想,也就是它希望不同類的數(shù)據(jù)在經(jīng)過降維處理后的間距盡可能的大。正是這個(gè)股原因,在分類方面比PCA好。它在最后也可以歸結(jié)為特征值和特征向量的求解問題,所以他和上述方法一樣有著共同的
11、優(yōu)缺點(diǎn),但是也得到了廣泛的應(yīng)用。3.KPCA這個(gè)方法他是基于核函數(shù)的思想對PCA進(jìn)行了改造。它不會顯著增加計(jì)算的復(fù)雜度,最后會歸結(jié)為核函數(shù)的計(jì)算和特征向量的求解問題,所以它的實(shí)現(xiàn)也比較容易,并且繼承了PCA可以得到全局最優(yōu)解的特性,同時(shí)它可以求解非線性問題。不過,對于具體問題如何選取方法要進(jìn)一步研究。4.KLDA這是基于核函數(shù)的思想對LDA進(jìn)行了改造。他不會顯著增加計(jì)算的復(fù)雜度,他最后歸結(jié)為核函數(shù)的計(jì)算和特征向量求解問題,所以它的實(shí)現(xiàn)也是比較簡單的,并且它繼承了LDA可以得到全局最優(yōu)解得特性,同時(shí)它可以求解非線性問題。不過,對于特定的問題如何選取核函數(shù)是一個(gè)需要繼續(xù)研究的問題。5.Metric
12、 MDSMetric MDS算法的基本思路是通過一個(gè)描述點(diǎn)之間差異度的矩陣來計(jì)算坐標(biāo),希望這些點(diǎn)的歐氏距離能夠盡量和它們之間的差異度一樣,從而達(dá)到數(shù)據(jù)降維的目的。當(dāng)給定的點(diǎn)之間的差異度矩陣就是點(diǎn)之間歐氏距離時(shí), Metric MDS算法和 PCA算法是等價(jià)的。 Metric MDS最終也要?dú)w結(jié)為特征向量的計(jì)算問題。6.ISOMAPISOMAP的主要思想就是利用點(diǎn)之間的geodesic距離來代替點(diǎn)之間的歐氏距離,然后用Metric MDS算法進(jìn)行數(shù)據(jù)降維。 ISOMAP對數(shù)據(jù)的整體平移、旋轉(zhuǎn)和翻轉(zhuǎn)具有不變性,并且它最后也歸結(jié)為特征值喝特征向量的計(jì)算問題,所以他的實(shí)現(xiàn)也較為簡單,然而它卻具有發(fā)現(xiàn)高
13、維空間中低維流形的能力。7.LLELLE的主要思路就是將數(shù)據(jù)降低到低維空間中,但是保留數(shù)據(jù)局部幾何信息。對每一個(gè)點(diǎn),有一組權(quán)系數(shù)對他的領(lǐng)域點(diǎn)進(jìn)行加權(quán),從而重構(gòu)它,這組權(quán)系數(shù)會使重構(gòu)的誤差最小。 這組權(quán)系數(shù)對于數(shù)據(jù)點(diǎn)和它的領(lǐng)域點(diǎn)的平移、旋轉(zhuǎn)、翻轉(zhuǎn)具有不變性,所以用它作為數(shù)據(jù)點(diǎn)局部幾何性質(zhì)的描述。LLE最后也歸結(jié)為特征值和特征向量的計(jì)算問題,所以它的實(shí)現(xiàn)也較為簡單,然而它具有發(fā)現(xiàn)高維空間中的低維流行的能力。6.3異常數(shù)據(jù)檢測方法和空缺值處理方法6.3.1異常數(shù)據(jù)檢測方法異常值檢測是數(shù)據(jù)挖掘中數(shù)據(jù)準(zhǔn)備的重要環(huán)節(jié) ,也 是學(xué)界探討和研究的內(nèi)容 。目前主要有3種策略 : (1)統(tǒng)計(jì)法:對樣本總體分布作出
14、假設(shè)的基礎(chǔ)上,構(gòu)造如四分位點(diǎn)、標(biāo)準(zhǔn)差等統(tǒng)計(jì)量進(jìn)行檢測,主要適用于單屬性值的情況。 (2)距離法:將兩個(gè)樣本視為維空間的兩點(diǎn),計(jì)算兩點(diǎn)間的Minkowski,Chebyshev或Mahalanobis距離來度量,此方法 能夠應(yīng)用 于多元 數(shù)值 ,但 沒有綜合考慮總體分布的因素,導(dǎo)致 太依賴于參數(shù)的選擇。(3)分類法: 建立分類模 型判斷數(shù)據(jù)類別,以認(rèn)定其是否與總體偏 離 ,一般 需要有大量樣本集 以訓(xùn)練分類模型,并且此方法判斷的顆粒度較大,相對于精細(xì)的數(shù)據(jù)要求顯得誤判率較高。6.3.2空缺值的處理方法在許多的研究中發(fā)現(xiàn),在對數(shù)據(jù)進(jìn)行處理的過程中會發(fā)現(xiàn)有許多數(shù)據(jù)缺失的情況并且數(shù)據(jù)缺失在統(tǒng)計(jì)調(diào)查研究
15、中也是非常常見的一種現(xiàn)象。產(chǎn)生這種現(xiàn)象的原因有很多種,每種缺失都會給統(tǒng)計(jì)分析帶來不同的影響, 如何有效處理這些缺失數(shù)據(jù)成為了近年來大家關(guān)注的焦點(diǎn)之一。所以在科學(xué)研究中,為了提高數(shù)據(jù)的可信度科學(xué)度, 很多科學(xué)家都提出了自己的觀點(diǎn),來保證調(diào)查研究的順利進(jìn)行。所以我們必須要掌握一些處理空缺值得方法,來平衡我們的數(shù)據(jù).1.數(shù)據(jù)缺失的概念數(shù)據(jù)缺失是指在數(shù)據(jù)采集時(shí)由于某種原因應(yīng)該得到而沒有得到的數(shù)據(jù)。它指的是現(xiàn)有數(shù)據(jù)集中某個(gè)或某些屬性的值是不完全的。二、數(shù)據(jù)缺失產(chǎn)生的原因在研究過程中,數(shù)據(jù)缺失是不可避免的,造成這種現(xiàn)象的原因是多方面的,主要有以下幾種:1. 在存儲數(shù)據(jù)的過程中,由于機(jī)器的損壞造成數(shù)據(jù)存儲失
16、敗。2. 實(shí)驗(yàn)人員在采集數(shù)據(jù)過程中,由于主觀因素,人為地認(rèn)為數(shù)據(jù)不重要或無用,而私自丟棄數(shù)據(jù)。3.實(shí)驗(yàn)過程中平行實(shí)驗(yàn)的失敗或者失誤。在一個(gè)統(tǒng)實(shí)驗(yàn)過程中, 要想得到一個(gè)完全有效的數(shù)據(jù)是很難達(dá)到的。 具體說來有以下原因:1.實(shí)驗(yàn)是一個(gè)偶然因素很大的過程,很多情況都可以造成數(shù)據(jù)缺失.2.實(shí)驗(yàn)人員對數(shù)據(jù)處理不當(dāng),將不合目標(biāo)的數(shù)據(jù)直接刪除;3.數(shù)據(jù)的有效性沒有得到重視,并沒有在規(guī)定條件下采集數(shù)據(jù)。這些都是數(shù)據(jù)缺失產(chǎn)生的原因, 也是在工作過程中不得不引起重視的幾個(gè)方面。三、數(shù)據(jù)缺失的類型完全隨機(jī)缺失(Missing Completely at Random,MCAR):數(shù)據(jù)的缺失與不完全變量以及完全變量都
17、是無關(guān)的;隨機(jī)缺失(Missing at Random,MAR):數(shù)據(jù)的缺失不是完全隨機(jī)的,數(shù)據(jù)的缺失只依賴于完全變量;完全非隨機(jī)缺失(Missing Not At Random,MNAR):數(shù)據(jù)的缺失依賴于不完全變量自身。四、數(shù)據(jù)缺失的處理辦法數(shù)據(jù)缺失在統(tǒng)計(jì)過程中是一個(gè)很重要的問題, 全世界都很關(guān)注,他的處理方法更是一個(gè)新興的領(lǐng)域,綜合各個(gè)國家的研究結(jié)果,大致有以下幾種方法。(一)刪除法(Deletion)這種方法非常簡單,當(dāng)被調(diào)查對象出現(xiàn)缺失的變量值, 并且這些缺失的變量值占總體數(shù)據(jù)的總量很小的情況下, 這種方法非常有效。 解決方法就是將存在缺失的變量值刪除, 形成一個(gè)完整的調(diào)查表。 但是
18、這種方法有它的不足之處,在刪除缺失數(shù)據(jù)的過程中,減少了原始的數(shù)據(jù),導(dǎo)致了信息的損耗,而且丟失了很多包含在被刪除數(shù)據(jù)中的信息。 特別是當(dāng)被研究的數(shù)據(jù)本身數(shù)量很少的時(shí)候, 刪除少量數(shù)據(jù)就足以影響整體結(jié)果的客觀性以及正確性。 所以,當(dāng)缺失數(shù)據(jù)占總體數(shù)據(jù)比例很大時(shí),這種方法將會導(dǎo)致錯(cuò)誤結(jié)論。(二)填補(bǔ)法(Imputation)當(dāng)有數(shù)據(jù)缺失的記錄在整個(gè)數(shù)據(jù)中只占一個(gè)很小比例時(shí),可以直接刪除缺失記錄,對余下的完全數(shù)據(jù)進(jìn)行處理。 但是在實(shí)際數(shù)據(jù)中,往往缺失數(shù)據(jù)占有相當(dāng)?shù)谋戎?,這樣做不僅會產(chǎn)生偏差,甚至?xí)贸鲇姓`導(dǎo)性的結(jié)論,同時(shí)丟失大量信息,造成浪費(fèi)。因此我們使用一種新的方法來進(jìn)行處理。目前,填補(bǔ)法是處理數(shù)據(jù)
19、缺失時(shí)普遍使用的一種技術(shù),就是說給各個(gè)缺失數(shù)據(jù)找一個(gè)填充值,用這樣的方法得到“完整數(shù)據(jù)”,然后用標(biāo)準(zhǔn)正常的完整數(shù)據(jù)的統(tǒng)計(jì)方法進(jìn)行數(shù)據(jù)分析和推斷。1. 人工填寫法(Filling Manually)。根據(jù)專業(yè)知識對缺失數(shù)據(jù)進(jìn)行填補(bǔ), 這是一種非常精確的方法。 但是他的缺點(diǎn)是費(fèi)時(shí)又費(fèi)力,當(dāng)缺失的數(shù)值很多時(shí),使用這種方法是基本不可能的。2. 平均值填充法(Mean/Mode Imputation)。 刪除法用以解決少量缺失值, 但是當(dāng)缺失值大量出現(xiàn)時(shí)我們就需要使用一種新的方法, 即平均值填充法。 在處理數(shù)據(jù)時(shí)可以把變量分為數(shù)值型和非數(shù)值型。 如果是非數(shù)值型的缺失數(shù)據(jù),運(yùn)用統(tǒng)計(jì)學(xué)中眾數(shù)的原理,用此變量
20、在其他對象中取值頻數(shù)最多的值來填充缺失值; 如果是數(shù)值型的缺失值, 則取此變量在其他所有對象的取值均值來補(bǔ)齊缺失值。 這種方法的優(yōu)點(diǎn)是簡便、快速,缺點(diǎn)是要建立在完全隨機(jī)缺失(MCAR)的假設(shè)之上。3. 熱卡填充法(Hot Deck Imputation,或就 近 補(bǔ) 齊 )。對于一個(gè)包含空值的變量, 本方法是在完整數(shù)據(jù)中找到一個(gè)與空值最相似的變量, 然后用這個(gè)相似的值來進(jìn)行填充。 與均值替換法相比, 本方法簡單易懂還可以保持?jǐn)?shù)據(jù)本身的類型,利用本方法填充數(shù)據(jù)后,其變量值與填充前很接近。 但是這種方法也存在不足之處, 就是其主觀因素較多,還比較耗時(shí)。4. 使用任何可能的值填充(Assigning
21、 All Possiblevalues of the Attribute)。 這種方法是用缺失值所有可能的數(shù)值來填充, 能夠起到一個(gè)補(bǔ)齊效果。 而這種方法的缺點(diǎn)是,當(dāng)要研究的數(shù)據(jù)量很大或者缺失的數(shù)值較多時(shí),他的計(jì)算量很大,需要測試的方案很多。針對其缺點(diǎn)有另外的一種方法,用一樣的方法來填補(bǔ)缺失數(shù),不同的是從結(jié)果相同的對象中選擇所有可能情況的數(shù)值, 而不是根據(jù)所有情況的對象進(jìn)行嘗試, 這樣能夠在一定程度上緩解原方法的不足。5. 多重填補(bǔ)法(Multiple Imputation,MI)。多重填補(bǔ)法是由Rubin等人根據(jù)貝葉斯估計(jì)原理于1978年建立起來的。 多重填補(bǔ)的原理是首先為缺失值產(chǎn)生一系列用
22、來填充的數(shù)值,把這個(gè)系列中的每一個(gè)值都用來填充,產(chǎn)生相對應(yīng)的一系列的完整的數(shù)據(jù)集合。 再將這些經(jīng)過填充過的數(shù)據(jù)集合使用完整數(shù)據(jù)的方法進(jìn)行研究。 最后把各個(gè)填充過的數(shù)據(jù)集合結(jié)果進(jìn)行綜合考量得出結(jié)論, 這個(gè)結(jié)論考慮到了數(shù)據(jù)填補(bǔ)過程中產(chǎn)生的各種不確定性。 這種方法的缺點(diǎn)也是不能不重視的:第一,計(jì)算很復(fù)雜;第二,是要求數(shù)據(jù)集滿足貝葉斯假設(shè),這個(gè)在現(xiàn)實(shí)中很難實(shí)現(xiàn);第三,是多重填補(bǔ)法只適用于統(tǒng)計(jì)分析,不適合數(shù)據(jù)挖掘的需要。(三)不處理既然每種方法都有其不足之處, 那么就直接在包含空值的數(shù)據(jù)上進(jìn)行數(shù)據(jù)挖掘。 這樣既節(jié)省了時(shí)間又減輕了負(fù)擔(dān)。 但是這種方法也不是完美的,也有其弱點(diǎn),現(xiàn)實(shí)工作中,大家對數(shù)據(jù)是沒有前
23、期知識的,而采用此種方法要求使用者對部分?jǐn)?shù)據(jù)先進(jìn)行假設(shè), 但是在沒有任何前期知識的情況下,很容易假設(shè)出錯(cuò)誤的結(jié)論,而且即使知道數(shù)據(jù)中的一些參數(shù), 要估計(jì)出正確的數(shù)值也需要很長的時(shí)間,所以說也不是非常實(shí)用的。綜合以上三種方法,可以知道,每種方法都適用于不同的條件, 而每種方法都有其不足之處。 在實(shí)際的工作中, 我們要根據(jù)實(shí)際情況正確選擇解決方法。 當(dāng)數(shù)據(jù)樣本很大, 而缺失數(shù)據(jù)所占比例很小的情況下我們可以使用“刪除法”;當(dāng)數(shù)據(jù)缺失值形式是MCAR,并且樣本容量并不大的情況下,可采用“填補(bǔ)法”;當(dāng)以上兩種方法都不實(shí)用的情況下我們可以考慮使用“不處理”的方法。 針對不同的問題我們不能一概而論,關(guān)鍵是要
24、分清實(shí)質(zhì),尋找到在當(dāng)前條件下最適宜的方法, 使不完全樣本的已有信息得到最佳利用。Rubin D.Inference and missing dataJ.Biometrika,1976,(3):581-592.6.4噪聲數(shù)據(jù)處理方法 實(shí)驗(yàn)過程中從儀器得到的原始輸出信號既包含有用的信息,也疊加著隨機(jī)誤差,測量的噪聲是不可避免的,如何盡可能減少噪聲帶來的誤差和有用信息的失真,是化學(xué)計(jì)量學(xué)研究的課題之一。在痕量分析中,通常被測組分含量很低,所以希望分析方法的檢測限越低越好。想要降低檢測限就要提高信噪比,提高信噪比的方法有:提高信號強(qiáng)度和降低噪聲,平滑就是一種常用的降低噪聲以提高信噪比的方法。分析信號因
25、為存在測量噪聲常常呈現(xiàn)為凸凹不平的曲線,也就是帶有“毛刺”, 這些“毛刺”就是噪聲,平滑就是要將凸凹不平的分析信號曲線變?yōu)樽兓骄彽墓饣€,它在分析化學(xué)的信號預(yù)處理中得到了相當(dāng)廣泛的應(yīng)用。本章所介紹的預(yù)處理方法包括最簡單的窗口移動平均法、窗口移動多項(xiàng)式最小二乘擬合法(Savitzky-Golay法)、穩(wěn)健中位數(shù)法以及傅立葉變換、小波變換平滑法。例如在光譜分析中,噪音主要來自高頻隨機(jī)噪聲、基線漂移、樣品不均勻、光散射等。由于噪音的影響,使待測組分的有用信息很難凸顯出來,進(jìn)而使模型精度變差?;瘜W(xué)分析中原始光譜的噪音可用以下方法去除:(1)平滑處理平滑是濾除噪音的常用方法,其主要功能是提高光譜的信
26、噪比,除去高頻噪音對信號的干擾。有關(guān)平滑處理的方法很多,如傅里葉變換、奇異值分解等。其中,最有效的是卷積平滑方法。目前常用SavitzkyGolay函數(shù)對近紅外光譜進(jìn)行平滑。經(jīng)平滑處理后,光譜中的隨機(jī)高頻噪音被降低分散,但卻不能被完全消除。傅里葉變換有濾波作用,分析前對光譜信號進(jìn)行傅里葉變換除去變換后的高頻項(xiàng),再反變換恢復(fù)為原狀,然后再參與回歸計(jì)算。傅里葉變換的優(yōu)點(diǎn)是:快速、穩(wěn)定,很少的幾對傅里葉系數(shù)就可用于計(jì)算而不失精確性以期。(2)小波變換小波變換是一種時(shí)間窗和頻率窗都可改變的時(shí)頻局部化分析方法,主要用于光譜濾噪、光譜數(shù)據(jù)壓縮和光譜信息提取等。小波分析窗口大小(即窗口面積)固定但形狀可改變
27、,即在低頻部分具有較高的頻率分辨率和較低的時(shí)間分辨率,在高頻部分具有較高的時(shí)間分辨率和較低的頻率分辨率。小波變換用于光譜濾噪的計(jì)算方法為:將原始光譜進(jìn)行小波變換,得到小波系數(shù)。根據(jù)一定的閾值法將系數(shù)中較小的系數(shù)減弱或去除,重構(gòu)來得到濾噪后的信號。(3)基線校正由于儀器背景、樣品粒度和其它因素的影響,近紅外光譜分析中經(jīng)常出現(xiàn)基線漂移和傾斜現(xiàn)象。采用基線校正可有效地消除這些影響。操作時(shí)可選用峰谷點(diǎn)扯平、偏移扣減、微分處理和基線傾斜等方法,其中最常用的是一階微分和二階微分微分光譜可以增強(qiáng)原始光譜的信號,如在原始光譜中的寬峰經(jīng)過二階微分處理后,會變得尖銳,這樣有利于在復(fù)雜的峰形中更好地確定出峰的準(zhǔn)確位
28、置,從而達(dá)到鑒別光譜的目的。導(dǎo)數(shù)光譜的作用是盡量降低重峰的影響,其中,一階微分可以消除基線偏移,二階微分可以消除基線漂移,這是因?yàn)橹本€的二階導(dǎo)數(shù)為零。我們將在下面介紹幾種具體的數(shù)據(jù)平滑處理的方法:6.4.1 窗口移動平均法噪聲就是量測信號的隨即誤差,其特點(diǎn)是測量值隨機(jī)波動,有正有負(fù)。因此,很多分析儀器在條件容許的情況下對同一樣品進(jìn)行反復(fù)多次測量,將測量的平均值作為最終的量測結(jié)果,這樣做能夠顯著地降低噪聲,提高量測數(shù)據(jù)的信噪比。因?yàn)閷⒍啻螠y量結(jié)果加和可以使有正有負(fù)的噪聲互相抵消,進(jìn)而減小噪聲。如果我們設(shè)每次的測量值為那么平均值 (6-9)這一原理用在信號平滑上就是窗口移動平均平滑法,它是平滑處理
29、中最簡單的方法。值得注意的是對于實(shí)驗(yàn)的若干個(gè)只對應(yīng)一個(gè) 因此,平均操作可以提高分析信號的信噪比。(1)基本原理窗口移動平均法是一種基于對波形數(shù)據(jù)進(jìn)行時(shí)間平均的方法,即對某一波形在一段時(shí)間范圍內(nèi)進(jìn)行平均。由于在某一次分析中,測量時(shí)間(或總的采樣點(diǎn)數(shù)目)是有限的,所以計(jì)算機(jī)只能對該時(shí)間范圍內(nèi)的若干個(gè)等間距的離散值進(jìn)行平均。由于是在有限時(shí)間內(nèi)進(jìn)行平均,因此這種方法也只能減少而不能完全消除噪聲。核回歸平滑( Kr)算法使用高斯核函數(shù), 利用Nadaraya-Watson方法進(jìn)行計(jì)算 1,2, 窗口寬度可以人為指定或利用Bowman的算法通過自動優(yōu)化產(chǎn)生 3。通過對比的4種常用平滑方法分別為多項(xiàng)式平滑
30、( sgolay)、移動平均(moving)、局部回歸(loess)和穩(wěn)健局部回歸(rloess)。其中, sgolay是Savitzky和Golay提出的多項(xiàng)式平滑方法, 在化學(xué)光譜分析中經(jīng)常使用.這些方法均包括在MATLAB的平滑函數(shù)smooth中.對于一個(gè)含噪聲的波譜或電化學(xué)譜,其量測點(diǎn)為n個(gè),分別為 ,窗口移動平均法是將其中的某個(gè)量測點(diǎn)的左右各m個(gè)數(shù)據(jù)點(diǎn)連同本身一共個(gè)點(diǎn)進(jìn)行平均,其平均值就是該點(diǎn)平滑后的新值,窗口移動平均法的計(jì)算公式為: (6-10)其中,稱為窗口的寬度,可以取等。對第個(gè)點(diǎn)進(jìn)行計(jì)算后,再移動到下一個(gè)第+1點(diǎn)。按同樣的方法對+1點(diǎn)前后各個(gè)點(diǎn)(共2+1個(gè)點(diǎn))計(jì)算平均值,這樣
31、,逐次移動一個(gè)點(diǎn),直到最后。這里要注意,前m個(gè)點(diǎn)和后m個(gè)點(diǎn)不能進(jìn)行平滑運(yùn)算,故平滑后的波譜會有丟失這些邊界點(diǎn)信息的損失。平滑從第m+1點(diǎn)開始,每次計(jì)算取窗口寬度個(gè)點(diǎn)進(jìn)行平均,窗口依次向后移動直至第n-m點(diǎn)。圖6.1對此給出了一個(gè)形象示意圖。 圖6.1 窗口移動平均法(2)窗口寬度的選擇需注意的是,窗口寬度()的選擇也是一個(gè)值得討論的重要因素,若窗口太小 (如2+13),平滑去噪效果將不佳,而窗口太大時(shí),則由于此法是進(jìn)行簡單求均值運(yùn)算,會使平滑后的波譜失真,并且窗口越大失真越嚴(yán)重。窗口移動平均法只能處理時(shí)間平均為零的不規(guī)則噪聲,對完全相關(guān)的噪聲,平均是沒有效果的對于理想的完全不相關(guān)的噪聲,窗口寬
32、度越大,消除噪聲的效果越好。表征一個(gè)信號峰一般需830個(gè)點(diǎn),更精確時(shí)甚至要4075個(gè)點(diǎn)。為避免波形失真,可采用減小采樣間隔的辦法,這可在保持信號區(qū)間一定的條件下增加平均點(diǎn)數(shù)但采樣密度增加后數(shù)據(jù)的相關(guān)性增加,又會降低平均效果,因此要同時(shí)考慮這些因素,選擇適當(dāng)?shù)闹怠?.4.2 窗口移動多項(xiàng)式最小二乘平滑法(Savitzky-Golay法)窗口移動多項(xiàng)式最小二乘平滑法(SavitzkyGolay法),此法不是采用窗口移動平均法對N個(gè)量測點(diǎn)進(jìn)行簡單的平均來平滑,窗口移動多項(xiàng)式最小二乘平滑法在運(yùn)算中對這N個(gè)點(diǎn)進(jìn)行多項(xiàng)式最小二乘擬合,這樣既能去噪提高分析信號的信噪比,又可較好地保持分析信號(波譜)中的有用
33、信息。這種方法由Savitzky與Golay4在20世紀(jì)60年代共同提出的,至今仍在分析化學(xué)信號預(yù)處理中頻繁使用。窗口移動多項(xiàng)式最小二乘擬合法的基本思路與窗口移動平均法很類似,只是此法并沒有使用簡單的平均,而是對第個(gè)量測點(diǎn)左右各個(gè)數(shù)據(jù)點(diǎn)連同本身的個(gè)點(diǎn)進(jìn)行多項(xiàng)式最小二乘擬合,確定多項(xiàng)式的系數(shù)然后用擬合后的多項(xiàng)式求得,即窗口內(nèi)中心點(diǎn)的計(jì)算公式。從而得到第點(diǎn)的新值。多項(xiàng)式為: 注意此式的上下標(biāo)含義,上標(biāo)表示要計(jì)算的數(shù)據(jù)點(diǎn),下標(biāo)則表示在點(diǎn)左右的數(shù)據(jù)點(diǎn),負(fù)數(shù)表示在左邊,正數(shù)表示在右邊。窗口的大小一般可取3,5,25,上式為多項(xiàng)式的階次,如取2,3,4等??梢钥吹?,此法所得公式與窗口移動平均法的唯一不同點(diǎn)
34、就在于多項(xiàng)式擬合法實(shí)質(zhì)上是一種加權(quán)平均法,它更強(qiáng)調(diào)中心點(diǎn)的中心作用。 這里要加 最小二乘的例子 下面是一個(gè)運(yùn)用偏最小二乘法解決實(shí)際問題的例子, 這是應(yīng)用最小二乘法的一個(gè)化學(xué)方面的例子。此后,又發(fā)展擴(kuò)充,成為單因變量偏最小二乘回歸的一個(gè)案例。該例中,主要對一種黃酒的品質(zhì)進(jìn)行了評估, 在黃酒品質(zhì)指標(biāo)(酒精度、糖度、pH值和總酸)的偏最小二乘回歸模型建立和分析過程中首先,通過分析不同預(yù)處理方法對模型性能的影響確定了適合各個(gè)指標(biāo)的預(yù)處理方法;進(jìn)而,對比分析了偏最小二乘回歸、權(quán)重偏最小二乘回歸和非線性偏最小二乘回歸所建模型的性能;最終,確定各品質(zhì)指標(biāo)的最優(yōu)模型。在不同預(yù)處理方法的對比分析中,由于未考慮其
35、他因素,剔除異常樣品后的樣品集用作校正集,采用偏最小二乘回歸結(jié)合不同預(yù)處理方法建立各品質(zhì)指標(biāo)模型,采用:、RMSEC和R入ISECV作為模型穩(wěn)健性的判定依據(jù)。表4一12至表4一15為偏最小二乘回歸結(jié)合不同預(yù)處理方法所建酒精度、糖度、pH值和總酸模型的分析結(jié)果。由表中數(shù)據(jù)分析可得:對于酒精度分析,一階和二階微分光譜的r較高(分別為0.970和0.975),RMSEC較低(分別為0.105%(V/V) 和0.100% (V/V),但這兩個(gè)模型的RMSEcv比原始光譜所建模型的RMsEcv高(分別高0.001%(V/V)和0.016% (V/V),說明這一階和二階微分光譜所建模型不如原始光譜所建模型
36、穩(wěn)健?;诙嘣⑸湫U蜆?biāo)準(zhǔn)歸一化處理光譜所建的模型相對穩(wěn)健,但其RMSEC和RMSECV均比原始光譜所建模型的高。5、9、13、17、21和25點(diǎn)平滑光譜所建模型,隨著平滑點(diǎn)數(shù)增加,模型性能不斷下降,即:不斷減小,RMSEC和RMSECV不斷增大。綜合以上,對于酒精度分析,選用原始光譜建立模型。對于糖度分析,一階微分光譜所建模型的:最大,但其RMSECV和RMSEC的差值較大,為0.065%。而原始光譜所建模型的:雖然比一階微分光譜r小0.001,但其RMSECV和RMSEC的差值較小,為0.035%。這說明仍是原始光譜所建模型穩(wěn)健。多元散射校正、標(biāo)準(zhǔn)歸一化處理以及多點(diǎn)平滑光譜所建模型相比原
37、始光譜所建模型性能略微下降。因而,對于糖度分析選用原始光譜建立模型。對于pH值,原始光譜所建模型的:最高,RMsEc和RMsECV最低,因而選用原始光譜建立模型。對于總酸,一階微分光譜相比原始光譜所建模型的:大,但R州SECV也較大,說明模型過擬合,因而選用原始光譜建立模型。表4一12基于偏最小二乘回歸結(jié)合不同預(yù)處理方法所建酒精度模型的分析結(jié)果預(yù)處理方法主成分因子數(shù)rRMSEC(%(V/V)RMSECM(%(V/V)原始光譜60.9680.1080.114多元散射校正60.9660.1120.118標(biāo)準(zhǔn)化歸一常數(shù)60.9660.1110.117一階微分30.9700.1050.115二階微分5
38、0.9750.1000.1305點(diǎn)平滑60.9680.1090.1149點(diǎn)平滑60.9670.1100.11513點(diǎn)平滑70.9670.1100.11517點(diǎn)平滑80.9670.1100.11621點(diǎn)平滑90.9670.1100.11925點(diǎn)平滑80.9660.1120.119表4一13基于偏最小二乘回歸結(jié)合不同預(yù)處理方法所建糖度模型的分析結(jié)果預(yù)處理方法主成分因子數(shù)rRMSEC(%(V/V)RMSECM(%(V/V)原始光譜100.9910.0520.087多元散射校正100.9890.0580.094標(biāo)準(zhǔn)化歸一常數(shù)90.9860.0640.094一階微分90.9920.0480.113二階微
39、分40.9000.1700.3445點(diǎn)平滑100.9900.0540.0889點(diǎn)平滑100.9890.0580.09013點(diǎn)平滑100.9850.0670.10217點(diǎn)平滑100.9790.0800.11021點(diǎn)平滑100.9790.0790.10925點(diǎn)平滑100.9750.0860.115表4一14基于偏最小二乘回歸結(jié)合不同預(yù)處理方法所建PH值模型的分析結(jié)果預(yù)處理方法主成分因子數(shù)rRMSEC(%(V/V)RMSECM(%(V/V)原始光譜100.9640.0160.024多元散射校正100.9570.0170.025標(biāo)準(zhǔn)化歸一常數(shù)100.9570.0170.025一階微分50.9310.0
40、210.036二階微分50.9360.0210.0375點(diǎn)平滑100.9610.0160.0249點(diǎn)平滑100.9500.0180.02613點(diǎn)平滑100.9380.0200.02917點(diǎn)平滑100.8940.0260.03521點(diǎn)平滑70.7850.0360.04625點(diǎn)平滑100.8510.0310.042表4一15基于偏最小二乘回歸結(jié)合不同預(yù)處理方法所建總酸模型的分析結(jié)果預(yù)處理方法主成分因子數(shù)rRMSEC(%(V/V)RMSECM(%(V/V)原始光譜100.9780.0590.076多元散射校正100.9730.0950.081標(biāo)準(zhǔn)化歸一常數(shù)100.9740.0630.080一階微分7
41、0.9790.0570.086二階微分40.9480.0890.1145點(diǎn)平滑100.9740.0640.0819點(diǎn)平滑100.9630.0760.09213點(diǎn)平滑50.8700.1390.14517點(diǎn)平滑100.9250.1070.11921點(diǎn)平滑100.9070.1180.13125點(diǎn)平滑100.9000.1210.133采用上述選擇的最優(yōu)光譜預(yù)處理方法,分別采用偏最小二乘回歸、權(quán)重偏最小二乘回歸和非線性偏最小二乘回歸建立各品質(zhì)指標(biāo)的模型,以確定最優(yōu)模型。表4一16給出了偏最小二乘回歸、權(quán)重偏最小二乘回歸和非線性偏最小二乘回歸模型的分析結(jié)果。表4一16偏最小二乘、權(quán)重偏最小二乘回歸和非線性
42、偏最小二乘回歸模型的分析結(jié)果品質(zhì)指標(biāo) 回歸方法 主成分因子校正集預(yù)測集rRMSECrRMSEP酒精度偏最小二乘回歸60.9690.1060.9660.112(%(V/V)權(quán)重偏最小二乘回歸60.9690.1060.9660.112非線性偏最小二乘回歸60.9690.1060.9660.112糖度偏最小二乘回歸100.9920.0490.9860.061(%)權(quán)重偏最小二乘回歸100.9920.0490.9860.061非線性偏最小二乘回歸100.9920.0490.9860.061PH值偏最小二乘回歸100.9690.0140.9550.017權(quán)重偏最小二乘回歸100.9690.0140.95
43、50.017非線性偏最小二乘回歸100.9690.0140.9550.017總酸偏最小二乘回歸100.9790.0580.9700.068(g/L)權(quán)重偏最小二乘回歸100.9780.0590.9700.067非線性偏最小二乘回歸100.9790.0580.9700.068由表中數(shù)據(jù)分析可得:權(quán)重偏最小二乘回歸和非線性偏最小二乘回歸并未改善模型性能。其中,線性和非線性偏最小二乘模型的預(yù)測結(jié)果完全一致,說明光譜數(shù)據(jù)與濃度數(shù)據(jù)之間是線性關(guān)系。因而,確定對于酒精度、糖度、pH值和總酸分析,最優(yōu)模型為采用偏最小二乘回歸結(jié)合原始光譜所建立的模型。酒精度、糖度、pH值和總酸的校正集的相關(guān)系數(shù)分別為0.96
44、9、0.992、0.969和0.979,校正集的相關(guān)系數(shù)分別為0.966、0.986、0.955和0.970。4個(gè)模型的校正集和預(yù)測集的相關(guān)系數(shù)均高于0.950,且校正集和預(yù)測集相關(guān)系數(shù)的差值較小,分別為0.003、0.006、0.014和0.009,說明模型性能穩(wěn)健。為說明光譜數(shù)據(jù)與濃度數(shù)據(jù)之間的線性關(guān)系,例子中對酒精度、糖度、pH值和總酸的因子載荷進(jìn)行了分析,下面以酒精度分析為例進(jìn)行解釋。表4一17給出了酒精度分析時(shí)前10個(gè)因子解釋光譜信息和濃度信息的百分比。其中,前5個(gè)因子經(jīng)解釋了98.7%的光譜信息和93.6%的濃度信息。通過上述實(shí)例我們可以看出,運(yùn)用最小二乘法對我們的實(shí)驗(yàn)數(shù)據(jù)進(jìn)行優(yōu)化
45、處理后對我們的實(shí)際運(yùn)用有很大的幫助。6.4.3 三點(diǎn)一次平滑 現(xiàn)以簡單的一次多項(xiàng)式平滑為例,說明多項(xiàng)式最小二乘平滑計(jì)算方法 將原始波形采樣得到的離散數(shù)據(jù)分為若干個(gè)數(shù)據(jù)子集,每個(gè)子集由三個(gè)數(shù)據(jù)點(diǎn)組成,在此,則的取值為,用每個(gè)數(shù)據(jù)子集可建立一個(gè)一次多項(xiàng)式平滑模型 (6-11)三個(gè)采樣點(diǎn)處的信號響應(yīng)值分別為。為中心點(diǎn)的信號。設(shè)各個(gè)之間是等距離的,步長為,即。將三點(diǎn)的與分別代入模型(6-1)中,得到三個(gè)方程;根據(jù)最小乘二法則進(jìn)行參數(shù)估計(jì)時(shí)得正規(guī)方程; (6-12) 解(6-2)式,得解為 (6-13)由此可得三點(diǎn)一次平滑后的各數(shù)據(jù)點(diǎn)平滑值的通式為 所以三點(diǎn)處平滑后的信號值為 (6-14)由此可見,多項(xiàng)
46、式平滑實(shí)際上是一種加權(quán)的移動平均法。則中心點(diǎn)的平滑值可表示為 (6-15)式中為各項(xiàng)的權(quán)重系數(shù)、A為歸一化常數(shù),兩者的關(guān)系為為中心點(diǎn)兩側(cè)的數(shù)據(jù)點(diǎn)數(shù)目。對于三點(diǎn)一次平滑,1,由(6-4)式顯然看到中心點(diǎn)各項(xiàng)的權(quán)系數(shù)均為2,歸一化常數(shù)為6,而三點(diǎn)一次平滑中心點(diǎn)的平滑值即為三點(diǎn)信號的算術(shù)平均值,與前面窗口移動平均法的計(jì)算結(jié)果相同。 在進(jìn)行多項(xiàng)式平滑計(jì)算時(shí),與窗口移動平均法相同,在每次計(jì)算中心點(diǎn)的平滑值后,要右移一個(gè)點(diǎn),再計(jì)算下一點(diǎn)平滑值,依次類推。6.4.4五點(diǎn)二次平滑 若將原始數(shù)據(jù)分為若干子集,每個(gè)子集有5個(gè)數(shù)據(jù)點(diǎn),用一個(gè)二次多項(xiàng)式模型擬合該子集的5個(gè)數(shù)據(jù)點(diǎn),就是五點(diǎn)二次平滑。在此,則 的取值為,
47、用每個(gè)數(shù)據(jù)子集可建立一個(gè)二次多項(xiàng)式平滑模型 (6-16) 將對應(yīng)的5個(gè)數(shù)據(jù)點(diǎn)的測量值代入(6-6)式可以得到5個(gè)表達(dá)式,即:其中,為待定的系數(shù)。上式簡化為:用矢量和矩陣表示為:用最小二乘法解此方程可得的估計(jì)值為:將所求代入,即可得: (6-17)如前所述,窗口移動多項(xiàng)式最小二乘擬合法與窗口移動平均法的差別僅在于前者是一種強(qiáng)調(diào)中心點(diǎn)作用的加枚平均,故在上述五個(gè)式子中窗口移動多項(xiàng)式最小二乘擬合法真正用到的只是中心點(diǎn),即的表達(dá)式 (6-18)其中,中心點(diǎn)各項(xiàng)的權(quán)重系數(shù)分別為-3,12,17,12,-3,歸一化常數(shù)為35。很顯然可以看出, 實(shí)際上就是由原來的5個(gè)數(shù)據(jù)加權(quán)計(jì)算得出,而且中心點(diǎn) 處的權(quán)重最
48、大,離中心點(diǎn)越遠(yuǎn)權(quán)重越小。將上式整理后得到窗口移動多項(xiàng)式最小二乘擬合法的通式: (6-19) 式中,稱為歸一化常數(shù),為權(quán)重系數(shù)。從以上的推導(dǎo)中,能夠看出,當(dāng)窗口大小和多項(xiàng)式次數(shù)確定以后,歸一化常數(shù)和權(quán)重系數(shù)也確定了,它們不受具體實(shí)驗(yàn)數(shù)據(jù)的影響。6.4.5 Savitzky-Golay權(quán)重系數(shù)值得指出的是多項(xiàng)式次數(shù)是可以選擇的,前述例子只是給出了一次和二次多項(xiàng)式平滑的例子。實(shí)際亦可用三次、四次甚至更高次的多項(xiàng)式來擬合。當(dāng)然相應(yīng)的歸一化常數(shù)和權(quán)重就會發(fā)生變化了。但是二次多項(xiàng)式平滑應(yīng)用較多。權(quán)重偏最小二乘回分析則是對誤差大的測試點(diǎn)賦予值小的權(quán)重,而對于誤差小的點(diǎn)賦予大的權(quán)重。假設(shè)誤差大體上與分析試樣
49、濃度成正比,如圖6.2所示,即濃度越大,誤差范圍也越大。顯然,所求回歸曲線通過誤差小的點(diǎn)比通過誤差大的點(diǎn)更重要,因而,給定權(quán)重與誤差大小相反,即對于誤差大的測試點(diǎn)賦予值小的權(quán)重,而對于誤差小的點(diǎn)賦予大的權(quán)重日非線性偏最小二乘回歸與線性偏最小二乘回歸的區(qū)別僅在于義與Y的內(nèi)在相關(guān)性,即后者為一直線,而前者為一曲線。曲線的表示有多種數(shù)學(xué)模型,如二次多項(xiàng)式、三次多項(xiàng)式、指數(shù)函數(shù)和對數(shù)函數(shù)等。其中,最簡單的為二次多項(xiàng)式。偏最小二乘回歸目前之所以能得到廣泛的應(yīng)用,其主要原因有兩個(gè):一是,與多元線性回歸、主成分回歸等分析方法相比較,雖然求得的模型的殘差平方和差別不大,但偏最小二乘回歸求得的模型的預(yù)測殘差平方
50、和(PRESs)較小,因而具有較高的預(yù)測穩(wěn)定性;二是,偏最小二乘回歸較適于處理變量多而樣本數(shù)少的問題,是一種高效抽提信的方法。 為了平滑計(jì)算方便,Savitzky和Golay對一系列窗口大小和多項(xiàng)式次數(shù),計(jì)算出了相應(yīng)的權(quán)重與歸一化常數(shù),可供平滑時(shí)直接使用。最常用的是不超過25點(diǎn)的二次、三次多項(xiàng)式平滑。不過值得提出的是,在Savitzky和Golay給出表中存在一些錯(cuò)誤,而后由JSteinier3等對其進(jìn)行了修正,并由PGorry4給出了更一般的形式和計(jì)算邊界點(diǎn)公式,本書給出了經(jīng)過修正的表,如表6.1和表6.2所示。 表6.1窗口移動多項(xiàng)式最小二乘平滑法權(quán)重系數(shù)表(多項(xiàng)式次數(shù)2或3)窗口寬度25
51、23211917151311975-12-253-11-138-42-10-33-21-171-962-2-76-136-8147159-51-21-7222308424-6-78-628743149897-13-11-53435420414418420-36-438763249189278799-21-34227028422434122164414-2-2 44775309249391472169393-3-14627832426442162248454612046779329269431672589597171462783242644216224845461224477530924939147216939
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 鋁電解工安全管理評優(yōu)考核試卷含答案
- 礦井泵工崗前班組安全考核試卷含答案
- 稀土發(fā)光材料工崗前理論能力考核試卷含答案
- 滴丸工安全意識強(qiáng)化水平考核試卷含答案
- 電線電纜拉制工操作知識評優(yōu)考核試卷含答案
- 軋制加熱工風(fēng)險(xiǎn)評估競賽考核試卷含答案
- 2024年湖南農(nóng)業(yè)大學(xué)東方科技學(xué)院輔導(dǎo)員考試參考題庫附答案
- 水解酵母干燥工崗前活動策劃考核試卷含答案
- 品牌資產(chǎn)評價(jià)師崗前實(shí)操知識考核試卷含答案
- 丁二酸裝置操作工8S考核試卷含答案
- 【語文】上海市黃浦區(qū)上海實(shí)驗(yàn)小學(xué)小學(xué)二年級上冊期末試題(含答案)
- 廣西名校高考模擬2026屆高三上學(xué)期第二次摸底考試數(shù)學(xué)試卷(含答案)
- 醫(yī)院培訓(xùn)課件:《靜配中心審方與分批規(guī)則》
- 2025年擔(dān)保公司個(gè)人年度總結(jié)
- 2025年九年級上學(xué)期期末英語試卷及答案(共三套)
- 三峽集團(tuán)2025招聘筆試真題及答案解析
- 尾礦綜合利用技術(shù)在生態(tài)環(huán)境保護(hù)中的應(yīng)用與經(jīng)濟(jì)效益分析報(bào)告
- 施工現(xiàn)場火災(zāi)事故預(yù)防及應(yīng)急措施
- 污水處理站施工安全管理方案
- 2025年蘇州市事業(yè)單位招聘考試教師招聘體育學(xué)科專業(yè)知識試卷
- 加油站投訴處理培訓(xùn)課件
評論
0/150
提交評論