下載本文檔
版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于系統(tǒng)聚類的近紅外校正模型變異范圍的建模
0小麥樣品的分類、測(cè)定和預(yù)測(cè)能力下降紅外數(shù)學(xué)模型的優(yōu)點(diǎn)及其預(yù)測(cè)能力不能僅僅取決于模型的穩(wěn)定性,也就是說(shuō),建模示例的代表性越好,模型的適應(yīng)性越大,模型的穩(wěn)定性越好,模型預(yù)測(cè)的能力越好。校正模型中樣品的變異范圍越寬,則模型中所遇到的非線性或異質(zhì)性問(wèn)題越嚴(yán)重,干擾因素也越多,對(duì)某些預(yù)測(cè)樣品而言其預(yù)測(cè)能力會(huì)下降。例如,使用由全國(guó)范圍內(nèi)收集的小麥樣品建立的校正模型來(lái)預(yù)測(cè)國(guó)內(nèi)某個(gè)地區(qū)的小麥蛋白含量時(shí),由于全國(guó)范圍內(nèi)收集的小麥種植季節(jié)、種植地區(qū)和品種的差異較大,樣品集適應(yīng)范圍雖然變寬,但是同時(shí)樣品集的變異范圍也變寬,則其預(yù)測(cè)準(zhǔn)確度肯定沒(méi)有直接采用該地區(qū)的小麥樣品建模預(yù)測(cè)的準(zhǔn)確度高。因此在有大量樣品參與建模的時(shí)候,將樣品集進(jìn)行分類建模,可以減少樣品變異范圍,在理論上能提高樣品的預(yù)測(cè)準(zhǔn)確度。分類可以根據(jù)樣品的產(chǎn)地或是品種,本文研究的分類是基于樣品的近紅外光譜特征。近紅外光譜能反映被測(cè)樣品的組成和結(jié)構(gòu)性質(zhì),相同或近似的樣品有著相同或接近的光譜;反之,如果樣品的組成和結(jié)構(gòu)性質(zhì)有較大的差異,則其近紅外光譜也存在較大的差異。本文提出將系統(tǒng)聚類法與統(tǒng)計(jì)量(R2統(tǒng)計(jì)量,半偏相關(guān)統(tǒng)計(jì)量SPRSQ,偽F統(tǒng)計(jì)量PSF,偽t2統(tǒng)計(jì)量PST2)相結(jié)合來(lái)給出一個(gè)合理的分類數(shù)目,進(jìn)行分類建模,來(lái)提高模型的預(yù)測(cè)能力。1對(duì)樣品特性進(jìn)行分析聚類分析屬于模式識(shí)別方法中的無(wú)管理方法之一。它可以根據(jù)“物以類聚”的道理,在沒(méi)有先驗(yàn)知識(shí)的情況下,能合理地按樣品各自的特性來(lái)進(jìn)行合理的分類。系統(tǒng)聚類法是聚類分析中應(yīng)用較多得的一類方法,其基本思想是首先定義樣品之間和類與類之間的距離。在各自成類的樣品中,將距離最近的兩類合并,重新計(jì)算新類與其它類之間的距離,并按最小距離歸類,重復(fù)此過(guò)程,每次減少一類,直到所有的樣品成為一類為止。其聚類過(guò)程如圖1所示。2聚類的個(gè)數(shù)原則系統(tǒng)聚類法的關(guān)鍵問(wèn)題就在于如何根據(jù)聚類圖來(lái)確定合理的分類數(shù)目。一個(gè)較好的聚類應(yīng)在類內(nèi)各樣品盡可能相似的前提下,使得類的個(gè)數(shù)盡可能少。下面介紹的幾種統(tǒng)計(jì)量可以在一定程度上判別聚多少類合適,從而給出一個(gè)合理的分類數(shù)目。2.1s1聚類效果評(píng)價(jià)設(shè)某譜系水平上類的個(gè)數(shù)是G。類Gk中樣品的類內(nèi)離差平方和為Sk,Sk越小,說(shuō)明Gk中各樣品越相似。定義PG=Σk=1GSkΡG=Σk=1GSk,又以T記為所有樣品的總離差平方和,則定義R2統(tǒng)計(jì)量為R2=1-PG/T(1)R2統(tǒng)計(jì)量可用于評(píng)價(jià)每次合并聚類時(shí)的聚類效果。當(dāng)n個(gè)樣品各自為一類時(shí),R2=1;當(dāng)n個(gè)樣品最后合并成一類時(shí),R2=0。R2的值總是隨著分類數(shù)目的減少而減小,可以從R2的值變化看n個(gè)樣品分成幾類合適。2.2平方和sr設(shè)類Gp、Gq的離差平方和分別是Sp、Sq,將Gp、Gq合并成Gr后離差平方和Sr。設(shè)Wpq為合并后離差平方和的增加量,則由Gp,Gq合并成類Gr的半偏相關(guān)統(tǒng)計(jì)量SPRSQ為SPRSQ=Wpq/T(2)SPRSQ是上一步R2值與該步R2值的差值,當(dāng)SPRSQ越大時(shí),說(shuō)明上一次的合并效果越好。2.3聚類效果描述PSF=(T?PG)/(G?1)PG/(n?G)ΡSF=(Τ-ΡG)/(G-1)ΡG/(n-G)(3)PSF用于描述分為G個(gè)類時(shí)的聚類效果。PSF值越大表示這些觀測(cè)量可顯著地分為G個(gè)類。2.4聚類分析pstPST2=Wpq(Sp+Sq)/(np+nq?2)ΡSΤ2=Wpq(Sp+Sq)/(np+nq-2)(4)PST2大,表明合并的兩類Gp,Gq是很分開(kāi)的,也就是上一次的聚類效果較好。3實(shí)驗(yàn)部分3.1小麥餅干的近紅外光譜和光譜本實(shí)驗(yàn)采用的222份小麥籽粒樣品及其干基蛋白含量值由中國(guó)農(nóng)業(yè)機(jī)械化科學(xué)研究院提供。樣品集的蛋白質(zhì)含量范圍為9.92%~19.82%。實(shí)驗(yàn)采用的是德國(guó)BRUKER公司的MATRIX-I型傅里葉變換近紅外光譜儀(漫反射積分球附件;PbS檢測(cè)器)進(jìn)行全譜測(cè)定,采集222份小麥籽粒樣品在近紅外光譜整個(gè)區(qū)域的光譜信息。把一定量樣品放在專用的樣品杯中,采用積分球和旋轉(zhuǎn)臺(tái)測(cè)定樣品NIR漫反射光譜。儀器參數(shù)設(shè)定如下:掃描范圍為12500~4000cm-1,分辨率為16cm-1,重復(fù)掃描64次求平均光譜,采樣點(diǎn)為1102。222份小麥籽粒樣品的近紅外光譜,如圖2所示。3.2聚類分析統(tǒng)計(jì)分析圖3所示為聚類分析流程。本實(shí)驗(yàn)結(jié)合上述聚類分析流程,具體實(shí)驗(yàn)步驟如下:1)對(duì)原始光譜集進(jìn)行標(biāo)準(zhǔn)化預(yù)處理;2)將標(biāo)準(zhǔn)化處理后的光譜集通過(guò)主成分分析(PCA)提取特征,得到得分矩陣T;3)對(duì)得分矩陣T進(jìn)行系統(tǒng)聚類分析,在統(tǒng)計(jì)軟件SASV6.12中編程實(shí)現(xiàn)系統(tǒng)聚類分析;4)根據(jù)SAS中計(jì)算得到的統(tǒng)計(jì)量進(jìn)行分類;5)將原始樣品集分類后,在Matlab6.5中編程實(shí)現(xiàn)PLS建模,比較分類前后模型質(zhì)量。3.3結(jié)果與分析3.3.1matlab的實(shí)現(xiàn)對(duì)222個(gè)小麥樣品的原始光譜集進(jìn)行標(biāo)準(zhǔn)化處理后進(jìn)行主成分分析(PCA),該過(guò)程都在Matlab6.5中實(shí)現(xiàn)。主成分?jǐn)?shù)與主成分累積貢獻(xiàn)率對(duì)應(yīng)的關(guān)系表,如表1所示。根據(jù)主成分累積貢獻(xiàn)率≥0.99時(shí),取對(duì)應(yīng)的主成分?jǐn)?shù)3為最佳主成分?jǐn)?shù),得到得分矩陣T222×3。3.3.2聚類數(shù)目的確定和聚類分析在系統(tǒng)聚類分析中,按最短距離聚類容易使類成長(zhǎng)鏈狀,最遠(yuǎn)距離聚類可以抑制這一效應(yīng),但是這兩種聚類方法都受個(gè)別孤立點(diǎn)或離群點(diǎn)干擾較大,為了抑制這兩種影響,可采用平均距離或重心距離判別。這里采用重心距離聚類,在SASV6.12中編程實(shí)現(xiàn)。根據(jù)SAS中OUTPUT窗口輸出的結(jié)果,可得到如表2所示的統(tǒng)計(jì)量結(jié)果列表(由聚類數(shù)目G=11起的結(jié)果列表)。半偏相關(guān)統(tǒng)計(jì)量SPRSQ越大時(shí),說(shuō)明上一次的合并效果越好;R2統(tǒng)計(jì)量用于評(píng)價(jià)每次合并聚類時(shí)的聚類效果,R2的值總是隨著分類數(shù)目的減少而減小,因此可以從R2的值變化看n個(gè)樣品分成幾類合適;偽F統(tǒng)計(jì)量PSF用于描述分為G個(gè)類時(shí)的聚類效果;PSF值越大表示這些觀測(cè)量可顯著地分為G個(gè)類。綜合上述4個(gè)統(tǒng)計(jì)量來(lái)看,表2中聚類數(shù)目G=4,6,10符合分類要求。在SAS中繼續(xù)編程進(jìn)行分類G=4,6,10,比較分類建模結(jié)果可以得出,在G=10時(shí)的分類建模結(jié)果較好。聚類數(shù)目G=10時(shí):1類樣品117個(gè),2類樣品66個(gè),3類樣品18個(gè),4類樣品9個(gè),5類樣品3個(gè),6類樣品2個(gè),7類樣品4個(gè),8、9、10類樣品各1個(gè)。從分類結(jié)果可以看出,實(shí)驗(yàn)中的原始樣品集中由2個(gè)主要類以及8個(gè)小類組成。由于3~10類每類的樣品個(gè)數(shù)太少,這里將其作為異常樣品進(jìn)行剔除。實(shí)驗(yàn)僅針對(duì)兩個(gè)主要類建模分析。3.3.3建立模型的能力分類建模(PLS建模)的結(jié)果,如表3所示。從表3中可以看出,1、2類樣品所建模型指標(biāo)與原始樣品集所建模型的指標(biāo)相比都有一定的提高。需要注意的是,實(shí)驗(yàn)針對(duì)原始樣品集建立了3個(gè)模型:原始模型,1類模型和2類模型。由于有多個(gè)可選的模型,因此待測(cè)樣品應(yīng)該首先作模型適應(yīng)度判斷挑選合適的模型進(jìn)行預(yù)測(cè)。在系統(tǒng)聚類分析中,一些變異較大的樣品類由于樣品個(gè)數(shù)較少,因此可以將其作為異常樣品剔除
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025湖北武漢光谷豪生行政公寓酒店招聘筆試參考題庫(kù)附帶答案詳解(3卷)
- 2025浙江杭州淳安縣農(nóng)村飲用水管理有限公司招聘25人筆試參考題庫(kù)附帶答案詳解(3卷合一版)
- 2025江蘇聯(lián)通校園招聘(102個(gè)崗位)筆試參考題庫(kù)附帶答案詳解(3卷)
- 2025廣東廣州市萬(wàn)頃沙鎮(zhèn)建設(shè)開(kāi)發(fā)有限公司招聘1人筆試參考題庫(kù)附帶答案詳解(3卷合一版)
- 2025國(guó)家電投江西核電招聘筆試參考題庫(kù)附帶答案詳解(3卷)
- 聊城市2024山東聊城市市屬事業(yè)單位初級(jí)綜合類崗位招聘43人筆試歷年參考題庫(kù)典型考點(diǎn)附帶答案詳解(3卷合一)
- 2026年黑龍江社會(huì)考生單招文化補(bǔ)基礎(chǔ)手冊(cè)含答案語(yǔ)文數(shù)學(xué)核心考點(diǎn)
- 2026年黑龍江單招醫(yī)衛(wèi)大類文化素質(zhì)技能綜合模擬卷含答案
- 2026年河南單招交通運(yùn)輸類職業(yè)適應(yīng)性高頻題含答案含鐵道常識(shí)
- 2026年陜西單招機(jī)電類職業(yè)適應(yīng)性測(cè)試模擬卷含答案含電工基礎(chǔ)
- 基于TAM模型的旅游App使用行為影響因素分析與策略研究
- 小學(xué)生班級(jí)管理交流課件
- 重癥患者安全處置流程與風(fēng)險(xiǎn)管理
- 超星爾雅學(xué)習(xí)通《科學(xué)計(jì)算與MATLAB語(yǔ)言(中南大學(xué))》2025章節(jié)測(cè)試附答案
- 綠色簡(jiǎn)約風(fēng)王陽(yáng)明傳知行合一
- 重精管理培訓(xùn)
- 2023-2024學(xué)年廣東省深圳市南山區(qū)七年級(jí)(上)期末地理試卷
- 《無(wú)機(jī)及分析化學(xué)》實(shí)驗(yàn)教學(xué)大綱
- 2023巖溶塌陷調(diào)查規(guī)范1:50000
- JJG 548-2018測(cè)汞儀行業(yè)標(biāo)準(zhǔn)
- 二年級(jí)【語(yǔ)文(統(tǒng)編版)】語(yǔ)文園地一(第二課時(shí))課件
評(píng)論
0/150
提交評(píng)論