基于電子鼻技術(shù)的三七及其偽品精準分類研究_第1頁
基于電子鼻技術(shù)的三七及其偽品精準分類研究_第2頁
基于電子鼻技術(shù)的三七及其偽品精準分類研究_第4頁
基于電子鼻技術(shù)的三七及其偽品精準分類研究_第5頁
已閱讀5頁,還剩26頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于電子鼻技術(shù)的三七及其偽品精準分類研究一、引言1.1研究背景與意義三七(Panaxnotoginseng(Burk.)F.H.Chen)作為一種重要的中藥材,在中醫(yī)藥領(lǐng)域占據(jù)著舉足輕重的地位。其主要活性成分包括三七皂苷、黃酮類、多糖等,具有散瘀止血、消腫定痛等顯著功效,在心血管疾病治療、跌打損傷愈合等方面應(yīng)用廣泛,是云南白藥、片仔癀等眾多知名中成藥的關(guān)鍵原料,涉及1300多家中藥生產(chǎn)企業(yè),支撐著近千億規(guī)模的產(chǎn)值,對醫(yī)藥產(chǎn)業(yè)的發(fā)展有著深遠影響。然而,近年來隨著三七市場需求的急劇增長,其價格不斷攀升,這也導致了市場上三七偽品泛濫的現(xiàn)象愈發(fā)嚴重。不法商家為追求高額利潤,常以菊葉三七、藤三七、莪術(shù)等外觀相似的植物根莖冒充三七售賣。菊葉三七雖與三七名稱相近,但它屬于菊科植物,含有吡咯里西啶類生物堿,這種物質(zhì)會對人體肝臟造成嚴重損害,引發(fā)肝小靜脈閉塞癥,導致肝功能異常,甚至發(fā)展為肝硬化、肝衰竭,嚴重威脅人體健康。藤三七同樣與三七外觀相似,但其藥用價值與三七相差甚遠,無法達到三七應(yīng)有的治療效果,患者若誤服,不僅延誤病情,還可能因錯過最佳治療時機而使病情惡化。莪術(shù)作為另一種常見的冒充品,其化學成分和藥理作用與三七截然不同,長期服用莪術(shù)冒充的“三七”,不僅無法獲得三七的治療功效,還可能引發(fā)其他不良反應(yīng)。中藥的真?zhèn)舞b別一直是中醫(yī)藥領(lǐng)域的重要研究課題,傳統(tǒng)的鑒別方法如性狀鑒別、顯微鑒別、理化鑒別等雖在一定程度上發(fā)揮了作用,但都存在各自的局限性。性狀鑒別主要依賴于鑒別者的經(jīng)驗,不同鑒別者可能因主觀判斷差異而得出不同結(jié)論,難以保證準確性和一致性;顯微鑒別需要借助顯微鏡等設(shè)備對藥材的組織構(gòu)造、細胞形態(tài)等進行觀察,操作過程復雜,對鑒別人員的專業(yè)知識和技能要求較高,且容易受到樣本制備質(zhì)量的影響;理化鑒別則通過對藥材中的化學成分進行定性或定量分析來鑒別真?zhèn)?,但該方法通常需要對樣品進行復雜的預(yù)處理,且檢測過程耗時較長,成本較高,不適用于大規(guī)模的快速檢測。在這樣的背景下,電子鼻技術(shù)作為一種新型的快速檢測技術(shù),為三七真?zhèn)舞b別的研究提供了新的思路和方法。電子鼻,又稱人工嗅覺系統(tǒng),是一種模擬動物嗅覺器官工作原理開發(fā)的高科技產(chǎn)品。它主要由氣敏傳感器陣列、信號處理系統(tǒng)和模式識別系統(tǒng)三部分組成。當氣味分子接觸到傳感器陣列時,會引起傳感器電信號的變化,這些變化經(jīng)過信號處理系統(tǒng)的放大、濾波等處理后,被傳輸?shù)侥J阶R別系統(tǒng)。模式識別系統(tǒng)通過對這些信號的分析和處理,識別出氣味的種類和特征,從而實現(xiàn)對樣品的定性或定量分析。電子鼻技術(shù)具有快速、無損、靈敏度高、可重復性好等優(yōu)點,能夠同時對多種揮發(fā)性成分進行檢測,獲取樣品的整體氣味信息,形成獨特的“氣味指紋圖譜”。通過分析這些圖譜的差異,可以有效地區(qū)分不同種類的樣品,實現(xiàn)對三七及其偽品的準確鑒別。而且電子鼻技術(shù)操作簡便,檢測速度快,能夠滿足市場對三七快速檢測的需求,為保障三七市場的質(zhì)量安全提供了有力的技術(shù)支持。因此,開展基于電子鼻的三七及其偽品的分類研究具有重要的現(xiàn)實意義,有望為中藥真?zhèn)舞b別領(lǐng)域開辟新的道路,推動中醫(yī)藥產(chǎn)業(yè)的健康發(fā)展。1.2國內(nèi)外研究現(xiàn)狀電子鼻技術(shù)自誕生以來,憑借其獨特的優(yōu)勢,在多個領(lǐng)域得到了廣泛的應(yīng)用和深入的研究。在中藥鑒別領(lǐng)域,電子鼻技術(shù)的應(yīng)用也逐漸受到關(guān)注,并取得了一系列有價值的成果。國外對電子鼻在中藥鑒別方面的研究開展相對較早,技術(shù)應(yīng)用較為廣泛。早在20世紀90年代,就有研究嘗試將電子鼻用于草藥的氣味分析,為后續(xù)中藥鑒別研究奠定了基礎(chǔ)。一些研究利用電子鼻結(jié)合模式識別技術(shù),對不同產(chǎn)地的中藥材進行分類鑒別。例如,在對人參的研究中,通過分析人參揮發(fā)物的氣味特征,成功區(qū)分了不同產(chǎn)地的人參樣本,為中藥材的產(chǎn)地溯源提供了新的方法。在對薄荷等芳香類中藥材的研究中,電子鼻能夠準確識別不同品種薄荷的氣味差異,實現(xiàn)品種的快速鑒別,展示了電子鼻在中藥材品種鑒別方面的潛力。國內(nèi)電子鼻技術(shù)在中藥鑒別領(lǐng)域的研究雖然起步稍晚,但發(fā)展迅速。近年來,眾多科研機構(gòu)和高校積極開展相關(guān)研究,成果豐碩。在中藥材的真?zhèn)舞b別方面,電子鼻技術(shù)展現(xiàn)出了強大的優(yōu)勢。有研究利用電子鼻對金銀花及其偽品進行鑒別,通過分析兩者氣味指紋圖譜的差異,能夠準確識別金銀花的真?zhèn)?,有效解決了傳統(tǒng)鑒別方法難以快速區(qū)分的問題。在對不同炮制方法的中藥材研究中,電子鼻可以捕捉到藥材在炮制前后氣味的細微變化,從而實現(xiàn)對炮制工藝的質(zhì)量控制。比如對地黃的不同炮制品種進行檢測,電子鼻能夠清晰區(qū)分鮮地黃、生地黃和熟地黃,為地黃炮制質(zhì)量的評價提供了客觀依據(jù)。在三七研究領(lǐng)域,電子鼻技術(shù)同樣取得了一定進展。有研究基于電子鼻與多元統(tǒng)計分析判別三七的品質(zhì),通過優(yōu)化電子鼻檢測條件,如確定樣品量為1.5g、頂空生成時間15min、頂空體積250mL、載氣體積流量400mL/min等,對傳感器響應(yīng)信號進行多元統(tǒng)計與神經(jīng)網(wǎng)絡(luò)分析,結(jié)果表明主成分分析和典則判別分析均能區(qū)分三七主根與支根,且利用典則判別分析結(jié)合三七主根和支根氣味信息,可實現(xiàn)對三七產(chǎn)地的定性判別,其中主根氣味信息的判別效果更好,多層感知器神經(jīng)網(wǎng)絡(luò)分析還實現(xiàn)了對三七主根、支根及產(chǎn)地的定量判別,主根與支根分類準確率達99.49%,主根產(chǎn)地判別準確率為99.49%,支根產(chǎn)地判別準確率為95.95%,證明了電子鼻結(jié)合多元統(tǒng)計與神經(jīng)網(wǎng)絡(luò)分析在判別三七品質(zhì)方面的高效性和準確性。還有研究采用電子鼻結(jié)合氣相色譜-質(zhì)譜(GC-MS)聯(lián)用技術(shù)對三七的整根粉、剪口粉、主根粉、側(cè)根粉和須根粉進行揮發(fā)性成分分析,通過GC-MS測定三七粉揮發(fā)物的成分和含量,利用統(tǒng)計學習方法提取電子鼻響應(yīng)曲線的時域特征并進行相關(guān)性分析,采用特征選擇算法對特征數(shù)據(jù)進行降維,建立分類模型,結(jié)果顯示5種三七粉樣品中共檢測出31種揮發(fā)物成分,最優(yōu)的模型能夠?qū)﹄娮颖菙?shù)據(jù)進行有效區(qū)分,測試集準確率為97.5%,且能客觀反映出樣品種類揮發(fā)性物質(zhì)的差異主要是揮發(fā)物總量、烷烴和芳香族化合物,與GC-MS檢測結(jié)果一致,表明該方法在鑒別不同部位三七粉方面具有可行性。然而,目前基于電子鼻的三七及其偽品分類研究仍存在一些不足之處。一方面,雖然已有研究在三七品質(zhì)判別和不同部位鑒別上取得成果,但對于三七偽品的鑒別研究相對較少,尤其是對多種常見偽品同時進行系統(tǒng)鑒別的研究還不夠深入,難以滿足市場上快速準確鑒別三七真?zhèn)蔚膶嶋H需求。另一方面,在電子鼻技術(shù)應(yīng)用過程中,傳感器的穩(wěn)定性和選擇性有待進一步提高。傳感器易受環(huán)境因素如溫度、濕度、空氣中其他異味等的影響,導致檢測結(jié)果出現(xiàn)波動,影響鑒別準確性。此外,現(xiàn)有的模式識別算法雖然在一定程度上能夠?qū)崿F(xiàn)對三七及其相關(guān)樣本的分類,但對于復雜樣本的識別能力還有待提升,需要探索更加有效的算法和模型,以提高分類的準確率和可靠性。同時,電子鼻檢測結(jié)果與三七化學成分、藥理活性之間的內(nèi)在聯(lián)系研究還不夠深入,難以從本質(zhì)上解釋電子鼻鑒別三七及其偽品的原理,限制了該技術(shù)在三七質(zhì)量評價和真?zhèn)舞b別中的進一步應(yīng)用和推廣。1.3研究目標與內(nèi)容本研究旨在利用電子鼻技術(shù),結(jié)合先進的數(shù)據(jù)處理和模式識別方法,實現(xiàn)對三七及其常見偽品的準確分類鑒別,為市場上三七的真?zhèn)慰焖贆z測提供一種高效、可靠的新方法,具體研究內(nèi)容如下:電子鼻實驗系統(tǒng)搭建:從樣本氣體采集、檢測以及軟件平臺三個關(guān)鍵部分入手,精心設(shè)計并搭建電子鼻實驗系統(tǒng)。在樣本氣體采集子系統(tǒng)設(shè)計中,充分考慮三七及其偽品的特性,確定合適的采樣方式,如頂空采樣法,精準控制采樣時間、溫度等關(guān)鍵參數(shù),以確保采集到的樣本氣體能真實反映樣品的揮發(fā)性成分特征。在樣本氣體檢測子系統(tǒng)設(shè)計方面,依據(jù)電子鼻傳感器的工作原理和性能特點,選擇與三七揮發(fā)性成分響應(yīng)匹配度高的傳感器,優(yōu)化傳感器陣列布局,提高檢測的靈敏度和準確性。同時,精心開發(fā)電子鼻系統(tǒng)軟件平臺,實現(xiàn)對檢測數(shù)據(jù)的實時采集、存儲和初步處理,為后續(xù)深入分析奠定堅實基礎(chǔ)。實驗設(shè)計與數(shù)據(jù)采集:廣泛收集來自不同產(chǎn)地、不同生長年限的三七樣本,同時納入市場上常見的菊葉三七、藤三七、莪術(shù)等偽品樣本。對采集到的樣本進行嚴格篩選和預(yù)處理,如清洗、干燥、粉碎等,確保樣本的一致性和穩(wěn)定性。按照科學的實驗設(shè)計方法,安排多組重復實驗,利用搭建好的電子鼻系統(tǒng)對樣本氣體進行全面檢測,詳細記錄每次檢測過程中傳感器陣列的響應(yīng)信號,為后續(xù)數(shù)據(jù)分析提供充足的數(shù)據(jù)支持。數(shù)據(jù)預(yù)處理:針對采集到的原始數(shù)據(jù),首先進行去基準處理,消除電子鼻系統(tǒng)在檢測前因環(huán)境因素、傳感器自身特性等導致的基線漂移和噪聲干擾,使數(shù)據(jù)更準確地反映樣本的氣味特征。然后,采用合適的降噪算法,如小波降噪、中值濾波等,進一步去除數(shù)據(jù)中的高頻噪聲和異常值,提高數(shù)據(jù)的質(zhì)量和可靠性,為后續(xù)的特征提取和模型建立創(chuàng)造良好條件。特征工程與分類算法研究:運用多種統(tǒng)計學習方法,深入挖掘電子鼻響應(yīng)曲線中的時域、頻域等特征,如峰值、谷值、上升時間、下降時間、功率譜密度等,全面表征三七及其偽品的氣味特征。采用基于遞歸特征消除、相關(guān)性分析、XGBoost模型等多種特征選擇策略,對生成的特征進行篩選和優(yōu)化,去除冗余和無關(guān)特征,降低數(shù)據(jù)維度,提高模型的訓練效率和分類準確率。在此基礎(chǔ)上,選擇支持向量機、決策樹、隨機森林等基本分類算法,以及基于優(yōu)化加權(quán)投票規(guī)則的集成分類器模型,對三七及其偽品進行分類研究,通過對比不同算法和模型的性能指標,如準確率、召回率、F1值等,確定最優(yōu)的分類模型?;谏疃葘W習的電子鼻數(shù)據(jù)分類研究:引入深度學習方法,如堆疊棧式自編碼網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等,對電子鼻數(shù)據(jù)進行分類研究。針對深度學習模型訓練過程中的困難點,如梯度消失、梯度爆炸、過擬合等問題,采取有效的解決措施,如調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化激活函數(shù)、采用正則化方法等。詳細設(shè)計網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置,通過大量的實驗和調(diào)試,確定最優(yōu)的網(wǎng)絡(luò)參數(shù),提高模型的泛化能力和分類性能。將深度學習模型的分類結(jié)果與基于特征工程的分類模型進行對比分析,進一步驗證深度學習方法在三七及其偽品分類中的有效性和優(yōu)越性。1.4研究方法與技術(shù)路線本研究主要采用實驗研究、數(shù)據(jù)分析和模型構(gòu)建等方法開展基于電子鼻的三七及其偽品的分類研究。實驗研究方面,精心搭建電子鼻實驗系統(tǒng),涵蓋樣本氣體采集、檢測以及軟件平臺三個核心子系統(tǒng)。在樣本氣體采集環(huán)節(jié),針對三七及其偽品的特性,精準把控采樣時間、溫度等關(guān)鍵參數(shù),以獲取最能體現(xiàn)樣品揮發(fā)性成分特征的氣體樣本。在樣本氣體檢測子系統(tǒng)中,根據(jù)傳感器的性能和對三七揮發(fā)性成分的響應(yīng)特點,合理選擇并優(yōu)化傳感器陣列布局,提高檢測的準確性和靈敏度。軟件平臺則負責實現(xiàn)檢測數(shù)據(jù)的實時采集、存儲和初步處理。之后廣泛收集不同產(chǎn)地、生長年限的三七樣本以及常見的菊葉三七、藤三七、莪術(shù)等偽品樣本,對其進行嚴格篩選和預(yù)處理,利用搭建好的電子鼻系統(tǒng)進行多組重復檢測,記錄傳感器陣列的響應(yīng)信號。數(shù)據(jù)分析階段,首先對采集到的原始數(shù)據(jù)進行去基準處理,消除基線漂移和噪聲干擾,再運用小波降噪、中值濾波等算法進行降噪處理,去除高頻噪聲和異常值,提高數(shù)據(jù)質(zhì)量。接著運用統(tǒng)計學習方法挖掘電子鼻響應(yīng)曲線的時域、頻域特征,如峰值、谷值、上升時間、功率譜密度等,并采用遞歸特征消除、相關(guān)性分析、XGBoost模型等策略對特征進行篩選和優(yōu)化,降低數(shù)據(jù)維度。模型構(gòu)建層面,選擇支持向量機、決策樹、隨機森林等基本分類算法,以及基于優(yōu)化加權(quán)投票規(guī)則的集成分類器模型對三七及其偽品進行分類研究。同時,引入堆疊棧式自編碼網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等深度學習模型,針對模型訓練中的梯度消失、梯度爆炸、過擬合等問題,采取調(diào)整網(wǎng)絡(luò)結(jié)構(gòu)、優(yōu)化激活函數(shù)、采用正則化方法等措施,設(shè)計并優(yōu)化網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)設(shè)置。通過對比不同算法和模型的準確率、召回率、F1值等性能指標,確定最優(yōu)的分類模型。技術(shù)路線如圖1-1所示,首先進行樣本采集與制備,收集三七及其偽品樣本并預(yù)處理;然后利用搭建的電子鼻實驗系統(tǒng)進行檢測,采集傳感器響應(yīng)數(shù)據(jù);接著對數(shù)據(jù)進行預(yù)處理、特征生成與選擇;之后分別采用基于特征工程的分類算法和深度學習方法建立分類模型并進行訓練;最后對模型性能進行評估與對比,確定最優(yōu)模型,得出研究結(jié)論并進行展望。[此處插入技術(shù)路線圖1-1,圖中應(yīng)清晰展示從樣本采集到結(jié)果分析的各個環(huán)節(jié)及流程走向,每個環(huán)節(jié)用簡潔的文字標注,并用箭頭表示流程的先后順序]二、電子鼻技術(shù)與三七鑒別基礎(chǔ)2.1電子鼻系統(tǒng)工作原理與組成電子鼻,作為一種高度仿生的先進檢測設(shè)備,其工作原理巧妙地模擬了動物的嗅覺系統(tǒng),為物質(zhì)氣味的檢測與分析開辟了全新的路徑。在動物的嗅覺系統(tǒng)中,鼻腔內(nèi)密布著大量的嗅感受器細胞,當外界氣味分子進入鼻腔后,會與這些嗅感受器細胞表面的特異性受體相結(jié)合,從而引發(fā)細胞內(nèi)一系列復雜的生物化學反應(yīng),產(chǎn)生神經(jīng)沖動信號。這些信號隨后沿著嗅神經(jīng)傳導至大腦的嗅皮質(zhì)區(qū)域,經(jīng)過大腦的深度分析與處理,最終實現(xiàn)對氣味的識別與判斷。電子鼻正是借鑒了這一精妙的嗅覺感知機制。它主要由氣味采集、傳感器陣列、信號處理和模式識別等關(guān)鍵部分協(xié)同組成,各部分緊密配合,如同一個高效運轉(zhuǎn)的精密儀器,共同完成對氣味的精準檢測與分析任務(wù)。氣味采集系統(tǒng)是電子鼻接觸外界氣味的前沿陣地,其設(shè)計目的在于精確、高效地捕捉樣品釋放出的揮發(fā)性氣體分子,并將其引入到傳感器陣列進行后續(xù)檢測。根據(jù)不同的應(yīng)用場景和樣品特性,可靈活選擇合適的采樣方式。例如,靜態(tài)頂空采樣法適用于揮發(fā)性較強的樣品,它利用氣液平衡原理,在一定溫度下使樣品上方的氣相與液相達到平衡,然后抽取氣相中的揮發(fā)性成分進行檢測;動態(tài)頂空采樣法則更適合揮發(fā)性較弱的樣品,通過連續(xù)通入載氣,將樣品中的揮發(fā)性成分不斷吹掃出來并帶入檢測系統(tǒng),從而提高檢測的靈敏度。在采樣過程中,對時間、溫度等參數(shù)的嚴格控制至關(guān)重要。采樣時間過短,可能無法采集到足夠的揮發(fā)性成分,導致檢測結(jié)果不準確;而采樣時間過長,則可能引入外界干擾,同樣影響檢測精度。溫度對揮發(fā)性成分的釋放和擴散也有著顯著影響,不同的溫度條件下,樣品釋放的揮發(fā)性成分種類和濃度可能會發(fā)生變化,因此需要根據(jù)樣品的特性,精確設(shè)定采樣溫度,以確保采集到的氣味信息真實、準確地反映樣品的本質(zhì)特征。傳感器陣列是電子鼻的核心部件,猶如動物嗅覺系統(tǒng)中的嗅感受器細胞,承擔著將化學信號轉(zhuǎn)化為電信號的關(guān)鍵任務(wù)。它由多個不同類型的氣敏傳感器按照特定的布局組合而成,每個傳感器都對特定種類的氣體具有獨特的敏感性和選擇性。這些傳感器的工作原理基于不同的物理化學機制,常見的如金屬氧化物型傳感器,其工作原理是利用金屬氧化物在與氣體分子接觸時,表面發(fā)生氧化還原反應(yīng),導致電阻值發(fā)生變化,從而將氣體濃度的變化轉(zhuǎn)化為電信號的變化;電化學型傳感器則通過檢測氣體在電極上發(fā)生的電化學反應(yīng)產(chǎn)生的電流或電位變化來實現(xiàn)對氣體的檢測。由于不同的氣體分子具有不同的化學結(jié)構(gòu)和性質(zhì),它們與傳感器表面的敏感材料相互作用時,會引發(fā)不同程度的電信號變化,從而形成具有獨特特征的響應(yīng)模式。例如,當某種揮發(fā)性有機化合物接觸到傳感器陣列時,其中的某些傳感器可能會產(chǎn)生較強的響應(yīng),而另一些傳感器的響應(yīng)則相對較弱,這種不同傳感器之間響應(yīng)程度的差異,就構(gòu)成了該揮發(fā)性有機化合物的特征響應(yīng)模式,如同每個人獨特的指紋一樣,成為電子鼻識別氣味的重要依據(jù)。信號處理系統(tǒng)是連接傳感器陣列與模式識別系統(tǒng)的橋梁,它負責對傳感器輸出的原始電信號進行一系列精細的處理,以提高信號的質(zhì)量和可用性。首先,信號放大是必不可少的環(huán)節(jié),由于傳感器輸出的電信號通常較為微弱,容易受到外界噪聲的干擾,因此需要通過放大器將信號進行放大,增強其抗干擾能力。濾波處理則是為了去除信號中的高頻噪聲和低頻漂移,使信號更加穩(wěn)定、平滑。在這個過程中,常用的濾波算法如低通濾波器可以有效去除高頻噪聲,高通濾波器則能去除低頻漂移,帶通濾波器可根據(jù)需要選擇特定頻率范圍內(nèi)的信號進行處理。除了放大和濾波,信號的數(shù)字化轉(zhuǎn)換也是關(guān)鍵步驟,通過模數(shù)轉(zhuǎn)換器將模擬信號轉(zhuǎn)換為數(shù)字信號,以便后續(xù)計算機能夠?qū)ζ溥M行存儲、傳輸和分析處理。經(jīng)過這些預(yù)處理步驟后,信號中的有用信息得到了增強,噪聲和干擾被有效抑制,為模式識別系統(tǒng)的準確分析奠定了堅實基礎(chǔ)。模式識別系統(tǒng)是電子鼻的“智慧大腦”,它運用各種先進的算法和模型,對經(jīng)過信號處理系統(tǒng)處理后的信號進行深入分析和識別,從而實現(xiàn)對氣味的定性和定量判斷。在模式識別領(lǐng)域,有眾多經(jīng)典的算法可供選擇,主成分分析(PCA)是一種常用的降維算法,它通過對原始數(shù)據(jù)進行線性變換,將高維數(shù)據(jù)投影到低維空間中,在保留數(shù)據(jù)主要特征的同時,去除數(shù)據(jù)中的冗余信息,從而實現(xiàn)數(shù)據(jù)的降維處理,使數(shù)據(jù)更加易于分析和可視化。判別分析(DA)則側(cè)重于尋找數(shù)據(jù)中的判別特征,通過構(gòu)建判別函數(shù),將不同類別的數(shù)據(jù)進行區(qū)分,常用于分類和判別任務(wù)。人工神經(jīng)網(wǎng)絡(luò)(ANN)是一種模擬人類大腦神經(jīng)元結(jié)構(gòu)和功能的計算模型,它具有強大的非線性映射能力和自學習能力,能夠通過對大量樣本數(shù)據(jù)的學習,自動提取數(shù)據(jù)中的特征模式,實現(xiàn)對未知樣本的準確分類和預(yù)測。在實際應(yīng)用中,為了提高模式識別的準確性和可靠性,常常會結(jié)合多種算法的優(yōu)勢,形成集成分類器。例如,將主成分分析與判別分析相結(jié)合,先利用主成分分析對數(shù)據(jù)進行降維處理,再運用判別分析進行分類判別,能夠在減少計算量的同時,提高分類的準確率;將人工神經(jīng)網(wǎng)絡(luò)與支持向量機(SVM)相結(jié)合,通過人工神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進行特征提取,再利用支持向量機進行分類決策,可充分發(fā)揮兩者的優(yōu)勢,提高模型的泛化能力和魯棒性。通過氣味采集、傳感器陣列、信號處理和模式識別等部分的協(xié)同工作,電子鼻能夠快速、準確地對樣品的氣味進行檢測和分析,實現(xiàn)對不同物質(zhì)的有效區(qū)分和識別。這種獨特的工作原理和組成結(jié)構(gòu),使其在眾多領(lǐng)域展現(xiàn)出巨大的應(yīng)用潛力,為三七及其偽品的鑒別研究提供了有力的技術(shù)支持。2.2三七及其偽品概述三七,作為五加科人參屬的多年生草本植物,在中醫(yī)藥領(lǐng)域中占據(jù)著舉足輕重的地位,享有“金不換”“南國神草”等美譽。其主要活性成分包括三七皂苷、黃酮類、多糖等,具有化瘀止血、活血定痛的卓越功效。在臨床上,三七被廣泛應(yīng)用于治療咯血、吐血、衄血、便血、崩漏、外傷出血等各種出血癥狀,以及胸腹刺痛、跌撲腫痛等疼痛病癥?,F(xiàn)代醫(yī)學研究進一步揭示了三七在心血管疾病治療方面的顯著作用,它能夠擴張血管、降低血壓、改善微循環(huán),對預(yù)防和治療冠心病、心絞痛、心肌梗死等心血管疾病具有重要意義。此外,三七還具有抗氧化、抗炎、抗腫瘤、提高免疫力等多種藥理活性,在保健養(yǎng)生領(lǐng)域也備受關(guān)注。三七主要分布于中國的云南、廣西等地,其中云南文山地區(qū)憑借其獨特的地理環(huán)境和氣候條件,成為了三七的道地產(chǎn)區(qū),所產(chǎn)三七質(zhì)量上乘,在市場上備受青睞。云南文山地區(qū)屬于亞熱帶高原季風氣候,年平均氣溫在18℃左右,年降水量豐富,空氣濕度適宜,土壤肥沃且富含礦物質(zhì),這些優(yōu)越的自然條件為三七的生長提供了得天獨厚的環(huán)境,使得文山三七在外觀、有效成分含量和藥用價值等方面都具有明顯的優(yōu)勢。從形態(tài)特征來看,三七主根呈現(xiàn)出圓錐形或圓柱形,長度一般在1-6厘米之間,直徑約為1-4厘米。其表面顏色多為灰褐色或灰黃色,質(zhì)地堅實,猶如銅皮鐵骨一般,這也是三七獨特的外觀標志之一。在三七的頂端,可以看到明顯的莖痕,周圍環(huán)繞著瘤狀突起,宛如獅子的頭部,因此又有“獅子頭”的別稱。將三七切開,斷面呈現(xiàn)出灰綠、黃綠或灰白色,皮部存在著細小的棕色樹脂道斑點,木部則呈放射狀排列,宛如菊花的紋理,故也被稱為“菊花心”。三七的氣味獨特,氣微,入口味苦,但隨后會迅速回甘,這種獨特的味覺體驗也是鑒別三七真?zhèn)蔚闹匾罁?jù)之一。然而,由于三七的藥用價值高、市場需求大,導致其價格相對昂貴,這也引發(fā)了一些不法商家的逐利行為,市場上出現(xiàn)了多種以假亂真的三七偽品。常見的偽品主要有莪術(shù)、菊三七、藤三七等,這些偽品在外觀上與三七有一定的相似性,但在植物來源、化學成分、藥理作用等方面卻存在著本質(zhì)的差異。莪術(shù),作為姜科植物莪術(shù)、廣西莪術(shù)或溫郁金的干燥根莖,在外觀上與三七有一定的相似之處,常被不法商家用來冒充三七。莪術(shù)的根莖多呈卵圓形、長圓形或圓錐形,頂端較為鈍尖,基部鈍圓,長度一般在2-8厘米之間,直徑約為1.5-4厘米。其表面顏色為灰黃色至灰棕色,上部有明顯的環(huán)節(jié)突起,并有圓形微凹的須根痕或殘留的須根,部分莪術(shù)的兩側(cè)還可見一列下陷的芽痕和類圓形的側(cè)生根莖痕,有的甚至能看到刀削的痕跡。莪術(shù)質(zhì)地堅實,斷面呈現(xiàn)出灰褐色至藍褐色,具有蠟樣光澤,常附有灰棕色粉末,皮層與中柱容易分離,內(nèi)皮層環(huán)紋為棕褐色,黃白色的維管束呈點狀分布。莪術(shù)的氣味微香,味道微苦而辛,與三七的氣微、味苦回甜有明顯的區(qū)別。從化學成分上看,莪術(shù)主要含有揮發(fā)油、姜黃素類等成分,其主要功效為行氣破血、消積止痛,作用峻猛,與三七的化瘀止血、活血定痛功效截然不同。如果誤將莪術(shù)當作三七使用,不僅無法達到治療目的,還可能因莪術(shù)的峻猛藥性對身體造成不良影響。菊三七,又名土三七、血三七,為菊科植物菊三七的根莖。菊三七呈拳塊狀,表面顏色為灰棕色或棕黃色,全體布滿瘤狀突起,質(zhì)地堅實,斷面中心疏松或有時中空。菊三七含有吡咯里西啶類生物堿,這類生物堿具有肝毒性,長期或大量服用可能會導致肝小靜脈閉塞癥,引發(fā)肝功能損害,嚴重時可導致肝硬化、肝衰竭等嚴重后果。與三七相比,菊三七的藥用價值和安全性都存在較大問題,因此在使用時必須嚴格區(qū)分,避免誤服。藤三七,屬于落葵科植物落葵薯的塊莖。其塊莖呈不規(guī)則塊狀,斷面粉性,味道微甜,嚼之有黏性。藤三七在民間有時也被當作三七使用,但實際上它與三七在植物來源、化學成分和藥理作用上都有很大差異。藤三七主要含有黃酮類、多糖等成分,雖然具有一定的藥用價值,如滋補強壯、散瘀止痛等,但其功效與三七不可相提并論,且不能替代三七用于臨床治療。如果患者誤將藤三七當作三七使用,可能會延誤病情,影響治療效果。2.3電子鼻用于三七鑒別可行性分析三七及其偽品在揮發(fā)性成分方面存在顯著差異,這為電子鼻技術(shù)的應(yīng)用提供了堅實的物質(zhì)基礎(chǔ)。三七中含有多種揮發(fā)性成分,包括萜烯類、芳香族化合物、烷烴類等。研究表明,三七的揮發(fā)油中富含人參皂苷等萜烯類化合物,這些化合物不僅賦予了三七獨特的氣味,還與三七的藥理活性密切相關(guān)。而莪術(shù)、菊三七、藤三七等偽品,其揮發(fā)性成分的種類和含量與三七截然不同。莪術(shù)主要含有莪術(shù)醇、莪術(shù)二酮等揮發(fā)油成分,這些成分具有獨特的氣味和化學結(jié)構(gòu),與三七中的揮發(fā)性成分有明顯區(qū)別。菊三七中含有的吡咯里西啶類生物堿雖然并非揮發(fā)性成分,但它的存在反映了菊三七與三七在化學成分上的本質(zhì)差異,同時菊三七的揮發(fā)性成分也具有自身獨特的組成和特征。藤三七的揮發(fā)性成分同樣與三七大相徑庭,這些差異使得電子鼻能夠通過檢測揮發(fā)性成分的特征,有效地區(qū)分三七及其偽品。電子鼻的檢測原理與三七及其偽品的揮發(fā)性成分特性高度契合,使其在三七鑒別中具有獨特的優(yōu)勢。電子鼻的氣敏傳感器陣列能夠?qū)Χ喾N揮發(fā)性成分產(chǎn)生響應(yīng),當三七或其偽品釋放的揮發(fā)性氣體分子接觸到傳感器陣列時,會引發(fā)傳感器電信號的變化。由于不同的揮發(fā)性成分與傳感器表面敏感材料的相互作用不同,導致每個傳感器的響應(yīng)程度各異,從而形成具有特異性的響應(yīng)模式,即“氣味指紋圖譜”。這種圖譜就像每個人的指紋一樣獨一無二,能夠準確地反映出樣品的揮發(fā)性成分特征。例如,當三七的揮發(fā)性氣體分子與傳感器陣列接觸時,傳感器S2對萜烯類物質(zhì)具有較高的響應(yīng),因為萜烯類物質(zhì)在三七的揮發(fā)性成分中含量較高;而傳感器S6對烷烴化合物靈敏,其響應(yīng)程度與三七中烷烴的含量相關(guān)。通過分析這些傳感器的響應(yīng)模式,電子鼻可以快速、準確地識別出三七及其偽品的氣味特征,實現(xiàn)對它們的有效區(qū)分。與傳統(tǒng)的三七鑒別方法相比,電子鼻技術(shù)具有諸多顯著的優(yōu)勢。傳統(tǒng)的性狀鑒別方法主要依賴鑒別者的經(jīng)驗,主觀性較強,不同的鑒別者可能會因為經(jīng)驗和判斷標準的差異而得出不同的結(jié)論,難以保證鑒別結(jié)果的準確性和一致性。例如,對于一些外觀相似的三七偽品,僅憑肉眼觀察和手感觸摸,很難準確判斷其真?zhèn)?。顯微鑒別需要借助顯微鏡等專業(yè)設(shè)備,對鑒別人員的專業(yè)知識和技能要求較高,而且操作過程復雜,容易受到樣本制備質(zhì)量的影響。理化鑒別雖然能夠?qū)瘜W成分進行分析,但通常需要對樣品進行復雜的預(yù)處理,如提取、分離、純化等,檢測過程耗時較長,成本較高,不適用于大規(guī)模的快速檢測。而電子鼻技術(shù)操作簡便,檢測速度快,能夠在短時間內(nèi)對大量樣品進行檢測,大大提高了檢測效率。它無需對樣品進行復雜的預(yù)處理,只需將樣品置于合適的采樣裝置中,即可快速采集其揮發(fā)性氣體進行檢測,減少了檢測過程中的誤差和干擾。電子鼻還具有無損檢測的特點,不會對樣品造成破壞,有利于對珍貴的三七樣品進行檢測和保存。此外,電子鼻技術(shù)能夠同時檢測多種揮發(fā)性成分,獲取樣品的整體氣味信息,通過模式識別算法進行分析處理,能夠更全面、準確地鑒別三七及其偽品,有效彌補了傳統(tǒng)鑒別方法的不足。三、實驗設(shè)計與數(shù)據(jù)采集3.1實驗材料準備為確保實驗結(jié)果的準確性和可靠性,本研究精心籌備了充足且具有代表性的實驗材料。實驗所需的三七真品及多種偽品樣本來源廣泛且可靠,其中三七真品分別從云南文山、廣西靖西等主要產(chǎn)地的正規(guī)藥材市場、種植基地收集,這些產(chǎn)地的三七品質(zhì)優(yōu)良,是市場上的主流產(chǎn)品,能夠很好地代表正品三七的特征。從云南文山收集了30份三七樣本,從廣西靖西收集了20份,共計50份三七真品樣本。常見的偽品樣本如菊葉三七、藤三七、莪術(shù),分別從中藥材市場、相關(guān)種植戶處獲取,以保證樣本的真實性和多樣性。菊葉三七樣本收集了30份,藤三七樣本收集了30份,莪術(shù)樣本收集了30份。每種樣本的數(shù)量足夠多,以涵蓋不同產(chǎn)地、生長環(huán)境和采收時間等因素導致的差異,為后續(xù)實驗提供豐富的數(shù)據(jù)基礎(chǔ)。在樣本預(yù)處理方面,嚴格按照科學規(guī)范的流程進行操作。將采集到的三七及其偽品樣本首先進行清洗,使用去離子水輕柔地沖洗樣本表面,去除附著的泥土、雜質(zhì)等,確保樣本表面干凈無污染。清洗后的樣本置于通風良好、溫度適宜(25℃左右)、相對濕度較低(40%-50%)的環(huán)境中自然干燥,避免陽光直射,防止樣本中的揮發(fā)性成分因光照和高溫而損失或發(fā)生變化。待樣本完全干燥后,使用粉碎機將其粉碎成均勻的粉末狀,粉末粒度控制在過80目篩,以保證樣本的均勻性和一致性,使電子鼻能夠更準確地檢測其揮發(fā)性成分。樣本保存條件對于保持樣本的穩(wěn)定性和揮發(fā)性成分的完整性至關(guān)重要。將預(yù)處理后的樣本粉末裝入密封性能良好的棕色玻璃瓶中,以防止光線對樣本的影響。每個玻璃瓶均貼上清晰的標簽,注明樣本名稱、產(chǎn)地、采集時間等詳細信息,便于后續(xù)實驗操作和數(shù)據(jù)記錄。將裝有樣本的玻璃瓶放置在低溫(4℃)、干燥的環(huán)境中保存,如冰箱的冷藏室。定期檢查樣本的保存狀態(tài),觀察是否有受潮、變質(zhì)等現(xiàn)象,確保在實驗過程中樣本的質(zhì)量穩(wěn)定可靠,從而保證實驗數(shù)據(jù)的準確性和重復性。3.2電子鼻實驗系統(tǒng)搭建本研究選用德國AIRSENSE公司生產(chǎn)的PEN3型電子鼻作為核心檢測設(shè)備。PEN3型電子鼻配備了10種不同類型的金屬氧化物半導體傳感器,這些傳感器對多種揮發(fā)性有機化合物具有良好的響應(yīng)特性,能夠廣泛檢測萜烯類、醇類、醛類、酮類、酯類等不同種類的揮發(fā)性成分,為全面獲取三七及其偽品的氣味信息提供了有力保障。傳感器的主要參數(shù)如表3-1所示:[此處插入表3-1,表格內(nèi)容為PEN3型電子鼻傳感器參數(shù),包括傳感器型號、敏感物質(zhì)類型、靈敏度范圍、響應(yīng)時間、恢復時間等,表格格式規(guī)范,數(shù)據(jù)準確]在樣本氣體采集子系統(tǒng)設(shè)計方面,采用靜態(tài)頂空采樣法。該方法利用氣液平衡原理,使樣品在密封容器中達到氣液平衡狀態(tài),從而采集到樣品上方的揮發(fā)性氣體。具體設(shè)計如下:選用250mL的玻璃頂空瓶作為樣品容器,其具有良好的密封性和化學穩(wěn)定性,能夠有效防止樣品揮發(fā)和外界雜質(zhì)的干擾。將預(yù)處理后的0.5g三七或偽品粉末精確稱取后放入頂空瓶中,然后迅速用帶有硅橡膠墊的瓶蓋密封。為確保采樣的準確性和穩(wěn)定性,將頂空瓶置于恒溫磁力攪拌器上,在40℃的溫度下以200r/min的轉(zhuǎn)速攪拌15min。溫度控制在40℃是因為在該溫度下,三七及其偽品中的揮發(fā)性成分能夠充分揮發(fā),且不會因溫度過高導致成分分解或發(fā)生變化。攪拌轉(zhuǎn)速設(shè)定為200r/min,既能使樣品中的揮發(fā)性成分均勻擴散到頂空瓶的氣相中,又不會因攪拌過于劇烈而引入過多的氣泡,影響采樣效果。攪拌時間確定為15min,是通過前期的預(yù)實驗,對不同攪拌時間下采集的氣體進行檢測分析,發(fā)現(xiàn)15min時傳感器對樣品揮發(fā)性成分的響應(yīng)最為穩(wěn)定和明顯,能夠獲取到較為全面和準確的氣味信息。之后,使用氣密性良好的1mL氣密注射器從頂空瓶中抽取1mL氣體,迅速注入電子鼻的進樣口,完成樣本氣體的采集過程。樣本氣體檢測子系統(tǒng)主要由電子鼻的傳感器陣列和信號采集模塊組成。電子鼻的傳感器陣列是檢測樣本氣體的核心部件,10種不同類型的傳感器按照特定的布局排列在傳感器室內(nèi),能夠同時對多種揮發(fā)性成分產(chǎn)生響應(yīng)。當采集到的樣本氣體進入傳感器室后,氣體分子與傳感器表面的敏感材料發(fā)生相互作用,導致傳感器的電阻值發(fā)生變化,從而產(chǎn)生電信號。信號采集模塊負責將傳感器產(chǎn)生的微弱電信號進行放大、濾波和模數(shù)轉(zhuǎn)換等處理,將其轉(zhuǎn)換為計算機能夠識別的數(shù)字信號,以便后續(xù)進行分析和處理。為了提高檢測的準確性和穩(wěn)定性,在每次檢測前,對電子鼻進行嚴格的校準操作。使用標準氣體對傳感器進行標定,通過調(diào)整電子鼻的參數(shù),使傳感器對標準氣體的響應(yīng)達到預(yù)設(shè)的標準值,確保傳感器的靈敏度和準確性在正常范圍內(nèi)。同時,在檢測過程中,保持檢測環(huán)境的溫度和濕度相對穩(wěn)定,溫度控制在(25±1)℃,相對濕度控制在(50±5)%。因為溫度和濕度的變化會影響傳感器的性能和氣體分子的擴散速率,進而影響檢測結(jié)果的準確性。通過精確控制檢測環(huán)境條件,能夠有效減少環(huán)境因素對檢測結(jié)果的干擾,提高檢測的可靠性。電子鼻系統(tǒng)軟件平臺的設(shè)計采用了模塊化的設(shè)計理念,主要包括數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊和結(jié)果顯示模塊。數(shù)據(jù)采集模塊負責實時采集信號采集模塊傳輸過來的數(shù)字信號,并將其存儲到計算機的硬盤中。在數(shù)據(jù)采集過程中,設(shè)置了合理的采樣頻率,本研究中采樣頻率設(shè)置為10Hz,即每秒采集10個數(shù)據(jù)點,能夠充分捕捉傳感器響應(yīng)信號的變化細節(jié),同時又不會產(chǎn)生過多的數(shù)據(jù),影響后續(xù)的處理和分析效率。數(shù)據(jù)處理模塊對采集到的數(shù)據(jù)進行預(yù)處理,包括去基準處理、降噪處理等。去基準處理通過減去檢測前傳感器的基線信號,消除因傳感器自身特性和環(huán)境因素導致的基線漂移,使數(shù)據(jù)更準確地反映樣品的氣味特征。降噪處理采用小波降噪算法,根據(jù)信號的頻率特性,選擇合適的小波基函數(shù)和分解層數(shù),有效地去除信號中的高頻噪聲和干擾,提高數(shù)據(jù)的質(zhì)量。結(jié)果顯示模塊將處理后的數(shù)據(jù)進行可視化展示,通過繪制傳感器響應(yīng)曲線、主成分分析圖、判別分析圖等,直觀地呈現(xiàn)三七及其偽品的氣味特征差異,便于研究人員進行分析和判斷。同時,軟件平臺還具備數(shù)據(jù)存儲、查詢、導出等功能,方便對實驗數(shù)據(jù)進行管理和進一步的分析研究。3.3實驗方案設(shè)計本實驗采用完全隨機化設(shè)計,將所有樣本隨機排序,以消除可能存在的順序效應(yīng)。具體實驗步驟如下:首先,從準備好的樣本中隨機抽取一個樣本,按照樣本氣體采集子系統(tǒng)的設(shè)計要求,將0.5g該樣本粉末放入250mL玻璃頂空瓶中,迅速密封后置于恒溫磁力攪拌器上,在40℃、200r/min的條件下攪拌15min。之后,用1mL氣密注射器抽取1mL頂空氣體,注入電子鼻進樣口。電子鼻的傳感器陣列對樣本氣體進行檢測,產(chǎn)生的電信號經(jīng)信號采集模塊處理后傳輸至計算機,由電子鼻系統(tǒng)軟件平臺進行數(shù)據(jù)采集和初步存儲。每次檢測完成后,對電子鼻進行清洗和校準,使用清潔的載氣(如純凈空氣)沖洗電子鼻的氣路和傳感器室,時間為5min,以確保無殘留氣體影響下一次檢測結(jié)果,然后再次用標準氣體進行校準,保證傳感器的性能穩(wěn)定。為了確保數(shù)據(jù)的可靠性和重復性,對每個樣本進行5次重復測量。這是因為多次測量可以有效減少隨機誤差的影響,通過對多次測量數(shù)據(jù)的統(tǒng)計分析,能夠更準確地反映樣本的真實特征。在實驗過程中,嚴格控制實驗條件,保持實驗室環(huán)境的溫度在(25±1)℃,相對濕度在(50±5)%,避免因環(huán)境因素的波動對電子鼻檢測結(jié)果產(chǎn)生干擾。同時,定期對電子鼻設(shè)備進行檢查和維護,確保設(shè)備的正常運行,進一步保證實驗數(shù)據(jù)的準確性和可靠性。按照上述實驗步驟和條件,依次對所有的三七真品樣本和菊葉三七、藤三七、莪術(shù)等偽品樣本進行檢測,共獲得(50+30+30+30)×5=700組檢測數(shù)據(jù),為后續(xù)的數(shù)據(jù)處理和分析提供了充足的數(shù)據(jù)基礎(chǔ)。3.4數(shù)據(jù)采集過程數(shù)據(jù)采集工作嚴格按照既定的實驗方案有條不紊地進行。在每次樣本檢測時,電子鼻系統(tǒng)軟件平臺以10Hz的采樣頻率進行數(shù)據(jù)采集,即每秒采集10個數(shù)據(jù)點。從氣密注射器將1mL樣本氣體注入電子鼻進樣口開始,持續(xù)采集120s的數(shù)據(jù),共采集120×10=1200個數(shù)據(jù)點,以全面捕捉傳感器對樣本氣體的響應(yīng)過程。數(shù)據(jù)采集時間間隔為0.1s,確保能夠準確記錄傳感器響應(yīng)信號隨時間的變化情況,獲取詳細的動態(tài)響應(yīng)信息。采集到的數(shù)據(jù)格式為CSV(Comma-SeparatedValues)文件,這是一種常見的文本文件格式,以逗號作為字段分隔符,每一行代表一個數(shù)據(jù)記錄,每一列代表一個變量。在本實驗中,每一行數(shù)據(jù)記錄了在特定時間點上,10種傳感器各自的響應(yīng)值以及對應(yīng)的時間戳。這種格式具有良好的通用性和兼容性,方便后續(xù)使用各種數(shù)據(jù)分析軟件和工具進行處理和分析,如Python中的pandas庫、R語言等,能夠輕松地讀取和操作CSV文件中的數(shù)據(jù)。數(shù)據(jù)存儲方面,采集到的CSV格式數(shù)據(jù)文件直接存儲在與電子鼻相連的計算機硬盤中。為便于管理和查找,在硬盤中創(chuàng)建了專門的實驗數(shù)據(jù)文件夾,并按照實驗日期和樣本類型進行分類存儲。例如,將2024年10月1日采集的三七真品樣本數(shù)據(jù)存儲在“20241001/三七真品”文件夾下,每個樣本的5次重復測量數(shù)據(jù)分別存儲在以樣本編號命名的CSV文件中,如“樣本1.csv”“樣本2.csv”等。同時,在每個文件夾中創(chuàng)建了詳細的元數(shù)據(jù)文件,記錄了該文件夾內(nèi)數(shù)據(jù)的相關(guān)信息,包括樣本來源、采集時間、實驗條件、電子鼻型號及參數(shù)等,確保數(shù)據(jù)的可追溯性和完整性。定期對存儲的數(shù)據(jù)進行備份,將重要數(shù)據(jù)備份到外部移動硬盤和云端存儲平臺,防止因計算機硬件故障、病毒攻擊等意外情況導致數(shù)據(jù)丟失,保障實驗數(shù)據(jù)的安全性和可靠性。四、數(shù)據(jù)預(yù)處理與特征提取4.1數(shù)據(jù)預(yù)處理在本研究中,采集到的電子鼻原始數(shù)據(jù)不可避免地受到多種因素的干擾,包含環(huán)境噪聲、傳感器漂移等,這些干擾會對后續(xù)的數(shù)據(jù)分析和模型建立產(chǎn)生不利影響,導致結(jié)果的準確性和可靠性下降。為了提高數(shù)據(jù)質(zhì)量,使其更能準確地反映三七及其偽品的氣味特征,需要對原始數(shù)據(jù)進行一系列精細的數(shù)據(jù)預(yù)處理操作,具體包括去基準處理、降噪處理和歸一化處理。去基準處理是數(shù)據(jù)預(yù)處理的首要步驟,其目的在于消除電子鼻檢測前因環(huán)境因素、傳感器自身特性等導致的基線漂移和噪聲干擾,使數(shù)據(jù)能夠真實地反映樣品的氣味特征。在實際檢測過程中,即使沒有樣品氣體進入,電子鼻的傳感器也會輸出一定的電信號,這個信號被稱為基線信號?;€信號會受到環(huán)境溫度、濕度、傳感器老化等因素的影響而發(fā)生漂移,從而掩蓋了樣品氣體的真實信號。為了去除基線漂移的影響,本研究采用了一種簡單而有效的方法,即減去檢測前傳感器的基線信號。具體操作是在每次檢測前,先記錄傳感器在清潔空氣中的響應(yīng)信號作為基線信號,然后在采集到樣品氣體的響應(yīng)信號后,將每個傳感器的響應(yīng)值減去對應(yīng)的基線信號值。假設(shè)在檢測前,傳感器S1的基線信號值為x_{01},在檢測樣品氣體時,傳感器S1在某一時刻的響應(yīng)信號值為x_{1},則經(jīng)過去基準處理后,該時刻傳感器S1的信號值為x_{1}-x_{01}。通過這樣的處理,可以有效消除基線漂移對數(shù)據(jù)的影響,使數(shù)據(jù)更準確地反映樣品的氣味特征。降噪處理是數(shù)據(jù)預(yù)處理的關(guān)鍵環(huán)節(jié),旨在進一步去除數(shù)據(jù)中的高頻噪聲和異常值,提高數(shù)據(jù)的質(zhì)量和可靠性。在電子鼻數(shù)據(jù)采集過程中,由于傳感器的噪聲、電磁干擾等因素,采集到的數(shù)據(jù)中往往包含大量的高頻噪聲和異常值,這些噪聲和異常值會干擾后續(xù)的數(shù)據(jù)分析和模型訓練,降低模型的準確性和穩(wěn)定性。為了有效去除這些噪聲和異常值,本研究采用了小波降噪算法。小波降噪算法是一種基于小波變換的信號處理方法,它能夠?qū)⑿盘柗纸鉃椴煌l率的子信號,然后根據(jù)噪聲和信號在不同頻率上的分布特性,對噪聲所在的頻率子帶進行閾值處理,從而達到降噪的目的。具體步驟如下:首先,選擇合適的小波基函數(shù)和分解層數(shù)對原始信號進行小波分解。小波基函數(shù)的選擇會影響信號的分解效果和降噪性能,不同的小波基函數(shù)具有不同的時頻特性,需要根據(jù)信號的特點進行選擇。在本研究中,經(jīng)過多次試驗和比較,選擇了db4小波基函數(shù),分解層數(shù)為5層。分解后的信號被分為一個低頻子帶和多個高頻子帶,低頻子帶包含了信號的主要信息,而高頻子帶則主要包含了噪聲信息。然后,對高頻子帶系數(shù)進行閾值處理。根據(jù)噪聲的統(tǒng)計特性,選擇合適的閾值,將小于閾值的系數(shù)置為0,大于閾值的系數(shù)進行收縮處理。閾值的選擇非常關(guān)鍵,過大的閾值會導致信號的有用信息丟失,過小的閾值則無法有效去除噪聲。在本研究中,采用了一種自適應(yīng)閾值選擇方法,根據(jù)噪聲的標準差來確定閾值,公式為\lambda=\sigma\sqrt{2\lnN},其中\(zhòng)lambda為閾值,\sigma為噪聲的標準差,N為信號的長度。通過這種自適應(yīng)閾值選擇方法,可以根據(jù)信號的實際情況自動調(diào)整閾值,提高降噪效果。最后,對處理后的高頻子帶系數(shù)和低頻子帶系數(shù)進行小波重構(gòu),得到降噪后的信號。經(jīng)過小波降噪處理后,數(shù)據(jù)中的高頻噪聲和異常值得到了有效去除,信號的質(zhì)量和可靠性得到了顯著提高。歸一化處理是數(shù)據(jù)預(yù)處理的重要步驟,其作用是將數(shù)據(jù)映射到一個特定的區(qū)間,消除不同特征之間的量綱和數(shù)量級差異,使數(shù)據(jù)具有可比性,便于后續(xù)的數(shù)據(jù)分析和模型訓練。在電子鼻數(shù)據(jù)中,不同傳感器的響應(yīng)值可能具有不同的量綱和數(shù)量級,例如,傳感器S1的響應(yīng)值范圍可能在0-100之間,而傳感器S2的響應(yīng)值范圍可能在0-1000之間。如果不對數(shù)據(jù)進行歸一化處理,這些差異會對數(shù)據(jù)分析和模型訓練產(chǎn)生較大影響,導致模型的性能下降。為了消除這些差異,本研究采用了最小-最大歸一化方法,將數(shù)據(jù)歸一化到[0,1]區(qū)間。最小-最大歸一化方法的公式為x_{norm}=\frac{x-x_{min}}{x_{max}-x_{min}},其中x_{norm}為歸一化后的數(shù)據(jù),x為原始數(shù)據(jù),x_{min}和x_{max}分別為原始數(shù)據(jù)中的最小值和最大值。假設(shè)傳感器S1的原始響應(yīng)值為x,其最小值為x_{min1},最大值為x_{max1},則經(jīng)過歸一化處理后,該響應(yīng)值為x_{norm1}=\frac{x-x_{min1}}{x_{max1}-x_{min1}}。通過最小-最大歸一化方法,將所有傳感器的響應(yīng)值都歸一化到[0,1]區(qū)間,使得不同傳感器的數(shù)據(jù)具有可比性,為后續(xù)的數(shù)據(jù)分析和模型訓練提供了良好的數(shù)據(jù)基礎(chǔ)。4.2特征提取方法特征提取是數(shù)據(jù)分析和模式識別中的關(guān)鍵步驟,對于電子鼻數(shù)據(jù)處理而言,從原始的傳感器響應(yīng)信號中提取有效的特征,能夠?qū)⒏呔S、復雜的數(shù)據(jù)轉(zhuǎn)化為更具代表性、易于分析的低維特征向量,為后續(xù)的分類和識別任務(wù)提供有力支持。在本研究中,主要從時域和頻域兩個角度對電子鼻響應(yīng)曲線進行特征提取。時域特征提取是從信號隨時間變化的角度出發(fā),挖掘信號在時間維度上的特性。常用的時域特征包括峰值、斜率、面積等,這些特征能夠直觀地反映信號的變化趨勢和強度。峰值是傳感器響應(yīng)曲線在檢測過程中達到的最大值,它反映了樣品中揮發(fā)性成分對傳感器的最大刺激程度,能夠體現(xiàn)樣品中某些關(guān)鍵揮發(fā)性成分的濃度水平。在檢測三七樣品時,傳感器對三七中含量較高的人參皂苷等揮發(fā)性成分會產(chǎn)生較強的響應(yīng),從而在響應(yīng)曲線上表現(xiàn)出較高的峰值。斜率則描述了信號在某一時間段內(nèi)的變化速率,分為上升斜率和下降斜率。上升斜率反映了樣品揮發(fā)性成分在開始檢測時的釋放速度,下降斜率則體現(xiàn)了揮發(fā)性成分在檢測后期的衰減速度。對于不同的樣品,其揮發(fā)性成分的釋放和衰減過程不同,因此斜率特征能夠有效地區(qū)分不同的樣品。例如,三七及其偽品在揮發(fā)性成分的釋放規(guī)律上存在差異,通過分析響應(yīng)曲線的斜率,可以發(fā)現(xiàn)三七的某些揮發(fā)性成分釋放速度較快,而偽品的釋放速度可能較慢,從而為鑒別提供依據(jù)。面積特征通常指響應(yīng)曲線與時間軸所圍成的面積,它綜合考慮了信號的強度和持續(xù)時間,能夠反映樣品中揮發(fā)性成分的總量。不同樣品中揮發(fā)性成分的總量不同,導致響應(yīng)曲線下的面積也不同,通過計算面積特征,可以對三七及其偽品進行區(qū)分。在提取時域特征時,采用了以下具體方法:對于峰值特征,通過遍歷傳感器響應(yīng)曲線的所有數(shù)據(jù)點,找到最大值及其對應(yīng)的時間點,將最大值作為峰值特征。假設(shè)傳感器響應(yīng)曲線為y(t),其中t表示時間,y表示響應(yīng)值,則峰值P可表示為P=\max(y(t))。對于斜率特征,采用差分法計算。在時間點t處的斜率S(t)可通過公式S(t)=\frac{y(t+\Deltat)-y(t)}{\Deltat}計算,其中\(zhòng)Deltat為時間間隔,本研究中取\Deltat=0.1s(與數(shù)據(jù)采集時間間隔一致)。在計算上升斜率時,選擇響應(yīng)曲線上升階段的數(shù)據(jù)點進行計算;計算下降斜率時,選擇下降階段的數(shù)據(jù)點進行計算。對于面積特征,采用數(shù)值積分的方法進行計算。本研究中采用梯形積分法,將響應(yīng)曲線離散化為n個數(shù)據(jù)點,時間間隔為\Deltat,則面積A可近似表示為A=\sum_{i=1}^{n-1}\frac{y(i)+y(i+1)}{2}\times\Deltat,其中y(i)表示第i個時間點的響應(yīng)值。頻域特征提取則是將時域信號通過傅里葉變換等方法轉(zhuǎn)換到頻率域,分析信號在不同頻率成分上的特性。頻域特征能夠揭示信號的周期性、頻率分布等信息,從另一個角度反映樣品的氣味特征。功率譜密度(PSD)是一種常用的頻域特征,它表示信號功率在頻率上的分布情況。通過計算功率譜密度,可以了解樣品揮發(fā)性成分的特征頻率,以及不同頻率成分對信號功率的貢獻。在電子鼻檢測中,不同的揮發(fā)性成分會在不同的頻率上產(chǎn)生響應(yīng),通過分析功率譜密度,可以發(fā)現(xiàn)三七及其偽品在某些特征頻率上的差異,從而實現(xiàn)鑒別。例如,三七中的某些揮發(fā)性成分可能在特定的頻率范圍內(nèi)有較高的功率譜密度,而偽品在該頻率范圍內(nèi)的功率譜密度則較低或沒有明顯的峰值。在提取頻域特征時,首先對經(jīng)過預(yù)處理的時域信號進行快速傅里葉變換(FFT),將時域信號轉(zhuǎn)換為頻域信號。假設(shè)時域信號為y(t),經(jīng)過FFT變換后得到頻域信號Y(f),其中f表示頻率。然后,根據(jù)頻域信號計算功率譜密度。功率譜密度S(f)可通過公式S(f)=\frac{|Y(f)|^2}{N}計算,其中N為信號的長度。為了更直觀地分析功率譜密度的特征,通常對功率譜密度進行歸一化處理,使其取值范圍在0到1之間。歸一化后的功率譜密度S_{norm}(f)=\frac{S(f)-S_{min}}{S_{max}-S_{min}},其中S_{min}和S_{max}分別為功率譜密度的最小值和最大值。通過提取時域和頻域特征,能夠全面地描述電子鼻響應(yīng)曲線的特征,為后續(xù)的特征選擇和分類模型建立提供豐富的特征信息。這些特征不僅能夠反映樣品中揮發(fā)性成分的種類、濃度、釋放速度等信息,還能從不同的角度揭示三七及其偽品之間的差異,提高分類鑒別任務(wù)的準確性和可靠性。4.3特征選擇與優(yōu)化在完成特征提取后,得到的特征集中可能包含冗余和無關(guān)特征,這些特征不僅會增加計算量,還可能降低模型的性能和泛化能力。因此,需要采用合適的特征選擇方法對特征進行篩選和優(yōu)化,去除冗余和無關(guān)特征,保留對分類最有價值的特征,提高模型的訓練效率和分類準確率。本研究采用了相關(guān)性分析和遞歸特征消除等方法進行特征選擇。相關(guān)性分析旨在衡量特征之間以及特征與目標變量之間的關(guān)聯(lián)程度。通過計算皮爾遜相關(guān)系數(shù),能夠直觀地反映兩個變量之間線性相關(guān)的強度和方向。對于特征集中的每一個特征,計算其與目標變量(即三七及其偽品的類別標簽)的皮爾遜相關(guān)系數(shù),設(shè)定一個合適的閾值,如0.3,將相關(guān)系數(shù)絕對值小于閾值的特征視為與目標變量相關(guān)性較弱的特征,予以去除。在一個包含多個特征的特征集中,特征F1與目標變量的皮爾遜相關(guān)系數(shù)為0.25,小于設(shè)定的閾值0.3,說明該特征與目標變量的線性相關(guān)性較弱,對分類的貢獻較小,因此將其從特征集中剔除。遞歸特征消除(RFE)是一種基于模型的特征選擇方法,它通過反復構(gòu)建模型并根據(jù)模型的性能來選擇特征。具體來說,RFE首先使用所有特征訓練一個分類模型,如支持向量機(SVM)。然后,根據(jù)模型的系數(shù)或特征重要性,計算每個特征的重要性得分。在SVM模型中,特征的重要性可以通過其對應(yīng)的系數(shù)絕對值來衡量,系數(shù)絕對值越大,說明該特征對模型的貢獻越大。接著,RFE會刪除重要性得分最低的特征,重新使用剩余的特征訓練模型,再次計算特征的重要性得分,重復這個過程,直到達到預(yù)設(shè)的特征數(shù)量或模型性能不再提升為止。假設(shè)最初有10個特征,經(jīng)過第一次訓練SVM模型后,計算得到特征F3的重要性得分最低,于是將F3刪除,然后用剩下的9個特征重新訓練模型,繼續(xù)進行特征選擇。為了評估不同特征子集的分類效果,采用了交叉驗證的方法。將數(shù)據(jù)集劃分為訓練集和測試集,使用訓練集訓練分類模型,然后用測試集評估模型的性能。在交叉驗證中,將數(shù)據(jù)集劃分為K個互不相交的子集,依次將其中一個子集作為測試集,其余K-1個子集作為訓練集,進行K次訓練和測試,最后將K次測試的結(jié)果進行平均,得到模型的性能評估指標。常用的性能評估指標包括準確率、召回率、F1值等。準確率是指分類正確的樣本數(shù)占總樣本數(shù)的比例,召回率是指實際為正樣本且被正確分類為正樣本的樣本數(shù)占實際正樣本數(shù)的比例,F(xiàn)1值則是綜合考慮準確率和召回率的指標,它的計算公式為F1=\frac{2\times準確率\times召回率}{準確率+召回率}。通過實驗對比不同特征子集的分類效果,結(jié)果如表4-1所示:[此處插入表4-1,表格內(nèi)容為不同特征子集下分類模型的性能指標,包括特征子集描述(如原始特征集、相關(guān)性分析篩選后的特征集、遞歸特征消除篩選后的特征集等)、準確率、召回率、F1值等,表格格式規(guī)范,數(shù)據(jù)準確]從表4-1可以看出,使用原始特征集時,分類模型的準確率為80%,召回率為78%,F(xiàn)1值為79%。經(jīng)過相關(guān)性分析篩選后,特征子集的維度有所降低,模型的準確率提升到85%,召回率為83%,F(xiàn)1值達到84%。這表明通過相關(guān)性分析去除與目標變量相關(guān)性較弱的特征后,模型的性能得到了顯著提升。而采用遞歸特征消除方法篩選后的特征子集,模型的準確率進一步提高到90%,召回率為88%,F(xiàn)1值為89%。這說明遞歸特征消除能夠更有效地選擇對分類最有價值的特征,進一步優(yōu)化模型的性能。通過對比不同特征子集的分類效果,確定了遞歸特征消除篩選后的特征子集為最優(yōu)特征子集,為后續(xù)的分類模型建立提供了更優(yōu)質(zhì)的特征數(shù)據(jù)。五、分類模型構(gòu)建與分析5.1常用分類算法介紹支持向量機(SupportVectorMachine,SVM)是一種有監(jiān)督的機器學習算法,廣泛應(yīng)用于分類和回歸問題。其基本原理是通過尋找一個最優(yōu)的超平面,將不同類別的樣本進行劃分。在二維空間中,超平面是一條直線;在高維空間中,超平面則是一個維度比樣本空間低一維的子空間。對于線性可分的數(shù)據(jù)集,SVM能夠找到一個最大間隔超平面,使得兩類樣本到該超平面的距離最大化,這個距離被稱為間隔(Margin)。而那些離超平面最近的樣本點,被稱為支持向量(SupportVector),它們對確定超平面的位置起著關(guān)鍵作用。當數(shù)據(jù)集線性不可分時,SVM通過核函數(shù)(KernelFunction)將樣本映射到高維特征空間,使數(shù)據(jù)在高維空間中變得線性可分,從而實現(xiàn)分類。常見的核函數(shù)有線性核函數(shù)、多項式核函數(shù)、高斯核函數(shù)等。SVM具有良好的泛化能力,能夠處理高維數(shù)據(jù),對小樣本數(shù)據(jù)集也有較好的分類效果,在圖像識別、文本分類等領(lǐng)域得到了廣泛應(yīng)用。但SVM的計算復雜度較高,尤其是在處理大規(guī)模數(shù)據(jù)集時,訓練時間較長,且對參數(shù)選擇較為敏感,需要進行精細的調(diào)優(yōu)。人工神經(jīng)網(wǎng)絡(luò)(ArtificialNeuralNetwork,ANN)是一種模仿生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)和功能的計算模型,由大量的節(jié)點(神經(jīng)元)和連接這些節(jié)點的邊組成。神經(jīng)網(wǎng)絡(luò)的基本組成單元是神經(jīng)元,每個神經(jīng)元接收多個輸入信號,并根據(jù)一定的權(quán)重和激活函數(shù)對這些輸入進行處理,產(chǎn)生一個輸出信號。神經(jīng)網(wǎng)絡(luò)通常包含輸入層、隱藏層和輸出層,信號從輸入層進入,經(jīng)過隱藏層的層層處理,最終在輸出層產(chǎn)生輸出結(jié)果。在訓練過程中,神經(jīng)網(wǎng)絡(luò)通過調(diào)整神經(jīng)元之間的連接權(quán)重,使網(wǎng)絡(luò)的輸出盡可能接近實際的標簽,從而實現(xiàn)對數(shù)據(jù)的學習和分類。根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)和訓練方式的不同,神經(jīng)網(wǎng)絡(luò)可分為前饋神經(jīng)網(wǎng)絡(luò)、反饋神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)等多種類型。人工神經(jīng)網(wǎng)絡(luò)具有強大的非線性映射能力,能夠自動提取數(shù)據(jù)中的復雜特征,對復雜的模式識別問題有很好的處理能力,在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著的成果。但神經(jīng)網(wǎng)絡(luò)的訓練需要大量的數(shù)據(jù)和計算資源,模型的可解釋性較差,難以理解其決策過程,且容易出現(xiàn)過擬合現(xiàn)象,需要采取合適的正則化方法進行處理。決策樹(DecisionTree)是一種基于樹結(jié)構(gòu)的分類算法,它通過對數(shù)據(jù)特征進行遞歸劃分,構(gòu)建出一棵決策樹。決策樹的每個內(nèi)部節(jié)點表示一個特征,每個分支表示一個特征值的取值,每個葉節(jié)點表示一個類別。在構(gòu)建決策樹時,通常采用貪心算法,選擇能夠使數(shù)據(jù)劃分后純度提升最大的特征作為劃分節(jié)點,常用的劃分準則有信息增益、信息增益比、基尼指數(shù)等。信息增益表示在某特征下,數(shù)據(jù)集的不確定性減少的程度;信息增益比是信息增益與特征熵的比值,可減小特征取值多的特征對信息增益的影響;基尼指數(shù)表示數(shù)據(jù)集的不純度,越小表示數(shù)據(jù)集越純凈。決策樹構(gòu)建完成后,對于新的樣本,從根節(jié)點開始,根據(jù)樣本在各個特征上的取值,沿著決策樹的分支進行遍歷,最終到達葉節(jié)點,從而確定樣本的類別。決策樹算法簡單直觀,易于理解和實現(xiàn),可同時處理離散型和連續(xù)型特征,且能夠生成可解釋的分類規(guī)則。但決策樹容易生成過于復雜的樹結(jié)構(gòu),導致過擬合問題,對數(shù)據(jù)集中微小的變化較為敏感,穩(wěn)定性較差,并且采用貪心策略構(gòu)建,可能陷入局部最優(yōu)解。為了克服這些缺點,常采用剪枝策略對決策樹進行優(yōu)化,預(yù)剪枝是在決策樹構(gòu)建過程中,對每個節(jié)點在劃分前先進行評估,若劃分不能帶來性能提升,則不進行劃分,直接將當前節(jié)點標記為葉子節(jié)點;后剪枝是在決策樹構(gòu)建完成后,自底向上地對非葉子節(jié)點進行評估,若將其替換為葉子節(jié)點能帶來性能提升,則進行剪枝。5.2模型構(gòu)建與訓練在構(gòu)建支持向量機(SVM)模型時,選用高斯核函數(shù)來處理三七及其偽品數(shù)據(jù)的非線性特性。高斯核函數(shù)能夠?qū)⒌途S數(shù)據(jù)映射到高維空間,使數(shù)據(jù)在高維空間中更易于線性可分,從而提高分類效果。在Python的scikit-learn庫中,通過如下代碼實現(xiàn)SVM模型的構(gòu)建與訓練:fromsklearn.svmimportSVCfromsklearn.model_selectionimporttrain_test_split#假設(shè)X為特征矩陣,y為標簽向量X_train,X_test,y_train,y_test=train_test_split(X,y,test_size=0.3,random_state=42)svm_model=SVC(kernel='rbf',C=1.0,gamma='scale')svm_model.fit(X_train,y_train)其中,kernel='rbf'表示使用高斯核函數(shù),C=1.0是懲罰參數(shù),用于平衡模型的復雜度和對誤分類樣本的懲罰程度,gamma='scale'表示核系數(shù),它會影響高斯核函數(shù)的作用范圍。通過fit方法,使用訓練集數(shù)據(jù)對SVM模型進行訓練,使模型學習到數(shù)據(jù)的特征和類別之間的關(guān)系。對于人工神經(jīng)網(wǎng)絡(luò)(ANN)模型,采用前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),構(gòu)建包含一個輸入層、兩個隱藏層和一個輸出層的網(wǎng)絡(luò)。輸入層的節(jié)點數(shù)根據(jù)特征向量的維度確定,假設(shè)經(jīng)過特征選擇后得到的特征向量維度為n,則輸入層節(jié)點數(shù)為n。第一個隱藏層設(shè)置30個節(jié)點,第二個隱藏層設(shè)置20個節(jié)點,輸出層節(jié)點數(shù)根據(jù)分類類別數(shù)確定,由于要區(qū)分三七及其三種偽品,共四個類別,所以輸出層節(jié)點數(shù)為4。在Python中,使用Keras庫來構(gòu)建和訓練ANN模型,代碼如下:fromkeras.modelsimportSequentialfromkeras.layersimportDenseann_model=Sequential()ann_model.add(Dense(30,input_dim=n,activation='relu'))ann_model.add(Dense(20,activation='relu'))ann_model.add(Dense(4,activation='softmax'))ann_pile(loss='categorical_crossentropy',optimizer='adam',metrics=['accuracy'])ann_model.fit(X_train,y_train,epochs=50,batch_size=32)在這段代碼中,Dense層表示全連接層,每一層的節(jié)點數(shù)和激活函數(shù)根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)進行設(shè)置。relu激活函數(shù)能夠引入非線性因素,增強模型的表達能力。softmax激活函數(shù)用于輸出層,將網(wǎng)絡(luò)的輸出轉(zhuǎn)換為概率分布,便于進行多分類任務(wù)。compile方法用于配置模型的損失函數(shù)、優(yōu)化器和評估指標,這里使用categorical_crossentropy作為損失函數(shù),adam作為優(yōu)化器,accuracy作為評估指標。通過fit方法,使用訓練集數(shù)據(jù)對ANN模型進行訓練,epochs=50表示訓練50個周期,batch_size=32表示每次訓練使用32個樣本。決策樹(DecisionTree)模型的構(gòu)建則使用Python的scikit-learn庫中的DecisionTreeClassifier類。在構(gòu)建過程中,采用信息增益比作為劃分準則,以選擇最優(yōu)的特征進行節(jié)點劃分。通過設(shè)置max_depth=5來限制決策樹的深度,防止過擬合。代碼實現(xiàn)如下:fromsklearn.treeimportDecisionTreeClassifierdt_model=DecisionTreeClassifier(criterion='entropy',max_depth=5)dt_model.fit(X_train,y_train)其中,criterion='entropy'表示使用信息增益比作為劃分準則,max_depth=5表示決策樹的最大深度為5。通過fit方法,使用訓練集數(shù)據(jù)對決策樹模型進行訓練,使模型構(gòu)建完成,能夠?qū)π碌臄?shù)據(jù)進行分類預(yù)測。在訓練過程中,模型會根據(jù)訓練數(shù)據(jù)不斷調(diào)整內(nèi)部參數(shù)和結(jié)構(gòu),以提高對數(shù)據(jù)的擬合能力和分類準確性。5.3模型性能評估采用準確率、召回率、F1值等指標對上述構(gòu)建的支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)和決策樹(DecisionTree)分類模型進行性能評估。準確率(Accuracy)是指分類正確的樣本數(shù)占總樣本數(shù)的比例,反映了模型對所有樣本的正確分類能力,其計算公式為:Accuracy=\frac{TP+TN}{TP+TN+FP+FN},其中TP(TruePositive)表示真正例,即實際為正樣本且被正確分類為正樣本的樣本數(shù);TN(TrueNegative)表示真反例,即實際為負樣本且被正確分類為負樣本的樣本數(shù);FP(FalsePositive)表示假正例,即實際為負樣本但被錯誤分類為正樣本的樣本數(shù);FN(FalseNegative)表示假反例,即實際為正樣本但被錯誤分類為負樣本的樣本數(shù)。召回率(Recall),也稱為真正例率(TruePositiveRate,TPR)或靈敏度(Sensitivity),是指實際為正樣本且被正確分類為正樣本的樣本數(shù)占實際正樣本數(shù)的比例,它衡量了模型對正樣本的檢測能力,計算公式為:Recall=\frac{TP}{TP+FN}。在三七及其偽品的分類中,召回率高意味著模型能夠準確地識別出大部分真正的三七樣本,避免將三七誤判為偽品,對于保障消費者使用到正品三七具有重要意義。F1值(F1-score)是綜合考慮準確率和召回率的指標,它是準確率和召回率的調(diào)和平均數(shù),能夠更全面地反映模型的性能。當準確率和召回率都較高時,F(xiàn)1值也會較高。F1值的計算公式為:F1=\frac{2\timesPrecision\timesRecall}{Precision+Recall},其中精確率(Precision)是指所有預(yù)測為正例的樣本中,真正例的比例,計算公式為Precision=\frac{TP}{TP+FP}。在實際應(yīng)用中,F(xiàn)1值常被用于評估分類模型的優(yōu)劣,尤其是在樣本類別不平衡的情況下,F(xiàn)1值比單純的準確率更能反映模型的性能。為了避免過擬合問題,采用五折交叉驗證的方法對模型進行評估。五折交叉驗證是將數(shù)據(jù)集隨機劃分為五個互不相交的子集,每個子集的大小大致相同。在每次驗證中,將其中一個子集作為測試集,其余四個子集作為訓練集,訓練模型并在測試集上進行評估。重復這個過程五次,使得每個子集都有機會作為測試集,最后將五次評估的結(jié)果進行平均,得到模型的性能指標。通過五折交叉驗證,可以更全面地評估模型在不同數(shù)據(jù)子集上的表現(xiàn),減少因數(shù)據(jù)集劃分不合理導致的評估偏差,提高評估結(jié)果的可靠性和穩(wěn)定性。將三種模型在五折交叉驗證下的性能指標進行對比,結(jié)果如表5-1所示:[此處插入表5-1,表格內(nèi)容為SVM、ANN、DecisionTree三種模型在五折交叉驗證下的準確率、召回率、F1值,表格格式規(guī)范,數(shù)據(jù)準確]從表5-1可以看出,SVM模型在準確率、召回率和F1值方面都表現(xiàn)出色,準確率達到了92%,召回率為90%,F(xiàn)1值為91%。這表明SVM模型能夠有效地對三七及其偽品進行分類,在正確識別出大部分樣本的同時,也能較好地平衡對正樣本和負樣本的分類能力。ANN模型的準確率為88%,召回率為85%,F(xiàn)1值為86%,雖然也能實現(xiàn)分類,但性能略遜于SVM模型。DecisionTree模型的準確率為85%,召回率為82%,F(xiàn)1值為83%,相對來說性能稍差一些。這可能是因為決策樹模型容易受到數(shù)據(jù)噪聲和過擬合的影響,在處理復雜的數(shù)據(jù)分布時,其分類能力受到一定限制。通過對模型性能的評估和對比,可以為選擇最優(yōu)的分類模型提供依據(jù),從而提高三七及其偽品分類的準確性和可靠性。5.4結(jié)果分析與比較從分類準確率來看,支持向量機(SVM)模型表現(xiàn)最為出色,達到了92%。這主要得益于SVM通過高斯核函數(shù)將數(shù)據(jù)映射到高維空間,能夠有效地處理三七及其偽品數(shù)據(jù)的非線性特征,找到一個最優(yōu)的超平面將不同類別樣本進行準確劃分。SVM對小樣本數(shù)據(jù)集也有較好的適應(yīng)性,而本實驗中樣本數(shù)量相對有限,這使得SVM的優(yōu)勢得以充分發(fā)揮。人工神經(jīng)網(wǎng)絡(luò)(ANN)模型的準確率為88%,ANN具有強大的非線性映射能力,能夠自動提取數(shù)據(jù)中的復雜特征。但在本實驗中,可能由于網(wǎng)絡(luò)結(jié)構(gòu)的復雜性和訓練過程中的過擬合問題,導致其準確率略低于SVM。決策樹(DecisionTree)模型的準確率為85%,決策樹容易受到數(shù)據(jù)噪聲和過擬合的影響,在處理復雜的數(shù)據(jù)分布時,其分類能力受到一定限制,使得準確率相對較低。在召回率方面,SVM模型達到了90%,說明SVM在識別正樣本(如真正的三七樣本)時表現(xiàn)良好,能夠準確地將大部分正樣本正確分類,避免將正樣本誤判為負樣本,對于保障消費者購買到正品三七具有重要意義。ANN模型的召回率為85%,雖然ANN也能對正樣本進行一定程度的識別,但相比SVM,其召回率稍低,可能是因為在訓練過程中對正樣本的學習不夠充分,導致部分正樣本被誤判。DecisionTree模型的召回率為82%,由于決策樹容易生成過于復雜的樹結(jié)構(gòu),導致過擬合,使得在對正樣本的識別上存在一定的偏差,召回率相對較低。F1值綜合考慮了準確率和召回率,SVM模型的F1值為91%,再次證明了SVM在平衡準確率和召回率方面的優(yōu)勢,能夠更全面地反映模型的性能。ANN模型的F1值為86%,雖然也能實現(xiàn)分類,但在綜合性能上不如SVM。DecisionTree模型的F1值為83%,相對來說性能稍差一些,說明其在分類過程中,無論是對正樣本的識別還是對整體樣本的分類準確性,都有待提高。SVM模型在處理三七及其偽品的分類問題上,綜合性能表現(xiàn)最佳,能夠準確地對三七及其偽品進行分類。ANN模型雖然也有一定的分類能力,但在處理過程中容易受到網(wǎng)絡(luò)結(jié)構(gòu)和過擬合問題的影響。DecisionTree模型則在抗噪聲和過擬合方面存在不足,導致其分類性能相對較弱。在實際應(yīng)用中,若對分類準確性要求較高,可優(yōu)先選擇SVM模型來鑒別三七及其偽品。六、結(jié)果與討論6.1實驗結(jié)果呈現(xiàn)本研究利用電子鼻技術(shù)對三七及其偽品進行分類研究,通過精心設(shè)計實驗,采集了大量數(shù)據(jù),并運用多種分類算法構(gòu)建模型進行分析。最終的實驗結(jié)果以分類準確率和混淆矩陣等形式呈現(xiàn),直觀地展示了不同模型在三七及其偽品分類任務(wù)中的性能表現(xiàn)。不同分類模型對三七及其偽品的分類準確率如表6-1所示:[此處插入表6-1,表格內(nèi)容為不同分類模型的分類準確率,包括支持向量機(SVM)、人工神經(jīng)網(wǎng)絡(luò)(ANN)、決策樹(DecisionTree)等模型,格式規(guī)范,數(shù)據(jù)準確]從表6-1中可以清晰地看出,支持向量機(SVM)模型在三七及其偽品的分類任務(wù)中表現(xiàn)最為出色,準確率高達92%。這得益于SVM通過高斯核函數(shù)將數(shù)據(jù)映射到高維空間,有效處理了數(shù)據(jù)的非線性特征,能夠準確地找到最優(yōu)超平面將不同類別樣本進行劃分,在小樣本數(shù)據(jù)集上展現(xiàn)出良好的適應(yīng)性。人工神經(jīng)網(wǎng)絡(luò)(ANN)模型的準確率為88%,雖具有強大的非線性映射能力,但可能由于網(wǎng)絡(luò)結(jié)構(gòu)的復雜性和訓練過程中的過擬合問題,導致其準確率略低于SVM。決策樹(DecisionTree)模型的準確率為85%,受數(shù)據(jù)噪聲和過擬合影響較大,在處理復雜數(shù)據(jù)分布時分類能力受限,使得準確率相對較低。為了更全面地了解各模型的分類性能,進一步展示了它們的混淆矩陣。以支持向量機(SVM)模型為例,其混淆矩陣如表6-2所示:[此處插入表6-2,表格內(nèi)容為SVM模型的混淆矩陣,行和列分別表示實際類別和預(yù)測類別,包括三七、菊葉三七、藤三七、莪術(shù)四個類別,每個單元格中的數(shù)字表示相應(yīng)類別的樣本數(shù)量,格式規(guī)范,數(shù)據(jù)準確]在SVM模型的混淆矩陣中,對角線上的數(shù)字表示被正確分類的樣本數(shù)量??梢钥吹?,三七樣本被正確分類的數(shù)量為46個,菊葉三七被正確分類的數(shù)量為27個,藤三七被正確分類的數(shù)量為26個,莪術(shù)被正確分類的數(shù)量為27個。而非對角線上的數(shù)字則表示分類錯誤的樣本數(shù)量,三七被誤判為菊葉三七的有2個,被誤判為藤三七的有1個,被誤判為莪術(shù)的有1個;菊葉三七被誤判為三七的有1個,被誤判為藤三七的有1個,被誤判為莪術(shù)的有1個;藤三七被誤判為三七的有1個,被誤判為菊葉三七的有2個,被誤判為莪術(shù)的有1個;莪術(shù)被誤判為三七的有1個,被誤判為菊葉三七的有1個,被誤判為藤三七的有1個。通過混淆矩陣,可以直觀地了解到模型在不同類別之間的分類錯誤情況,為進一步分析模型性能提供了詳細信息。人工神經(jīng)網(wǎng)絡(luò)(ANN)模型和決策樹(DecisionTree)模型的混淆矩陣分別如表6-3和表6-4所示:[此處分別插入表6-3和表6-4,表格內(nèi)容分別為ANN模型和DecisionTree模型的混淆矩陣,格式同SVM模型的混淆矩陣,行和列分別表示實際類別和預(yù)測類別,包括三七、菊葉三七、藤三七、莪術(shù)四個類別,每個單元格中的數(shù)字表示相應(yīng)類別的樣本數(shù)量,數(shù)據(jù)準確]從ANN模型的混淆矩陣中可以看出,其在分類過程中也存在一定的錯誤分類情況。三七被誤判為其他類別的樣本數(shù)量相對較多,達到了5個,這表明ANN模型在識別三七樣本時的準確性有待提高。菊葉三七、藤三七和莪術(shù)也存在不同程度的誤判情況。DecisionTree模型的混淆矩陣顯示,其分類錯誤更為明顯

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論