【《BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用研究》12000字(論文)】_第1頁(yè)
【《BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用研究》12000字(論文)】_第2頁(yè)
【《BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用研究》12000字(論文)】_第3頁(yè)
【《BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用研究》12000字(論文)】_第4頁(yè)
【《BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用研究》12000字(論文)】_第5頁(yè)
已閱讀5頁(yè),還剩28頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用研究目錄TOC\o"1-3"\h\u1587摘要 139161緒論 3214391.1研究背景及意義 3138631.2國(guó)內(nèi)外研究歷史與現(xiàn)狀 432891.3研究?jī)?nèi)容和研究方法 6100971.3.1研究?jī)?nèi)容 6292641.3.2研究方法 675992植物數(shù)據(jù)集分析 891622.1數(shù)據(jù)簡(jiǎn)介 8133772.2數(shù)據(jù)分析 9102932.3性質(zhì)總結(jié) 10295033基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類 1163043.1神經(jīng)網(wǎng)絡(luò)的基本概念 11254503.1.1BP神經(jīng)網(wǎng)絡(luò)的概述 1199723.1.2BP神經(jīng)網(wǎng)絡(luò)基本原理 12129443.1.3BP神經(jīng)網(wǎng)絡(luò)的特點(diǎn) 1518593.1.4BP神經(jīng)網(wǎng)絡(luò)的局限性 16297053.2BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用 16145373.2.1神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與設(shè)計(jì) 1797943.2.2神經(jīng)網(wǎng)絡(luò)的訓(xùn)練 18214683.2.3識(shí)別與結(jié)果分析 19116294總結(jié)與展望 3227730參考文獻(xiàn) 33摘要通過(guò)一些特征來(lái)對(duì)數(shù)據(jù)進(jìn)行區(qū)別,把具有某種共同特征的數(shù)據(jù)歸結(jié)到一起,這就是數(shù)據(jù)分類。當(dāng)前學(xué)者們已經(jīng)實(shí)現(xiàn)分類的方法主要有深度稀疏自編碼網(wǎng)絡(luò)、人工神經(jīng)網(wǎng)絡(luò)、決策樹學(xué)習(xí)方法等。分類技術(shù)在解決問(wèn)題中具有很大程度的應(yīng)用,例如疾病分類、信用評(píng)級(jí)、圖像識(shí)別、車牌識(shí)別、指紋識(shí)別等等。植物分類對(duì)于保護(hù)和研究發(fā)展各種珍稀植物形態(tài)類型和及其動(dòng)態(tài)生物多樣性,了解各種珍稀植物形態(tài)生長(zhǎng)環(huán)境特點(diǎn)和其邊緣地理氣候位置,合理規(guī)劃開(kāi)發(fā)和優(yōu)化整治合理利用各種珍稀植物生態(tài)資源都完全具有非常重要的科學(xué)指導(dǎo)研究?jī)r(jià)值。本文以Iris(鳶尾屬)植物分類為例,用BP神經(jīng)網(wǎng)絡(luò)結(jié)合MATLAB程序?qū)崿F(xiàn)對(duì)此數(shù)據(jù)的分類。首先介紹了神經(jīng)網(wǎng)絡(luò)基本原理,然后釆用基于BP神經(jīng)網(wǎng)絡(luò)算法對(duì)鳶尾屬植物數(shù)據(jù)集進(jìn)行分類;最后的程序結(jié)果實(shí)現(xiàn)了98%正確率,表明BP神經(jīng)網(wǎng)絡(luò)算法對(duì)此次采用的數(shù)據(jù)集分類是非常有效果的。關(guān)鍵詞:植物分類;鳶尾屬植物;BP神經(jīng)網(wǎng)絡(luò)1緒論1.1研究背景及意義在地球生態(tài)圈中植物從頭到尾都扮演著舉足輕重的角色,它們?yōu)榇蟛糠稚锷钐峁┝搜鯕狻⑹澄?,為人類提供藥材和能源?dòng)力等等。在地球上每一種生物中,植物與人類和自然界以及其環(huán)境之間的聯(lián)系最為緊密。植物還改善和美化了人們的生活環(huán)境,防風(fēng)固沙方面有非常重要的作用,有助于減少沙塵,保持水分,調(diào)節(jié)氣候和確保降水。但是近些年,人類的某些活動(dòng)如不合理地開(kāi)墾土地、各種輕重工業(yè)污染等等都嚴(yán)重破壞了我們的生態(tài)環(huán)境,從而導(dǎo)致了植物資源枯竭、更嚴(yán)重地是在物種上的滅絕。值得我們慶幸的事情是,人類自己己經(jīng)認(rèn)識(shí)到了這種做法對(duì)生態(tài)圈的危害,從而開(kāi)始邁出了保護(hù)野生植物品種的腳步。對(duì)野外植物品種進(jìn)行歸類和保護(hù)研究無(wú)疑可以說(shuō)是對(duì)其生長(zhǎng)品質(zhì)和環(huán)境進(jìn)行保護(hù)的第一步也許更可以說(shuō)是重要的一步,但由于當(dāng)前世界范圍內(nèi)人類認(rèn)知水平并不是很高。而且目前我國(guó)乃至全世界范圍內(nèi)擁有大量數(shù)目眾多的野外植物品種,想要真正做到人為準(zhǔn)確而快速地識(shí)別手中的植物并非一件易事REF_Ref15167\r\h[1]。植物學(xué)的分類對(duì)于正確區(qū)分和界定植物的種類,探索各個(gè)植物之間的親緣關(guān)系,闡明自然界植物學(xué)系統(tǒng)的演變規(guī)律都具有十分重要的意義。拿到一株不知道自己認(rèn)識(shí)什么樣的植物,從其根、莖、葉、花、果實(shí)等五大個(gè)性和各方面的具體形狀和特點(diǎn)來(lái)確定得出該植物屬于自己的綱、目、科、屬、種以及其他植物的名字,這個(gè)過(guò)程也就是辨識(shí)。雖然看似簡(jiǎn)便,但是手動(dòng)操作做法看上去卻很艱苦和繁瑣。植物的種類繁多,在我國(guó)只有高級(jí)植物約35000多種。為了改善和提高廣大的生物學(xué)技術(shù)工作者的信息和工作效率,來(lái)協(xié)助他們快速而高效地辨認(rèn)和識(shí)別植物品種,研制和開(kāi)發(fā)基于神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類和識(shí)別系統(tǒng)將會(huì)具有非常重要的意義。我們可以利用圖像處理技術(shù)、模式識(shí)別和軟件系統(tǒng)以及計(jì)算機(jī)圖像采集設(shè)備來(lái)實(shí)現(xiàn)對(duì)植物的快速識(shí)別REF_Ref4262\r\h[2]。BP(backpropagation)神經(jīng)網(wǎng)絡(luò)它指的是一種能夠依靠誤差逆向前饋傳播的數(shù)學(xué)算法訓(xùn)練的多層次前饋神經(jīng)網(wǎng)絡(luò)REF_Ref15461\r\h[3]。BP神經(jīng)網(wǎng)絡(luò)可以同時(shí)提供任意復(fù)雜的函數(shù)模型映射分類分析能力和良好的多維維度函數(shù)模型映射分析能力,解決了簡(jiǎn)單的神經(jīng)感知器網(wǎng)絡(luò)無(wú)法輕松解決的異或和某些其它復(fù)雜問(wèn)題REF_Ref15539\r\h[4]。BP網(wǎng)絡(luò)主要架構(gòu)具有三個(gè)主要基礎(chǔ)層:輸入、隱含和輸出層;從技術(shù)理論上和實(shí)踐本質(zhì)上面來(lái)說(shuō),BP算法主要特點(diǎn)就是以一種網(wǎng)絡(luò)計(jì)算中的一個(gè)誤差平方函數(shù)作為一個(gè)目標(biāo)概率函數(shù)、采用一種梯度式下降計(jì)算方法及一種可以精確地計(jì)算每個(gè)目標(biāo)概率函數(shù)的誤差最小值REF_Ref15608\r\h[5],非線性映射的計(jì)算能力比較強(qiáng)。目前已知大概九成的神經(jīng)網(wǎng)絡(luò)在我國(guó)實(shí)際上的應(yīng)用都是以bp算法為基礎(chǔ)的REF_Ref15699\r\h[6]。近年來(lái),隨著生物技術(shù)的進(jìn)一步發(fā)展,推動(dòng)了植物雜交技術(shù)的迅速進(jìn)步,使得各種植物之間的差異越來(lái)越小,相似度越來(lái)越高,如何有效地識(shí)別植物的分類和特征,是植物科學(xué)家的手頭大事。植物生態(tài)分類在用于構(gòu)建一個(gè)完善的植物分類數(shù)據(jù)庫(kù)以及可以有效保障人類生態(tài)農(nóng)業(yè)與自然生物安全這一方面也都具有十分重要的國(guó)際學(xué)術(shù)性。近年來(lái),由于神經(jīng)網(wǎng)絡(luò)的崛起,使得植物分類的發(fā)展有了質(zhì)一樣的飛躍?;谏窠?jīng)網(wǎng)絡(luò)的算法來(lái)對(duì)植物數(shù)據(jù)分類也具有較高的準(zhǔn)確性,可以準(zhǔn)確地進(jìn)行識(shí)別和分析計(jì)算和找出某種植物在自然環(huán)境中所存在處的某個(gè)物種或者種群,有著廣泛的社會(huì)意義和經(jīng)濟(jì)意義。1.2國(guó)內(nèi)外研究歷史與現(xiàn)狀對(duì)植物進(jìn)行分類管理是推動(dòng)現(xiàn)代生態(tài)科學(xué)研究和開(kāi)發(fā)的一項(xiàng)重要基礎(chǔ)工作?,F(xiàn)代植物分類科學(xué)經(jīng)歷了長(zhǎng)期時(shí)間的進(jìn)步,尤其特別是將計(jì)算機(jī)技術(shù)廣泛應(yīng)用到各種多樣的植物科學(xué)中,發(fā)展延伸了許多種新的分類方式。劉曙光等REF_Ref15765\r\h[7]以長(zhǎng)江口濱海濕地為研究區(qū)域,采用隨機(jī)森林算法對(duì)濱海濕地植被進(jìn)行分類。利用植被指數(shù)季節(jié)差值對(duì)模型進(jìn)行特征變量?jī)?yōu)化,分類精度達(dá)到了87.55%。王路等REF_Ref15781\r\h[8]通過(guò)研究采用二維徑向不變矩、多維大尺度波和二維Gabor曲線濾波等科學(xué)技術(shù)提取分析出植物葉片的各種基本幾何結(jié)構(gòu)特點(diǎn)和神經(jīng)紋理學(xué)上的主要特點(diǎn),并且在臨床實(shí)驗(yàn)中成功應(yīng)用了LVQ神經(jīng)紋理網(wǎng)絡(luò)技術(shù)來(lái)準(zhǔn)確識(shí)別植物。劉孟南REF_Ref15804\r\h[9]通過(guò)自編代碼器分析85種不同植物的葉子,取得100%的分類成績(jī)?;鹪彽萊EF_Ref15820\r\h[10]為提高植物葉片分類的準(zhǔn)確率提出了一種基于多特征融合與極限學(xué)習(xí)機(jī)的植物葉片分類方法,在公開(kāi)的植物葉片數(shù)據(jù)集Flavia上進(jìn)行實(shí)驗(yàn),訓(xùn)練分類準(zhǔn)確率達(dá)到99%以上,測(cè)試準(zhǔn)確率達(dá)到98%以上。實(shí)驗(yàn)結(jié)果表明,方法可以有效提高植物葉片分類的準(zhǔn)確率。Guyer等REF_Ref15843\r\h[11]人通過(guò)可拓性、緊度和中心轉(zhuǎn)動(dòng)慣量來(lái)分析八個(gè)植物。研究結(jié)果顯示,這些特性可以與早期在土壤中生長(zhǎng)的動(dòng)植物區(qū)別開(kāi)來(lái)。GuyerREF_Ref15889\r\h[12]通過(guò)研究提取17種葉片和形狀特點(diǎn)來(lái)將40種樹木中的葉子進(jìn)行歸類。傅弘等REF_Ref20581\r\h[13]通過(guò)綜合使用邊緣像素梯度,局部像素對(duì)比度和相鄰域的多種統(tǒng)計(jì)分析方法應(yīng)用來(lái)詳細(xì)描述了像素的相鄰輸入域統(tǒng)計(jì)性質(zhì),并將其可以視為整個(gè)神經(jīng)網(wǎng)絡(luò)的輸入層。經(jīng)過(guò)練習(xí)的神經(jīng)網(wǎng)可以準(zhǔn)確地獲取葉脈圖像,為葉子識(shí)別奠定了基礎(chǔ)。丁捷等REF_Ref8318\r\h[14]為了實(shí)現(xiàn)LIBS技術(shù)對(duì)有機(jī)物的高準(zhǔn)確率識(shí)別,將這兩種算法應(yīng)用到LIBS光譜數(shù)據(jù)的分類中。經(jīng)過(guò)PCA對(duì)數(shù)據(jù)的預(yù)處理,再結(jié)合LDA,SVM這兩種方法可實(shí)現(xiàn)LIBS技術(shù)應(yīng)用于復(fù)雜有機(jī)物的快速準(zhǔn)確分類,并且PCA與SVM結(jié)合的分類正確率更高。Satti等REF_Ref17149\r\h[15]提出將植物圖片的顏色、形狀和葉緣的適應(yīng)性等亮點(diǎn)相結(jié)合起來(lái),并將其中的一些信息輸入到人工神經(jīng)網(wǎng)絡(luò)(ANN),用于對(duì)植物圖片的分類。該策略與33種不同植物的圖片庫(kù)相互聯(lián)系,其正常識(shí)別率為93.3%。黃德雙等REF_Ref15167\r\h[1]人提出了通過(guò)計(jì)算和分析來(lái)提取部分葉片外觀和形狀的各種特征和參數(shù),并通過(guò)結(jié)合一種新型的移動(dòng)式中心超球分類儀來(lái)對(duì)這些葉片和物體進(jìn)行準(zhǔn)確地分類和識(shí)別。Patil等REF_Ref17335\r\h[16]人在提取植物的不同的顏色直方圖、邊緣圖的檢測(cè)和方向性等等特征后,利用SVM對(duì)植物進(jìn)行顏色分類,取得該同類植物的顏色分類分析結(jié)果為78%。Lee等REF_Ref17358\r\h[17]人提出將植物圖像中葉片的葉脈和其形狀特點(diǎn)結(jié)合起來(lái),葉片的特點(diǎn)利用從快速傅里葉變換獲得的頻域數(shù)據(jù)來(lái)表現(xiàn)出來(lái)。在32個(gè)植物圖像數(shù)據(jù)庫(kù)中,平均識(shí)別率為97.19%。1.3研究?jī)?nèi)容和研究方法1.3.1研究?jī)?nèi)容本文采用Iris數(shù)據(jù)植物來(lái)進(jìn)行分類,用BP神經(jīng)網(wǎng)絡(luò)搭配MATLAB來(lái)進(jìn)行研究。首先將神經(jīng)網(wǎng)絡(luò)的工作原理進(jìn)行了介紹,然后采用基于BP的神經(jīng)網(wǎng)絡(luò)算法將iris植物的數(shù)據(jù)集分類。對(duì)此種方式的各種結(jié)果都要做相關(guān)參數(shù)調(diào)試與結(jié)果分析。1.3.2研究方法分類的基本目標(biāo)主要是為了有效地幫助我們研究一個(gè)典型的分類數(shù)據(jù)函數(shù)或者一個(gè)典型的分類數(shù)據(jù)模型,通常被我們統(tǒng)統(tǒng)地稱之為模型分類器,它可以允許將一個(gè)數(shù)據(jù)庫(kù)中的每一個(gè)數(shù)據(jù)項(xiàng)與該類別的某一個(gè)類別中的數(shù)據(jù)進(jìn)行比較。。簡(jiǎn)單地說(shuō),分類是決定目標(biāo)屬于哪個(gè)預(yù)先指定的目標(biāo)類。分類問(wèn)題是一個(gè)普遍的問(wèn)題,在實(shí)踐中有許多不同的應(yīng)用。(1)分類步驟假設(shè)某一新的數(shù)據(jù)庫(kù)和一組類,分類問(wèn)題就是指確定一個(gè)映射將每一個(gè)新的單元組分配到一個(gè)新的類里面。類包含了所有被該種類別映射到該類中的單元組,即。在進(jìn)行設(shè)計(jì)和制定分類模型時(shí),首先我們需要基于對(duì)訓(xùn)練樣品的數(shù)據(jù)集進(jìn)行建立。分類的研究主要目的是通過(guò)對(duì)每一個(gè)訓(xùn)練集中所有輸入的各種數(shù)據(jù)都進(jìn)行了分析,研究和計(jì)算每一個(gè)訓(xùn)練集中各種數(shù)據(jù)需要表示和體現(xiàn)的特征,為每一個(gè)類別建立準(zhǔn)確的表示和模型。通常,我們將數(shù)據(jù)分類定義為兩個(gè)步驟的過(guò)程:創(chuàng)建一個(gè)可以描述事件中已經(jīng)確定的數(shù)據(jù)集或者概念群體的模型,接著可以使用這個(gè)模型對(duì)其進(jìn)行分類。(a)建模對(duì)數(shù)據(jù)庫(kù)元組中的所有數(shù)據(jù)進(jìn)行了屬性分析和描述,并在其中建立相應(yīng)的模型。其中的數(shù)據(jù)元群通常又稱之為示例、事件或者對(duì)象。用于建模目的分析的數(shù)據(jù)元組構(gòu)成了一個(gè)可以進(jìn)行訓(xùn)練的數(shù)據(jù)集。在一個(gè)訓(xùn)練數(shù)據(jù)集中的各個(gè)元組統(tǒng)統(tǒng)稱為訓(xùn)練樣品,它們都是從這些樣品組中進(jìn)行隨機(jī)選擇。在訓(xùn)練數(shù)據(jù)集里面對(duì)所有的訓(xùn)練樣品都應(yīng)該設(shè)置一個(gè)相對(duì)應(yīng)專門的類別標(biāo)簽。由于在此基礎(chǔ)上建立了每一個(gè)訓(xùn)練樣品的類型和標(biāo)簽,在確定這些訓(xùn)練樣品屬于哪一種類型的指導(dǎo)下就可以進(jìn)行模型學(xué)習(xí)。這一步通常被稱為定向?qū)W習(xí)。由于在此無(wú)監(jiān)督的學(xué)習(xí)中每個(gè)訓(xùn)練樣品的類標(biāo)簽都是完全不知道的,而且學(xué)生不能預(yù)先得知被監(jiān)督學(xué)習(xí)的這個(gè)類標(biāo)簽集合的個(gè)數(shù),因此引導(dǎo)學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)并不完全相似。學(xué)習(xí)模型有為分類、決策樹、等式、不等式、規(guī)則公式等多種形式。這些規(guī)則通常用于對(duì)測(cè)試的數(shù)據(jù)樣本進(jìn)行分類,并提供對(duì)數(shù)據(jù)庫(kù)中信息的最佳解釋。(b)分類分類的首要任務(wù)是評(píng)價(jià)模型預(yù)測(cè)的正確性。已經(jīng)證明保留法是測(cè)試一類標(biāo)注樣本的有效手段。所使用的樣本都是隨機(jī)選取的,與訓(xùn)練樣本無(wú)關(guān)。模型創(chuàng)建的正確與否應(yīng)該與測(cè)試集的正確率掛鉤。每一個(gè)已經(jīng)通過(guò)測(cè)試的樣品,將所有已知類標(biāo)簽和樣品的模型都與其他樣品的標(biāo)簽相對(duì)應(yīng)地進(jìn)行了比較。值得注意一點(diǎn)的是,若只憑借訓(xùn)練數(shù)據(jù)集來(lái)評(píng)估整體模型的準(zhǔn)確性,正確率可能較高的,但是其他樣本正確率比訓(xùn)練集低,因?yàn)閷W(xué)習(xí)過(guò)程往往會(huì)過(guò)擬合。因此,采用交叉驗(yàn)證的方法對(duì)模型進(jìn)行評(píng)價(jià)是合適的。假設(shè)模型的準(zhǔn)確性較高,就可以使用該模型對(duì)未知的對(duì)象進(jìn)行分類??傊?,分類方法可以大致概括為兩個(gè)主要的步驟:建立一個(gè)模型和運(yùn)用一個(gè)模型來(lái)對(duì)其進(jìn)行分類。實(shí)際上,建立一個(gè)模型的第一步就是在訓(xùn)練中對(duì)數(shù)據(jù)進(jìn)行分析和學(xué)習(xí)的過(guò)程,其次也就是在帶有未知類別標(biāo)簽的數(shù)據(jù)中進(jìn)行歸類和分析。(2)分類方法分類是基于輸入數(shù)據(jù)集的分類模型。常見(jiàn)的系統(tǒng)分類類型示例主要包括有貝葉斯分類器類型分類、決策樹類型分類、基于案例、規(guī)則的分類和基于BP神經(jīng)網(wǎng)絡(luò)的分類等。使用機(jī)器學(xué)習(xí)算法來(lái)獲取模型不僅需要對(duì)輸入的數(shù)據(jù)進(jìn)行良好的融合,而且還需要準(zhǔn)確地對(duì)未知樣本的分類標(biāo)簽進(jìn)行精確預(yù)測(cè)。所以,訓(xùn)練算法的重要目標(biāo)之一就是為了建立一個(gè)具備良好廣度和可擴(kuò)展性的模型。即建立一個(gè)可以正確地預(yù)測(cè)未知樣本類標(biāo)簽的模型。本文將重點(diǎn)分析和討論基于BP神經(jīng)網(wǎng)絡(luò)這種分類法。(1)分類數(shù)據(jù)預(yù)處理分類產(chǎn)生的結(jié)果通常與數(shù)據(jù)本身的特征有關(guān)。有的類別有噪聲,有的類別有空白數(shù)據(jù)值,有的類別分布不緊密,有的類別字段或?qū)傩灾g相關(guān)性較弱,有的類別具有離散屬性,有的類別具有連續(xù)屬性。目前多數(shù)研究結(jié)果認(rèn)為,可以應(yīng)用于具有多種特征的數(shù)據(jù)的方法沒(méi)有唯一性。因此,在分類前對(duì)一些數(shù)據(jù)值進(jìn)行預(yù)處理是非常有必要的。就像廚師做一道紅燒肉,如果不將肉去腥,很難成為美味佳肴。(2)分類模型性能的表示和評(píng)估分類模型性能是評(píng)估分類算法的一個(gè)極其重要的因素REF_Ref17966\r\h[18]。對(duì)于同樣的數(shù)據(jù),采用不同的分類算法可能導(dǎo)致不同的分類結(jié)果。分類模型的性能是指依照該模型所導(dǎo)致的正確或錯(cuò)誤對(duì)預(yù)測(cè)結(jié)果進(jìn)行檢驗(yàn)和記錄來(lái)進(jìn)行評(píng)價(jià)REF_Ref17995\r\h[19]。將正確的結(jié)果和錯(cuò)誤的結(jié)果存放于一個(gè)被稱之為混淆矩陣的列表里面。表里每一表項(xiàng)表示實(shí)際上應(yīng)該為但被錯(cuò)誤地預(yù)測(cè)為類的記錄個(gè)數(shù)。我們可以從矩陣中看出,分類模型錯(cuò)誤地預(yù)測(cè)的數(shù)據(jù)的總數(shù)是,分類模型正確地預(yù)測(cè)的數(shù)據(jù)總數(shù)是表1-1表述二元分類問(wèn)題的混滑矩陣預(yù)測(cè)的類類=1類=0實(shí)際的類類=1類=02植物數(shù)據(jù)集分析本論文主要以鸞尾屬(Iris)植物為例,所以我們要提前知道這個(gè)數(shù)據(jù)的基本信息,比如數(shù)據(jù)特征維數(shù)等等以便后面用BP算法來(lái)分類時(shí)做好準(zhǔn)備。2.1數(shù)據(jù)簡(jiǎn)介本研究數(shù)據(jù)采用于UCI數(shù)據(jù):/ml/index.php。Iris(鸞尾屬)植物數(shù)據(jù)集被收集于20世紀(jì)30年代中期由統(tǒng)計(jì)學(xué)家R.AFisher,它在各國(guó)學(xué)術(shù)界數(shù)據(jù)分類方面應(yīng)用引起了廣泛研究應(yīng)用。數(shù)據(jù)集含有實(shí)例數(shù)150組。包含3個(gè)類,每個(gè)類50個(gè)實(shí)例,一類代表一種植物。每一種植物的屬性信息如下:(1)萼片長(zhǎng)度(厘米);(2)萼片寬度(厘米);(4)花瓣寬度(厘米);(5)類別(IrisSetosa、IrisVersicolour及IrisVirginica)。通常在設(shè)計(jì)分類算法時(shí),一般考慮對(duì)數(shù)據(jù)的前四個(gè)屬性進(jìn)行處理,第五個(gè)屬性作為輸出類型REF_Ref18077\r\h[20]。2.2數(shù)據(jù)分析要用BP算法對(duì)Iris植物進(jìn)行分類,需要對(duì)Iris植物的數(shù)據(jù)集有深入的了解。在本文中,我們討論和分析了Iris的數(shù)據(jù)集,并總結(jié)了與我們將在下一節(jié)研究的分類算法相關(guān)的一些性質(zhì)。眾數(shù)和頻率:分類屬性的眾數(shù)是一個(gè)頻率最高的值。分類屬性通常有少量的值,因此這些值的眾數(shù)和頻率可能是有用的。對(duì)于整個(gè)鳶尾屬植物數(shù)據(jù)集,三種鳶尾花有相同的頻率,如表中所示。如果每種類型的數(shù)據(jù)使用的數(shù)量不同,那么頻率也就會(huì)不同,那么模式就有意義了。表2-1鳶尾屬植物數(shù)據(jù)集中各類型的組數(shù)和頻率類型組數(shù)頻率Setosa50組33%Versicolour50組33%Virginica50組33%可視化分析:可視化指的是用圖形、柱狀圖等多種形式來(lái)表示信息。成功的數(shù)字化可視化就需要把所有的信息都轉(zhuǎn)換為一種可視化的方法來(lái)形式,以用于分析所采用的數(shù)據(jù)的特征,并得出各個(gè)數(shù)據(jù)樣本屬性之間的相關(guān)關(guān)系來(lái)更好地應(yīng)用??梢暬钪匾哪康氖菍?duì)于能看見(jiàn)的信息進(jìn)行解讀,來(lái)形成一個(gè)信息意境模型。圖2-1所有鳶尾花數(shù)據(jù)分布通過(guò)圖2-1,我們可以獲得不少信息,下面以第1種類型的數(shù)據(jù)為例,對(duì)獲得的信息進(jìn)行闡述:第1種類型的平均萼片長(zhǎng)度是3種類型中最小的,萼片平均寬度是3種類型中最大的,萼片的長(zhǎng)度和寬度的形狀相似,有明顯的關(guān)系。萼片大小與花瓣大小無(wú)明顯關(guān)系。2.3性質(zhì)總結(jié)以上幾小節(jié)分別從頻率和眾數(shù)、以及可視化對(duì)植物數(shù)據(jù)集的性質(zhì)分別進(jìn)行了分析,其中和后續(xù)章節(jié)將用來(lái)進(jìn)行數(shù)據(jù)分類的幾個(gè)算法相關(guān)的性質(zhì)主要有以下幾個(gè)方面:(1)每組數(shù)據(jù)有四種屬性,屬性間存在一定的關(guān)系;(2)植物數(shù)據(jù)可以分為三類;(3)一共有150組數(shù)據(jù),每類數(shù)據(jù)個(gè)數(shù)一樣;(4)數(shù)據(jù)的屬性值為連續(xù)的數(shù)值。3基于BP神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)分類3.1神經(jīng)網(wǎng)絡(luò)的基本概念3.1.1BP神經(jīng)網(wǎng)絡(luò)的概述1986年,RomelhartREF_Ref18400\r\h[21]和Mc-clelland提出了一種新型誤差反向前饋傳播算法(ErrorBackPropagationAlgorithm,簡(jiǎn)稱為BP算法),這種誤差反向傳播算法常被廣泛應(yīng)用于對(duì)一個(gè)多層次的誤差前饋處理網(wǎng)絡(luò)的系統(tǒng)設(shè)計(jì)和智能訓(xùn)練。BP網(wǎng)絡(luò)在眾多的智能神經(jīng)網(wǎng)絡(luò)處理模型中已經(jīng)能夠得到的廣泛應(yīng)用最為廣泛,尤其特別是在模式識(shí)別自動(dòng)分類、系統(tǒng)自動(dòng)仿真、智能網(wǎng)絡(luò)故障自動(dòng)識(shí)別診斷、圖像信號(hào)處理、函數(shù)與模擬數(shù)組合等多個(gè)領(lǐng)域REF_Ref19608\r\h[22]。人工神經(jīng)網(wǎng)絡(luò)(ANN)是從模仿生物大腦結(jié)構(gòu)及其功能等角度創(chuàng)造和設(shè)計(jì)的一個(gè)信息系統(tǒng)。生物神經(jīng)元接收傳入刺激后,其響應(yīng)由與輸出端相關(guān)的其他神經(jīng)元進(jìn)行轉(zhuǎn)化,輸入與輸出神經(jīng)元之間的轉(zhuǎn)換關(guān)系通常是非線性的。它從信息處理角度對(duì)人腦神經(jīng)元網(wǎng)絡(luò)進(jìn)行抽象,建立某種簡(jiǎn)單模型,按不同的連接方式組成不同的網(wǎng)絡(luò)REF_Ref19687\r\h[23]。它既可以表示、存儲(chǔ)和處理信息,又具有學(xué)習(xí)和推理功能。神經(jīng)元是位于人體大腦中可以同時(shí)處理各種信息的基本單位。它以細(xì)胞體為基礎(chǔ)和主體,由許多不規(guī)則的樹突狀纖維組織擴(kuò)散延伸到周圍的神經(jīng)細(xì)胞。它的整體外觀形狀像一棵樹的一個(gè)樹干。它主要由絲狀細(xì)胞體、樹突、軸突及突觸等部分組成。如圖3.1所示。圖3.1生物神經(jīng)元信息的信號(hào)處理與信號(hào)傳遞主要過(guò)程發(fā)生在突觸附近。例如,當(dāng)一個(gè)神經(jīng)元的細(xì)胞體電位通過(guò)軸突到達(dá)突觸前內(nèi)膜時(shí),其中的脈沖幅度達(dá)到一定強(qiáng)度,即脈沖電位高于其閾值后,突觸前膜自然地會(huì)釋放一些神經(jīng)元傳遞的化學(xué)物質(zhì)到突觸間隙。3.1.2BP神經(jīng)網(wǎng)絡(luò)基本原理BP(BackPropagation)神經(jīng)網(wǎng)絡(luò),是由輸入層、中間層和輸出層組成的神經(jīng)網(wǎng)絡(luò)REF_Ref15699\r\h[6]。隱含層可以擴(kuò)展成為多個(gè)層。每層神經(jīng)元之間沒(méi)有任何連接,但相鄰層的所有神經(jīng)元全都是互相連接的。網(wǎng)絡(luò)學(xué)習(xí)是以有教師指導(dǎo)的方式進(jìn)行的REF_Ref2913\r\h[24]。每一層神經(jīng)元狀態(tài)只影響下一層神經(jīng)元狀態(tài)。BP神經(jīng)網(wǎng)絡(luò)的主要有兩個(gè)階段:學(xué)習(xí)階段和工作階段。學(xué)習(xí)階段:輸入學(xué)習(xí)樣本,每個(gè)神經(jīng)元獲得網(wǎng)絡(luò)的一個(gè)輸入響應(yīng)并生成連接權(quán)值。然后,權(quán)值然后在反向傳播中根據(jù)訓(xùn)練數(shù)據(jù)(訓(xùn)練過(guò)程中的計(jì)算值)和輸出數(shù)據(jù)(訓(xùn)練想要達(dá)到的真實(shí)值)之間的差異進(jìn)行修改。這個(gè)過(guò)程交替重復(fù),直到訓(xùn)練數(shù)據(jù)和輸出數(shù)據(jù)的差異滿足訓(xùn)練精度,即學(xué)習(xí)過(guò)程完成。在經(jīng)過(guò)大量地學(xué)習(xí)樣本訓(xùn)練后,網(wǎng)絡(luò)中每一層神經(jīng)元之間的權(quán)值都被固定下來(lái),此時(shí)就進(jìn)行到下一個(gè)階段,即工作周期。每一層神經(jīng)元狀態(tài)只影響下一層神經(jīng)元狀態(tài)。在此操作期間只有輸入信息的前向方式傳播,根據(jù)上述神經(jīng)元模型的工作過(guò)程計(jì)算正向傳播。因此,BP網(wǎng)絡(luò)計(jì)算的關(guān)鍵是誤差反向傳播過(guò)程REF_Ref20049\r\h[25]。下面介紹BP網(wǎng)絡(luò)的基本學(xué)習(xí)流程和步驟。在介紹之前,首先說(shuō)明了每個(gè)符號(hào)的基本形式和意義。如表3-1所示表3-1符號(hào)的基本形式和意義BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)期的步驟如下:(1)首先初始化,根據(jù)系統(tǒng)輸入輸出設(shè)置恰當(dāng)?shù)木W(wǎng)絡(luò)架構(gòu),設(shè)置合理的可調(diào)性參數(shù)。(2)隨機(jī)選一組輸入和目標(biāo)樣本、。(3)隱含層輸出計(jì)算:首先利用輸入樣本、輸入層至隱層的連接權(quán)值和隱層各單元的輸出閾值計(jì)算隱層各單元的輸入,然后用通過(guò)通過(guò)信號(hào)傳遞函數(shù)計(jì)算隱層各單元的輸出。公式(3-1)公式(3-2)其中是隱含層激勵(lì)函數(shù),有多種表達(dá)形式,常見(jiàn)選單元j的激勵(lì)函數(shù)為:公式(3-3)(4)輸出計(jì)算:首先利用隱層輸出,隱層至輸出層連接權(quán)值和閾值計(jì)算輸出層各單元的輸入響應(yīng),然后通過(guò)傳遞函數(shù)計(jì)算輸出層各單元的響應(yīng)輸出層各單元的輸入公式(3-4)輸出層各單元的輸出公式(3-5)(5)誤差計(jì)算:利用目標(biāo)向量,網(wǎng)絡(luò)輸出,計(jì)算輸出方差為誤差公式(3-6)其中q為網(wǎng)絡(luò)輸出端個(gè)數(shù),設(shè)訓(xùn)練集中樣本的總數(shù)為m個(gè),則網(wǎng)絡(luò)的系統(tǒng)均方差公式為:公式(3-7)權(quán)值的修改應(yīng)該使或最小,當(dāng)輸入時(shí),與()成正比,即公式(3-8)又可以寫為公式(3-9)由式(3-4)可得公式(3-10)令,經(jīng)推導(dǎo)得出輸出層的誤差和修正增量為公式3-11)公式(3-12)(6)計(jì)算隱層各個(gè)單元之間的誤差和修正后的增量公式(3-13)公式(3-14)(7)權(quán)值、閾值更新:和公式(3-15)修正權(quán)值和公式(3-16)(8)返回步驟(3),計(jì)算新的連接權(quán)值和閾值,直到m個(gè)訓(xùn)練樣本訓(xùn)練完成。(9)直到網(wǎng)絡(luò)輸出誤差達(dá)到要求。學(xué)習(xí)結(jié)束。若沒(méi)有結(jié)束,返回步驟(3)一般學(xué)習(xí)算法結(jié)束后,要檢驗(yàn)一下訓(xùn)練的網(wǎng)絡(luò)性能。測(cè)試的一種方法是選取測(cè)試集數(shù)據(jù),將其輸入到網(wǎng)絡(luò),檢查這個(gè)網(wǎng)絡(luò)對(duì)它們分類的正確性能是否達(dá)標(biāo)。3.1.3BP神經(jīng)網(wǎng)絡(luò)的特點(diǎn)(1)分布式存儲(chǔ)信息神經(jīng)網(wǎng)絡(luò)將思維信息直接存儲(chǔ)在神經(jīng)網(wǎng)絡(luò)中,這種存儲(chǔ)方法和我們傳統(tǒng)的現(xiàn)代計(jì)算機(jī)網(wǎng)絡(luò)思維分析方法有所區(qū)別。神經(jīng)網(wǎng)絡(luò)通過(guò)大量的不同神經(jīng)元之間創(chuàng)建一個(gè)新的自適應(yīng)網(wǎng)絡(luò)連接和每一個(gè)相互連接的神經(jīng)權(quán)值之間進(jìn)行相互分配表示特有的信息REF_Ref20144\r\h[26]。(2)自適應(yīng)性它包括四種意義:自學(xué)習(xí)、自組織、泛化和訓(xùn)練。是用來(lái)描述神經(jīng)網(wǎng)絡(luò)自身的自我調(diào)控能力.(3)聯(lián)想記憶功能在進(jìn)行神經(jīng)網(wǎng)絡(luò)的訓(xùn)練時(shí),將需要被記憶的模式給到輸入端,網(wǎng)絡(luò)就可以通過(guò)這個(gè)模式學(xué)習(xí)到需要被記憶的全部輸入信息,會(huì)適當(dāng)?shù)卣{(diào)整其在網(wǎng)絡(luò)中的權(quán)值。(4)自動(dòng)提取特征參數(shù)從一定程度上來(lái)講,神經(jīng)網(wǎng)絡(luò)本身的自學(xué)習(xí)功能就是對(duì)特征提取的一個(gè)實(shí)現(xiàn)。經(jīng)過(guò)適當(dāng)?shù)呐嘤?xùn)和學(xué)習(xí),可以自動(dòng)地提取外部輸入信息的基本特性,確定因果關(guān)系。(5)魯棒性(容錯(cuò)性)由于這種神經(jīng)網(wǎng)絡(luò)是充分利用了信息,即便網(wǎng)絡(luò)中一部分被損壞或外部的信息部分被遺漏,也不會(huì)直接影響到整個(gè)系統(tǒng)的性能,因此它具有比其他傳統(tǒng)計(jì)算機(jī)更高的抗摧毀性。3.1.4BP神經(jīng)網(wǎng)絡(luò)的局限性(1)收斂速度慢梯度下降算法對(duì)于進(jìn)行學(xué)習(xí)所需要求的學(xué)習(xí)率相對(duì)較小,算法需要不斷的調(diào)整各層之間的權(quán)值閾值,會(huì)導(dǎo)致收斂的速度較慢。(2)易陷于局部最小它雖然只需要能夠保證讓一個(gè)網(wǎng)絡(luò)空間中的一個(gè)權(quán)值被完全收斂化并得到一個(gè)新的解,但是卻無(wú)法明確保證其中的一個(gè)解是否應(yīng)該僅僅是一個(gè)全局最小化的解,很多時(shí)有可能就是一個(gè)局部最小化的解。對(duì)于復(fù)雜的網(wǎng)絡(luò),誤差函數(shù)表面非常復(fù)雜,像一個(gè)碗,最低點(diǎn)在底部。但是碗的表面是不平整的,表層的凹點(diǎn)即為極小值。網(wǎng)絡(luò)會(huì)從某個(gè)起點(diǎn)訓(xùn)練,訓(xùn)練沿著誤差函數(shù)的斜坡慢慢達(dá)到最小誤差。每一個(gè)方向上這一點(diǎn)的變化都增加了誤差,使得訓(xùn)練無(wú)法擺脫局部極小值。(3)較難選擇隱層參數(shù)設(shè)置隱層神經(jīng)元的數(shù)目也是一個(gè)比較麻煩的問(wèn)題。如果增加隱層的神經(jīng)元個(gè)數(shù),解決非線性問(wèn)題時(shí)更加準(zhǔn)確,但是可能耗時(shí)更加長(zhǎng),最后的結(jié)果可能會(huì)不太好;另一方面,如果隱層神經(jīng)元個(gè)數(shù)較少,最后的網(wǎng)絡(luò)訓(xùn)練結(jié)果精度也不太好。需要不斷的調(diào)試才能選取最佳。3.2BP神經(jīng)網(wǎng)絡(luò)在植物數(shù)據(jù)分類中的應(yīng)用應(yīng)用BP網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)分類,有三個(gè)過(guò)程,如圖3-2所示。圖3-2應(yīng)用BP神經(jīng)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)分類3.2.1神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)與設(shè)計(jì)BP網(wǎng)絡(luò)的設(shè)計(jì)內(nèi)容主要包括:輸入層、輸出層三個(gè)層的節(jié)點(diǎn)層數(shù);隱層數(shù)及隱層的節(jié)點(diǎn)層數(shù);各個(gè)層之間的傳輸函數(shù)。輸入輸出層節(jié)點(diǎn)的確定:待分類數(shù)據(jù)的特征維數(shù)就是輸入層節(jié)點(diǎn)數(shù),待分類數(shù)據(jù)的種類數(shù)就是輸出層的節(jié)點(diǎn)數(shù)。隱藏層和隱藏層節(jié)點(diǎn)的數(shù)目設(shè)計(jì):Hornik等人證明了只有一個(gè)非線性隱層的前饋網(wǎng)絡(luò)可以以任何復(fù)雜度和精度逼近函數(shù)。在BP網(wǎng)絡(luò)的設(shè)計(jì)中我參考了這一點(diǎn)REF_Ref20144\r\h[26]。設(shè)置BP網(wǎng)絡(luò)為三個(gè)層,即一個(gè)隱藏層。如果隱層神經(jīng)元數(shù)量太小,訓(xùn)練不出適當(dāng)?shù)木W(wǎng)絡(luò),不能確定樣本是否未見(jiàn)過(guò),容錯(cuò)性較差;然而,如果數(shù)量太大,可能導(dǎo)致學(xué)習(xí)時(shí)間過(guò)長(zhǎng),誤差不一定是最好的,所以設(shè)計(jì)時(shí)必須綜合很多因素。對(duì)于用于模式識(shí)別/分類的BP網(wǎng)絡(luò),根據(jù)以往的實(shí)例經(jīng)驗(yàn),參照以下公式進(jìn)行設(shè)計(jì):式中:;;;a之間的整數(shù)。本文采用了BP神經(jīng)網(wǎng)路參數(shù)設(shè)置函數(shù)newff。對(duì)該函數(shù)的使用說(shuō)明如下:net=newff(P,T,S,TF,BTF,BLF,PF,IPF,OPF,DDF)其中,函數(shù)功能:構(gòu)建一個(gè)BP神經(jīng)網(wǎng)絡(luò);P:輸入數(shù)據(jù)矩陣;T:輸出數(shù)據(jù)矩陣;S:隱含層節(jié)點(diǎn)數(shù);表3-2節(jié)點(diǎn)傳輸函數(shù)TFtansiglogsig線性函數(shù)purelin表達(dá)式BTF:BP網(wǎng)絡(luò)的訓(xùn)練函數(shù),可分為traingdm,traingbr,trainlm,trainrp,trainscg,如表3-2所示。表3-3BP網(wǎng)絡(luò)的訓(xùn)練函數(shù)traingdm動(dòng)量BP算法來(lái)修正網(wǎng)絡(luò)的權(quán)值和閾值trainbr貝葉斯標(biāo)準(zhǔn)反向傳播算法trainlmLevenberg-Marquardt算法的變梯度反向傳播算法trainrp有彈回的BP算法trainscg比例共軛梯度算法BLF:學(xué)習(xí)函數(shù),用于調(diào)整修改權(quán)值和閾值,包括BP學(xué)習(xí)規(guī)則learngd和帶動(dòng)量項(xiàng)的BP學(xué)習(xí)規(guī)則learngdm。PF:性能分析函數(shù)。他們包括mse、mae。表3-4性能分析函數(shù)mse是均方誤差性能函數(shù)mae均值絕對(duì)誤差性能分析函數(shù)網(wǎng)絡(luò)構(gòu)建完成后,就開(kāi)始對(duì)網(wǎng)絡(luò)進(jìn)行訓(xùn)練。通過(guò)不斷調(diào)整權(quán)值、偏差和隱層神經(jīng)元的個(gè)數(shù),使訓(xùn)練網(wǎng)絡(luò)的識(shí)別率達(dá)到最高。經(jīng)過(guò)反復(fù)調(diào)試程序,最終的網(wǎng)絡(luò)模型如下(調(diào)試函數(shù)時(shí)將函數(shù)改變)net=newff(inputn,outputn_train,hiddennum,{'tansig','purelin'},'trainlm');訓(xùn)練函數(shù)為:[net,tr]=train(net,inputn,outputn_train);3.2.2神經(jīng)網(wǎng)絡(luò)的訓(xùn)練網(wǎng)絡(luò)訓(xùn)練時(shí)具體參數(shù)設(shè)置如下:輸入層為4層神經(jīng)元、輸出層為3層神經(jīng)元、隱含層為單層結(jié)構(gòu)、隱含層為8層神經(jīng)元。隱層的節(jié)點(diǎn)傳遞函數(shù)為tansig,輸出層的節(jié)點(diǎn)傳遞函數(shù)為purelin,BP網(wǎng)絡(luò)的訓(xùn)練函數(shù)為trainlm,訓(xùn)練函數(shù)有關(guān)參數(shù)設(shè)置如表3-4所示參數(shù)net.trainParam.lrnet.trainParam.epochsnet.trainParam.goalnet.trainParam.min_grad數(shù)值(默認(rèn))0.110000.000011e-6參數(shù)意義學(xué)習(xí)率最大訓(xùn)練次數(shù)訓(xùn)練最小精度誤差曲面最小梯度表3-5訓(xùn)練函數(shù)有關(guān)參數(shù)設(shè)置本次設(shè)計(jì)要識(shí)別的Iris種類分為3類,使用的數(shù)據(jù)有150組,每類50組,將數(shù)據(jù)以比例2比1分為訓(xùn)練樣品和測(cè)試樣品。先將這些數(shù)據(jù)進(jìn)行了預(yù)處理(從UCI下載后的數(shù)據(jù)最后一列是英文的種類,如果直接在MATLAB中用load函數(shù),則會(huì)導(dǎo)致出錯(cuò)),然后對(duì)處理好的數(shù)據(jù)進(jìn)行特征提取,對(duì)花萼片的長(zhǎng)度、花萼片的寬度、花瓣的長(zhǎng)度、花瓣的寬度四個(gè)特征提取。最終的算法流程圖如圖3-1所示:圖3-1BP數(shù)據(jù)分類算法流程3.2.3識(shí)別與結(jié)果分析從UCI數(shù)據(jù)庫(kù)中下載數(shù)據(jù)集,為了方便查看結(jié)果,將數(shù)據(jù)集原來(lái)英文字符的分類分別設(shè)定為“0”、“1”、“2”這3類。然后將數(shù)據(jù)先進(jìn)行歸一化(歸一化的作用是消除每個(gè)樣本數(shù)據(jù)的不同指標(biāo)的數(shù)量級(jí)的影響),這樣均將數(shù)據(jù)映射到[0,1]范圍內(nèi),方便與原來(lái)已知的結(jié)果進(jìn)行對(duì)照。具體實(shí)驗(yàn)結(jié)果如下所示。編寫程序后,改變其中一個(gè)參數(shù),其余的參數(shù)不變,這樣才能準(zhǔn)確了解各個(gè)參數(shù)的影響。不同隱層節(jié)點(diǎn)數(shù)訓(xùn)練測(cè)試結(jié)果如下:圖3-21000個(gè)隱含層節(jié)點(diǎn)測(cè)試集準(zhǔn)確率圖3-310個(gè)隱含層節(jié)點(diǎn)測(cè)試集準(zhǔn)確率圖3-48個(gè)隱含層節(jié)點(diǎn)測(cè)試集準(zhǔn)確率圖3-56個(gè)隱含層節(jié)點(diǎn)測(cè)試集準(zhǔn)確率圖3-63個(gè)隱含層節(jié)點(diǎn)測(cè)試集準(zhǔn)確率表3-6不同隱層節(jié)點(diǎn)數(shù)訓(xùn)練測(cè)試結(jié)果隱層節(jié)點(diǎn)數(shù)368101000測(cè)試集正確率%92989896 88上表說(shuō)明,隱含層節(jié)點(diǎn)數(shù)增加到6個(gè)以后,測(cè)試集的正確率基本在96%以上,再增加隱含層節(jié)點(diǎn)數(shù)不再使最后的準(zhǔn)確率提高;而隱層節(jié)點(diǎn)過(guò)多又會(huì)影響網(wǎng)絡(luò)訓(xùn)練的效果。因此最佳隱含層節(jié)點(diǎn)數(shù)為8個(gè)。BP訓(xùn)練函數(shù)采用不同算法得到的測(cè)試結(jié)果如下:圖3-7BP訓(xùn)練函數(shù)用trainlm的測(cè)試集正確率圖3-8BP訓(xùn)練函數(shù)采用trainbr的測(cè)試集正確率圖3-9BP訓(xùn)練函數(shù)采用trainrp的測(cè)試集正確率圖3-10BP訓(xùn)練函數(shù)采用trainscg的測(cè)試集正確率圖3-11BP訓(xùn)練函數(shù)采用trainscg的測(cè)試集正確率表3-7不同BP訓(xùn)練函數(shù)訓(xùn)練測(cè)試結(jié)果訓(xùn)練函數(shù)trainlmtrainbrtrainrptrainscgtraingdm正確率%9894969680時(shí)間/s2.892.934.326.766.88從上比較可以得出不同的BP訓(xùn)練函數(shù)訓(xùn)練的效果差別較大,使用trainlm訓(xùn)練最后的測(cè)試集正確率最好;其次是trainscg,正確率與前者幾乎相同,但是訓(xùn)練的時(shí)間較長(zhǎng)。trainbr和traingdm算法相對(duì)較差。LM算法對(duì)于中等規(guī)模(高達(dá)數(shù)百個(gè)權(quán)值)的前饋神經(jīng)網(wǎng)絡(luò)幾乎是最快的,。如果網(wǎng)絡(luò)太大,內(nèi)存可能不夠。此時(shí),可以嘗試trainscg函數(shù)和trainrp函數(shù)。不同節(jié)點(diǎn)傳輸函數(shù)組合的測(cè)試結(jié)果如下圖所示:圖3-7Tansig+purelin節(jié)點(diǎn)傳輸函數(shù)組合測(cè)試集正確率圖3-8Purelin+purelin節(jié)點(diǎn)傳輸函數(shù)組合測(cè)試集正確率圖3-9Tansig+Tansig節(jié)點(diǎn)傳輸函數(shù)組合測(cè)試集正確率圖3-10Purelin+Tansig節(jié)點(diǎn)傳輸函數(shù)組合測(cè)試集正確率表3-8不同節(jié)點(diǎn)傳輸函數(shù)訓(xùn)練測(cè)試結(jié)果傳輸函數(shù)組合Tansig+purelinPurelin+purelinTansig+TansigPurelin+Tansig正確率%98909696由上表的分析我們可以清晰地看到利用tansig函數(shù)進(jìn)行組合出來(lái)的網(wǎng)絡(luò)正確率相對(duì)較高,并且將tansig函數(shù)放在線性函數(shù)的前面,訓(xùn)練結(jié)果更好。隱層和輸出層的節(jié)點(diǎn)傳遞函數(shù)的選擇不同,就會(huì)對(duì)正確率的影響不同。通常隱層節(jié)點(diǎn)傳遞函數(shù)選用tansig函數(shù),輸出層選用purelin函數(shù)。綜合所述。最終我運(yùn)行的程序選取傳輸函數(shù)組合為Tansig+purelin,BP網(wǎng)絡(luò)訓(xùn)練函數(shù)為trainlm,網(wǎng)絡(luò)結(jié)構(gòu)為4——8——3,最終結(jié)果如下所示:圖3-11神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)圖

圖3-12訓(xùn)練集預(yù)測(cè)準(zhǔn)確率圖3-13測(cè)試集預(yù)測(cè)準(zhǔn)確率圖3-14訓(xùn)練誤差曲線圖3-15回歸曲線圖3-16訓(xùn)練狀態(tài)曲線訓(xùn)練誤差曲線(MSE)由結(jié)果圖可知當(dāng)訓(xùn)練迭代到大約前10代的時(shí),曲線收斂較快。但過(guò)了10代后,均方差趨于平穩(wěn)。直到過(guò)了15代,曲線再次下降訓(xùn)練,到24代誤差達(dá)到目標(biāo)值(0.00001),則停止訓(xùn)練。此時(shí)誤差基本為0.由于BP網(wǎng)絡(luò)易于陷入局部最優(yōu),所以對(duì)該網(wǎng)絡(luò)進(jìn)行訓(xùn)練所得結(jié)果不盡相同。但是就均方差曲線來(lái)說(shuō),基本上在10代前左右曲線收斂較快。這說(shuō)明訓(xùn)練代數(shù)少于10很有可能處于欠擬合狀態(tài)。訓(xùn)練狀態(tài)曲線gradient是誤差面的梯度。當(dāng)梯度達(dá)到一定值時(shí),就可以完成訓(xùn)練。迭代到24時(shí),值約為0.0021。變量mu決定學(xué)習(xí)是按照牛頓法還是梯度法進(jìn)行。隨著Mu的增加,學(xué)習(xí)過(guò)程主要根據(jù)梯度減小。只要迭代增加誤差,mu就會(huì)增加,直到誤差不再增加為止,但如果mu太大,學(xué)習(xí)就會(huì)停止,當(dāng)出現(xiàn)最小誤差時(shí)才會(huì)停止。4總結(jié)與展望綜上所述,本文所嘗試的利用BP神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)植物分類的識(shí)別問(wèn)題時(shí)是切實(shí)可行的,并且具有較高的準(zhǔn)確率。對(duì)植物分類的識(shí)別是基于植物的幾個(gè)形態(tài)特征進(jìn)行的,而不是僅僅從樹葉REF_Ref20281\r\h[27]等單一形態(tài)特征入手。這樣有利于使用者從多方面識(shí)別植物,拓寬了原始數(shù)據(jù)的單一性,而且提高了識(shí)別的準(zhǔn)確度。本文的訓(xùn)練結(jié)果是基于對(duì)同一個(gè)科內(nèi)的不同種對(duì)應(yīng)的樣本進(jìn)行的,如果將樣本的數(shù)據(jù)來(lái)源擴(kuò)大到所有科的所有種,那么網(wǎng)絡(luò)對(duì)其的“識(shí)別”準(zhǔn)確率應(yīng)該會(huì)更高,因?yàn)閬?lái)自不同科的種間的特征差異是非常顯著的。如果將植物的特征輸入個(gè)數(shù)增加到十幾個(gè)的話,則樣本數(shù)據(jù)將需要上萬(wàn)個(gè),這樣在確保準(zhǔn)確率不降低的情況下,我們可以把中國(guó)的整個(gè)高等植物個(gè)種全部囊括進(jìn)來(lái)加以識(shí)別,這樣就可以更加的完善該系統(tǒng),全面實(shí)現(xiàn)植物識(shí)別的數(shù)據(jù)化。因?yàn)槟芰Φ牟蛔阒帲瑳](méi)有將BP神經(jīng)網(wǎng)絡(luò)模型與其他神經(jīng)網(wǎng)絡(luò)模型進(jìn)行橫向比較應(yīng)用;沒(méi)有囊括我國(guó)多種高等植物的全部識(shí)別。若以后有機(jī)會(huì),下一步將繼續(xù)研究在確保準(zhǔn)確率不降低的基礎(chǔ)上合理設(shè)計(jì)、規(guī)劃BP神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),增加網(wǎng)絡(luò)的輸入單元數(shù),將更多植物種群的數(shù)據(jù)納入BP神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)中,同時(shí)與其它的神經(jīng)網(wǎng)絡(luò)模型做橫向比較,對(duì)BP神經(jīng)網(wǎng)絡(luò)識(shí)別系統(tǒng)進(jìn)行優(yōu)化,建立一套快速、方便、準(zhǔn)確、科學(xué)、穩(wěn)定的識(shí)別檢索系統(tǒng),全面實(shí)現(xiàn)植物檢索的數(shù)據(jù)化,在此基礎(chǔ)上將該識(shí)別技術(shù)應(yīng)有于其他方面諸如:生物、醫(yī)學(xué)、國(guó)防等方面,這將進(jìn)一步推動(dòng)該技術(shù)的向前發(fā)展。參考文獻(xiàn)王曉峰,黃德雙,杜吉祥,張國(guó)軍.葉片圖像特征提取與識(shí)別技術(shù)的研究[J].計(jì)算機(jī)工程與應(yīng)用,2006(03):190-193.杜吉祥.植物物種機(jī)器識(shí)別技術(shù)的研究[D].中國(guó)科學(xué)技術(shù)大學(xué),2005.聞新.智能故障診斷技術(shù)[M].北京航空航天大學(xué)出版社,2015.王旭.神經(jīng)網(wǎng)絡(luò)在來(lái)波到達(dá)角估計(jì)中的應(yīng)用研究[D].江蘇科技大學(xué),2012.阮秀凱.現(xiàn)代無(wú)線通信系統(tǒng)盲處理技術(shù)新進(jìn)展:基于智能算法[M].復(fù)旦大學(xué)出版社,2015.周開(kāi)利.神經(jīng)網(wǎng)絡(luò)模型及其MATLAB仿真程序設(shè)計(jì)[M].清華大學(xué)出版社,2005.劉曙光,董行,婁廈,DORZHIEVNARadnaevaLarisa,NIKITINAElena.基于隨機(jī)森林特征變量?jī)?yōu)化的濕地植物分類與密度反演[J].同濟(jì)大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,49(05):695-704.王路,張蕾,周彥軍,等.基于LVQ神

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒(méi)有圖紙預(yù)覽就沒(méi)有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論