版權說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權,請進行舉報或認領
文檔簡介
第1章神經(jīng)網(wǎng)絡基礎知識1.1人工神經(jīng)網(wǎng)絡的發(fā)展史1.2生物神經(jīng)元和人工神經(jīng)元1.3生物神經(jīng)網(wǎng)絡和人工神經(jīng)網(wǎng)絡
1.1人工神經(jīng)網(wǎng)絡的發(fā)展史
人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetwork,簡稱ANN或AN2)是由大量而又簡單的神經(jīng)元按某種方式連接形成的智能仿生動態(tài)網(wǎng)絡,它是在不停頓地向生物神經(jīng)網(wǎng)絡(BiologicalNeuralNetwork,簡稱BNN或BN2)學習中開始自己學科生涯的。
BN2作為一門科學,興起于19世紀末期。1875年意大利解剖學家Golgi用染色法最先識別出單個神經(jīng)細胞。1889年西班牙解剖學家Cajal創(chuàng)立神經(jīng)元學說,該學說認為:神經(jīng)元的形狀呈兩極,細胞體和樹突可以接受其他神經(jīng)元的沖動,軸索的功能是向遠離細胞體的方向傳遞信號。
1943年,法國心理學家W.S.McCuloch和W.Pitts在分析、綜合神經(jīng)元基本特征的基礎上,提出了第一個神經(jīng)元數(shù)學模型(M-P模型),開創(chuàng)了人類自然科學技術史上的一門新型學科——AN2的研究。從1943年到現(xiàn)在,半個多世紀過去了,AN2的發(fā)展歷經(jīng)波折,頗具戲劇性。今天,當神經(jīng)網(wǎng)絡和神經(jīng)計算機已經(jīng)發(fā)展成為一門多學科領域的邊緣交叉學科的時候,當傳統(tǒng)的智能學科,如人工智能、知識工程、專家系統(tǒng)等也需要發(fā)展而把目光轉向AN2的時候,如實地介紹AN2當前面臨的難題,客觀地評價AN2的應用成果,探討AN2研究的突破口,都是極有益處的。1.1.120世紀40年代——神經(jīng)元模型的誕生
1943年提出的M-P模型采用神經(jīng)節(jié)概念,把神經(jīng)元看做雙態(tài)開關,利用布爾邏輯函數(shù)對神經(jīng)過程進行數(shù)學模擬。這個模型不僅沿用到今天,而且其創(chuàng)建方式一直啟發(fā)后人發(fā)揚
并貫穿至今,直接影響了這一領域研究的全過程。
1948年,JohnVonNeumann(指令存儲式電子計算機以他的名字馮·諾依曼命名)研究比較過人腦結構和指令存儲式計算機的聯(lián)系與區(qū)別,提出以簡單神經(jīng)元構成自再生自動機
網(wǎng)絡。
1949年,心理學家D.O.Hebb提出神經(jīng)元群、突觸和返響回路的概念。他根據(jù)心理學中條件反射基理,研究AN2中合適的學習方式,探討了神經(jīng)細胞間連接強度的變化規(guī)律,
概括成著名的Hebb學習法則:如果兩個神經(jīng)元都處于興奮激活狀態(tài),那么彼此的突觸連接權就會得到增強。40年后,有人指出了Hebb法則的局限性。1.1.220世紀50年代——從單神經(jīng)元到單層網(wǎng)絡,形成第一次熱潮
1958年,F(xiàn).RoSenblatt提出具有學習能力的“感知機”模型,完成了從單個神經(jīng)元到三層神經(jīng)網(wǎng)絡的過渡。
原型感知機由感知層S、連接層A和反應層R等三層構成,由于從感知層S到連接層A的連接權固定,從連接層A到反應層R的連接權具有因學習而變化的能力,因此它實質(zhì)上只是一種只有輸入層和輸出層的單層神經(jīng)網(wǎng)絡。這種模型以強化控制系統(tǒng)作為“教師”信號指導網(wǎng)絡開展學習,首次把理論探討付諸工程實踐,引起人們廣泛注意并廣為效仿。世界上許多實驗室都仿制感知機用于文字識別、聲音識別、聲納信號識別及學習記憶。1.1.320世紀60年代——學習多樣化和AN2的急劇冷落
1960年,Widrow和Hoff提出自適應線性元Adaline(adaptivelinearelement)網(wǎng)絡,這是在當時研究大腦自適應學習系統(tǒng)的基礎上提出的單層前饋感知機模型。它使用的均方誤差最小化算法與感知器的誤差修正算法雖然形式上相同,但閾值符號發(fā)生了改變,使得兩者的學習有著本質(zhì)的區(qū)別:前者的數(shù)學基礎在于超平面位置調(diào)整,后者的數(shù)學基礎在于誤差曲面上的梯度下降。20多年以后,人們發(fā)現(xiàn)Widrow的這些理論成了神經(jīng)學習系統(tǒng)的基本法則。
1961年,Caianiello發(fā)表了關于神經(jīng)網(wǎng)絡數(shù)學的理論著作,提出了神經(jīng)元方程,用布爾代數(shù)模擬機能的動力過程、分析并研制細胞有限自動機的理論模型。
1969年,美國人工智能學家M.Minsky和S.Papert出版了《Perceptrons》(感知機)一書,證明了單層神經(jīng)網(wǎng)絡甚至不能解決像“異或”這種簡單運算問題,并且不能訓練已發(fā)現(xiàn)的許多模式。甚至還有觀點認為:把感知機擴展成多層裝置是沒有意義的。由于人工智能的巨大成就以及作者的權威和影響很大,使神經(jīng)網(wǎng)絡沿感知機方向的發(fā)展急劇降溫。1.1.420世紀70年代——在低迷中頑強地發(fā)展
AN2出現(xiàn)低潮的原因有三個:第一,VonNeumann型計算機的發(fā)展處于鼎盛時期,運算速度和存儲容量日益提高,軟件需求日益增多,人們誤以為發(fā)展了計算機的硬件及軟件
就可以完成模擬人類的認知過程;第二,單層神經(jīng)網(wǎng)絡功能有限;第三,多層神經(jīng)網(wǎng)絡沒有有效的學習算法。在研究基金銳減、大批研究人員轉向的情況下,仍然有少數(shù)具有遠見卓識的學者堅持不懈地持續(xù)研究工作。資料表明,在這十幾年內(nèi)提出的各類神經(jīng)網(wǎng)絡模型與20世紀五六十年代相比,種類還要繁多,結構還要復雜,性能還要完善。其中最主要的功能模型是聯(lián)想記憶模型、認知模型和競爭性模型,例如Kohonen于1981年提出的具有競爭機制的自組織特征映射(SOM)網(wǎng)絡。1.1.520世紀80年代——AN2研究熱潮再度興起
1982年,美國加州理工學院生物物理學家Hopfield采用全互連型神經(jīng)網(wǎng)絡模型,應用能量函數(shù)的概念,成功地解決了數(shù)字電子計算機不善于解決的經(jīng)典人工智能難題——旅行商最優(yōu)路徑(TSP)問題,這是AN2研究史上一次重大突破,引起了全世界的極大關注。各國學者紛紛跟隨其后介入神經(jīng)網(wǎng)絡領域。
1983年,Sejnowski和Hinton提出了“隱單元”概念,推出大規(guī)模并行處理的Boltzmann機,使用多層神經(jīng)網(wǎng)絡并行分布改變各單元連接權,克服了單層網(wǎng)絡的局限性,為神經(jīng)網(wǎng)絡進入非線性處理領域奠定了基礎。隨后,F(xiàn)ukushima將單層感知機增加了隱層,通過抑制性反饋和興奮性前饋作用實現(xiàn)自組織學習,從而使多層感知機實現(xiàn)了聯(lián)想學習和模式分類識別。為了給AN2的發(fā)展掃清障礙,徹底清除人們對多層感知機網(wǎng)絡的疑點,1986年,Rumelhart和McClelland提出多層前饋網(wǎng)絡的反傳學習算法,簡稱BP算法,該算法從后往前修正各層之間的連接權,否定了1969年對多層網(wǎng)絡的錯誤結論。自那以后到現(xiàn)在,BP算法成為應用最廣、研究最多、發(fā)展最快的算法。
1987年6月21日至24日,第一屆世界神經(jīng)網(wǎng)絡會議在美國SanDiego市召開,標志著AN2研究已遍及全世界。從1988年到現(xiàn)在,學術活動、研究機構、專著、專刊越來越
多,有敏銳洞察力的其他學科學術雜志也紛紛大量刊登AN2的研究文章。1.1.620世紀90年代——再現(xiàn)熱潮,產(chǎn)生許多邊緣交叉學科
進入20世紀90年代后,AN2的各類模型已達幾十種,與之相伴的是大量出現(xiàn)的邊緣交叉學科。其中形成的主要學科有以下幾種。
1)腦科學和神經(jīng)生理科學
人們已不再滿足于對曾為AN2做出貢獻的長槍烏賊、小白鼠、海馬等一類低等智能動物的研究,直接探討人腦智能結構體系,研究如何通過自組織將神經(jīng)元群體轉化為高度有序的系統(tǒng)。盡管目前還不能充分解釋大腦的學習和記憶機理,還不能完整繪制大腦思維的控制結構,但仍然在神經(jīng)結構特點和信息活動特點等方面取得了積極進展。
2)計算神經(jīng)科學
計算神經(jīng)科學是計算機科學與神經(jīng)科學結合的產(chǎn)物。計算神經(jīng)科學立足于試驗、理論和計算三大支柱,通過建立腦模型闡明神經(jīng)系統(tǒng)信息加工原理。它的研究方法是將智能活動和行為過程中整體水平、細胞水平和分子水平進行數(shù)學概括,尋求規(guī)律和算法,用計算機或AN2模擬,尋求如何表達和處理神經(jīng)信息及智能活動的變化規(guī)律。當前,對于學科中涉及的PDP(并行分布處理)理論討論得十分熱烈。
3)數(shù)理科學
AN2的學習與訓練實質(zhì)上是網(wǎng)絡非線性動態(tài)特征方程的迭代求解,因此必須先行提供數(shù)學工具和物理意義。需要建立隨機連接的網(wǎng)絡狀態(tài)變化變遷方程、聯(lián)想存儲模型容量和
回憶過程的統(tǒng)計動態(tài)方程、自組織激勵方程。此外,討論收斂性、Lyapunov意義上的穩(wěn)定性、局部或全部最優(yōu)解等,都是至關重要的。而物理上的一些概念,如熵、混沌、最小能量函數(shù)等,也不可缺少。
4)思維科學和認知科學
思維科學和認知科學是關于人類思維規(guī)律和認知方式的科學,研究的主體是人類在抽象思維、形象思維、靈感思維和社會思維活動中,對外界信息的感悟、知覺、推理、思考、意識、心靈等一系列心理認知和語言表達。認知科學中的連接主義原理已為AN2學界接受并廣為引用。例如,按照這一原理,神經(jīng)網(wǎng)絡中所有神經(jīng)元的數(shù)字化活動形成一個巨大的狀態(tài)空間,包括連接權在內(nèi)的控制器作用方程都可以按照學習規(guī)則訓練權重。因此,現(xiàn)有的神經(jīng)網(wǎng)絡模型就能夠供人們選擇,有針對性地而又極為方便地移植到以狀態(tài)變量描述的現(xiàn)代控制系統(tǒng)中,形成名符其實的智能系統(tǒng)。
5)信息論和計算機科學
信息的分析、綜合方法如何用在AN2的聯(lián)想存儲之中,是一個需要解決的問題。在計算機科學領域,一方面AN2的算法要可靠“過渡”到VonNeumann計算機上仿真運算,
另一方面,構成模擬人類智能活動的神經(jīng)計算機成為新的時尚。1.1.7進入21世紀——實現(xiàn)機器智能的道路漫長而又艱難
在今后的若干年內(nèi),AN2從理論上、實踐上和應用上呈現(xiàn)出如下發(fā)展趨勢:
(1)理論上重點在對模型和算法進行探討,建立AN2各種不同特性的模型并分析其功能。算法的探討包括拓撲結構、網(wǎng)絡容量、穩(wěn)定性、收斂性、復雜性、輸入模式樣本的致
密性。現(xiàn)在的問題是:對各種模型及算法的構成及性能評價,缺乏評價體系,只能依靠模擬仿真結論一個一個地具體分析,沒有嚴密、科學的一般規(guī)律和方法。
(2)實踐上重點在使用硬件制作神經(jīng)網(wǎng)絡和神經(jīng)計算機,但困難重重。這迫使人們不得不在今后相當長的一段時間內(nèi)利用VonNeumann計算機模擬,無法對比兩種不同類型的計算機運行結果。
AN2研究面臨上述兩個困難,制約和影響到它的應用。
(3)應用上希望早日突破。AN2的研究及應用已勢不可擋地日益滲透到模式識別、反饋調(diào)節(jié)、智能儀表、模糊控制、信號處理、系統(tǒng)辨識、模糊判決、知識處理、組合優(yōu)化、
專家系統(tǒng)、過程自動化、故障診斷、自動檢測等領域,并且和它們密切結合形成新的分支,如模糊神經(jīng)系統(tǒng)、神經(jīng)網(wǎng)絡模式識別等。但是另一方面,分析和統(tǒng)計在這些領域內(nèi)的應用論文,可以看到如下幾個鮮明特點:①神經(jīng)網(wǎng)絡能夠解決傳統(tǒng)技能如人工智能、PID控制等或其他方法能解決的一些問題,即對工程界而言,增加了一個僅僅有很大潛力的解決問題的方法。盡管仿真結果表明:在時域或頻域的某一或某些指標性能對比上,神經(jīng)網(wǎng)絡的結果優(yōu)于其他方法,但沒有在一切系統(tǒng)行為的指標上神經(jīng)網(wǎng)絡方法全部占優(yōu)勢的報道。
②迄今為止基本上沒有見到只能用AN2解決,而不能用現(xiàn)有其他任何方法完成的課題,即AN2在工程上還沒有顯示出不可替代的優(yōu)越性。因此人們討論較多的問題就是AN2突破口在哪里?需要多長時間才能找到突破口并取得突破?③越來越多的人清醒地認識到:用AN2實現(xiàn)機器智能的道路是漫長而又艱難的,急功近利是不現(xiàn)實的,短期內(nèi)沒有可能取得實質(zhì)性突破。與此同時決不能放棄AN2研究、重蹈20世紀70年代的覆轍。
④AN2中的人工神經(jīng)元和諸如Adaline這一類單層線性網(wǎng)絡,因其具備PID功能而成為反饋控制系統(tǒng)或智能儀表的一部分,但目前的應用基本上停留在仿真層次上。想使它們進入實用階段,還需要解決它們之間功能原理上的溝通、連接和接口。把三層或三層以上的AN2用于非線性魯棒控制或測量,探索的時間將更長。⑤從1956年開始的人工智能研究,在25年內(nèi)取得了驕人成績,它所依循的傳統(tǒng)研究方法建立在“基于符號假設”基礎上,突出了輸出與輸入之間的邏輯關系、忽略信息傳遞過程中的網(wǎng)絡結構特點,曾經(jīng)很迅速出了成果。但對于復雜模式識別、景物理解、過程自動化適應性隨機調(diào)節(jié)、非線性魯棒測量中的不完整信息處理、非線性動態(tài)運行不完全知識結構的自動修復、同一語系中不同方言理解等等,常常感到吃力。如果把人工智能的成功經(jīng)驗用到神經(jīng)網(wǎng)絡,與神經(jīng)網(wǎng)絡相結合,發(fā)揮各自優(yōu)勢,取長補短,也許是通往智能系統(tǒng)的成功之路。⑥絕大部分加盟AN2的論文作者原本是不同領域內(nèi)的專家學者,他們力圖把模擬人類高級智能行為用于本領域遇到的一些難題,把希望寄托在AN2上,從而踏入神經(jīng)網(wǎng)絡高新領域。今后若干年內(nèi),AN2隊伍擴大的趨勢還將繼續(xù)下去。這是AN2興旺發(fā)達的標志之一,也是AN2必然成功的重要原因。比如,首屆中國神經(jīng)網(wǎng)絡學術大會于1990年在北京
召開時,聯(lián)合支持的我國國家一級學會僅有8個;而1996年在成都舉行的第七次中國神經(jīng)網(wǎng)絡學術大會,聯(lián)合支持的我國國家一級學會就有中國自動化學會、中國電子學會等15
個。
2006年8月5日,第十六屆中國神經(jīng)網(wǎng)絡大會(CNNC2006)暨首屆中國人工免疫系統(tǒng)專題會議(CAISC06)在哈爾濱工程大學召開。這次大會由中國神經(jīng)網(wǎng)絡委員會、中國電子學會、IEEEComputationalIntelligenceSocietyBeijingChapter主辦,哈爾濱工程大學承辦,上海海事大學協(xié)辦。該系列會議每一年舉行一次,現(xiàn)已成為國內(nèi)神經(jīng)網(wǎng)絡領域最主要的學術活動。此次會議主要是為神經(jīng)網(wǎng)絡學習及相關研究領域的學者交流最新研究成果、進行廣泛的學術討論提供便利,并且邀請國內(nèi)神經(jīng)網(wǎng)絡及人工免疫系統(tǒng)領域的著名學者做精彩報告。神經(jīng)網(wǎng)絡系統(tǒng)理論是近年來得到迅速發(fā)展的一個國際前沿研究領域,它通過對人腦的基本單元——神經(jīng)元的建模和聯(lián)結,來探索模擬人腦神經(jīng)系統(tǒng)功能的模型,并研制一種具
有學習、聯(lián)想、記憶和模式識別等智能信息處理功能的人工系統(tǒng)。神經(jīng)網(wǎng)絡系統(tǒng)理論的發(fā)展對計算機科學、人工智能、認知科學、腦神經(jīng)科學、數(shù)理科學、信息科學、微電子學、
自動控制與機器人、系統(tǒng)工程等領域都有重要影響。
1.2生物神經(jīng)元和人工神經(jīng)元
生物神經(jīng)元是生物神經(jīng)細胞的學術名稱;人工神經(jīng)元是生物神經(jīng)元的智能仿生模型。
1.2.1生物神經(jīng)元
有了生物神經(jīng)元,才有生物的生命。
1.生物
生物是物體的一種。世間萬物就其有無生命而言,可以分成生物和死物兩大類。這兩類物體在存在狀態(tài)方面有本質(zhì)的差別。從統(tǒng)計物理學的觀點看,生的狀態(tài)是一種非平衡的
動態(tài)狀態(tài),死的狀態(tài)是一種平衡的穩(wěn)定狀態(tài)。
生物為了維持自己的生命,采用了通過消耗物質(zhì)和能量獲取非平衡環(huán)境的耗散結構,通過不斷地攝取和排泄,不停地演繹著新陳代謝,生命得以在動態(tài)非平衡中繼續(xù)和延續(xù)。
一旦非平衡狀態(tài)被破壞,平衡穩(wěn)定狀態(tài)到來,生命便將終結。生物的生命系統(tǒng),是一種在嚴酷的生存環(huán)境下磨練出來的信息處理系統(tǒng)。從求生存的需要出發(fā),這種信息處理系統(tǒng)被分成相互關聯(lián)又相互獨立的三個子系統(tǒng),它們分別是腦
神經(jīng)系統(tǒng)、免疫系統(tǒng)和內(nèi)分泌系統(tǒng),如圖1-1所示。這三個子系統(tǒng)對于生命來講,是缺一不可的。圖1-1生物的生命系統(tǒng)腦神經(jīng)系統(tǒng)的信息處理全過程如圖1-2所示,信息來自于外部世界,通過感覺(視覺、觸覺、味覺、聽覺、嗅覺)器官接收信息,并通過神經(jīng)傳至大腦,在大腦中經(jīng)過處理加工后,再通過神經(jīng)傳至執(zhí)行器官,執(zhí)行處理的結果。
人工神經(jīng)網(wǎng)絡控制實際上是腦神經(jīng)系統(tǒng)信息處理功能的工程實現(xiàn)。
大腦內(nèi)部的模擬結構如圖1-3所示,其基本組織是由生物神經(jīng)元組合成神經(jīng)網(wǎng)絡而構成的。而神經(jīng)元內(nèi)又細分成離子通道和受體,它們具有蛋白質(zhì)結構。圖1-2腦神經(jīng)系統(tǒng)的信息處理全過程生物神經(jīng)元的研究成果揭示了大腦皮層活動的物理基礎。大腦皮層內(nèi)存在許多界限分明、功能各異的小柱狀區(qū)域,這些柱狀區(qū)域內(nèi)含有個數(shù)眾多的皮層神經(jīng)元,無論是哪種感
覺器官的神經(jīng)元,都有一個共同的動作特征:當感覺器官傳入信息形成一定的沖動時,神經(jīng)元將做出反應,產(chǎn)生單位放電效應,迅速把信號傳遞過去。柱狀區(qū)域能把輸入沖動進行
放大、調(diào)整和綜合,并能在較短的時間內(nèi)調(diào)動相鄰柱狀區(qū)域的神經(jīng)元,迅速做出準確的判斷,并把判斷結果發(fā)送到執(zhí)行器官。
大腦皮層內(nèi)約有200萬個柱狀區(qū)域,每個柱的直徑約為0.1~0.5mm,高度約為2~3mm,一次輸入沖動所能影響的柱狀能達數(shù)百萬之多。圖1-3大腦模擬結構
2.生物神經(jīng)元的基本結構
腦神經(jīng)系統(tǒng)是由1010~1012個神經(jīng)元組成的、結構異常復雜的、永遠開放的一種自適應系統(tǒng)。在一個三維的空間內(nèi),如此眾多的神經(jīng)元緊密組成一個神經(jīng)網(wǎng)絡,完成大腦獨有的信息處理功能。
生物神經(jīng)元是形成大腦的基本元素,如同磚瓦是構成高樓大廈的基本元素一樣。房屋由磚瓦構成,但一堆磚瓦胡亂堆放在一起,并不能構成房屋,必須有設計圖紙,按圖施工才能形成千姿百態(tài)、形狀各異的建筑。生物神經(jīng)元組成生物神經(jīng)網(wǎng)絡、進而形成大腦也是如此。迄今為止,人們已經(jīng)發(fā)現(xiàn)了視覺處理神經(jīng)元群的縱列結構,而類似于記憶、思維等大腦神經(jīng)網(wǎng)絡獨有的一些功能還不十分清楚,有待進一步研究。不同的生物神經(jīng)元有不同的功能,例如味覺神經(jīng)元和視覺神經(jīng)元的功能就不同,形成功能不同的主要原因是它們在結構上有差異。從完成功能的角度來看,不同的神經(jīng)元內(nèi)部
有不同的結構。
另一方面,無論是哪種生物神經(jīng)元,從傳遞、記憶信息的角度看,它們都具有著相同的結構。圖1-4畫出了生物神經(jīng)元的基本組成。它由四部分組成,分別是細胞體、樹突、
軸突和突觸。圖1-4生物神經(jīng)元的基本組成
(1)細胞體:由細胞核、細胞質(zhì)和細胞膜組成。細胞體是生物神經(jīng)元的主體,是神經(jīng)細胞的核心組成,是存儲、加工處理信息的地方。生物神經(jīng)元信息處理的奧秘在于神經(jīng)膜,其基本功能是一種電氣反應。
(2)樹突(樹狀突起):細胞體的外圍延伸呈樹狀突起,簡稱樹突,是生物神經(jīng)元的輸入部分。樹突從細胞體開始逐漸變細,各處都能與其它神經(jīng)元的突觸連通,從其它神經(jīng)
元的突觸到樹突,實現(xiàn)信息的輸入。
(3)軸突:細胞體外圍的突起有多個,絕大部分突起是樹突,可以接受其它神經(jīng)元的信息,還有一個突起具有傳遞并輸出信息的功能,這個突起稱為軸突。
(4)突觸:軸突的末梢形成突觸,在突觸處將信息輸送給另一個神經(jīng)元。突觸與樹突相連,這種相連僅僅是功能上的連接,兩個神經(jīng)元的細胞質(zhì)在突觸處并不連通。
生物神經(jīng)元的突觸按傳遞信息的方式分成兩種:一種是電突觸,傳遞特征是在相鄰兩細胞的低電阻通道中快速交換離子,使突觸后電位發(fā)生變化;另一種是化學突觸,借助化
學媒介傳遞神經(jīng)沖動。如果按動作狀態(tài)劃分,生物神經(jīng)元的突觸可呈現(xiàn)出興奮性和抑制性兩種狀態(tài)。當突觸前端接收到的輸入信息能使突觸膜電位超越神經(jīng)沖動的閾值時,這時的生物神經(jīng)元處于“興奮”狀態(tài);如果突觸膜電位不能超過引起神經(jīng)沖動的閾值時,生物神經(jīng)元則處于“抑制”狀態(tài)。
3.生物神經(jīng)元的基本功能
生物神經(jīng)元的基本功能有兩個:學習與遺忘,興奮與抑制。
1)學習與遺忘
生物神經(jīng)元的學習功能表現(xiàn)在外界輸入信息的變化能改變神經(jīng)元之間的關系,換句話說,就是生物神經(jīng)元能感知外界輸入信息的變化。腦神經(jīng)系統(tǒng)由大量的神經(jīng)元連成網(wǎng)絡形
式工作,神經(jīng)元和神經(jīng)元之間彼此的細胞質(zhì)雖然不連通,但是突觸和樹突之間的連接強度,卻可以隨著外界輸入信息的變化而變化。
神經(jīng)元之間的相互關系能夠記錄下外界輸入信息的變化,表明神經(jīng)元不僅能學習,而且能學會。對于神經(jīng)元自適應環(huán)境變遷的能力,從宏觀上看,是生物適應環(huán)境變化的本能,生物力圖在激烈、多變的環(huán)境中生存、繁衍;從微觀上看,生物神經(jīng)元能夠學會原來不懂的東西。
“遺忘”事實上也是神經(jīng)元適應環(huán)境、接受外界輸入信息的一種“學習”,新的輸入信息來了,多個神經(jīng)元彼此之間的關系必將重新排定,那么原來排定的關系被沖刷,原來的信息被放棄,便產(chǎn)生了“遺忘”。
人腦神經(jīng)系統(tǒng)除了具有“遺忘”功能外,最為奇妙的是還具有將“遺忘”的輸入狀態(tài)重新恢復的功能。事實上,這一功能依舊是“學習”,是重新拾回已經(jīng)丟失的樣本。
2)興奮與抑制
神經(jīng)元的興奮狀態(tài)表現(xiàn)在大量突觸進行活動的時候。這時,神經(jīng)元的膜電位升高,一旦超過動作電位(ActionPontential)的某一閾值,神經(jīng)元被激勵,產(chǎn)生神經(jīng)沖動,呈現(xiàn)出類似于放電樣的響應。神經(jīng)沖動能夠經(jīng)軸突神經(jīng)末稍傳出,刺激與突觸相連的另一神經(jīng)元樹突,完成信息的傳遞?!芭d奮”是神經(jīng)元產(chǎn)生神經(jīng)沖動的一種宏觀表現(xiàn)。并不是大量的突觸在活動時都能處于“興奮”狀態(tài)。當神經(jīng)元的活動使膜電位升高但沒有達到動作電位的閾值時,神經(jīng)元不會產(chǎn)生神經(jīng)沖動,這種狀態(tài)稱為神經(jīng)元的抑制。被抑制的神經(jīng)元沒有神經(jīng)沖動從突觸傳出,也不會影響到另一神經(jīng)元。
“興奮”和“抑制”的分水嶺是神經(jīng)元活動時,動作電位是否超過某一閾值。也就是說,生物神經(jīng)元時時刻刻都處在活動狀態(tài)之中,這是生物體的一種生命特征,但是生物神
經(jīng)元的活動有時“興奮”,有時“抑制”?!芭d奮”和“抑制”與輸入信息的強弱、持續(xù)時間的長短等因素直接相關。腦科學研究表明,生物神經(jīng)元之間傳遞信息的速度較為緩慢,以動作電位的形式產(chǎn)生的電脈沖頻率不超過500Hz。興奮時經(jīng)過一個突觸的延時時間約為0.5ms。當外界輸入信息極強、或輸入頻率極高、或輸入信息變化急劇反差越大時,生物神經(jīng)元的興奮抑制狀態(tài)會發(fā)生急劇的轉換,或者當一個興奮狀態(tài)尚未穩(wěn)定、信息尚未從一個神經(jīng)元的突觸傳遞到下一個神經(jīng)元的樹突、而新的信息已經(jīng)到來時,神經(jīng)元的興奮活動將一直處于一個激烈的動蕩狀態(tài)中,人們將產(chǎn)生刻骨銘心的記憶。
記憶,是生物神經(jīng)元反復興奮與抑制的必然結果;
回憶,是對生物神經(jīng)元興奮與抑制的歷史記錄做出的搜索。1.2.2人工神經(jīng)元
人工神經(jīng)元是生物神經(jīng)元信息傳遞功能的數(shù)學模型。
將生物神經(jīng)元的信息傳遞功能用數(shù)學模型描述,所能構成的數(shù)學模型是多種多樣的,這是因為生物神經(jīng)元傳遞信息的內(nèi)涵極為豐富,涉及到的外界和內(nèi)在因素很多。在構造數(shù)學模型的時候,必然要舍棄一些因素,保留并突出另一些因素,從而使人工神經(jīng)元的模型也有多種。
設第j個人工神經(jīng)元在多個輸入xi(i=1,2,3,…,n)的作用下,產(chǎn)生了輸出yj,則人工神經(jīng)元輸入、輸出之間的關系可以記為
yj=f(xi)式中,f為作用函數(shù)或激發(fā)函數(shù)(ActivationFunction)。人工神經(jīng)元模型如圖1-5所示。圖1-5人工神經(jīng)元模型
f(xi)的表達形式不同,可以構成不同的人工神經(jīng)元模型,其中比較典型的有線性函數(shù)、階躍作用函數(shù)和Sigmoid作用函數(shù)等幾種。
1)線性函數(shù)
作用函數(shù)f連續(xù)取值,隨x的增加而增大:
f(x)=x
這種情況下的作用函數(shù)是線性加權求和的一種特例。設人工神經(jīng)元的n個輸入之間有如下關系:
x1=x2=…=xn=x各輸入的權值(突觸強度)之間有
w1j+w2j+…+wnj=1
則線性作用函數(shù)f(x)=x如圖1-6所示。圖1-6線性作用函數(shù)
2)階躍作用函數(shù)
MP模型的作用函數(shù)就是階躍函數(shù),它有兩種不同的表達形式,一種是對稱硬限幅函數(shù):另一種是硬限幅函數(shù):它們所對應的模式都可以記為
3)Sigmoid作用函數(shù)
Sigmoid作用函數(shù)是一個將人工神經(jīng)元的輸出限制在兩個有限值之間的連續(xù)非減函數(shù),簡稱S型函數(shù)。它分為對稱型和非對稱型兩種。對稱型Sigmoid函數(shù)又稱為雙曲正切S型函數(shù),其表達式為函數(shù)的漸近線為f(x)=±1,且函數(shù)連續(xù)可微,無間斷點。在實際應用的不同場合,可選取不同的表達方式,其一般形式為或不同的β取值,引起曲線的彎曲程度不同。圖1-7(a)和(b)給出了β=1和β=2時的曲線。圖1-7雙曲作用函數(shù)(a)雙曲正切S型函數(shù)(β=1);(b)雙曲正切S型函數(shù)(β=2)非對稱型Sigmoid函數(shù)又稱單極性S型函數(shù)。表達式為或該函數(shù)可以看成是雙曲正切函數(shù)水平上移而成的,漸近線f(x)=0和f(x)=1,且連續(xù)可微,無間斷點。圖1-8(a)和(b)分別給出了β=1和β=2時的曲線。表1-1列出了常用的人工神經(jīng)元模型作用函數(shù)。圖1-8單極性作用函數(shù)(a)單極性S型函數(shù)(β=1);(b)單極性S型函數(shù)(β=2)
1.3生物神經(jīng)網(wǎng)絡和人工神經(jīng)網(wǎng)絡
1.3.1生物神經(jīng)網(wǎng)絡
腦神經(jīng)系統(tǒng)由大量神經(jīng)元連接成網(wǎng)絡形式開展工作,連接方法被稱為連接主義機制。不同的神經(jīng)系統(tǒng)有不同的連接方式,例如視覺神經(jīng)和觸覺神經(jīng)的連接方式理應有差別。對于神經(jīng)控制的應用來講,既無必要也無可能徹底分清不同神經(jīng)系統(tǒng)的不同連接形式。
人們研究生物神經(jīng)網(wǎng)絡,除了知道它是一個多輸入、多輸出的分層次結構組織以外,在構成方面的進展極為緩慢。到目前為止,已經(jīng)發(fā)現(xiàn)有視覺功能單元集合成的神經(jīng)元群具有縱列結構,這些神經(jīng)元群與信息的傳遞與處理密切相關。盡管在小腦控制回路、各神經(jīng)網(wǎng)絡的投射等研究方面有較為明顯的成果,但是對于有關思考、記憶等神經(jīng)網(wǎng)絡的活動形態(tài)還不十分清楚,而這一部分恰恰又是生物神經(jīng)網(wǎng)絡處理信息最具誘惑力的地方。
1.生物神經(jīng)網(wǎng)絡的研究方法
1)分析法
分析法要求合乎情理的邏輯推斷,它用各種人工的、自動的觀摩手段近距離觀察生物神經(jīng)元的活動,重點研究生物神經(jīng)網(wǎng)絡的外特性。其研究成果極為豐富,例如觀察人從小到大的生長過程,不難發(fā)現(xiàn)人們從嬰幼兒時期開始,就能表現(xiàn)出強烈而又巨大的學習模仿能力,并且從模仿中還能表現(xiàn)出巨大的創(chuàng)新能力。很多人在別人的啟發(fā)下能發(fā)掘出自己的活力,而這些活力又能感染其他人。由此不難得出結論:創(chuàng)新是生物神經(jīng)網(wǎng)絡在先天遺傳因素已經(jīng)確定的條件下,對客觀環(huán)境有限制的一種自組織過程。生物神經(jīng)網(wǎng)絡在胚胎發(fā)育過程中已經(jīng)建立起一些信息處理的通道,但是只有在出生后一段時間內(nèi)維持可塑性。因此,創(chuàng)新能力不能遺傳(發(fā)明家的兒子未必是發(fā)明家),但是卻能在一定客觀條件具備時被啟發(fā)出來。由于創(chuàng)新離不開群體,因此人們的創(chuàng)新成果是全人類的共同財富。
2)重構法
重構法采用人工構造神經(jīng)網(wǎng)絡,使用數(shù)學、物理工具研究網(wǎng)絡的功能變化、穩(wěn)定性等。這種研究方法具有極大的局限性??赡艹霈F(xiàn)的問題有兩個方面:
一個方面是人工構造神經(jīng)網(wǎng)絡時,依據(jù)的是生物神經(jīng)網(wǎng)絡的基本性質(zhì),尤其是其外特性——生物神經(jīng)網(wǎng)絡的輸入、輸出間關系。但是由于這種關系的復雜性,導致人工神經(jīng)網(wǎng)絡的多樣性。不同的網(wǎng)絡設計者偏重于不同的性能,取舍的角度不同,致使已經(jīng)問世的人工神經(jīng)網(wǎng)絡模型多達上百種。確切地講,任何人都可以從模擬生物神經(jīng)網(wǎng)絡的性質(zhì)出發(fā),構造出一個人工神經(jīng)網(wǎng)絡模型來。
另一個方面是數(shù)學工具和物理工具本身存在著研究誤差。就數(shù)學工具而言,它忽略了很多實際存在的一些具體因素,把模型理想化,提出了一些問題求解的邊界條件,這種理想化的研究公式離真實情況總存在一定的誤差。
3)計算機理論法
生物神經(jīng)網(wǎng)絡的工作原理類似于計算機的工作原理。由于網(wǎng)絡是由生物神經(jīng)元通過神經(jīng)鍵有機結合形成的,而生物神經(jīng)元的基本性能是興奮和抑制,對應于計算機基本邏輯電路的“1”狀態(tài)和“0”狀態(tài),因此人們自然聯(lián)想到使用計算機理論研究生物神經(jīng)網(wǎng)絡。但是,現(xiàn)行的計算機從結構上是程序存儲式的,與生物神經(jīng)網(wǎng)絡的組織結構有天壤之別。計算機以串行工作方式執(zhí)行程序,而生物神經(jīng)網(wǎng)絡的并行處理功能是無庸置疑的。于是,計算機學界的并行處理理論也被人們用于神經(jīng)網(wǎng)絡的研究。在以串行運行特征為主的馮·諾依曼型計算機上實現(xiàn)并行處理功能,開展神經(jīng)網(wǎng)絡信息處理特征的研究,是一種無可奈何的選擇,畢竟人腦神經(jīng)系統(tǒng)與程序存儲式電腦在信息處理方面至少存在五個重大差別,這些差別由“連接主義機制”的五個一般特征造成。
2.連接主義機制的一般特征
所謂“連接主義機制”,通常指大量神經(jīng)元以獨有的方式連接成網(wǎng)絡時的連接方法。它呈現(xiàn)出的一般特征有五個:
(1)信息處理時的巨量并行性。輸入信息數(shù)量雖多但能同時輸入到生物神經(jīng)網(wǎng)絡,處理這些信息采用并行或同時進行,用空間復雜性降低時間復雜性,眾多神經(jīng)元同時做出響應,多輸出且同時輸出。
(2)信息的處理和存儲一致性。突觸既是信息處理的地方,也是信息存儲的地方,在存取信息的操作過程中,尋址和存取同步進行,不存在先地址后內(nèi)容的問題。神經(jīng)元有了這種性質(zhì),即使地址丟失也不會丟失內(nèi)容。宏觀表現(xiàn)為經(jīng)過回憶,能由部分信息恢復全部信息。
(3)接受信息的多樣性。
生物神經(jīng)網(wǎng)絡不僅能接收二進制信息,而且更擅長于接收模擬信息、模糊信息和隨機信息,并能機動靈活地處理這些信息。
(4)輸出信息的滿意性。生物神經(jīng)網(wǎng)絡輸出的是滿意解而不是精確解,以解決問題為前提。由于網(wǎng)絡內(nèi)電脈沖
的傳播速度慢,經(jīng)過突觸還需延時,因此尋求滿意解或相對最優(yōu)解比尋求精確解更合乎邏輯,能節(jié)省大量的信息處理時間,在進行智能決策方面具有得天獨厚的優(yōu)越性。
(5)對外界環(huán)境變化的自適應性。由于外界環(huán)境的變化能改變突觸的連接強度,因此生物神經(jīng)元相互關系的改動恰是神經(jīng)網(wǎng)絡自組織、自學習的結果,從而能自動適應外界環(huán)境的變化。
對應地,程序存儲式計算機在信息處理方面的五個一般特征是:
(1)信息處理時的集中串行性。計算機所能執(zhí)行的指令條數(shù)是有限的,且一條一條指令依次執(zhí)行。若計算機執(zhí)行指令為無限條,則陷入死機狀態(tài)。
(2)信息的處理和存儲不一致性。存儲器的地址和內(nèi)容雖然都是二進制數(shù),但它們的性質(zhì)不同,要想訪問存儲器,
必須先尋址。存儲地址一旦丟失,內(nèi)容也會丟失。
(3)接收信息的單一性。由于計算機的基本電路是數(shù)字電路,因此僅能接收二進制信息。
(4)輸出信息的精確性。輸出的數(shù)據(jù)能夠精確到小數(shù)點后數(shù)萬位,但由于計算公式本身的誤差,使得這種計算在很多情況下無意義。
(5)容錯能力差。不適應外界環(huán)境的變化,易受病毒攻擊而陷入癱瘓。
20世紀50年代,人們在研究人類的思維過程中發(fā)現(xiàn),“思維”是一種推理過程,該過程以概念為核心進行定義。用符號代表“概念”,通過形式化語言用符號串操作描述。因此人們得出結論:“思維過程”和程序存儲式計算機的解題步驟在信息處理方面是一致的,都是一種形式的“符號串”操作,都是“物理符號系統(tǒng)”的一個用例。以為程序存儲式計算機就是生物神經(jīng)網(wǎng)絡的工程實現(xiàn)。
人們在認識上的上述誤區(qū)在20世紀80年代得到了徹底的糾正。當時認識到了一個最簡單的事實:計算機求解是一種單一形式的物理符號系統(tǒng),但生物神經(jīng)網(wǎng)絡不是,思維過程是多種思維形式和多種知識交織的辯證統(tǒng)一。這種認識無疑是給人工神經(jīng)網(wǎng)絡“正名”,從此人工神經(jīng)網(wǎng)絡得到了全人類的共同認可。1.3.2人工神經(jīng)網(wǎng)絡
1.人工神經(jīng)網(wǎng)絡的基本功能
1)大規(guī)模并行處理功能
由大量人工神經(jīng)元以獨有方式構成的人工神經(jīng)網(wǎng)絡,能同時接收多個輸入信息并同時傳輸,多個人工神經(jīng)元能以表決的形式做出響應,人工神經(jīng)網(wǎng)絡的輸出是多個人工神經(jīng)元同時舉手表決的結果,能自動完成“少數(shù)服從多數(shù)”。
人工神經(jīng)網(wǎng)絡的大規(guī)模并行處理功能實質(zhì)上最大限度地利用了空間復雜性,有效降低了時間復雜性。
2)分布存儲功能
生物神經(jīng)網(wǎng)絡利用突觸連接強度的變化來調(diào)整存儲內(nèi)容,存儲的過程就是處理的過程。人工神經(jīng)網(wǎng)絡利用人工神經(jīng)元之間的連接權值(又稱權值、權重或加權值)來調(diào)整存儲內(nèi)容,使存儲和處理同時通過權重來反映。這種模擬的最大優(yōu)點源于:在生物神經(jīng)網(wǎng)絡中,雖然每天有大量的腦細胞死亡,但絲毫不影響存儲與記憶。腦部的局部損傷可能會喪失部分記憶,但日后完全可能恢復記憶。
3)多輸入接收功能
人工神經(jīng)網(wǎng)絡的多輸入接收功能體現(xiàn)在既能接收數(shù)字信息,又能接收模擬信息;既能接收精確信息,又能接收模糊信息;既能接收固定頻率的信息,又能接收隨機信息。
4)以滿意為準則的輸出功能
人類大腦積存有豐富的經(jīng)驗智慧,遇到突如其來的變故或從未遇到過的情況,能夠有效地、在極短時間內(nèi)迅速做出判斷。人工神經(jīng)網(wǎng)絡對輸入信息的綜合以滿意為準則,力求
獲得最優(yōu)解。
5)自組織自學習功能
人工神經(jīng)網(wǎng)絡必須具備自組織自學習功能,以期自動適應外界環(huán)境的變化。由于生物神經(jīng)網(wǎng)絡在先天遺傳因素存在的條件下,后天的學習與訓練能夠開發(fā)出形形色色的功能,
因此要求人工神經(jīng)網(wǎng)絡的學習權值能夠按照一定規(guī)律改變。人工神經(jīng)網(wǎng)絡模型建立以后,使用之前應當進行訓練,訓練就是一種學習過程,學習也應有一定的學習規(guī)則。
不同的人工神經(jīng)網(wǎng)絡,有不同的訓練方式,有不同的學習權值,也有不同的學習規(guī)則。
人工神經(jīng)網(wǎng)絡的重點研究課題,就是權值如何訓練及如何調(diào)整。
2.人工神經(jīng)網(wǎng)絡的基本特征
人工神經(jīng)網(wǎng)絡在信息處理方面具備生物神經(jīng)網(wǎng)絡的智能特征。
1)聯(lián)想記憶
人工神經(jīng)網(wǎng)絡的聯(lián)想記憶性質(zhì)是由它的分布存儲功能和并行處理功能產(chǎn)生的。網(wǎng)絡的輸出是眾多人工神經(jīng)元表決的結果。在人工神經(jīng)元之間存在著協(xié)同結構和處理信息的集體行為。這樣,在事先已有分布存儲的信息和網(wǎng)絡已有的學習機制前提下,通過學習訓練,能從不完整信息出發(fā)獲得完整的信息。聯(lián)想記憶可分為自聯(lián)想記憶和異聯(lián)想記憶兩種。
自聯(lián)想記憶的數(shù)學定義為:設有n個樣本矢量Xi,其中i=0,1,2,…,n-1,如果網(wǎng)絡輸入是
Xj=Xk+Δ
式中,Xk表示第k個樣本,Δ是由干擾、噪聲、樣本缺損等原因引起的隨機誤差。如果該網(wǎng)絡能夠使輸出成為
Y=Xk
網(wǎng)絡就具有消除誤差而獲得樣本輸出的能力,這種能力就稱為自聯(lián)想記憶。具有自聯(lián)想記憶性質(zhì)的人工神經(jīng)網(wǎng)絡能夠恢復一度丟失的記憶,能把圖像復原、恢復已變的聲音等。異聯(lián)想記憶的數(shù)學定義為:設有兩組樣本Xi和Yi,如果Xi和Yi一一對應,輸入信號中仍然含有誤差信號Δ,輸入形式為
Xj=Xk+Δ
但網(wǎng)絡能夠使輸出Z成為
Z=Yk
2)模式識別與分類
人工神經(jīng)網(wǎng)絡能模仿生物神經(jīng)網(wǎng)絡的辨識功能,對輸入樣本有較強的識別與分類能力。分類的過程實際上是把輸入樣本歸到不同區(qū)間。找出符合分類要求的分界線,就能識別不同的輸入樣本并確定該樣本的歸屬。
設網(wǎng)絡的輸入為Xi(i=0,1,2,…,n-1),樣本歸屬于m類,輸出Yj(j=0,1,2,…,m-1)屬于m類中的某一類,網(wǎng)絡的分類能力如圖1-9所示。圖1-9人工神經(jīng)網(wǎng)絡分類器設標準樣本Sk(k=0,1,2,…,p-1)為已知,如果X∈Sk,則
上式表明,只要輸入樣本與標準樣本匹配就可以歸類。
3)I/O之間的非線性映射
人工神經(jīng)網(wǎng)絡能夠實現(xiàn)從輸入空間到輸出空間的非線性映射,這種映射的實質(zhì)是通過對輸入樣本的訓練學習,使網(wǎng)絡輸出成為樣本輸出在L2范數(shù)意義下的逼近。理論上能以任意精度逼近任意復雜的非線性函數(shù)。
4)優(yōu)化計算
優(yōu)化計算不論采用哪種算法,其過程總是力圖尋找一組參數(shù),使得參數(shù)代入后的目標函數(shù)取得最小值。優(yōu)化計算能夠把一組樣本的輸入輸出問題變?yōu)榉蔷€性問題,經(jīng)過迭代法求解,待數(shù)值確定后,誤差就可以達到允許的程度。
3.人工神經(jīng)網(wǎng)絡研究的基本內(nèi)容
對人工神經(jīng)網(wǎng)絡的研究集中在三個方面:建模、學習方法和實現(xiàn)途徑。
1)人工神經(jīng)網(wǎng)絡模型建模
建模就是構造人工神經(jīng)網(wǎng)絡模型。只有在建立了人工神經(jīng)網(wǎng)絡的模型以后,才能夠討論它的應用。建立模型需要考慮兩個方面的因素,一個因素是人工神經(jīng)元,它是建立模
型的基本元件;另一個因素是網(wǎng)絡結構,即網(wǎng)絡的連接方式。
構造人工神經(jīng)網(wǎng)絡模型時,對人工神經(jīng)元的考慮主要有兩個內(nèi)容:一個是神經(jīng)元的功能函數(shù);另一個是神經(jīng)元之間的連接。功能函數(shù)描述了神經(jīng)元的輸入、輸出特征,它用數(shù)學形式集中概括了輸入樣本進入神經(jīng)元、被激活及最后產(chǎn)生輸出的全過程。提出不同形式的功能函數(shù),將形成不同結構的神經(jīng)元,直接導致人工網(wǎng)絡的結構不同。
神經(jīng)元之間的連接形式有很多,不同的連接形式將使連接的網(wǎng)絡有不同的性質(zhì)和功能。從目前現(xiàn)有廣為流傳的神經(jīng)網(wǎng)絡結構看,最基本的形式有前饋網(wǎng)絡和反饋網(wǎng)絡。其它一些連接形式可以由此而構建。
以前饋網(wǎng)絡為例,前饋網(wǎng)絡又稱為前向網(wǎng)絡,從輸入到輸出是一種開環(huán)形式的連接,無反饋出現(xiàn)。前饋網(wǎng)絡的基本結構如圖1-10所示。這種結構又稱為拓撲結構。圖1-10前饋網(wǎng)絡的基本結構人工神經(jīng)元在連接成前饋網(wǎng)絡的時候,通常采用分層結構。接收輸入信號的那一層叫做輸入層,輸出信號的那一層叫做輸出層,中間傳遞信號的一層或幾層叫做隱層,意即看不見的信號傳送單元層。
輸入層由若干個人工神經(jīng)元組成,每個人工神經(jīng)元稱為一個節(jié)點。若干個輸入節(jié)點構成了輸入層,輸入層僅用于表示多輸入向量的輸入情況。各層之間信號傳遞的規(guī)則是:
(1)第i層的人工神經(jīng)元僅接受第i-1層的人工神經(jīng)元輸出信號;
(2)第i-1層的人工神經(jīng)元節(jié)點可往第i層各節(jié)點輸出,但輸出的權值不同;
(3)第i層及其以后各層的人工神經(jīng)元節(jié)點無反饋信號,只能前向輸出。
網(wǎng)絡輸入層稱為第0層,各輸入節(jié)點無計算功能,僅表示輸入信號的初始值。
隱層有N-1層,輸出層有1層。隱層和輸出層的各節(jié)點均具有計算功能,因此又可稱為計算節(jié)點,計算方式就是節(jié)點輸出與輸入之間的關系。計算節(jié)點僅一個輸出,但這一個輸出可以同時送到下一層的多個節(jié)點作輸入用,送到不同節(jié)點時允許有不同的權值。計算節(jié)點有多個輸入,來自于上一層的不同節(jié)點。
輸入層、隱層、輸出層共有N+1層,它們構成的前向網(wǎng)絡被稱為N層前向網(wǎng)絡。它們各自的節(jié)點分別稱為輸入節(jié)點、隱節(jié)點和輸出節(jié)點。隱節(jié)點又可稱為中間節(jié)點。輸入層和輸出層又被統(tǒng)一稱為可見層。
2)有導師學習方法與無導師學習方法
有導師學習(訓練)方法是指給出一些輸入—輸出樣本對(Xi,Yi)并訓練網(wǎng)絡,使之盡可能地擬合這些樣本,這些樣本對通常稱為訓練樣本對。
無導師學習(訓練)方法是指只需要給出輸入樣本Yi,不需要給出對應的輸出,網(wǎng)絡會自動把輸入樣本按相似程度分類。以這種自學習方式工作的網(wǎng)絡稱為自組織網(wǎng)絡,例如
Kohonen自組織映射就屬于此類。
3)人工神經(jīng)網(wǎng)絡的實現(xiàn)途徑
人工神經(jīng)網(wǎng)絡的實現(xiàn)途徑有全硬件實現(xiàn)、全軟件實現(xiàn)及軟硬件結合實現(xiàn)等。第3章神經(jīng)網(wǎng)絡模型3.1
人工神經(jīng)網(wǎng)絡建模3.2感知器3.3BP網(wǎng)絡與BP算法3.4自適應線性神經(jīng)網(wǎng)絡3.5自組織競爭型神經(jīng)網(wǎng)絡3.6小腦模型神經(jīng)網(wǎng)絡3.7遞歸型神經(jīng)網(wǎng)絡3.8霍普菲爾德(Hopfield)神經(jīng)網(wǎng)絡
3.1人工神經(jīng)網(wǎng)絡建模
3.1.1MP模型
MP模型是1943年由McCulloch和Pitts首先提出來的。它是一種較為典型的模型,突出了神經(jīng)元的興奮和抑制功能,設定了一個動作電位的閾值,把神經(jīng)元是否產(chǎn)生神經(jīng)沖動轉化為突觸強度來描述。所謂“突觸強度”就是指突觸在活動時所能產(chǎn)生神經(jīng)沖動的強弱。
圖3-1畫出了MP模型的結構示意圖。該圖以第j個神經(jīng)元為例,有n個神經(jīng)元的輸出信號x1,x2,…,xn作為輸入。每個輸入突觸的突觸強度分別為w1j,w2j,…,wnj,突觸強度wij反映了第i個神經(jīng)元對第j個神經(jīng)元傳遞信號時的加權值。圖3-1MP模型結構示意圖人工神經(jīng)元模型依靠突觸輸入xi和突觸強度wij之間的運算關系建立。MP模型采用的是線性加權求和,神經(jīng)元在n個突觸進行活動時產(chǎn)生的動作電位為把突觸強度wij模擬成突觸輸入xi的加權值,當突觸強度越強時,該突觸的輸入對第j個神經(jīng)元的動作電位影響越大。神經(jīng)元的沖動是神經(jīng)元的輸出,用yj表示。如果用“+1”和“-1”分別表示神經(jīng)元的興奮和抑制狀態(tài),那么MP模型的作用函數(shù)可記為式中,θj是第j個神經(jīng)元的動作閾值,sgn是符號函數(shù):當神經(jīng)元的動作電位Nj超越閾值θj時,神經(jīng)元輸出+1,處于興奮狀態(tài);當Nj沒超越閾值θj時,神經(jīng)元輸出-1,處于抑制狀態(tài)。MP作用函數(shù)如圖3-2所示。圖3-2MP作用函數(shù)人工神經(jīng)元模型有如下3個性質(zhì):
(1)i≠j,由于第j個神經(jīng)元不可能自己對自身進行輸入,因此第i個輸入中不能包括第j個神經(jīng)元。
(2)閾值θj可以看作是一個輸入信號的權值,該輸入信號和權值分別用x0和w0j表示,且x0=1,則有:
θj=w0jx0
于是式中,w0j=θj,x0=1。
(3)在需要考慮突觸的延長作用時,神經(jīng)元的作用函數(shù)應修正為t+1時刻的神經(jīng)元沖動取決于t時刻的輸入。人工神經(jīng)元輸出、輸入之間的關系表達式?jīng)Q定了人工神經(jīng)元具有PID調(diào)節(jié)功能。3.1.2Hebb學習法則
1949年,D.O.Hebb首先提出了神經(jīng)網(wǎng)絡的學習算法,史稱Hebb學習法則。該法則的文字敘述是“神經(jīng)元連接強度的變化與兩個相互連接神經(jīng)元的激活水平成正比”。這一學習法則源自于一個物理現(xiàn)象,就是當兩個神經(jīng)元都處在激活狀態(tài)時,兩個神經(jīng)元之間的連接突觸將增強。人們在生物能夠形成“習慣”以及多次訓練能夠形成條件反射的觀察中,看到了這一現(xiàn)象并把它歸納與總結。設網(wǎng)絡中的第i個神經(jīng)元對第j個神經(jīng)元的連接如圖3-3所示,傳遞信號時的權值為wij,連接強度的變化為wij,兩個相互連接神經(jīng)元的激活水平可以表示成ηyjxi,其中的η稱為激活率(又稱為學習率),激活率的大小將直接影響激活水平的高低。
Hebb學習法表示成
Δwij=yjxi
t時刻和t+1時刻的權值分別為wij(t)和wij(t+1),有
wij(t+1)=wij(t)+Δwij=wij(t)+ηyjxi圖3-3兩個神經(jīng)元上式說明權值的調(diào)整與第j個神經(jīng)元的輸入輸出乘積成正比。在批量出現(xiàn)的輸入模式樣本中,頻率較高的輸入樣本將對加權值的調(diào)整產(chǎn)生較大影響。
Hebb學習法有以下四個特征:
(1)連接強度的變化與相鄰兩個神經(jīng)元的輸出乘積成正比,只要知道相連接神經(jīng)元的輸出,就能獲得連接強度的變化。
(2)學習過程僅體現(xiàn)在信號前饋傳送過程中,無反饋現(xiàn)象存在。
(3)是一種無導師學習,無須知道目標輸出是什么。
(4)如果相連接兩個神經(jīng)元的輸出正負始終一致,將使連接強度無約束地增長,為了防止這一狀況出現(xiàn),需要預先設置連接強度飽和值。
Hebb學習法則除了使用神經(jīng)元在某一時刻輸出信號乘積表示連接強度的變化外,還可以改進成使用差分形式。設t-1時刻兩神經(jīng)元的輸出為xi(t-1)和yj(t-1);t時刻兩神經(jīng)元的輸出為xi(t)和yj(t),則t+1時刻連接強度權值為:
wij(t+1)=wij(t)+η(yj(t)-yj(t-1))(xi(t)-xi(t-1))
wij(t+1)與前兩個相鄰時刻的神經(jīng)元輸出增量成正比。連接強度與每一時刻的輸出或輸出增量有關,反映了此時采用的神經(jīng)網(wǎng)絡結構為非線性結構。如果輸出量與時間無關,這時的神經(jīng)元就是線性神經(jīng)元。但是線性神經(jīng)元及由此
構成的線性神經(jīng)網(wǎng)絡存在表達能力有限的問題,不能真實模擬生物神經(jīng)網(wǎng)絡的信息處理特征。
為了說明Hebb學習法則的應用,現(xiàn)以線性聯(lián)想網(wǎng)絡為例說明其訓練過程。設學習率η=1,連接強度矩陣初始化為0,用m個輸入代入加權值調(diào)整公式后,得加權值調(diào)整矩陣的表達式:
若xk為標準正交矢量,則當網(wǎng)絡的輸入為xj時,網(wǎng)絡的輸出為考慮到xkT·xk=1,則表明神經(jīng)元的輸出就是網(wǎng)絡的輸出,對應每一個輸入,Hebb學習法則將給出正確的輸出結果。如果輸入矢量xk不是標準正交矢量,則網(wǎng)絡輸入為xj時的網(wǎng)絡輸出為將Qk與yk比較后得知,當矢量xk非正交時,網(wǎng)絡輸出與神經(jīng)元之間的輸出有誤差,誤差的大小為輸入模式的相關之和?,F(xiàn)舉一個實例來闡述如何利用Hebb學習法則設計線性聯(lián)想網(wǎng)絡。設神經(jīng)網(wǎng)絡的原型輸入矢量為輸出矢量為相應網(wǎng)絡加權值調(diào)整矩陣為使用原型輸入矢量驗證加權值調(diào)整矩陣,網(wǎng)絡輸出為網(wǎng)絡實際輸出同于神經(jīng)元輸出,線性聯(lián)想得以實施。
如果是非標準正交,需要對輸出矩陣作規(guī)格化處理,即便如此,使用原型模式輸入聯(lián)想,設計加權值調(diào)整矩陣也只能使輸出接近目標,而不能完全吻合。
3.2感知器
1958年,美國學者Rosenblatt提出只有一個神經(jīng)元的神經(jīng)網(wǎng)絡模型,史稱感知器或單層感知器,因不能解決異或運算問題,一度被束之高閣,這幾乎斷送了神經(jīng)網(wǎng)絡的發(fā)展。但隨后出現(xiàn)的多層感知器不僅僅解決了異或問題,還能實現(xiàn)任意的二值邏輯函數(shù)處理,因而有力推動了神經(jīng)網(wǎng)絡的研究。在此基礎上形成的多層前饋網(wǎng)絡,已經(jīng)成為當前靜態(tài)神經(jīng)網(wǎng)絡最具代表性的研究模型。3.2.1單層感知器
單層感知器模型如圖3-4所示,輸入矢量X是一個n維矢量,僅有一個人工神經(jīng)元,輸出信號u是輸入矢量的非線性作用函數(shù),數(shù)值上等于各輸出分量加權和并加一個閾值Q:感知器輸出為若設Q=w0,x0=1,則上式成為圖3-4單層感知器模型單層感知器的網(wǎng)絡模型雖然與MP模型類似,但兩個模型之間的差別在于連接權值的調(diào)整。MP模型的權值不能通過學習調(diào)整,是一種無導師學習。而單層感知器的權值可以通過學習調(diào)整,是一種有導師學習。單層感知器的學習規(guī)則如下:
(1)設輸入樣本連接權值wi(0)為一個較小的非零隨機值,i=0,1,2,…,n。
(2)設輸入輸出樣本對xj/yj,j=0,1,2,…,L,且xj=(x0j,x1j,…,xnj),其中x0j=1。
(3)輸出樣本dj作導師信號,選取如下的閾值函數(shù):(4)感知器輸出由下式給出:
(5)加權值按下式調(diào)整:
wi(t+1)=wi(t)+η(dj-yj)xij其中,η是學習率,取值范圍為(0,1],不同取值影響到加權值調(diào)整快慢不同。
(6)學習在yj(t)=dj時結束,否則重選導師信號,從第(3)步再開始。學習一旦結束,輸入輸出模式樣本將以連接權值和閾值的形式分布存儲在網(wǎng)絡中。這種單層感知器的學習規(guī)則對二進制神經(jīng)元起作用,初始權值雖然小些為好,但理論上選取任意值都行。
單層感知器適用于線性分類,在多維樣本空間中起到一個將兩類模式樣本分開的超平面作用。如果輸入模式樣本線性可分,學習法則一定收斂。如果輸入模式樣本線性不可分,則單層感知器的學習法則不收斂,也就不能正確進行分類。
先看線性可分的例子。設輸入矢量為,網(wǎng)絡模型如圖3-5所示,則輸出信號為這時二維平面上的兩類模式呈現(xiàn)邏輯“與”關系,真值表如表3-1所示。圖3-5網(wǎng)絡模型將輸入模式樣本代入表達式中,有考慮到w0=-Q,Q是神經(jīng)元的閾值,則有2Q>w1+w2>Q>0。表明總存在一組(w1,w2)滿足上式。如果將輸入模式樣本(x1,x2)畫在x1-x2平面上,則總可以找到一條直線,將“與”輸入模式的4個樣本隔開,如圖3-6所示。圖3-6隔開“與”輸入模式樣本隔開樣本的直線方程可用
y=w1x1+w2x2-Q=0
或表示。凡具有線性邊界的平面上二維模式識別都可以用單層感知器解決。將感知器看成一個二值邏輯單元,除了能實現(xiàn)“與”功能外,還能實現(xiàn)“或”、“非”功能。二維平面上隔開“或”、“非”輸入模式樣本如圖3-7所示。圖3-7隔開“或”“非”輸入樣本(a)實現(xiàn)“或”;(b)實現(xiàn)“非”設輸入矢量,則感知器的輸出可表示為邏輯“或”、“異或”的真值表如表3-2所示。將邏輯“或”關系用于感知器輸出,有
w1·0+w2·0-Q<0,y=0
w1·0+w2·1-Q≥0,y=1
w1·1+w2·0-Q≥0,y=1
w1·1+w2·1-Q≥0,y=1
則有若取w1=w2>0,則有
0<Q<w1<2w1
可見,只要w1為正數(shù),總可以找到一組w1、w2滿足上式。
單層感知器不能實現(xiàn)邏輯“異或”關系。將“異或”關系代入輸入表達式,有找不到(w1,w2)的任何一組滿足上式。表現(xiàn)在x1-x2圖上,找不出一根線能輸出結果分類?!爱惢颉苯Y果如圖3-8所示。圖3-8“異或”的結果3.2.2多層感知器
1.多層感知器的結構
單層感知器由于只有一個神經(jīng)元,功能單一,只能完成線性決策或實現(xiàn)“與”、“或”、“非”等單一邏輯函數(shù)。多層感知器是在單層感知器的基礎上發(fā)展起來的,它由n層組成(n>1)。每一層有若干個非線性神經(jīng)元,每個神經(jīng)元就是一個單層感知器。多層感知器的結構如圖3-9所示。圖3-9多層感知器的結構(以n層為例)為分析方便起見,設第1層為輸入層。輸出信號的那一層叫輸出層。輸入層與輸出層之間的各層叫隱層。
輸入層是信號的起始點,沒有函數(shù)處理功能,信號的出發(fā)點可以稱為端口,不叫神經(jīng)元。
隱層由若干層組成,每一層允許有不同數(shù)量的非線性神經(jīng)元。
無論是輸入層的端口,還是隱層或輸出層的神經(jīng)元,都可以叫做節(jié)點,對不同的層面,節(jié)點的名稱不同。
輸入層、隱層、輸出層的節(jié)點分別被稱為輸入節(jié)點、隱節(jié)點和輸出節(jié)點。各層之間的連接采用全連接方式,即第j層的某一節(jié)點有輸出連接到第j+1層的每一節(jié)點,從輸入到輸出只有前饋連接,沒有反饋連接。多層感知器形成的這種結構像一張網(wǎng),因此多層感知器又有另一個別名,叫多層網(wǎng)。當隱層只有一層時,可稱其為三層網(wǎng),輸入層、隱層、輸出層各一層,且從輸入層到輸出層的編號依次為第1層、第2層、第3層。(編者按:由于輸入層節(jié)點無神經(jīng)元功能,在有些文獻中把輸入層、隱層、輸出層各有一層的網(wǎng)絡稱為二層網(wǎng),或隱一層網(wǎng),而各層編號方法是:輸入層為第0層,隱層從第1層開始依次編排,本書不用這種排法。)
2.多層感知器的功能
多層感知器雖然增加了一個隱層,但在功能運用上比單層感知器有了重大突破。概括起來,它有三個主要功能:
(1)實現(xiàn)任何一個邏輯函數(shù);
(2)在模式識別中,識別任一凸多邊形或無界凸區(qū)域,或者生成復雜的邊界,劃分輸入空間;
(3)能逼近從Rn到Rm的任一連續(xù)映射。
定理如果隱層節(jié)點能夠任意設置,用三層閾值節(jié)點的多層感知器能夠實現(xiàn)任意二值邏輯函數(shù)。定理證明從略。
作為一種應用,可以看它如何求解異或問題。設三層網(wǎng)絡如圖3-10所示,設輸入層和隱層各有2個節(jié)點,輸出層有1個節(jié)點。圖3-10三層網(wǎng)絡輸入層到隱層的連接強度為w1ij(i=1,2;j=1,2),隱層到輸出層節(jié)點的連接強度為w2jk(j=1,2;k=1)。i、j和k分別是輸入層、隱層和輸出層的節(jié)點數(shù)。隱層和輸出層節(jié)點的閾值分別是Qj1、Qj2和Qy。
隱層兩節(jié)點的輸出為
j1=f(w111x1+w121x2-Qj1)
j2=f(w112x1+w122x2-Qj2)
輸出層節(jié)點的輸出為
y=f(w211j1+w221j2-Qy)
如果神經(jīng)元節(jié)點的作用函數(shù)選取階躍函數(shù):
則隱層和輸出層節(jié)點的輸出可分別表示為為實現(xiàn)邏輯關系,取三組連接強度加權值和閾值如下:w111=-1,w121=-1,Qj1=-1.2w112=1,w121=1,Qj2=0.8w211=1,w221=1,Qy=1.5由此確定出三層節(jié)點間關系,如表3-3所示,相應邏輯關系式為邏輯關系圖及狀態(tài)空間邊界劃分如圖3-11和圖3-12所示,圖中說明了如何使用兩個不同層面的平面來區(qū)分不同的類型。圖3-11y=x1x2圖3-12三層感知器解決異或問題(a)x1-x2-y三維空間;(b)x1-x2平面
3.3BP網(wǎng)絡與BP算法
在1986年,Rumelhant和McClelland提出了多層前饋網(wǎng)絡的誤差反向傳播(ErrorBackPropagation)學習算法,簡稱BP算法,這是一種多層網(wǎng)絡的逆推學習算法。由此采用BP
算法的多層前饋網(wǎng)絡也廣泛被稱為BP網(wǎng)絡。3.3.1BP網(wǎng)絡的基本結構
BP網(wǎng)絡結構如圖3-13所示,由輸入層、隱層(中間層)、輸出層組成,隱層可以是一層,也可是多層。每一層允許有不同數(shù)目的節(jié)點,隱層和輸出層的每一個節(jié)點是一個神經(jīng)
元,前一層的節(jié)點與后一層的節(jié)點采用完全連接方式,連接強度的加權值(簡稱權值)允許不同,權值越大表示該輸入的影響越大。神經(jīng)元的所有輸入采用加權和的方式。輸入、
輸出向量分別用x和y表示,且x=(x1,x2,…,xn),y=(y1,y2,…,ym),表示輸入層、輸出層分別有n、m個節(jié)點。輸入、輸出向量分別是n維和m維。圖3-13BP網(wǎng)絡3.3.2BP算法及步長調(diào)整
BP算法由信號的正向傳播和誤差的反向傳播兩個過程組成。
正向傳播時,輸入樣本從輸入層進入網(wǎng)絡,經(jīng)隱層逐層傳遞至輸出層,如果輸出層的實際輸出與期望輸出(導師信號)不同,則轉至誤差反向傳播;如果輸出層的實際輸出與
期望輸出(導師信號)相同,結束學習算法。反向傳播時,將輸出誤差(期望輸出與實際輸出之差)按原通路反傳計算,通過隱層反向,直至輸入層,在反傳過程中將誤差分攤給各層的各個單元,獲得各層各單元的誤差信
號,并將其作為修正各單元權值的根據(jù)。這一計算過程使用梯度下降法完成,在不停地調(diào)整各層神經(jīng)元的權值和閾值后,使誤差信號減小到最低限度。
權值和閾值不斷調(diào)整的過程,就是網(wǎng)絡的學習與訓練過程,經(jīng)過信號正向傳播與誤差反向傳播,權值和閾值的調(diào)整反復進行,一直進行到預先設定的學習訓練次數(shù),或輸出誤
差減小到允許的程度。
1.標準BP學習算法的步驟
標準BP學習算法的步驟如下:
(1)用一個小的隨機數(shù)初始化,例如用-0.1~0.1之間的一個隨機數(shù)對權值進行初始化。
(2)選擇S型函數(shù)作為神經(jīng)元功能函數(shù):
f(u)=(1+e-u)-1
其導數(shù)為每個節(jié)點的功能函數(shù)為式中,vk,j是第k層第i個神經(jīng)元的輸出,wk,j,i是第k-1層第i個神經(jīng)元連接到第k層第j個神經(jīng)元的權值。
(3)求網(wǎng)絡目標函數(shù)J(t)。網(wǎng)絡目標函數(shù)采用總誤差平方和的指標衡量,設目標輸出為dp,Jp(t)為第p組輸入時的目標函數(shù):將單個樣本的誤差平方和累積,得總誤差平方和為網(wǎng)絡目標函數(shù)J(t)用于評價網(wǎng)絡學習狀態(tài)。(4)事先確定誤差值ε,將目標函數(shù)J(t)與ε比較,如果
J(t)-ε≤0
則算法結束,否則轉入誤差反向傳播計算。
(5)誤差反向傳播計算。反向傳播計算按梯度下降法進行,逐層調(diào)整權值。調(diào)整時取步長η為常值,從第i個神經(jīng)元到第j個神經(jīng)元連接權調(diào)整公式為步長η又稱為學習率,是一個較小的正數(shù)。偏導數(shù)的計算方法如下:式中,uk,j是第k層第j個節(jié)點的輸出??紤]到代入偏導數(shù)計算公式并層層遞推計算,得上式表明求第k層輸出節(jié)點的偏導數(shù),能轉變成對k+1層輸出節(jié)點求偏導數(shù),如此層層遞推,直至輸出層。輸出層的偏導數(shù)為
在整個訓練過程中,輸入樣本周期性進入網(wǎng)絡,直至網(wǎng)絡收斂,輸出誤差進入事先允許的范圍之內(nèi)。
2.連接強度加權值的調(diào)整
提高“標準BP學習算法”的收斂速度是長期以來研究的課題,其中有兩種方法提高收斂速度較為有效,一種是調(diào)整連接權值,一種是調(diào)整學習率。
常用的連接強度加權值調(diào)整方法有兩種:一種是逐個處理輸入樣本,另一種是批量處理輸入樣本。
逐個處理輸入樣本是對每一個輸入樣本完成連接權的調(diào)整,優(yōu)點是調(diào)整速度快,立即見效,并且有助于逃離局部極小點,缺點是隨機擾動隨時存在導致精度不高。批量處理輸入樣本適用于高精度映射,這是因為參與訓練的輸入樣本越多,每個輸入對輸出的影響越接近于實際情況,從而精度越高。使用誤差反向傳播處理成批輸入樣本時,連接權值的調(diào)整量由累加而成,方法是全部樣本依次輸入后通過累加實施,用數(shù)學表達式表示為式中,m是輸入樣本個數(shù)。無論選取哪一種調(diào)整連接強度加權值的方法,都希望在訓練過程中,連接強度加權值不發(fā)生急劇變化,不引起訓練過程振蕩,使連接權值平滑變化。為了做到這一點,在權值表達式中增加一項,該項被稱為慣性項,修改后的第p行連接權值增量表達式為式中第二項就是慣性項,ξ稱為慣性因子,取值范圍為[0,1]。若ξ取值為0,則本次連接權值的調(diào)整與前一步無關;若ξ取值為1,則前一步連接權的變化將全部施加到本次的調(diào)整上,必然會加快訓練過程的收斂。ξ的通常首選值是在0.85~0.95之間。連接權值增量表達式是運用共軛梯度法運算的一種形式,共軛梯度法中的收斂系數(shù)既可以由算法在每一步計算中確定,也可以由用戶選擇。但無論哪種做法,其目的只有一個,就是既要收斂、避免振蕩或陷入局部極小點,又要求收斂過程盡快完成。當訓練過程處于目標函數(shù)曲線的平滑區(qū)間開展時,每一步的梯度將保持平穩(wěn),連接權增量表達式能進一步簡化為
這意味著帶有慣性項時的增量調(diào)整步長遠大于不帶慣性項的增量調(diào)整,由于ξ≥0,ξ越大,調(diào)整效果越顯著。
3.學習率的調(diào)整
學習率η的大小直接關系到算法的收斂。η選擇得足夠小,有利于總誤差極小變化,但學習進展的速度較慢;反之,η選擇得足夠大,雖然能夠加快學習進程,但不利于收斂,容易產(chǎn)生振蕩,或者陷入局部極小點,或者停止在誤差函數(shù)的平穩(wěn)段處。學習率的大小選擇需要綜合考慮,既要照顧到收斂性,又要兼顧到學習的速度。
左右學習率大小的上述兩個因素中,首先應當考慮的是算法收斂性,在保證收斂的情況下盡快地提高學習速度,學習速度過慢的BP網(wǎng)絡沒有任何實用價值。調(diào)整學習率的具體做法是要改變學習率,使BP算法在按步驟進行的收斂過程中,每一步的學習率都將發(fā)生變化,而不是固定不變。學習率η固定不變的BP算法只能用來說
明多層前饋網(wǎng)絡基本結構和工作原理。
學習率的改變要遵循一定的規(guī)律,這個規(guī)律就是每一步的步長盡可能大一些,但又必須保證訓練過程不失穩(wěn)定。從這一規(guī)律出發(fā),實際操作可以采取不同的方法進行。其中最為簡單的操作方法有兩種:一種根據(jù)誤差函數(shù)對學習率的梯度決定學習率的大??;另一種是按照誤差函數(shù)的變化來決定學習率的大小。
4.根據(jù)誤差函數(shù)對學習率的梯度來調(diào)整
設BP網(wǎng)絡的學習目標函數(shù)為式中,k表示迭代次數(shù),且每一個輸入樣本迭代一次;y表示網(wǎng)絡的期望輸出,y表示網(wǎng)絡的實際輸出;e表示期望輸出與實際輸出之間的誤差。考慮到神經(jīng)元的輸出yi與輸入xj之間的關系:學習目標函數(shù)對學習率ηij(k)的梯度定義如下:定義說明在第k時刻的梯度與目標函數(shù)對連接權在k-1時刻的梯度有關,表示多層網(wǎng)絡中任意相鄰兩層間神經(jīng)元之間的連接權調(diào)整都能對最終結果有影響。按照最陡下降規(guī)則,學習率的調(diào)整公式如下:式中,n是一個正實數(shù),其取值大小反映了學習率步長。上式求偏導數(shù)的值可正可負。當目標函數(shù)的偏導數(shù)為正值時,反映出對wij的調(diào)整加快,相應學習過程也加快;反之,在連續(xù)兩次迭代時,目標函數(shù)的偏導數(shù)改變符號,使得學習率調(diào)整值為負,學習過程也將減慢。
5.根據(jù)誤差函數(shù)的變化來調(diào)整
按照誤差函數(shù)的變化來調(diào)整,需要遵守的若干規(guī)則是:
如果誤差函數(shù)在調(diào)整過程中向小的方向變化,表明新的誤差比調(diào)整前一次誤差小一些,學習率應當增加;
如果誤差函數(shù)在調(diào)整過程中向大的方向變化,表明新的誤差比調(diào)整前一次的誤差大一些,學習率應當減小,當新誤差與前一次誤差之比大于1且超過一定數(shù)值時,學習率將快速下降。目標函數(shù)中每一個可調(diào)參數(shù)都允許一個獨立的學習率,而一個學習率僅適合于一個權的調(diào)整,未必能適合其它連接權的調(diào)整。無論是固定不變的學習率,還是不恰當?shù)倪x擇,都可能導致BP算法收斂速度較慢,每一步迭代必然要求改變學習率參數(shù)。
前一次誤差變化影響本次學習率可用下式表示:式中,a,b的取值滿足
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
- 6. 下載文件中如有侵權或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2025貴州貴安新區(qū)綜合行政執(zhí)法支隊面向貴陽貴安公開選聘事業(yè)單位人員10人筆試備考重點試題及答案解析
- 四川宏達(集團)有限公司本部及所屬企業(yè)2025年12月社會招聘模擬筆試試題及答案解析
- 2025年黃山市第二人民醫(yī)院招聘工作人員5名筆試備考重點試題及答案解析
- 2025寧夏物流集團有限責任公司下半年招聘補充筆試備考重點題庫及答案解析
- 安慶二模日語試卷及答案
- 國家知識產(chǎn)權局專利局專利審查協(xié)作廣東中心2026年度專利審查員公開招聘備考題庫完整答案詳解
- 惠農(nóng)區(qū)委全面依法治區(qū)委員會辦公室選聘行政執(zhí)法監(jiān)督員20人的備考題庫參考答案詳解
- 邯鄲市永年區(qū)公開招聘警務輔助人員20人備考題庫及參考答案詳解一套
- 商丘市睢陽區(qū)司法局公開招聘20人勞務派遣制專職人民調(diào)解備考題庫及一套參考答案詳解
- 拉薩中學2026年定向教育部直屬師范大學引進急需緊缺人才7人備考題庫及答案詳解一套
- 2025年重慶青年職業(yè)技術學院非編合同制工作人員招聘68人備考題庫及一套答案詳解
- 甲醇安全培訓試題及答案
- 高空作業(yè)繩索安全操作規(guī)范
- 2025上海靜安區(qū)區(qū)管企業(yè)招聘中層管理人員17人筆試備考試卷附答案解析
- 急診用藥錯誤的FMEA分析與預防策略
- 2025年瓷磚及石材培訓試題及答案
- 2026年供水公司安全三級教育培訓管理制度
- 2025年及未來5年市場數(shù)據(jù)中國3-丁烯-1-醇行業(yè)市場深度分析及發(fā)展前景預測報告
- (一模)六盤水市2026屆高三高考適應性考試(一)英語試卷(含答案詳解)
- 2025年新沂市教育局直屬學校招聘真題
- 2025秋期版國開電大本科《管理英語4》一平臺綜合測試形考任務在線形考試題及答案
評論
0/150
提交評論