《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件全套 第1-10章 緒論 -人工神經(jīng)網(wǎng)絡(luò)應(yīng)用_第1頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件全套 第1-10章 緒論 -人工神經(jīng)網(wǎng)絡(luò)應(yīng)用_第2頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件全套 第1-10章 緒論 -人工神經(jīng)網(wǎng)絡(luò)應(yīng)用_第3頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件全套 第1-10章 緒論 -人工神經(jīng)網(wǎng)絡(luò)應(yīng)用_第4頁
《人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì) 》 課件全套 第1-10章 緒論 -人工神經(jīng)網(wǎng)絡(luò)應(yīng)用_第5頁
已閱讀5頁,還剩364頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)01緒論目錄人工神經(jīng)網(wǎng)絡(luò)010203人工神經(jīng)網(wǎng)絡(luò)的發(fā)展人工神經(jīng)網(wǎng)絡(luò)的未來前景01人工神經(jīng)網(wǎng)絡(luò)

人腦是人類神經(jīng)系統(tǒng)的主要組成部分,負(fù)責(zé)控制和調(diào)節(jié)各種生理和心理活動,是智慧和行為的源泉。人腦約由101l至1012個神經(jīng)元相互連接組成,這些神經(jīng)元通過突觸相互連接,形成了規(guī)模龐大、錯綜復(fù)雜的生物神經(jīng)網(wǎng)絡(luò)。

人工神經(jīng)網(wǎng)絡(luò)

從模擬人腦生物神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)特征和信息處理機(jī)制著手,設(shè)計(jì)出人工神經(jīng)網(wǎng)絡(luò)。經(jīng)過幾十年的發(fā)展,人工神經(jīng)網(wǎng)絡(luò)的研究取得了長足的進(jìn)步,成為解決復(fù)雜問題的重要智能工具,被廣泛應(yīng)用于信號處理、智能控制、圖像識別、自然語言處理等領(lǐng)域。301人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)特點(diǎn)人工神經(jīng)網(wǎng)絡(luò)是由多個人工神經(jīng)元組成的并行分布式存儲和信息處理系統(tǒng),旨在模擬人腦結(jié)構(gòu)特征和功能特性的。神經(jīng)網(wǎng)絡(luò)具有并行分布處理、非線性、容錯性、自適應(yīng)等特點(diǎn),展現(xiàn)出強(qiáng)大的信息處理能力。1并行分布處理在神經(jīng)網(wǎng)絡(luò)中,神經(jīng)元通過相互連接形成了并行分布式結(jié)構(gòu)。每個神經(jīng)元作為獨(dú)立計(jì)算單元,能夠并行處理輸入信號。401人工神經(jīng)網(wǎng)絡(luò)4自學(xué)習(xí)當(dāng)信息發(fā)生改變后,神經(jīng)網(wǎng)絡(luò)能夠基于新的信息對網(wǎng)絡(luò)進(jìn)行訓(xùn)練,即通過調(diào)整自身結(jié)構(gòu)和參數(shù)學(xué)習(xí)新信息,使得網(wǎng)絡(luò)輸出接近期望輸出。52非線性神經(jīng)元通過激活函數(shù)對輸入信號進(jìn)行處理,常用的激活函數(shù)多為非線性函數(shù),多個神經(jīng)元的廣泛連接必然使網(wǎng)絡(luò)呈現(xiàn)出高度的非線性特性。3容錯性神經(jīng)網(wǎng)絡(luò)特有的結(jié)構(gòu)使其對信息采用分布式存儲,某一神經(jīng)元或者連接權(quán)值出現(xiàn)問題時,不會影響整個網(wǎng)絡(luò)的性能,從而使神經(jīng)網(wǎng)絡(luò)具有較高的容錯性和魯棒性。01人工神經(jīng)網(wǎng)絡(luò)65自組織自組織是指神經(jīng)網(wǎng)絡(luò)能夠通過自生長、自刪減、自學(xué)習(xí)、自復(fù)制、自修復(fù)、自更新等過程來適應(yīng)外界環(huán)境的變化。這一特性使得神經(jīng)網(wǎng)絡(luò)具備解決各種復(fù)雜和不確定性問題的能力。01人工神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)功能神經(jīng)網(wǎng)絡(luò)通過模擬生物神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)特征和功能特性,構(gòu)建的信息處理系統(tǒng),其主要功能包括聯(lián)想記憶、非線性映射、分類與識別、特征提取以及數(shù)據(jù)生成等。自聯(lián)想記憶:網(wǎng)絡(luò)預(yù)先存儲多種模式信息,當(dāng)輸入某個模式的部分信息或帶有噪聲干擾的信息時,網(wǎng)絡(luò)能夠回憶該模式的全部信息。異聯(lián)想記憶:網(wǎng)絡(luò)預(yù)先存儲多個信息模式對,每一對模式均由兩個部分信息組成,當(dāng)輸入某個模式對的一部分時,即使輸入信息殘缺或疊加了噪聲,網(wǎng)絡(luò)也能回憶起與其對應(yīng)的另一部分信息。1聯(lián)想記憶701人工神經(jīng)網(wǎng)絡(luò)2非線性映射神經(jīng)網(wǎng)絡(luò)的非線性映射功能是指其能夠通過信息處理能力和學(xué)習(xí)機(jī)制,建立輸入和輸出之間的非線性映射關(guān)系。通過設(shè)計(jì)合理的網(wǎng)絡(luò)結(jié)構(gòu)對輸入輸出樣本進(jìn)行學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任意復(fù)雜的非線性映射。這一能力使得神經(jīng)網(wǎng)絡(luò)成為強(qiáng)大的非線性函數(shù)逼近器,能夠有效處理復(fù)雜的建模和預(yù)測問題。801人工神經(jīng)網(wǎng)絡(luò)3分類與識別神經(jīng)網(wǎng)絡(luò)具有較好的分類與識別能力。通過學(xué)習(xí)輸入和輸出樣本的特征,神經(jīng)網(wǎng)絡(luò)可以在樣本空間中根據(jù)分類要求將空間分割成各個區(qū)域,每個區(qū)域?qū)?yīng)一個類別。在訓(xùn)練階段,神經(jīng)網(wǎng)絡(luò)通過大量帶有標(biāo)簽的樣本學(xué)習(xí)如何將輸入映射到相應(yīng)的類別。訓(xùn)練完成后,網(wǎng)絡(luò)能夠根據(jù)新的輸入特征,準(zhǔn)確識別其所屬的類別。901人工神經(jīng)網(wǎng)絡(luò)4特征提取神經(jīng)網(wǎng)絡(luò)的特征提取功能使其在處理復(fù)雜任務(wù)時具有顯著優(yōu)勢,能夠自動從輸入數(shù)據(jù)中提取與待處理任務(wù)相關(guān)的特征。主要是通過神經(jīng)網(wǎng)絡(luò)的層級結(jié)構(gòu)逐步實(shí)現(xiàn)。神經(jīng)網(wǎng)絡(luò)輸入層接收原始數(shù)據(jù),經(jīng)由隱含層逐步提取出更抽象、更高層次的特征表示。1001人工神經(jīng)網(wǎng)絡(luò)5數(shù)據(jù)生成神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)生成功能是指利用神經(jīng)網(wǎng)絡(luò)生成新的數(shù)據(jù)樣本,其核心在于神經(jīng)網(wǎng)絡(luò)通過學(xué)習(xí)已有數(shù)據(jù)的分布模式,生成與已有數(shù)據(jù)相似或符合特定規(guī)則的新數(shù)據(jù)。11神經(jīng)網(wǎng)絡(luò)的數(shù)據(jù)生成功能在自然語言等領(lǐng)域中發(fā)揮著重要作用。例如,基于神經(jīng)網(wǎng)絡(luò)開發(fā)出的智能聊天機(jī)器人(如ChatGPT),通過學(xué)習(xí)海量對話數(shù)據(jù)中的模式和上下文關(guān)系,生成與用戶提問相關(guān)且連貫的回答,并能進(jìn)行自然的對話互動。原始數(shù)據(jù)生成數(shù)據(jù)02人工神經(jīng)網(wǎng)絡(luò)的發(fā)展

人工神經(jīng)網(wǎng)絡(luò)的產(chǎn)生人工神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)性工作最早可追溯至19世紀(jì)中后期。多位生理學(xué)家、神經(jīng)學(xué)家、心理學(xué)家的研究為理解神經(jīng)系統(tǒng)的功能和信息傳遞機(jī)制奠定了基礎(chǔ),并啟發(fā)了后來的神經(jīng)網(wǎng)絡(luò)的設(shè)計(jì)。對人工神經(jīng)網(wǎng)絡(luò)的產(chǎn)生具有里程碑意義的事件有:1943年,WarrenMcCulloch和WalterPitts模擬生物神經(jīng)元工作原理,提出了第一個人工神經(jīng)元模型,簡稱MP模型,McCulloch和Pitts證明了MP模型可以解決任何算術(shù)或邏輯運(yùn)算,從而奠定了神經(jīng)網(wǎng)絡(luò)作為一種通用計(jì)算模型的理論基礎(chǔ)。1949年,加拿大心理學(xué)家DonaldHebb對20余年的研究工作進(jìn)行總結(jié),出版了著作《TheOrganizationofBehavior:ANeuropsychologicalTheory》(《行為的組織》),提出了著名的Hebb學(xué)習(xí)假說,這也是最早的神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)規(guī)則之一。1202人工神經(jīng)網(wǎng)絡(luò)的發(fā)展

人工神經(jīng)網(wǎng)絡(luò)的發(fā)展人工神經(jīng)網(wǎng)絡(luò)從產(chǎn)生到萌芽期,經(jīng)歷低潮期,再進(jìn)入復(fù)興期,并在21世紀(jì)隨著深度學(xué)習(xí)的興起而蓬勃發(fā)展,如圖2-1所示。其發(fā)展道路曲折但意義深遠(yuǎn)。圖2-1神經(jīng)網(wǎng)絡(luò)發(fā)展歷程。1302人工神經(jīng)網(wǎng)絡(luò)的發(fā)展

人工神經(jīng)網(wǎng)絡(luò)的發(fā)展(1)萌芽期1952年,英國神經(jīng)科學(xué)家WilliamRossAshby提出了“自組織”(Self-Organizing)這一概念,指出大腦中的神經(jīng)元通過相互連接和自我調(diào)整來適應(yīng)環(huán)境的變化,并認(rèn)為這一自適應(yīng)行為是通過后天學(xué)習(xí)獲得的。1957年,美國計(jì)算機(jī)學(xué)家FrankRosenblatt和他的同事提出了感知器網(wǎng)絡(luò)以及相應(yīng)的學(xué)習(xí)算法,并展示了該網(wǎng)絡(luò)解決分類問題的能力。1960年,美國電機(jī)工程師BernardWidrow和他的學(xué)生MarcianHoff發(fā)明了自適應(yīng)線性單元,即ADALINE網(wǎng)絡(luò)。此外,Widrow和Hoff還提出了Widrow-Hoff學(xué)習(xí)規(guī)則用于訓(xùn)練ADALINE網(wǎng)絡(luò)。1402人工神經(jīng)網(wǎng)絡(luò)的發(fā)展(2)低潮期盡管如此,仍有一些學(xué)者堅(jiān)持在神經(jīng)網(wǎng)絡(luò)領(lǐng)域進(jìn)行研究,并取得了一些重要突破。1976年,StephenGrossberg和GailA.Carpenter提出了著名的自適應(yīng)共振理論。1981年,芬蘭計(jì)算機(jī)科學(xué)家TeuvoKohonen模擬大腦神經(jīng)系統(tǒng)自組織映射的功能,提出了自組織映射(Self-OrganizingMap,SOM)網(wǎng)絡(luò)。1980年,日本學(xué)者KunihikoFukushima提出了神經(jīng)認(rèn)知機(jī),能夠正確識別手寫的0~9這十個數(shù)字。1969年,MarvinMinsky和SeymourPapert指出單層感知器無法解決線性不可分問題。盡管多層感知器理論上能夠解決非線性問題,但當(dāng)時缺乏有效的學(xué)習(xí)算法,實(shí)用價(jià)值有限。由于Minsky和Papert在人工智能領(lǐng)域的地位和影響,他們的觀點(diǎn)導(dǎo)致許多學(xué)者放棄了神經(jīng)網(wǎng)絡(luò)相關(guān)研究,使得神經(jīng)網(wǎng)絡(luò)進(jìn)入了10年低潮期。1502人工神經(jīng)網(wǎng)絡(luò)的發(fā)展(3)復(fù)蘇期1982年,美國加州理工學(xué)院物理學(xué)家JohnJ.Hopfield提出了離散Hopfield網(wǎng)絡(luò),并借用Lyapunov能量函數(shù)的原理,給出了網(wǎng)絡(luò)的穩(wěn)定性判據(jù)。1984年,Hopfield又?jǐn)U展了網(wǎng)絡(luò)模型,提出了連續(xù)Hopfield網(wǎng)絡(luò)。1986年,美國貝爾實(shí)驗(yàn)室利用Hopfield網(wǎng)絡(luò)理論在硅片上制成了神經(jīng)網(wǎng)絡(luò)計(jì)算機(jī)。20世紀(jì)80年代,新型網(wǎng)絡(luò)結(jié)構(gòu)和多層網(wǎng)絡(luò)學(xué)習(xí)算法的提出對神經(jīng)網(wǎng)絡(luò)研究的復(fù)蘇起到了重要的推動作用。16電路實(shí)現(xiàn)Hopfield神經(jīng)網(wǎng)絡(luò)02人工神經(jīng)網(wǎng)絡(luò)的發(fā)展(3)復(fù)蘇期美國認(rèn)知神經(jīng)科學(xué)家DavidE.Rumelhart和JamesL.McCelland提出了用于多層感知器訓(xùn)練的誤差反向傳播(BackPropagation,BP)算法,解決了MarvinMinsky等人認(rèn)為無法解決的多層感知器的學(xué)習(xí)問題。該算法迅速成為神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)中最核心和最廣泛使用的方法之一,為神經(jīng)網(wǎng)絡(luò)的廣泛應(yīng)用奠定了基礎(chǔ)。1702人工神經(jīng)網(wǎng)絡(luò)的發(fā)展1987年6月,首屆國際神經(jīng)網(wǎng)絡(luò)學(xué)術(shù)會議在美國加州圣地亞哥成功召開,推動了國際神經(jīng)網(wǎng)絡(luò)學(xué)會的成立,同年,全球首份神經(jīng)網(wǎng)絡(luò)期刊NeuralNetworks創(chuàng)刊。神經(jīng)網(wǎng)絡(luò)研究正式進(jìn)入了高潮期,各種新模型和新算法層出不窮。1802人工神經(jīng)網(wǎng)絡(luò)的發(fā)展19(4)高潮期1988年,DavidS.Broomhead和DavidLowe提出了徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)。1991年,YannLeCun提出了卷積神經(jīng)網(wǎng)絡(luò),在圖像處理和計(jì)算機(jī)視覺任務(wù)中取得了顯著效果。1997年,針對長序列建模難題,德國科學(xué)家SeppHochreiter和JürgenSchmidhuber提出了長短期記憶網(wǎng)絡(luò),成為自然語言處理等領(lǐng)域的重要工具。1997年,奧地利計(jì)算機(jī)科學(xué)家WolfgangMaass提出了脈沖神經(jīng)網(wǎng)絡(luò),被視為類腦神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)。2001年,德國科學(xué)家HerbertJaeger提出了回聲狀態(tài)網(wǎng)絡(luò),提高了網(wǎng)絡(luò)的非線性處理能力和計(jì)算效率。02人工神經(jīng)網(wǎng)絡(luò)的發(fā)展

人工神經(jīng)網(wǎng)絡(luò)的發(fā)展2006年,神經(jīng)網(wǎng)絡(luò)之父GeoffreyHinton提出了深度信念網(wǎng)絡(luò),為深度學(xué)習(xí)的發(fā)展開辟了新的方向。2012年,加拿大計(jì)算機(jī)科學(xué)家AlexKrizhevsky等人設(shè)計(jì)了AlexNet網(wǎng)絡(luò),在計(jì)算機(jī)視覺領(lǐng)域取得了重大突破。2014年3月,F(xiàn)acebook的DeepFace項(xiàng)目基于深度學(xué)習(xí)使得人臉識別的準(zhǔn)確率達(dá)到了97.25%。隨著大數(shù)據(jù)時代的來臨,隱層淺層神經(jīng)網(wǎng)絡(luò)在實(shí)際應(yīng)用中難以滿足需求,深度神經(jīng)網(wǎng)絡(luò)開始逐漸受到關(guān)注。2002人工神經(jīng)網(wǎng)絡(luò)的發(fā)展2015年,中國科學(xué)家何愷明提出了殘差網(wǎng)絡(luò),解決了深層神經(jīng)網(wǎng)絡(luò)訓(xùn)練中的梯度消失問題。2017年,美國計(jì)算機(jī)科學(xué)家AshishVaswani等人提出了自注意力機(jī)制(Transformer),在機(jī)器翻譯任務(wù)中取得了突破性成果。2018年,Google旗下的DeepMind公司開發(fā)出了AlphaGo和AlphaZero人工智能機(jī)器人,展現(xiàn)了神經(jīng)網(wǎng)絡(luò)在策略問題上的強(qiáng)大能力。212022年,美國OpenAI團(tuán)隊(duì)推出了ChatGPT,能夠生成流暢的對話和文本,進(jìn)行語言翻譯,并具備上下文理解和連續(xù)對話能力。ChatGPT生成對話文本03人工神經(jīng)網(wǎng)絡(luò)的未來前景展望未來,神經(jīng)網(wǎng)絡(luò)的理論探索和實(shí)際應(yīng)用將愈加引人注目,必然成為全球科技創(chuàng)新與產(chǎn)業(yè)變革的重要推動力。

在理論方面,網(wǎng)絡(luò)結(jié)構(gòu)和學(xué)習(xí)算法的探索依然是神經(jīng)網(wǎng)絡(luò)研究的主要方向。未來有望催生出更加接近生物神經(jīng)網(wǎng)絡(luò)的神經(jīng)網(wǎng)絡(luò)模型,展現(xiàn)出更高的智能和更強(qiáng)的信息處理能力。盡管有關(guān)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)的工作層出不窮,形成完善的結(jié)構(gòu)設(shè)計(jì)理論體系仍是研究者們亟待攻克的難題。如何開發(fā)出更高效的學(xué)習(xí)算法,以加速神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程,也是未來研究的重要方向之一。隨著人工智能倫理日益受到關(guān)注,神經(jīng)網(wǎng)絡(luò)的可解釋研究將成為未來的重點(diǎn)領(lǐng)域。2203人工神經(jīng)網(wǎng)絡(luò)的未來前景

在應(yīng)用方面,神經(jīng)網(wǎng)絡(luò)已在多個領(lǐng)域取得了顯著突破。在交通領(lǐng)域,特斯拉利用神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)自適應(yīng)巡航控制和自動變道,推動了自動駕駛技術(shù)的發(fā)展。在航空航天領(lǐng)域,神經(jīng)網(wǎng)絡(luò)的應(yīng)用涵蓋了飛行器設(shè)計(jì)與控制、故障診斷與數(shù)據(jù)分析多個方面。2303人工神經(jīng)網(wǎng)絡(luò)的未來前景在醫(yī)療領(lǐng)域,神經(jīng)網(wǎng)絡(luò)不僅廣泛用于醫(yī)學(xué)影像的自動診斷,還在疾病預(yù)測、藥物開發(fā)等方面嶄露頭角。在制造領(lǐng)域,神經(jīng)網(wǎng)絡(luò)被用于生產(chǎn)過程建模、控制、優(yōu)化等方面。在環(huán)保領(lǐng)域,神經(jīng)網(wǎng)絡(luò)被用于污染物智能檢測和污染治理過程動態(tài)調(diào)控,助力美麗中國建設(shè)。24人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)02人工神經(jīng)網(wǎng)絡(luò)構(gòu)成目錄神經(jīng)元模型01020304神經(jīng)元學(xué)習(xí)規(guī)則神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法05神經(jīng)網(wǎng)絡(luò)性能分析01人工神經(jīng)元模型神經(jīng)細(xì)胞是構(gòu)成神經(jīng)系統(tǒng)的基本單元,稱之為生物神經(jīng)元,簡稱神經(jīng)元。生物神經(jīng)系統(tǒng)中神經(jīng)信息的運(yùn)動,包括傳導(dǎo)、整合、興奮或抑制等,都是神經(jīng)元機(jī)能的表現(xiàn)。細(xì)胞體:細(xì)胞核、細(xì)胞質(zhì)和細(xì)胞膜樹突:胞體短而多分枝的突起。相當(dāng)于神經(jīng)元的輸入端軸突:胞體上最長枝的突起,也稱神經(jīng)纖維端部有很多神經(jīng)末稍傳出神經(jīng)沖動突觸:神經(jīng)元間的連接接口,每個神經(jīng)元約有1萬10萬個突觸細(xì)胞膜電位:神經(jīng)細(xì)胞在受到電的、化學(xué)的、機(jī)械的刺激后,能產(chǎn)生興奮與抑制

生物神經(jīng)元3神經(jīng)元通過其軸突的神經(jīng)末稍,經(jīng)突觸與另神經(jīng)元的樹突聯(lián)接,實(shí)現(xiàn)信息的傳遞。由于突觸的信息傳遞特性是可變的,形成了神經(jīng)元間聯(lián)接的柔性,稱為結(jié)構(gòu)的可塑性。

生物神經(jīng)元圖2-1生物神經(jīng)元結(jié)構(gòu)01人工神經(jīng)元模型4

生物神經(jīng)元功能興奮與抑制:當(dāng)傳入神經(jīng)元沖動,經(jīng)整和使細(xì)胞膜電位升高,超過動作電位閾值時,為興奮狀態(tài),產(chǎn)生神經(jīng)沖動,由軸突經(jīng)神經(jīng)末稍傳出。當(dāng)傳入神經(jīng)元沖動,經(jīng)整和使細(xì)胞膜電位降低,低于動作電位閾值時,為抑制狀態(tài),不產(chǎn)生神經(jīng)沖動。2.學(xué)習(xí)與遺忘:由于神經(jīng)元結(jié)構(gòu)的可塑性,突觸的傳遞作用可增強(qiáng)與減弱,因此,神經(jīng)元具有學(xué)習(xí)與遺忘的功能。01人工神經(jīng)元模型5

MP模型1943年,美國心理學(xué)家WarrenMcCulloch和數(shù)理邏輯學(xué)家WalterPitts模擬生物神經(jīng)元工作原理,提出了第一個人工神經(jīng)元模型,稱為MP模型,為神經(jīng)網(wǎng)絡(luò)的研究和發(fā)展奠定了基礎(chǔ)。如圖2-2所示,MP神經(jīng)元模型是一個多輸入/單輸出的非線性信息處理單元。圖中:x1,x2

,…,xn代表神經(jīng)元的n個輸入。w1,w2

,…,wn代表神經(jīng)元的連接權(quán)值。01人工神經(jīng)元模型圖2-2MP模型6第i

個神經(jīng)元的輸出:其中f(u)為激活函數(shù),也稱為作用函數(shù)。設(shè),則yi=f(ui)MP神經(jīng)元模型中激活函數(shù)為單位階躍函數(shù),如圖2-3所示:10uf(u)表達(dá)式為:

MP模型01人工神經(jīng)元模型圖2-3單位階躍函數(shù)7例如圖所示,有一個兩輸入的MP神經(jīng)元模型,輸入為x1=2,x2=3,權(quán)值為w1=-1,w2=1,閾值θ=2時,試計(jì)算神經(jīng)元輸出。01人工神經(jīng)元模型圖2-4兩輸入MP神經(jīng)元模型8解:01人工神經(jīng)元模型根據(jù)MP神經(jīng)元工作原理,將輸入、神經(jīng)元權(quán)值和閾值帶入式(2-1)中,神經(jīng)元輸出計(jì)算如下:又由于激活函數(shù)為單位階躍函數(shù),可得神經(jīng)元輸出為:W.McCulloch和W.Pitts在其發(fā)表的論文中指出,MP神經(jīng)元模型可以計(jì)算任何算數(shù)或邏輯函數(shù)。9

激活函數(shù)類型和作用神經(jīng)元的激活函數(shù)是關(guān)于凈輸入的線性或非線性函數(shù),不同的激活函數(shù)具有不同的信息處理特性,以下是幾種常用的激活函數(shù)。01人工神經(jīng)元模型(1)對稱型階躍函數(shù)階躍函數(shù)是最簡單的非線性函數(shù)之一,處理離散信號的神經(jīng)元常常采用階躍函數(shù)作為激活函數(shù)。階躍函數(shù)在簡單的二分類問題中十分有效。對稱型階躍函數(shù)與之性質(zhì)相似,其函數(shù)圖像如圖2-5,可以表示為圖2-5對稱型階躍函數(shù)1001人工神經(jīng)元模型(2)線性函數(shù)當(dāng)激活函數(shù)為線性函數(shù)時,神經(jīng)元計(jì)算效率較高,但由于線性函數(shù)無法引入非線性特性,在一定程度上會限制神經(jīng)網(wǎng)絡(luò)處理復(fù)雜和非線性問題的能力。線性函數(shù)圖像如圖2-6。(3)飽和線性函數(shù)飽和線性函數(shù)在特定的輸入范圍內(nèi)表現(xiàn)出線性關(guān)系,超出范圍時則趨于飽和,這種特性使得其能夠有效控制輸出范圍。飽和線性函數(shù)特性如圖2-7所示,可表示為圖2-6線性函數(shù)圖2-7飽和線性函數(shù)1101人工神經(jīng)元模型(4)對稱飽和線性函數(shù)

對稱飽和線性函數(shù)特性與飽和線性函數(shù)特性相似,但在正負(fù)方向上具有對稱性,函數(shù)圖像如圖2-8所示,可表示為(5)徑向基函數(shù)

徑向基函數(shù)是一種沿徑向?qū)ΨQ的標(biāo)量函數(shù),具有對稱性和平滑性,可以表示為其中,c為函數(shù)的中心,σ為函數(shù)的寬度。圖2-9為徑向基函數(shù)的特性。圖2-8對稱飽和線性函數(shù)圖2-9徑向基函數(shù)1201人工神經(jīng)元模型(6)Sigmoid函數(shù)Sigmoid函數(shù),也稱對數(shù)S型函數(shù),可以將輸入壓縮到0和1之間。Sigmoid函數(shù)本身及其導(dǎo)數(shù)在定義域內(nèi)都是連續(xù)可導(dǎo)的,引入非線性的同時計(jì)算相對簡單。Sigmoid函數(shù)如圖10a)所示,可以表示為Sigmoid函數(shù)也可表達(dá)為a)b)β控制曲線的斜率,當(dāng)β=2時,其函數(shù)特性曲線如圖10b)所示。圖2-10Sigmoid函數(shù)1301人工神經(jīng)元模型(7)雙曲正切函數(shù)雙曲正切函數(shù),也稱對稱型S函數(shù),可以將輸入壓縮到-1和1之間。雙曲正切函數(shù)能夠在一定程度上緩解梯度消失問題。雙曲正切函數(shù)可以表示為圖2-11a)為雙曲正切函數(shù)的特性。有時為了需要,雙曲正切函數(shù)也可表達(dá)為a)b)β控制取值決定了函數(shù)非飽和段的斜率。當(dāng)β=2時,其函數(shù)特性曲線如圖2-11b)。圖2-11雙曲正切函數(shù)1401人工神經(jīng)元模型(8)ReLU函數(shù)ReLU(RectifiedLinearUnit)函數(shù),也稱為整流線性單元函數(shù)或斜坡函數(shù)。相較于Sigmoid函數(shù),ReLU函數(shù)不僅計(jì)算相對簡單,還具有更強(qiáng)的仿生物學(xué)原理和稀疏激活特性。ReLU函數(shù)可表示為ReLU函數(shù)的特性如圖12所示。圖2-12.Relu函數(shù)激活函數(shù)的選取取決于神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及解決的問題,合適的激活函數(shù)能夠顯著提升神經(jīng)網(wǎng)絡(luò)性能。1502神經(jīng)元學(xué)習(xí)規(guī)則

Hebb學(xué)習(xí)規(guī)則1949年,DonaldHebb提出“Hebb假說”:當(dāng)神經(jīng)元的突出前膜電位與后膜電位同時為正時,突觸連接的強(qiáng)度會增強(qiáng);當(dāng)前膜電位與后膜電位極性相反時,突觸連接的強(qiáng)度會減弱。式中,為被稱為學(xué)習(xí)率的正常數(shù),

為神經(jīng)元輸出,為神經(jīng)元輸入??梢钥闯?,權(quán)值的變化與輸入輸出的乘積成正比。16因此,如果一個正輸入能夠產(chǎn)生一個正輸出,那么輸入與輸出之間的連接權(quán)值就應(yīng)該增加,權(quán)值調(diào)整公式可表達(dá)為:02神經(jīng)元學(xué)習(xí)規(guī)則例題當(dāng)采用Hebb學(xué)習(xí)規(guī)則調(diào)整權(quán)值時,應(yīng)預(yù)先設(shè)置權(quán)值飽和值,以防止輸入和輸出始終正負(fù)一致情況下出現(xiàn)權(quán)值無約束增長。此外,在學(xué)習(xí)開始前,需要對權(quán)值進(jìn)行初始化處理,通常是賦予接近零的隨機(jī)數(shù)。假設(shè)有一個3輸入單輸出的神經(jīng)元模型,激活函數(shù)為線性函數(shù),閾值

,學(xué)習(xí)率

。當(dāng)3個輸入樣本分別為

,,,初始權(quán)值向量為

時,試采用Hebb學(xué)習(xí)規(guī)則更新神經(jīng)元權(quán)值。1702神經(jīng)元學(xué)習(xí)規(guī)則解:神經(jīng)元權(quán)值調(diào)整步驟如下(1)輸入第一個樣本

,計(jì)算神經(jīng)元凈輸入,并調(diào)整權(quán)值(2)輸入第二個樣本

,計(jì)算神經(jīng)元凈輸入,并調(diào)整權(quán)值1802神經(jīng)元學(xué)習(xí)規(guī)則(3)輸入第三個樣本

,計(jì)算神經(jīng)元凈輸入,并調(diào)整權(quán)值1902神經(jīng)元學(xué)習(xí)規(guī)則

Widrow-Hoff學(xué)習(xí)規(guī)則1960年,BernardWidrow和MarcianHoff提出了自適應(yīng)線性單元(ADALINE),并設(shè)計(jì)了相應(yīng)的Widrow-Hoff學(xué)習(xí)規(guī)則。Widrow-Hoff學(xué)習(xí)規(guī)則通過調(diào)整神經(jīng)元的權(quán)值和閾值來最小化均方誤差,因此也被稱為最小均方(Leastmeansquare,LMS)學(xué)習(xí)算法。該算法是一個以均方誤差為性能指標(biāo)的近似最速下降算法,屬于有監(jiān)督學(xué)習(xí)范疇,依賴于期望輸出進(jìn)行訓(xùn)練。均方誤差定義為式中,為神經(jīng)元的期望輸出。2002神經(jīng)元學(xué)習(xí)規(guī)則神經(jīng)元的調(diào)整與均方誤差的梯度有關(guān),調(diào)整方法為式中,為學(xué)習(xí)率。例題假設(shè)有一個3輸入單輸出的神經(jīng)元模型,激活函數(shù)為線性函數(shù),閾值

,學(xué)習(xí)率

。當(dāng)3個輸入樣本分別為

,,,初始權(quán)值向量為

,期望輸出,,,試采用Widrow-Hoff學(xué)習(xí)規(guī)則更新神經(jīng)元權(quán)值和閾值。2102神經(jīng)元學(xué)習(xí)規(guī)則解:為了簡化計(jì)算,可以將閾值看作權(quán)值的一部分,則有,,輸入向量和初始權(quán)值為,,,。權(quán)值調(diào)整步驟如下:(1)輸入第一個樣本

,計(jì)算神經(jīng)元凈輸入,并調(diào)整權(quán)值(2)輸入第二個樣本

,計(jì)算神經(jīng)元凈輸入,并調(diào)整權(quán)值2202神經(jīng)元學(xué)習(xí)規(guī)則(3)輸入第三個樣本

,計(jì)算神經(jīng)元凈輸入,并調(diào)整權(quán)值2303神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

前饋神經(jīng)網(wǎng)絡(luò)前饋神經(jīng)網(wǎng)絡(luò)(FeedforwardNeuralNetwork,FNN)是一種由多個神經(jīng)元層次組成的網(wǎng)絡(luò)結(jié)構(gòu),其中信息從輸入層逐層傳遞到各隱含層,最終到達(dá)輸出層。該網(wǎng)絡(luò)的處理過程具有明確的方向性,在這種結(jié)構(gòu)中,除輸出層外,每一層的輸出都會作為下一層的輸入。圖2-13分別給出了三層前饋神經(jīng)網(wǎng)絡(luò)和四層前饋神經(jīng)網(wǎng)絡(luò),二者主要區(qū)別在于隱含層數(shù)目不同。圖2-13.前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2403神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

遞歸神經(jīng)網(wǎng)絡(luò)遞歸神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetworks,RNN),也稱反饋神經(jīng)網(wǎng)絡(luò)或循環(huán)神經(jīng)網(wǎng)絡(luò)。與前饋神經(jīng)網(wǎng)絡(luò)不同,遞歸神經(jīng)網(wǎng)絡(luò)中至少存在一個反饋環(huán)路。代表性的遞歸神經(jīng)網(wǎng)絡(luò)包括Hopfield神經(jīng)網(wǎng)絡(luò)、回聲狀態(tài)網(wǎng)絡(luò)和長短期記憶網(wǎng)絡(luò)等。圖2-14所示是Hopfield神經(jīng)網(wǎng)絡(luò)。圖14.遞歸神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)2504神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

最速下降法最速下降法,又稱梯度下降法,是求解無約束優(yōu)化問題中最常用的一階優(yōu)化算法之一。該算法通過沿著目標(biāo)函數(shù)或者損失函數(shù)梯度的反方向更新參數(shù),逐步減小函數(shù)值,可表示如下:式中,

表示學(xué)習(xí)率,為目標(biāo)函數(shù)在第k次迭代時的梯度,計(jì)算如下:例題試使用最速下降法優(yōu)化以下函數(shù):令初始值為,學(xué)習(xí)率為,給出兩次迭代的計(jì)算過程與結(jié)果。2604神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法解:計(jì)算梯度為:可以得到

在處的梯度為:應(yīng)用最速下降法的第一次迭代為:可以得到

在處的梯度為:應(yīng)用最速下降法的第二次迭代為:2704神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

牛頓法區(qū)別于最速下降法,牛頓法通過目標(biāo)函數(shù)的二階泰勒多項(xiàng)式,在極小點(diǎn)附近對目標(biāo)函數(shù)進(jìn)行近似,具體可表示為:式中,

為目標(biāo)函數(shù)在處的梯度向量,為目標(biāo)函數(shù)在處的Hessian矩陣,即。為求的極小點(diǎn),令二次近似對的梯度為0。則有:若可逆,則可得牛頓法的迭代公式如下:式中,

為的逆矩陣。2804神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法例題試使用牛頓法優(yōu)化以下函數(shù):令初始值為。2904神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法解:計(jì)算梯度為:計(jì)算Hessian矩陣為:可以得到

在處的梯度和Hessian矩陣為:3004神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法應(yīng)用牛頓法的第一次迭代為:

可以看到,應(yīng)用牛頓法只需一次迭代就能找到二次函數(shù)的極小點(diǎn),這是因?yàn)榕nD法用一個二次函數(shù)來近似原函數(shù),然后求該二次近似的駐點(diǎn)。如果目標(biāo)函數(shù)本身是一個具有強(qiáng)極小點(diǎn)的二次函數(shù),那么牛頓法能夠在一次迭代中直接達(dá)到極小點(diǎn)。31

雖然牛頓法通常比最速下降法收斂更快,但由于需要計(jì)算和存儲Hessian矩陣及其逆矩陣,這使得牛頓法計(jì)算過程更加復(fù)雜,尤其是在高維度問題中。05神經(jīng)網(wǎng)絡(luò)性能分析

學(xué)習(xí)能力神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)能力是指其能夠從任務(wù)樣本數(shù)據(jù)中提取有用信息的能力,即神經(jīng)網(wǎng)絡(luò)能夠通過調(diào)整自身結(jié)構(gòu)和參數(shù)使得網(wǎng)絡(luò)輸出接近或者達(dá)到期望輸出。通常,學(xué)習(xí)能力可以通過學(xué)習(xí)精度和學(xué)習(xí)速度這兩個指標(biāo)來衡量。學(xué)習(xí)精度指的是神經(jīng)網(wǎng)絡(luò)在訓(xùn)練過程所達(dá)到的準(zhǔn)確率或者誤差水平,準(zhǔn)確率可以通過輸出正確結(jié)果的比率來度量;誤差水平則可以使用均方誤差、均方根誤差等指標(biāo)評價(jià)。學(xué)習(xí)速度則指網(wǎng)絡(luò)在訓(xùn)練過程中達(dá)到穩(wěn)定狀態(tài)所需的時間或者迭代次數(shù)。3205神經(jīng)網(wǎng)絡(luò)性能分析

泛化能力

神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)及應(yīng)用的主要挑戰(zhàn)在于確保網(wǎng)絡(luò)不僅能在訓(xùn)練集上表現(xiàn)良好,還能在未見過的數(shù)據(jù)集上表現(xiàn)良好。這種在新數(shù)據(jù)集上的表現(xiàn)良好的能力被稱為泛化性能。

泛化性能是神經(jīng)網(wǎng)絡(luò)最重要的性能,主要通過網(wǎng)絡(luò)在測試集上的誤差來進(jìn)行度量。給定有限數(shù)據(jù)的情況下,在訓(xùn)練過程中保留一個特定的子集作為測試集。在網(wǎng)絡(luò)訓(xùn)練完成后,計(jì)算訓(xùn)練好的網(wǎng)絡(luò)在測試集上的誤差,即可得到泛化誤差。這一誤差反映了網(wǎng)絡(luò)在未見過的數(shù)據(jù)上能否有效地做出正確反應(yīng),是評估神經(jīng)網(wǎng)絡(luò)泛化性能的度量指標(biāo)。3305神經(jīng)網(wǎng)絡(luò)性能分析

欠擬合和過擬合欠擬合(Underfitting)和過擬合(Overfitting)是神經(jīng)網(wǎng)絡(luò)研究中的兩種常見問題。欠擬合是指神經(jīng)網(wǎng)絡(luò)無法充分捕捉訓(xùn)練數(shù)據(jù)中的規(guī)律和特征,即無法獲得足夠低的訓(xùn)練誤差;34過擬合發(fā)生在神經(jīng)網(wǎng)絡(luò)在訓(xùn)練集上表現(xiàn)良好,但在測試集上表現(xiàn)較差,即訓(xùn)練誤差和測試誤差之間的差距太大。圖2-15欠擬合(左)、合適擬合(中)、過擬合(右)05神經(jīng)網(wǎng)絡(luò)性能分析

欠擬合和過擬合圖2-16神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)與誤差間的關(guān)系

導(dǎo)致神經(jīng)網(wǎng)絡(luò)出現(xiàn)欠擬合和過擬合的因素有很多,其中神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),尤其是神經(jīng)元數(shù)量的選擇,是影響訓(xùn)練誤差和測試誤差的關(guān)鍵因素之一,如圖2-16所示。35當(dāng)神經(jīng)元數(shù)量較少時,神經(jīng)網(wǎng)絡(luò)由于能力不足難以擬合訓(xùn)練集,從而導(dǎo)致欠擬合;當(dāng)神經(jīng)元數(shù)量過多時,則可能因?yàn)橛涀×瞬贿m用于測試集的訓(xùn)練集性質(zhì)導(dǎo)致出現(xiàn)了過擬合。人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)03感知器目錄單層感知器01020304多層感知器多層感知器結(jié)構(gòu)設(shè)計(jì)應(yīng)用實(shí)例1957年,美國心理學(xué)家和計(jì)算機(jī)科學(xué)家FrankRosenblatt提出了一種結(jié)構(gòu)簡單且具有學(xué)習(xí)能力的神經(jīng)網(wǎng)絡(luò)——感知器(Perceptron)。感知器模型試圖模擬人類的視覺系統(tǒng),通過感知輸入信息并通過神經(jīng)沖動傳遞信息。單層感知器可以用于解決線性可分的分類問題,并為后來的多層神經(jīng)網(wǎng)絡(luò)的發(fā)展奠定了基礎(chǔ)。01單層感知器

單層感知器介紹301單層感知器

單神經(jīng)元感知器結(jié)構(gòu)單神經(jīng)元感知器結(jié)構(gòu)與MP神經(jīng)元結(jié)構(gòu)十分相似,如下圖3-1所示。圖3-1單神經(jīng)元感知器

:輸入向量

:權(quán)值向量

:感知器神經(jīng)元的閾值

:感知器神經(jīng)元的輸出

:求和函數(shù)401單層感知器

單神經(jīng)元感知器工作原理單神經(jīng)元感知器的凈輸入及輸出分別為:(3-1)令,則:為感知器神經(jīng)元的激活函數(shù),這里取階躍函數(shù):(3-2)(3-3)5由于單神經(jīng)元感知器的激活函數(shù)是階躍函數(shù),其輸出只能是0或1??梢?,單神經(jīng)元感知器可以將輸入向量分為兩類,類別邊界為:圖3-2兩輸入單神經(jīng)元感知器對二維樣本的分類對于兩輸入單神經(jīng)元感知器,式(3-4)實(shí)質(zhì)上在輸入向量空間中定義了一條直線,該直線將輸入向量分成了2類,如圖3-2所示。(3-4)601單層感知器

單神經(jīng)元感知器工作原理

多神經(jīng)元感知器結(jié)構(gòu)由于單神經(jīng)元感知器的輸出為0或1兩種狀態(tài),因此只能解決二分類問題。而事實(shí)上輸入向量的類別可能有許多種,因此,可以建立由多個神經(jīng)元組成的感知器來將它們有效地分開,其結(jié)構(gòu)如圖3-3所示,其中:

:輸入向量圖3-3單層多神經(jīng)元感知器結(jié)構(gòu)

:輸出向量

:閾值向量

:連接權(quán)值向量

:連接權(quán)值向量701單層感知器67

多神經(jīng)元感知器工作原理多神經(jīng)元感知器的輸出可表示為:(3-5)以一個兩輸入兩神經(jīng)元單層感知器為例,每個神經(jīng)元的類別邊界是一條直線,這兩條直線將平面劃分為4個區(qū)域,將輸入向量分成了4類,如圖3-4所示:圖3-4兩輸入兩神經(jīng)元感知器對二維樣本的分類對于一個由m個神經(jīng)元構(gòu)成的單層感知器,最多可以區(qū)分出2m種類別。01單層感知器

單層感知器的學(xué)習(xí)算法單層感知器學(xué)習(xí)的本質(zhì)是通過調(diào)整輸入向量與神經(jīng)元間的連接權(quán)值或神經(jīng)元閾值,使感知器具有能夠正確區(qū)分目標(biāo)數(shù)據(jù)的能力。美國學(xué)者FrankRosenblatt等人提出了一種學(xué)習(xí)規(guī)則來調(diào)整感知器的連接權(quán)值和閾值。單神經(jīng)元感知器連接權(quán)值和神經(jīng)元閾值的學(xué)習(xí)規(guī)則為:其中,η為學(xué)習(xí)率,用于控制每次調(diào)整的步長,e為目標(biāo)輸出t與感知器輸出的誤差。(3-6)(3-7)單神經(jīng)元感知器學(xué)習(xí)規(guī)則6801單層感知器其中,為目標(biāo)輸出與感知器輸出的誤差向量。多神經(jīng)元感知器學(xué)習(xí)規(guī)則多神經(jīng)元感知器的學(xué)習(xí)與上述單神經(jīng)元感知器的學(xué)習(xí)類似,假設(shè)權(quán)值矩陣的第i行用表示,,多神經(jīng)元感知器的學(xué)習(xí)規(guī)則為:用一個統(tǒng)一的形式表達(dá)出來,即:(3-8)(3-9)(3-10)(3-11)6901單層感知器

單層感知器的學(xué)習(xí)算法例題:設(shè)有樣本數(shù)據(jù)對為:學(xué)習(xí)率,閾值為0,初始的連接權(quán)值矩陣為。基于上述多神經(jīng)元感知器的學(xué)習(xí)規(guī)則調(diào)整連接權(quán)值,使得該感知器能夠?qū)崿F(xiàn)對樣本數(shù)據(jù)的正確分類。7001單層感知器

單層感知器的學(xué)習(xí)算法解:首先,將樣本數(shù)據(jù)輸入給感知器。將送入:感知器能對輸入向量進(jìn)行正確的分類,根據(jù)多神經(jīng)元感知器的學(xué)習(xí)規(guī)則,不需要調(diào)整連接權(quán)值向量。將輸入向量送入感知器,其輸出為:(3-13)(3-12)7101單層感知器

單層感知器的學(xué)習(xí)算法感知器的實(shí)際輸出為,而樣本輸入向量的目標(biāo)值,說明感知器對輸入向量的分類是錯誤的,需要根據(jù)多神經(jīng)元感知器的學(xué)習(xí)規(guī)則調(diào)整連接權(quán)值向量:權(quán)值調(diào)整后,感知器的輸出為:(3-15)(3-14)7201單層感知器

單層感知器的學(xué)習(xí)算法將輸入向量送入感知器,其輸出為:感知器對輸入向量的分類是錯誤的,需要根據(jù)多神經(jīng)元感知器的學(xué)習(xí)規(guī)則調(diào)整連接權(quán)值向量:(3-17)(3-16)7301單層感知器

單層感知器的學(xué)習(xí)算法權(quán)值調(diào)整后,感知器的輸出為:此時感知器能夠?qū)斎胂蛄窟M(jìn)行正確的分類。在經(jīng)過對權(quán)值向量的三次調(diào)整后,多神經(jīng)元感知器能夠?qū)ι鲜鋈齻€輸入向量實(shí)現(xiàn)正確的分類。(3-18)7401單層感知器

單層感知器的學(xué)習(xí)算法

單層感知器的局限性有一個重要的問題:單層感知器能夠求解哪些問題?圖3-5“異或”問題凡是具有線性邊界的兩類模式分類問題均可用單層感知器解決。單層感知器是否能解決線性不可分問題?異或問題是典型的線性不可分問題,可以用圖3-5來表示,是否存在一個單層感知器能解決該問題?7501單層感知器

單層感知器的局限性可以發(fā)現(xiàn)任何直線也不可能把圖3-5中的兩類樣本分開,即單層感知器無法解決線性不可分問題。圖3-5“異或”問題1969年,美國者M(jìn)arvinMinsky和Seymour出版《感知器》(Perceptrons)一書,對感知器局限性進(jìn)行了全面深入的分析,指出感知機(jī)網(wǎng)絡(luò)不能實(shí)現(xiàn)某些基本的功能(如異或等),導(dǎo)致神經(jīng)網(wǎng)絡(luò)研究陷入低潮。7601單層感知器

多層感知器介紹單層感知器固有的局限性在于它只能解決線性可分的分類問題。1969年,美國學(xué)者M(jìn)arvinMinsky和SeymourPapert在其所著的《感知器》一書中指出,能夠求解線性不可分問題的感知器應(yīng)具有隱含層,即多層感知器能夠解決線性不可分問題。Perceptron7702多層感知器

多層感知器結(jié)構(gòu)區(qū)別于單層感知器,多層感知器由輸入層、一層或多層隱含層、輸出層組成。為了便于理解,以一個含有一層隱含層感知器神經(jīng)網(wǎng)絡(luò)為例,輸入層有n個神經(jīng)元,隱含層有l(wèi)個神經(jīng)元,輸出層有1個神經(jīng)元,結(jié)構(gòu)如圖3-6所示,其中:圖3-6含有一層隱含層感知器神經(jīng)網(wǎng)絡(luò)

:輸入向量

:感知器的輸出

:輸入層和隱含層之間的連接權(quán)值

:隱含層和輸出層之間的連接權(quán)值

:隱含層神經(jīng)元的閾值

:輸出層神經(jīng)元的閾值7802多層感知器

多層感知器工作原理含有一層隱含層感知器神經(jīng)網(wǎng)絡(luò)各層的數(shù)學(xué)描述如下:輸入層:輸入層用于接收輸入數(shù)據(jù),對于第i個神經(jīng)元,其輸出為:隱含層:隱含層通過引入激活函數(shù),對輸入數(shù)據(jù)進(jìn)行處理,第j個神經(jīng)元的輸入為:(3-19)(3-20)7902多層感知器隱含層第j個神經(jīng)元的輸出為:輸出層:輸出層根據(jù)隱藏層的輸出進(jìn)行進(jìn)一步處理,輸出層的輸入和輸出為:其中,為隱含層第j個神經(jīng)元的激活函數(shù)其中,是輸出層神經(jīng)元的激活函數(shù)。(3-21)(3-23)(3-22)8002多層感知器

多層感知器工作原理

多層感知器解決“異或”問題例題:采用含有一層隱含層感知器解決“異或”問題,“異或”問題的輸入/輸出對如下:將這四個樣本標(biāo)在坐標(biāo)系中,如圖3-7所示:圖3-7“異或”問題8102多層感知器設(shè)計(jì)一個隱含層有2個神經(jīng)元的感知器,如圖3-8所示。隱含層和輸出層激活函數(shù)采用階躍函數(shù),隱含層與輸入層之間的連接權(quán)值為,閾值為,隱含層與輸出層之間的連接權(quán)值為,閾值為,具體計(jì)算如下:圖3-8隱含層有2個神經(jīng)元的感知器(3-24)(3-25)(3-26)(3-27)8202多層感知器

多層感知器解決“異或”問題感知器隱含層中的2個神經(jīng)元可以確定2個類別邊界,如圖3-9(a)和3-9(b)所示圖3-9“異或”問題的類別邊界(a)(b)(c)對于隱含層第一個神經(jīng)元來說,可以將x2與其他輸入?yún)^(qū)分開,類別邊界上方的樣本的輸出為1,而類別邊界下方的樣本的輸出為0。對于隱含層第二個神經(jīng)元來說,可以將x3與其他輸入?yún)^(qū)分開。8302多層感知器

多層感知器解決“異或”問題感知器隱含層中的2個神經(jīng)元可以確定2個類別邊界,如圖3-9(a)和3-9(b)所示(a)(b)(c)輸出層以隱含層兩個神經(jīng)元的輸出作為輸入,通過連接權(quán)值向前傳播到輸出層,可以實(shí)現(xiàn)邏輯“與”運(yùn)算,將兩個類別邊界結(jié)合起來,從而解決“異或”問題,如圖3-

9(c)所示。圖3-9“異或”問題的類別邊界8402多層感知器

多層感知器解決“異或”問題

反向傳播算法DavidRumelhart和JamesMcClelland等學(xué)者在《ParallelDistributedProcessing》一書中詳細(xì)介紹了訓(xùn)練多層感知器的反向傳播(backpropagation,BP)學(xué)習(xí)算法,為解決多層感知器的學(xué)習(xí)提供了保障。由于多層感知器的訓(xùn)練經(jīng)常采用誤差反向傳播算法,因此,人們也常把多層感知器直接稱為BP網(wǎng)絡(luò)。8502多層感知器BP算法學(xué)習(xí)過程由信號的正向傳播與誤差的反向傳播兩個過程組成:在正向傳播過程中,輸入信息從輸入層經(jīng)隱含層逐層處理,并傳向輸出層,每層神經(jīng)元的狀態(tài)只影響下一層神經(jīng)元的狀態(tài)。

如果在輸出層不能得到期望的輸出,則轉(zhuǎn)入反向傳播階段將誤差信號沿原來的通路返回,通過修改各層神經(jīng)元的連接權(quán)值,使誤差信號減小。通過信號正向傳播與誤差反向傳播不斷調(diào)整權(quán)值,使感知器輸出逐步逼近目標(biāo)輸出。8602多層感知器

反向傳播算法性能函數(shù)

(3-28)(3-29)8702多層感知器

反向傳播算法輸出層神經(jīng)元連接權(quán)值修正輸出層神經(jīng)元連接權(quán)值的迭代公式為:

式中,為調(diào)整輸出層神經(jīng)元連接權(quán)值的學(xué)習(xí)率,。的計(jì)算如下(3-30)(3-31)(3-32)8802多層感知器

反向傳播算法定義輸出層神經(jīng)元誤差反向傳播系數(shù)為: 可以求得: 因此,輸出層的神經(jīng)元連接權(quán)值的調(diào)整量為:這樣可以得到輸出層與隱含層中第j個神經(jīng)元之間的連接權(quán)值的迭代公式為:輸出層神經(jīng)元連接權(quán)值修正(3-33)(3-34)(3-35)(3-36)8902多層感知器

反向傳播算法隱含層神經(jīng)元連接權(quán)值修正隱含層神經(jīng)元連接權(quán)值的迭代公式為:

式中,為調(diào)整輸出層神經(jīng)元連接權(quán)值的學(xué)習(xí)率,。的計(jì)算如下(3-37)(3-38)(3-39)9002多層感知器

反向傳播算法隱含層神經(jīng)元連接權(quán)值修正定義隱含層神經(jīng)元誤差反向傳播系數(shù)為: 可以求得: 因此,隱含層的神經(jīng)元連接權(quán)值的調(diào)整量為:這樣可以得到輸入層與隱含層中第j個神經(jīng)元之間的連接權(quán)值的迭代公式為:(3-40)(3-41)(3-42)(3-43)9102多層感知器

反向傳播算法BP算法的計(jì)算過程初始化設(shè)置感知器神經(jīng)網(wǎng)絡(luò)的初始連接權(quán)值,一般取較小的非零隨機(jī)數(shù)。提供訓(xùn)練樣本提供訓(xùn)練樣本,即:式中,為輸入向量和t為期望輸出。計(jì)算網(wǎng)絡(luò)輸出

9202多層感知器

反向傳播算法BP算法的計(jì)算過程計(jì)算均方誤差函數(shù)計(jì)算感知器神經(jīng)網(wǎng)絡(luò)輸出與期望輸出之間的偏差:并給出評價(jià)準(zhǔn)則:若滿足上述兩式之一,感知器神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)結(jié)束;否則,進(jìn)行誤差反向傳播反向傳播計(jì)算按照梯度下降法計(jì)算各神經(jīng)元連接權(quán)值的調(diào)整量,逐層逐個調(diào)整神經(jīng)元的連接權(quán)值:繼續(xù)輸入數(shù)據(jù)進(jìn)行訓(xùn)練,直到感知器神經(jīng)網(wǎng)絡(luò)輸出滿足要求?;?302多層感知器

反向傳播算法03多層感知器結(jié)構(gòu)設(shè)計(jì)

多層感知器結(jié)構(gòu)設(shè)計(jì)介紹多層感知器的結(jié)構(gòu)設(shè)計(jì)對于模型性能有著決定性影響,合理的結(jié)構(gòu)設(shè)計(jì)不僅可以提高模型的學(xué)習(xí)效率和泛化能力,還能有效減少計(jì)算資源的消耗。多層感知器的結(jié)構(gòu)設(shè)計(jì)主要是解決設(shè)幾個隱含層和每個隱含層設(shè)幾個節(jié)點(diǎn)的問題。理論上已經(jīng)證明,隱含層采用Sigmoid函數(shù),輸出層采用線性函數(shù)的三層感知器神經(jīng)網(wǎng)絡(luò)能夠以任意精度逼近任何非線性函數(shù)。因此,多層感知器的結(jié)構(gòu)設(shè)計(jì)主要集中在三層感知器神經(jīng)網(wǎng)絡(luò)中隱含層的結(jié)構(gòu)設(shè)計(jì)上,隱含層神經(jīng)元的作用是從樣本中提取內(nèi)在的規(guī)律,隱含層神經(jīng)元個數(shù)過少,感知器從樣本中獲取信息能力就較差,導(dǎo)致模型欠擬合;隱含層神經(jīng)元個數(shù)過多,可能會把樣本中非規(guī)律性的內(nèi)容如噪聲等記牢,從而導(dǎo)致模型過擬合。94

基于經(jīng)驗(yàn)公式的多層感知器結(jié)構(gòu)設(shè)計(jì)首先設(shè)置較少的隱含層神經(jīng)元訓(xùn)練感知器,然后采用試湊法確定感知器隱含層最佳神經(jīng)元個數(shù),即逐漸增加隱含層神經(jīng)元??梢愿鶕?jù)以下幾個確定隱含層神經(jīng)元個數(shù)的經(jīng)驗(yàn)公式得到隱含層神經(jīng)元個數(shù)的初始值:式中,n為輸入層神經(jīng)元個數(shù),l為隱含層神經(jīng)元個數(shù),m為輸出層神經(jīng)元個數(shù),α在1~10之間。(3-44)(3-45)(3-46)9503多層感知器結(jié)構(gòu)設(shè)計(jì)

基于經(jīng)驗(yàn)公式的多層感知器結(jié)構(gòu)設(shè)計(jì)例題:考慮含一層隱含層的三層感知器,其中隱含層采用Sigmoid函數(shù),輸出層采用線性函數(shù)。根據(jù)上述基于經(jīng)驗(yàn)公式的多層感知器結(jié)構(gòu)設(shè)計(jì)方法,完成感知器結(jié)構(gòu)設(shè)計(jì),實(shí)現(xiàn)對以下函數(shù)的逼近:要求該感知器的均方誤差小于0.0001。解:首先,根據(jù)經(jīng)驗(yàn)公式確定隱含層初始神經(jīng)元個數(shù)式中,n=1為,m為=1,α取1,那么,隱含層初始神經(jīng)元個數(shù)為2。得到此時感知器的均方誤差為0.2835,當(dāng)前感知器的性能還未達(dá)到要求,需要增加隱含層神經(jīng)元。(3-47)(3-48)9603多層感知器結(jié)構(gòu)設(shè)計(jì)

基于經(jīng)驗(yàn)公式的多層感知器結(jié)構(gòu)設(shè)計(jì)

9703多層感知器結(jié)構(gòu)設(shè)計(jì)圖3-10增加隱含層神經(jīng)元個數(shù)的感知器擬合效果

修剪型多層感知器結(jié)構(gòu)設(shè)計(jì)在多層感知器學(xué)習(xí)過程中,計(jì)算隱含層所有神經(jīng)元的敏感度,刪除敏感度較小的神經(jīng)元,從而減少多層感知器的復(fù)雜度,避免過擬合,同時提高多層感知器的泛化能力。神經(jīng)元敏感度分析敏感度(Sensitivity),又稱為靈敏度,是指系統(tǒng)參數(shù)的變化對系統(tǒng)狀態(tài)(或輸出)的影響程度。敏感度的高低反映了系統(tǒng)在特性或參數(shù)改變時偏離正常運(yùn)行狀態(tài)的程度。敏感度較高的神經(jīng)元在網(wǎng)絡(luò)中扮演著更為重要的角色,而敏感度較低的神經(jīng)元則可能成為修剪的目標(biāo)。9803多層感知器結(jié)構(gòu)設(shè)計(jì)

修剪型多層感知器結(jié)構(gòu)設(shè)計(jì)定義敏感度為:式中,L為損失函數(shù),為隱含層第i個神經(jīng)元的輸出。損失函數(shù),也稱為代價(jià)函數(shù),衡量網(wǎng)絡(luò)預(yù)測值與實(shí)際值之間的不一致程度,是訓(xùn)練過程中需要最小化的目標(biāo)。通常,可選擇均方誤差作為損失函數(shù)因此,敏感度改寫為:(3-49)(3-50)(3-51)9903多層感知器結(jié)構(gòu)設(shè)計(jì)

修剪型多層感知器結(jié)構(gòu)設(shè)計(jì)修剪型多層感知器首先,根據(jù)下式設(shè)定感知器訓(xùn)練的終止條件或式中,ε為預(yù)先給定的小正數(shù),且ε>0,k為迭代次數(shù),c為一給定常數(shù)。給定感知器初始網(wǎng)絡(luò)結(jié)構(gòu)(感知器初始網(wǎng)絡(luò)結(jié)構(gòu)需要適當(dāng)給大一些),用梯度下降算法對感知器中的參數(shù)進(jìn)行調(diào)整。計(jì)算隱含層所有神經(jīng)元的敏感度,如果式中,β為設(shè)定的敏感度閾值,說明此時該神經(jīng)元對多層感知器的整體影響較小,對其進(jìn)行修剪,并根據(jù)梯度下降算法對網(wǎng)絡(luò)參數(shù)進(jìn)行調(diào)整。10003多層感知器結(jié)構(gòu)設(shè)計(jì)04應(yīng)用實(shí)例

非線性函數(shù)逼近我們將逼近以下Hermite多項(xiàng)式具體實(shí)驗(yàn)步驟如下:數(shù)據(jù)準(zhǔn)備:為多層感知器訓(xùn)練準(zhǔn)備數(shù)據(jù)集,包括輸入值和對應(yīng)的目標(biāo)輸出值。定義Hermite多項(xiàng)式和生成數(shù)據(jù)集。x=linspace(-2,2,100);%輸入數(shù)據(jù)集H2_x=4.*x.^2-2;%期望輸出數(shù)據(jù)集,Hermite多項(xiàng)式(3-52)101

非線性函數(shù)逼近

10204應(yīng)用實(shí)例

非線性函數(shù)逼近評估模型:用測試數(shù)據(jù)評估訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)的逼近效果。繪制神經(jīng)網(wǎng)絡(luò)逼近的結(jié)果和真實(shí)的Hermite多項(xiàng)式值,以直觀比較逼近效果。y=net(Xi);%網(wǎng)絡(luò)預(yù)測y=cell2mat(y);%將cell轉(zhuǎn)換為矩陣H2_x=cell2mat(Ts);%將目標(biāo)輸出也轉(zhuǎn)換為矩陣進(jìn)行比較figure;plot(x,H2_x,'b-','LineWidth',2);%真實(shí)的Hermite多項(xiàng)式holdon;plot(x,y,'r--','LineWidth',2);%多層感知器逼近的結(jié)果legend('真實(shí)值','逼近值');title('Hermite多項(xiàng)式H2(x)逼近');gridon;圖3-11Hermite多項(xiàng)式值逼近效果圖10304應(yīng)用實(shí)例

鳶尾花分類鳶尾花(Iris)數(shù)據(jù)集是模式分類最著名的數(shù)據(jù)集之一,包含3類鳶尾花,每類50個樣本,每個樣本4個特征(萼片長度、萼片寬度、花瓣長度、花瓣寬度)。分類任務(wù)是根據(jù)這四個特征將鳶尾花分為三類:Setosa、Versicolour、Virginica。具體實(shí)驗(yàn)步驟如下:數(shù)據(jù)準(zhǔn)備:利用loadfisheriris加載鳶尾花數(shù)據(jù)集,包括meas矩陣和species數(shù)組。meas矩陣每行是一個樣本的4個特征值,species數(shù)組每個單元格包含一個字符串,表示該行樣本的鳶尾花類型。10404應(yīng)用實(shí)例

鳶尾花分類構(gòu)建修剪型多層感知器:首先給定感知器初始網(wǎng)絡(luò)結(jié)構(gòu),令隱含層初始神經(jīng)元個數(shù)為15。利用MATLAB的神經(jīng)網(wǎng)絡(luò)工具箱創(chuàng)建和配置多層感知器。input_layer_size=size(X,2);%輸入層神經(jīng)元數(shù)為特征數(shù),即4initial_hidden_layer_size=15;%初始設(shè)定15個隱含層神經(jīng)元output_layer_size=3;%輸出層神經(jīng)元數(shù)為類別數(shù),即3訓(xùn)練網(wǎng)絡(luò):配置訓(xùn)練參數(shù),使用準(zhǔn)備好的數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò)。net.divideParam.trainRatio=70/100;net.divideParam.valRatio=15/100;net.divideParam.testRatio=15/100;[net,tr]=train(net,inputs,targets);%訓(xùn)練感知器網(wǎng)絡(luò)10504應(yīng)用實(shí)例

鳶尾花分類敏感度分析與神經(jīng)元修剪:對隱含層每一個神經(jīng)元輸出進(jìn)行敏感度分析,計(jì)算其對輸出的貢獻(xiàn)值,刪除敏感度小于閾值的神經(jīng)元,調(diào)整感知器網(wǎng)絡(luò)結(jié)構(gòu)。=net.IW{1,1};%獲取網(wǎng)絡(luò)權(quán)值和偏置LW=net.LW{2,1};hidden_input=IW*X';hidden_output=logsig(hidden_input);%計(jì)算隱含層輸出output_input=LW*hidden_output;outputs=purelin(output_input);%計(jì)算輸出層輸出output_error=T-outputs;%計(jì)算輸出層誤差sensitivities=abs(mean(hidden_output.*(LW'*output_error),2));%計(jì)算的敏感度sensitivity_threshold=0.1;%設(shè)定敏感度閾值為0.110604應(yīng)用實(shí)例

鳶尾花分類low_sensitivity_neurons=find(sensitivities<sensitivity_threshold);if~isempty(low_sensitivity_neurons)

net.IW{1,1}(:,low_sensitivity_neurons)=[];%低于敏感度閾值的神經(jīng)元

net.LW{2,1}(low_sensitivity_neurons,:)=[];

net.layers{1}.size=size(net.IW{1,1},2);%更新隱含層神經(jīng)元數(shù)end[net,tr]=train(net,X',T);%采用梯度下降法調(diào)整感知器參數(shù)view(net);%觀察網(wǎng)絡(luò)評估模型:利用測試集評估模型的性能,并通過混淆矩陣可視化結(jié)果。10704應(yīng)用實(shí)例人工神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)04徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)目錄局部映射特性01020304徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)05應(yīng)用實(shí)例01

局部映射特性對于生物神經(jīng)元來說,局部映射特性是指神經(jīng)元對輸入空間的局部區(qū)域產(chǎn)生響應(yīng)的特性。具體來說,生物神經(jīng)元的感受野(指在神經(jīng)元接收到刺激時,該刺激所在的空間區(qū)域)具有近興奮遠(yuǎn)抑制(NearExcitationFarInhibition)的特征。在神經(jīng)元的感受野內(nèi),刺激的出現(xiàn)會引發(fā)神經(jīng)元的興奮反應(yīng),而在感受野外的區(qū)域,刺激則會被抑制。這種近興奮遠(yuǎn)抑制的機(jī)制使得神經(jīng)元能夠更好地區(qū)分和響應(yīng)局部特征,并提高對復(fù)雜刺激的辨別能力。

局部映射特性110以人眼接收信息這為例,生物視覺神經(jīng)元的“近興奮遠(yuǎn)抑制”特征如下:

具體實(shí)例眼睛作為人類主要的感知器官,用于接收外部信息。光線經(jīng)過眼睛折射后,在視網(wǎng)膜上形成圖像,然后通過神經(jīng)沖動傳遞到大腦皮層的視區(qū),從而形成視覺感知。視網(wǎng)膜是感光系統(tǒng),能夠感受到光的刺激并發(fā)出神經(jīng)沖動,它包含了一級神經(jīng)元(感光細(xì)胞)、二級神經(jīng)元(雙極細(xì)胞)和三級神經(jīng)元(神經(jīng)節(jié)細(xì)胞)。感光細(xì)胞與雙極細(xì)胞形成突觸連接,雙極細(xì)胞與神經(jīng)節(jié)細(xì)胞相連,而神經(jīng)節(jié)細(xì)胞的軸突組成了視神經(jīng)束。來自兩側(cè)的視神經(jīng)在腦下垂體前方會合成交叉,在這里組成每一根視神經(jīng)的神經(jīng)纖維束在進(jìn)一步進(jìn)入腦部之前被重新分組。從視神經(jīng)交叉再發(fā)出的神經(jīng)束稱為視束。11101

局部映射特性在重新分組時,來自兩眼視網(wǎng)膜右側(cè)的纖維合成一束,傳向腦的右半部,來自兩眼視網(wǎng)膜左側(cè)的纖維合成另一束,傳向腦的左半部。這兩束經(jīng)過改組的纖維視束繼續(xù)向右腦內(nèi)行進(jìn),大部分終止于丘腦的兩個被分成外側(cè)膝狀體的神經(jīng)核。外膝體完成輸入信息處理上的第一次分離,然后傳送到大腦的第一視區(qū)核第二視區(qū)(外膝體屬丘腦,是眼睛到視皮層的中繼站),這就是視覺通路。視網(wǎng)膜上的感光細(xì)胞通過光化學(xué)和光生物化學(xué)反應(yīng)產(chǎn)生光感受器電位和神經(jīng)脈沖,沿著視覺通路傳播。視神經(jīng)元反應(yīng)的視網(wǎng)膜或視野的區(qū)域稱為中樞神經(jīng)元的感受野。通過電生理學(xué)試驗(yàn)記錄感受野的形狀發(fā)現(xiàn),當(dāng)光照射到視網(wǎng)膜上時,如果該細(xì)胞被激活,通過該區(qū)域的電脈沖就會增加;相反,如果該細(xì)胞被抑制,通過該區(qū)域的電脈沖就會減少。11201

局部映射特性

具體實(shí)例每個視皮層、外側(cè)膝狀體的神經(jīng)元以及視網(wǎng)膜神經(jīng)細(xì)胞在視網(wǎng)膜上都有特定的感受野,通常呈圓形,并具有近興奮遠(yuǎn)抑制的功能。對于每一個這樣的近興奮遠(yuǎn)抑制神經(jīng)元,可以用以下函數(shù)進(jìn)行表示:

式中,x為輸入(光束照在視網(wǎng)膜上的位置),c為感受野的中心,對應(yīng)于視網(wǎng)膜上使神經(jīng)元最興奮的光照位置。感受野的近興奮遠(yuǎn)抑制特性有助于人眼在視覺系統(tǒng)中對視覺信息進(jìn)行選擇性處理。它能夠增強(qiáng)對視覺刺激的局部特征的響應(yīng),同時抑制對遠(yuǎn)距離或無關(guān)刺激的響應(yīng)。(4-1)11301

局部映射特性

具體實(shí)例①標(biāo)準(zhǔn)Gaussian函數(shù):②反常S型Reflectedsigmoid函數(shù):③逆多二次元(InversMultiquadrie)函數(shù):④柯西(Cauchy)徑向基函數(shù):徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)的最顯著的特點(diǎn)是采用徑向基函數(shù)作為隱含層激活函數(shù)。與生物神經(jīng)元近興奮遠(yuǎn)抑制特性相同,徑向基函數(shù)關(guān)于n維空間的一個中心點(diǎn)具有徑向?qū)ΨQ性,神經(jīng)元的輸入離該中心點(diǎn)越遠(yuǎn),神經(jīng)元的激活程度就越低;反之,則越高。隱含層神經(jīng)元的這一特性被稱為“局部特性”。圖1幾種常見的徑向基函數(shù)(4-2)(4-3)(4-4)(4-5)式中,x為輸入向量,c為徑向基函數(shù)中心,為神經(jīng)元寬度。

徑向基函數(shù)11401

局部映射特性基于數(shù)學(xué)和生物學(xué)的研究成果,Moody和Darken于20世紀(jì)80年代末提出了徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)(RadialBasisFunctionNeuralNetwork,

RBFNN)。RBF神經(jīng)網(wǎng)絡(luò)是一種模擬了人腦中局部調(diào)整、相互覆蓋接受域的前饋神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)圖2RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)x=[x1,x2,…,xm]

為輸入向量;w=[w0,

w1,w2,…,wJ]

為隱含層與輸出層間連接權(quán)值;為隱含層第j個神經(jīng)元的輸出;y

為輸出層神經(jīng)元的輸出。11502

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理隱含層:使用距離函數(shù)(如歐氏距離)作為基函數(shù),并采用徑向基函數(shù)(如Gaussian函數(shù))作為激活函數(shù),對輸入信號進(jìn)行處理。這種處理方式使得輸入信號離隱含層神經(jīng)元的中心點(diǎn)越遠(yuǎn),隱含層神經(jīng)元的激活程度越低??梢悦枋鰹椋?/p>

其中,和為第j個隱含層神經(jīng)元的中心值和方差。輸出層:對隱含層神經(jīng)元輸出的信號響應(yīng)加權(quán)求和,計(jì)算如下:

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)輸入層:接收信號輸入,并將輸入信號傳遞到隱含層。(4-6)(4-7)11602

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理

例題圖3“異或”問題試用含有2個隱含層神經(jīng)元的RBF神經(jīng)網(wǎng)絡(luò)解決下述“異或”問題,RBF神經(jīng)網(wǎng)絡(luò)隱含層的激活函數(shù)為解:根據(jù)問題描述,建立輸入層神經(jīng)元個數(shù)為2、隱含層神經(jīng)元個數(shù)為2、輸出層神經(jīng)元個數(shù)為1的RBF神經(jīng)網(wǎng)絡(luò)。所建立RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:117(4-8)02

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理

例題為確定RBF神經(jīng)網(wǎng)絡(luò)參數(shù),將部分樣本的輸入分別作為隱含層神經(jīng)元的中心,同時考慮到其余樣本與中心的距離,將寬度設(shè)為1。通過調(diào)整隱含層與輸出層的連接權(quán)值以實(shí)現(xiàn)分類樣本的目的。最終,所構(gòu)建RBF神經(jīng)網(wǎng)絡(luò)參數(shù)為:將四個樣本輸入分別送入所建立的RBF神經(jīng)網(wǎng)絡(luò)得到四個樣本的網(wǎng)絡(luò)輸出如下:118(4-9)(4-10)(4-11)(4-12)(4-13)02

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理1991年,Park和Sandberg證明只要給予網(wǎng)絡(luò)足夠數(shù)量的隱藏單元,RBF神經(jīng)網(wǎng)絡(luò)可以以任意精度逼近任意可測函數(shù),具有萬能逼近能力。目前RBF網(wǎng)絡(luò)已成功地用于非線性函數(shù)逼近、時間序列分析、數(shù)據(jù)分類、模式識別、信息處理、圖像處理、系統(tǒng)建模、控制和故障診斷等多個領(lǐng)域。

萬能逼近能力11902

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理

例題例:采用三層RBF神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)對以下函數(shù)的逼近:要求所建立RBF神經(jīng)網(wǎng)絡(luò)包含隱含層神經(jīng)元個數(shù)為3,激活函數(shù)為:圖4y=x2函數(shù)圖像(4-14)(4-15)下面將通過RBF神經(jīng)網(wǎng)絡(luò)對非線性函數(shù)進(jìn)行逼近這一例題進(jìn)一步說明RBF神經(jīng)網(wǎng)絡(luò)的相關(guān)工作原理及具體特性。12002

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理所構(gòu)建具有3個隱含層神經(jīng)元的RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)如下:

例題為確定RBF神經(jīng)網(wǎng)絡(luò)參數(shù),在輸入范圍內(nèi)選擇等間距的三個樣本點(diǎn):-2,0,2。將其作為隱含層神經(jīng)中心,并設(shè)置中心點(diǎn)間的距離作為寬度。同時為實(shí)現(xiàn)函數(shù)逼近,對連接權(quán)值進(jìn)行確定。最終,所構(gòu)建RBF神經(jīng)網(wǎng)絡(luò)參數(shù)為:121(4-16)02

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理為驗(yàn)證所建立神經(jīng)網(wǎng)絡(luò)的逼近性質(zhì),在輸入范圍內(nèi)分別取5個不同的x值,計(jì)算RBF神經(jīng)網(wǎng)絡(luò)的輸出:

例題當(dāng)x為-3時:當(dāng)x為-1時:當(dāng)x為0時:(4-17)(4-18)(4-19)12202

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理

例題當(dāng)x為1時:當(dāng)x為3時:x期望輸出網(wǎng)絡(luò)輸出-398.9950-110.9642000.0354110.9642398.9950由此得出,通過設(shè)計(jì)合理的RBF神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)及參數(shù)可以實(shí)現(xiàn)對非線性函數(shù)的精確逼近。(4-20)(4-21)123圖5網(wǎng)絡(luò)訓(xùn)練結(jié)果02

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)工作原理RBF神經(jīng)網(wǎng)絡(luò)設(shè)計(jì)包括結(jié)構(gòu)設(shè)計(jì)和參數(shù)學(xué)習(xí)。在隱含層神經(jīng)元個數(shù)確定之后,可以通過對網(wǎng)絡(luò)參數(shù)的學(xué)習(xí),來提高網(wǎng)絡(luò)的學(xué)習(xí)精度。RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)學(xué)習(xí)過程主要是根據(jù)樣本,利用參數(shù)學(xué)習(xí)算法對隱含層神經(jīng)元中心、寬度以及隱含層到輸出層的連接權(quán)值進(jìn)行確定。常見的幾種參數(shù)學(xué)習(xí)算法:

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法線性最小二乘法:梯度下降算法:LM算法:124(4-22)(4-23)(4-24)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法對于訓(xùn)練樣本中的每一個輸入

,所對應(yīng)的隱含層輸出計(jì)算為:假定RBF神經(jīng)網(wǎng)絡(luò)的隱含層神經(jīng)元中心與寬度已根據(jù)訓(xùn)練樣本的輸入確定且固定,只需考慮對隱含層與輸出層連接權(quán)值進(jìn)行確定,那么對連接權(quán)值的更新就等價(jià)于線性網(wǎng)絡(luò)的訓(xùn)練??紤]如下訓(xùn)練數(shù)據(jù)點(diǎn):

線性最小二乘法網(wǎng)絡(luò)輸出為:

隱含層中的中心和寬度值不再調(diào)整,所以隱含層到輸出層的訓(xùn)練樣本變?yōu)?25(4-25)(4-26)(4-27)(4-28)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法為了簡化討論,將需要調(diào)整的所有參數(shù)(包括閾值)整合到一個向量:為了確定連接權(quán)值和閾值,首先定義神經(jīng)網(wǎng)絡(luò)的性能評價(jià)指標(biāo)(誤差平方和):

線性最小二乘法此時性能評價(jià)指標(biāo)的表達(dá)式為:

類似地,將閾值的輸入“1”作為輸入向量的一部分:126(4-29)(4-30)(4-31)(4-32)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法為了簡化討論,將需要調(diào)整的所有參數(shù)(包括閾值)整合到一個向量:

線性最小二乘法此時性能評價(jià)指標(biāo)的表達(dá)式為:

類似地,將閾值的輸入“1”作為輸入向量的一部分:為了將其以矩陣形式表示,定義如下矩陣:127(4-33)(4-34)(4-35)(4-36)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法現(xiàn)在,可將誤差寫為:

線性最小二乘法確定性能評價(jià)指標(biāo)的駐點(diǎn)??芍?,梯度為

使用正則化方法防止過擬合,可以得到如下形式的性能指標(biāo):因此,最優(yōu)權(quán)值w*可以求得:可通過將梯度置為0得到F(x)的駐點(diǎn):128(4-37)(4-38)(4-39)(4-40)(4-41)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

梯度下降算法

RBF神經(jīng)網(wǎng)絡(luò)的梯度下降方法與BP算法訓(xùn)練多層感知器神經(jīng)網(wǎng)絡(luò)的原理類似,也是通過最小化性能評價(jià)指標(biāo)函數(shù)實(shí)現(xiàn)對各隱含層神經(jīng)元的中心、寬度和連接權(quán)值的調(diào)節(jié)。首先,定義網(wǎng)絡(luò)評價(jià)函數(shù):誤差定義為計(jì)算神經(jīng)網(wǎng)絡(luò)輸出函數(shù)對各隱含層神經(jīng)元的數(shù)中心、寬度和連接權(quán)值的梯度:129(4-42)(4-43)(4-44)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

梯度下降算法

考慮所有訓(xùn)練樣本的影響,各隱含層神經(jīng)元的中心c、寬度、連接權(quán)值w的調(diào)節(jié)量為確定每個參數(shù)的調(diào)整量,則RBF神經(jīng)網(wǎng)絡(luò)的參數(shù)更新規(guī)則為:130(4-45)(4-46)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

LM算法

由于一階學(xué)習(xí)算法收斂時間較長,因此在許多研究中二階學(xué)習(xí)算法被用于訓(xùn)練RBF神經(jīng)網(wǎng)絡(luò)以及其它前饋型神經(jīng)網(wǎng)絡(luò)。常見的二階梯度算法主要包括牛頓算法和在其基礎(chǔ)上改進(jìn)的Levenberg-Marquardt(LM)算法。經(jīng)典的Levenberg-Marquardt(LM)算法公式如下:其中為取值為正常數(shù)的學(xué)習(xí)率參數(shù);I是單位矩陣,H為海森矩陣,g為梯度向量,k為迭代次數(shù),為網(wǎng)絡(luò)中需要調(diào)整的參數(shù)。

網(wǎng)絡(luò)性能評價(jià)指標(biāo)函數(shù)??(??)為:131(4-47)(4-48)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

LM算法

根據(jù)所給出的性能指標(biāo)函數(shù),計(jì)算當(dāng)前的海森矩陣和梯度向量,海森矩陣計(jì)算為:當(dāng)性能評價(jià)指標(biāo)函數(shù)接近最小值時,中的元素變得很小可忽略不計(jì),因此,海森矩陣可以近似為:梯度矩陣計(jì)算為:132(4-49)(4-50)(4-51)03

徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法

LM算法

J為雅可比矩陣,定義如下:因此,選用LM算法對于神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練時,網(wǎng)絡(luò)參數(shù)調(diào)整如下:算法執(zhí)行過程中,學(xué)習(xí)率參數(shù)可以根據(jù)當(dāng)前性能評價(jià)指標(biāo)E的值進(jìn)行調(diào)

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

最新文檔

評論

0/150

提交評論