版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
第
3
章
人工智能基本原理【3.1-3.2】第04講人工智能通識教程人工智能通識教程
本章導讀:雖然學習人工智能原理有一定難度,但是從共性知識角度,粗略了解人工智能基本原理是必要的。俗話說,不僅要知其然,還要知其所以然。作為通識課程,不可能要求達到知其所以然,但了解其所以然是可能的。本章按照這個定位,不失一般性地簡要闡述人工智能的基本原理,達到對人工智能了解其所以然的目的。人工智能經(jīng)歷了幾十年的發(fā)展,已經(jīng)形成了一套龐大而復雜的理論體系。考慮到通識課的特點以及學生的基礎,此處僅介紹人工神經(jīng)網(wǎng)絡、卷積神經(jīng)網(wǎng)絡的基本原理、方法和應用。第2頁共35頁人工智能通識教程(1)了解人工智能網(wǎng)絡的思想,掌握人工神經(jīng)網(wǎng)絡的結構和基本原理;(2)掌握圖像卷積的計算方法,熟悉卷積神經(jīng)網(wǎng)絡的處理流程,了解卷積神經(jīng)網(wǎng)絡應用的常見任務;(3)掌握算法結果評估的常用方法。本章學習目標第3頁共35頁人工智能通識教程本章思維導圖第4頁共35頁3.1人工神經(jīng)網(wǎng)絡3.2卷積神經(jīng)網(wǎng)絡3.3人工智能倫理治理體系9.4人工智能倫理案例分析人工智能通識教程目錄人工智能通識教程
大腦是人體中負責思考、記憶和決策的器官,其基本構成單元是神經(jīng)元。神經(jīng)元是由水、離子、氨基酸和蛋白質構成的細胞,由樹突(接收信號)、細胞體(處理信號)和軸突(輸出信號)組成。神經(jīng)元的主要功能是接受外界環(huán)境的刺激,并將其轉化為生物電信號和化學信號,然后將其傳遞給其他神經(jīng)元。成年人大腦中包含了850億~1000億個神經(jīng)元,并相互連接構成一個網(wǎng)絡。神經(jīng)元之間的連接和通信形成了大腦的神經(jīng)網(wǎng)絡,它們負責感知外界的信息、處理內在的刺激并產(chǎn)生相應的思維、行為和情感反應。
早在1890年,威廉·詹姆斯(WilliamJames)提出一個假設,認為大腦皮層每一點的活力都是其他點勢能釋放的總和,即其他點的興奮次數(shù)、強度和所接受的能量的總和。換言之,一個神經(jīng)元會接收到多個神經(jīng)元傳遞來的信息,處理后觸發(fā)軸突并影響其他神經(jīng)元。在信息處理方式方面,生物神經(jīng)網(wǎng)絡采用層次化的方式進行處理,即通過大量神經(jīng)元分層互聯(lián)形成復雜網(wǎng)絡(如大腦皮層),從簡單特征開始、然后逐層提取復雜特征。在環(huán)境適應性方面,經(jīng)驗和環(huán)境刺激可以改變突觸的連接強度。3.1人工神經(jīng)網(wǎng)絡3.1.1生物神經(jīng)網(wǎng)絡與計算機模擬
1.生物神經(jīng)網(wǎng)絡第6頁共35頁人工智能通識教程
受到生物神經(jīng)網(wǎng)絡的啟發(fā),研究人員設計了一種使用計算機可以模擬的模型,稱為人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetworks,簡寫為ANNs),該網(wǎng)絡由大量的神經(jīng)元相互關聯(lián)而成。
人工神經(jīng)網(wǎng)絡根據(jù)特征可分為單層、多層前饋、時間、自組織等類型,目前主流的神經(jīng)網(wǎng)絡大多數(shù)屬于多層前饋神經(jīng)網(wǎng)絡,即網(wǎng)絡的互聯(lián)和互通僅在相鄰層級的神經(jīng)元之間,且只能前一層神經(jīng)元對后一層神經(jīng)元產(chǎn)生影響,其影響的強度通過權重大小進行表示。在前饋神經(jīng)網(wǎng)絡中,信息只向前傳播,不會形成閉環(huán)。
典型的人工神經(jīng)網(wǎng)絡包括1個輸入層、1個輸出層以及位于二者之間的2個隱藏層。在計算神經(jīng)網(wǎng)絡層數(shù)時,通常不包括輸入層,因此左邊所示為三層的人工神經(jīng)網(wǎng)絡,而且該網(wǎng)絡為全連接網(wǎng)絡,即前一層的每個神經(jīng)元都和后一層的每一個神經(jīng)元進行連接。需要強調指出的是,并非所有的神經(jīng)網(wǎng)絡都是全連接網(wǎng)絡。
三層神經(jīng)網(wǎng)絡模型示意圖
2.人工神經(jīng)網(wǎng)絡第7頁共35頁人工智能通識教程
神經(jīng)網(wǎng)絡最基本的構成元素是神經(jīng)元,神經(jīng)元模型是一個包含輸入、計算和輸出功能的模型,神經(jīng)網(wǎng)絡由大量的神經(jīng)元相互連接而組成。神經(jīng)元運算的主要流程如下:(1)將神經(jīng)元輸入數(shù)據(jù)的每個特征值乘以對應權重,然后將相乘結果進行累加求和;(2)將求和后的結果輸入某個非線性的激活函數(shù);(3)通過激活函數(shù)的運算產(chǎn)生神經(jīng)元的輸出結果。在實際處理中,還需要在求和后加偏置b,以允許神經(jīng)元表達更多的函數(shù)姿態(tài),否則神經(jīng)元只能表達經(jīng)過原點的線性函數(shù)。綜上,一個神經(jīng)元的運算可以用如下函數(shù)表達式進行準確描述和計算:
其中,xi為輸入特征值,i為輸入特征值所對應的權重,b為偏置量,將每個輸入與其對應權重進行相乘后,將這些所得數(shù)據(jù)與偏置進行累加求和后將結果輸入激活函數(shù)f(x)進行運算得到輸出h,即對輸入信號進行提取后得到的特征。神經(jīng)元示意圖第8頁共35頁人工智能通識教程
3.1.2BP神經(jīng)網(wǎng)絡BP神經(jīng)網(wǎng)絡(BackpropagationNeuralNetwork)是由Rumelhart、Hinton和Williams等人在1986年提出的,其核心是通過誤差反向傳播算法訓練多層前饋神經(jīng)網(wǎng)絡,解決了多層神經(jīng)網(wǎng)絡的參數(shù)學習問題。該網(wǎng)絡是一種按誤差逆?zhèn)鞑ニ惴ㄓ柧毜亩鄬忧梆伨W(wǎng)絡,是目前應用最廣泛的神經(jīng)網(wǎng)絡模型之一,它能學習和存貯大量的輸入-輸出模式映射關系,而無需事前揭示描述這種映射關系的數(shù)學方程。在正式介紹BP神經(jīng)網(wǎng)絡的原理之前,先給一個生活中的“猜體重”例子,然后根據(jù)例子介紹BP神經(jīng)網(wǎng)絡的處理步驟和原理。在猜體重例子中,忽略體型、年齡、性別等因素的影響,假設一個人的體重與其站立情況下的身高、寬度、厚度有關。為書寫方便,記體重為y、身高為x1、寬度為x2,、厚度為x3。又假設體重與身高、寬度、厚度之間為線性關系,對體重的影響分別為w1、w2和w3,則可以建立如下的數(shù)學模型:y=w1×x1+w2×x2+w3×x3首先需要獲取50個人的體重y、身高x1、寬度x2、厚度x3以及他們的真實體重數(shù)據(jù),然后需要估計權重參數(shù)w1、w2和w3。那需要如何估計呢?
1.BP神經(jīng)網(wǎng)絡的提出
2.BP神經(jīng)網(wǎng)絡的基本原理第9頁共35頁人工智能通識教程
首先根據(jù)經(jīng)驗值給出初始的權重參數(shù)取值,然后根據(jù)每個人的身高、寬度和厚度數(shù)據(jù),然根據(jù)公式,分別乘以100個人的身高、寬度和厚度數(shù)據(jù),就可以估計出每個人體重。
顯然,估計得到的體重數(shù)據(jù)和真實體重數(shù)據(jù)差距比較大,原因在于權重不夠準確。為了調整權重,需要計算100個人真實體重和估計體重之間的差值,然后根據(jù)這個差值調整權重參數(shù)的取值。經(jīng)過多輪反復調整,當估計體重與真實體重數(shù)據(jù)差值較小時,就可以將權重參數(shù)確定下來。此時的參數(shù)達到了最優(yōu),就可以根據(jù)最優(yōu)參數(shù),預測第101個人的體重。
上述過程就是模型訓練和參數(shù)學習的過程,也大體上揭示了BP神經(jīng)網(wǎng)絡進行模型訓練的基本流程。正式的說,BP神經(jīng)網(wǎng)絡的基本原理包括網(wǎng)絡參數(shù)初始化、正向傳播、計算誤差、反向傳播、迭代優(yōu)化5個階段。第10頁共35頁人工智能通識教程
BP神經(jīng)網(wǎng)絡的基本原理包括網(wǎng)絡參數(shù)初始化、正向傳播、計算誤差、反向傳播、迭代優(yōu)化5個階段。
(1)網(wǎng)絡參數(shù)初始化。在網(wǎng)絡初始化階段,為了能夠進行計算,需要首先設置初始化的權重數(shù)據(jù)。
初始化權重可以進行隨機初始化,也可以根據(jù)經(jīng)驗設定。如在猜體重的游戲中,雖然沒有考慮偏置的影響,但也需要首先給出三個權重值,這樣才可以根據(jù)輸入的身高、寬度和厚度信息進行體重估計。一般來說,神經(jīng)網(wǎng)絡通常包含多個隱藏層,因此需要對每個隱藏層的參數(shù)進行初始化操作。
(2)正向傳播。將輸入數(shù)據(jù)從輸入層傳入,經(jīng)過隱藏層的計算后傳到輸出層,得到實際輸出。在這個階段,數(shù)據(jù)從輸入層流向輸出層,每一層神經(jīng)元的輸出都成為下一層神經(jīng)元的輸入,然后繼續(xù)進行計算,直至得到最終的估計結果。在猜體重游戲中,根據(jù)上述過程即可得到第一次體重的猜測結果。
(3)誤差計算。通常來說,第一次估計的結果都不夠準確。幸運的是,可以根據(jù)真實的結果進行校正,但首先需要計算估計結果和真實結果之間的誤差。誤差計算的方式較多,如均方誤差或交叉熵等,具體選擇哪種誤差計算方式依賴于需要處理的任務。在猜體重游戲中,將每個人的真實體重減去估計體重,然后求其平方以避免正負誤差的相互抵消,求和之后就可以得到100個人的總誤差。為了消除人數(shù)多少對誤差的影響,還需要除以人數(shù),這樣就得到了均方誤差。第11頁共35頁人工智能通識教程
(4)反向傳播。誤差計算后,可以根據(jù)誤差、利用梯度下降算法進行反向傳播。這里涉及到梯度的概念。在數(shù)學中,梯度梯度是多元實值函數(shù)對應的一個向量值函數(shù),梯度方向指向函數(shù)上升最快的方向,那么其反方向就是下降最快的方向。為了盡快將代價函數(shù)調整至最小,沿著梯度反方向進行調整是一個合理的選擇。正如在猜體重游戲中,如果發(fā)現(xiàn)估計的體重大于真實體重,一定會將參數(shù)調小,而不會將參數(shù)調大。但每次調整多少,需要由誤差關于參數(shù)的偏導數(shù)確定??紤]到偏導數(shù)計算的誤差以及其他相關因素影響,還會乘以一個小的常數(shù),這個常數(shù)成為學習率。學習率是一個重要的參數(shù),它控制著每次權重更新的幅度:若果學習率太小,每次移動幅度會太??;如果學習率太大,可能會導致矯枉過正。然后就可以利用梯度下降法更新參數(shù),即將上次參數(shù)減去學習率與偏導數(shù)的成績,即可得到新的參數(shù)。
由于上述過程是從輸出層開始、然后更新到第一層,因此上述過程稱為反向傳播。
(5)迭代優(yōu)化。重復(2)-(4)之間的過程,直到誤差小于設定閾值或達到最大迭代次數(shù),即可停止迭代。在猜體重的例子中,可以視為誤差很小即可停止迭代,或者誤差還不夠小,但是也不能無休止的猜下去,到了一定輪次即可終止猜測。
綜上所述,BP神經(jīng)網(wǎng)絡主要通過正向傳播和反向傳播不斷調整網(wǎng)絡參數(shù),使得網(wǎng)絡能夠逐漸逼近期望的輸出結果。這種基于梯度下降的學習方式使得BP神經(jīng)網(wǎng)絡在分類等等任務中表現(xiàn)出色。第12頁共35頁人工智能通識教程
(1)容易陷入局部最優(yōu)。BP神經(jīng)網(wǎng)絡采用梯度下降法進行優(yōu)化,容易陷入局部最小值,而非全局最優(yōu)解。這使得網(wǎng)絡在訓練過程中可能提前收斂到一個較高的誤差值,影響模型性能。梯度下降法的局部最優(yōu)可以理解為一個人在下山過程中,沿著梯度方向走,雖然有可能以最快速度到達山腳下,但是也有可能進入到一個處于山腰的盆地中,導致無法達到山腳下。(2)對初始權重敏感。初始權重的選擇對BP神經(jīng)網(wǎng)絡的訓練結果有很大影響。不好的初始權重可能導致訓練不穩(wěn)定或收斂到不好的解。(3)收斂速度慢。由于學習速率是固定的,因此網(wǎng)絡的收斂速度慢,需要較長的訓練時間。對于一些復雜問題,BP算法需要的訓練時間可能非常長,這主要是由于學習速率太小造成的,可采用變化的學習速率或自適應的學習速率加以改進。(4)可解釋性差。網(wǎng)絡隱含層的層數(shù)和單元數(shù)的選擇尚無理論上的指導,一般是根據(jù)經(jīng)驗或者通過反復實驗確定。因此,網(wǎng)絡往往存在很大的冗余性,在一定程度上也增加了網(wǎng)絡學習的負擔。(5)對噪聲數(shù)據(jù)敏感。BP神經(jīng)網(wǎng)絡對噪聲數(shù)據(jù)比較敏感,少量的噪聲數(shù)據(jù)可能導致網(wǎng)絡的性能下降。在猜體重例子中,噪聲可以理解為部分人員的數(shù)據(jù)正確,如體重數(shù)據(jù)因為認為輸入錯誤而超過500公斤,這個數(shù)據(jù)顯然是不合理的。因此,在訓練過程前需要對數(shù)據(jù)進行預處理和清洗。
3.BP神經(jīng)網(wǎng)絡的缺點第13頁共35頁人工智能通識教程
深度神經(jīng)網(wǎng)絡具有以下特點:(1)多層結構。深度神經(jīng)網(wǎng)絡由多個隱藏層組成,這些層通過大量的神經(jīng)元連接在一起。隨著層數(shù)的增加,網(wǎng)絡可以學習到更加抽象和高級的特征表示,從而提高模型的表達能力和泛化能力。(2)自動特征學習。深度神經(jīng)網(wǎng)絡能夠自動從數(shù)據(jù)中學習特征,無需人為設計特征工程,這是通過層級逐步提取數(shù)據(jù)的不同抽象級別特征實現(xiàn)的。(3)強大的學習表征能力。由于包含了非常多的網(wǎng)絡層數(shù)、每個節(jié)點都包含非線性操作,因此深度神經(jīng)網(wǎng)絡通過學習可以模擬非常復雜的模型、挖掘復雜規(guī)律背后的運算機制。(4)可以衍生多種網(wǎng)絡結構。根據(jù)應用需求和數(shù)據(jù)類型,深度神經(jīng)網(wǎng)絡有多種變體,如卷積神經(jīng)網(wǎng)絡(CNNs)適用于圖像處理,循環(huán)神經(jīng)網(wǎng)絡(RNNs)和長短期記憶網(wǎng)絡(LSTMs)適用于序列數(shù)據(jù)處理,生成對抗網(wǎng)絡(GANs)用于生成數(shù)據(jù)等。3.1.3深度神經(jīng)網(wǎng)絡第14頁共35頁人工智能通識教程
人工智能的三個主要流派。1.符號主義符號主義認為智能是基于符號處理和邏輯推理的,它將世界分解成一系列符號,通過邏輯規(guī)則和算法來理解和解決問題,就像解數(shù)學題或邏輯題時運用公式和規(guī)則一樣。主要應用于自然語言處理、知識表示與推理等領域。例如IBM的Watson,具有強大的理解能力,可通過自然語言理解技術與用戶交互,并在醫(yī)療、金融、教育等多個領域提供智能決策支持。2.連接主義連接主義又稱仿生學派,受到人腦神經(jīng)元網(wǎng)絡的啟發(fā),認為智能源于大量簡單單元(類似神經(jīng)元)的相互連接和互動。通過調整網(wǎng)絡中的權重,讓網(wǎng)絡能夠學習和識別模式。神經(jīng)網(wǎng)絡技術是連接主義的典型代表。連接主義在在圖像識別、語音識別、自然語言處理等領域表現(xiàn)出色。3.行為主義行為主義又被稱為進化主義或控制論學派,關注智能體如何通過與環(huán)境的交互來學習和適應。認為智能的本質在于能夠根據(jù)環(huán)境反饋調整行為,而不僅僅是內部的思考。行為主義的應用常見于機器人控制、自動駕駛等領域,大疆的無人機控制、汽車自動駕駛等都是行為主義的典型應用。3.1.4人工智能流派第15頁共35頁人工智能通識教程3.2卷積神經(jīng)網(wǎng)絡為了對圖像進行處理和分析,研究人員在標準神經(jīng)網(wǎng)絡的基礎上進行改進,提出了卷積神經(jīng)網(wǎng)絡(ConvolutionalNeuralNetworks,CNN)。該網(wǎng)絡于1998年被紐約大學YannLecun首次提出,是深度學習常用算法之一。卷積神經(jīng)網(wǎng)絡具有極強的特征學習能力,其基本研究目標是通過構建多層網(wǎng)絡,采用監(jiān)督學習方式對目標進行更深層次特征提取。卷積神經(jīng)網(wǎng)絡的基本思想能夠有效減少網(wǎng)絡的參數(shù)量,減少模型過擬合問題。由于具有較好的表征學習能力,無需對輸入的圖片進行一系列復雜操作,現(xiàn)已成為計算機領域研究的熱點。相對于傳統(tǒng)的神經(jīng)網(wǎng)絡,卷積神經(jīng)網(wǎng)絡有兩大優(yōu)點:局部連接和權值共享,這些特性在處理二維圖像的位移、縮放和其它變形時具有更好的魯棒性。第16頁共35頁人工智能通識教程計算機中存儲的數(shù)據(jù)只能是數(shù)字,圖像也概莫能外。在數(shù)學中,長度和寬度是長方形兩個重要的幾何屬性,其具體數(shù)量利用單位長度的數(shù)量進行計算,如長度常見的單位為厘米、分米等。數(shù)字圖像中也采用類似的方式進行描述。數(shù)字圖像中的單位長度單位稱為像素,指的是圖像中最小的結構單元。眾所周知,任何一種顏色信息可以使用紅綠藍三基色進行表示。因此,通常將一個彩色圖像表示為紅、綠、藍三個通道,每個通道可以視為一個灰度圖像。為灰度圖像中的每個小格子(即像素)按照某種規(guī)則進行賦值,圖像就變?yōu)榱藬?shù)字圖像。3.2.1圖像的矩陣表示第17頁共35頁人工智能通識教程對于一個典型的灰度圖像,在賦值規(guī)則方面遵循如下的約定:(1)所有的像素值均為整數(shù);(2)像素值的范圍在[0,255]之間,即最大值為255,最小值為0;(3)像素值為255代表純白色,像素值為0代表純黑色,二者之間的像素值線性對應著純白和純黑之間的灰度變化。
在數(shù)學中,矩陣是一個按照長方陣列排列的復數(shù)或實數(shù)集合
。根據(jù)上述約定,不難發(fā)現(xiàn),灰度圖像在計算機中可以非常自然的認為是一個m*n的特殊矩陣:m是水平方向的像素個數(shù),n是豎直方向的像素個數(shù),矩陣在某點的取值恰好對應著此像素的像素值,取值為[0,255]之間的整數(shù)。與數(shù)字圖像不同的是,一般矩陣中的數(shù)據(jù)可以不必是整數(shù),數(shù)的取值范圍也沒有限制。第18頁共35頁人工智能通識教程卷積是數(shù)學中的一種運算方式,在數(shù)字圖像處理中,卷積常用來進行線性變化,以提取圖像中的特征或對圖像進行濾波操作。在深度神經(jīng)網(wǎng)絡中,卷積的主要目的是為了提取圖像中的特征。離散形式的卷積運算是一種矩陣和矩陣之間的線性運算,這里涉及到兩個矩陣,一個是輸入矩陣A,另外一個是卷積核矩陣B。一般來講,輸入矩陣A的尺寸遠大于卷積核矩陣B的尺寸,具體計算過程可以通過如下步驟實現(xiàn):(1)將卷積核B放在矩陣A的左上角;(2)計算卷積核B中各元素與矩陣A在當前位置對應各元素的乘積,然后求和;(3)將結果存儲在結果矩陣C的相應位置;(4)將卷積核B向右移動一個位置,重復步驟2和3;(5)當卷積核B到達矩陣A的右邊緣時,向下移動一個位置,重復步驟2、3和4。(6)重復上述步驟,直到卷積核B遍歷了矩陣A的所有位置。3.2.2卷積運算第19頁共35頁人工智能通識教程卷積的計算過程:
首先,將卷積核的中心對準圖像的左上角像素。然后,將濾波器中的每個元素與圖像中對應位置的像素相乘;接著將這些乘積累加起來,得到一個輸出結果的像素值,具體計算公式如下:3×0+3×0+2×2+0×2+0×1+1×0+3×0+1×1+0×2=5然后,將卷積核向右移動一列,3x3的卷積核數(shù)值不變、但其對應的圖像矩陣中的數(shù)據(jù)變化了,同樣進行對位相乘然后求和的操作,此時計算公式為:3×0+2×0+1×2+0×2+1×1+3×0+1×0+0×1+2×2=7反復重復上述步驟,直到便利整個圖像,就可以得到圖3-4右側給出的輸出特征矩陣。第20頁共35頁人工智能通識教程在全局連接的神經(jīng)網(wǎng)絡中,上一層的每個神經(jīng)元都會和下一層的每個神經(jīng)元進行連接,連接即意味著有參數(shù)權重需要計算,因此計算負擔比較大。在局部連接的神經(jīng)網(wǎng)絡中,上一側的每個神經(jīng)元只與下一層的部分神經(jīng)元連接,可以減少計算量。對下圖所示的全局連接方式,會有12個權重而局部連接只有6個權重。對下圖所示的局部連接方式,只對圖像局部的3x3區(qū)域進行乘法和加法運算。
3.2.3卷積神經(jīng)網(wǎng)絡特點
1.局部連接第21頁共35頁人工智能通識教程在標準的神經(jīng)網(wǎng)絡中,每個權值都可以是不同的。但對于圖像,其特征具有特殊性,如圖像中的垂直直線,無論位于圖像的左上還是右下,提取直線特征的方式都是固定的,可以使用同樣的方式提取左下區(qū)域直線的特征,也可以用同樣的方式提取右下區(qū)域直線的特征。因此,可以將檢測直線的方式固定下來,然后以同樣的方式遍歷整個圖像進行計算即可,這樣的處理策略稱之為權值共享。具體來說,權值共享是指在提取特征時,在圖像的不同區(qū)域使用相同的參數(shù),即同一卷積層的每個神經(jīng)元都對應于同一套權重。在圖像卷積計算中,卷積雖然遍歷了整個圖像,但無論是計算左上還是右下區(qū)域的特征,卷積核使用的權重是相同的、沒有因為位置不同而改變卷積核中的權重,這就是權值共享的體現(xiàn)。
2.權值共享第22頁共35頁人工智能通識教程卷積層是卷積神經(jīng)網(wǎng)絡的基礎層,通過多個卷積核進行卷積操作提取輸入信號的代表特征來達到學習的效果。卷積核的本質是一個權值矩陣,其作用是提取輸入信號的深層信息。多個卷積核產(chǎn)生了多個特征圖,卷積核的權重值是通過模型訓練不斷學習得到的,但是在訓練之前需要進行初始化。由于卷積操作是線性的,通常情況下在卷積操作之后添加激活函數(shù)為神經(jīng)元增加非線性表達和建模能力。常用的激活函數(shù)包括Sigmoid()函數(shù),Tanh()
函數(shù),ReLU(RectifiedLinearUnit)()函數(shù)和LeakyReLU()
函數(shù)。3.2.4卷積神經(jīng)網(wǎng)絡基本結構
1.卷積層
2.激活函數(shù)第23頁共35頁人工智能通識教程Sigmoid()
函數(shù)是一種最為常見的非線性激活函數(shù),其表達形式如下:igmoid()函數(shù)單調連續(xù),值域為(0,1),方便網(wǎng)絡模型的優(yōu)化,可用作輸出層,但Sigmoid()函數(shù)具有飽和性,即輸入值趨近無窮時,梯度會變得極小,即梯度消失,從而導致網(wǎng)絡訓練難以收斂。第24頁共35頁人工智能通識教程Tanh()函數(shù),又稱雙切正切函數(shù),也是常用的一種非線性激活函數(shù),其表達形式如下:Tanh()
函數(shù)的性質類似于Sigmoid()函數(shù),但也存在區(qū)別,最顯著的差異就在于它的取值范圍在-1到1之間,其優(yōu)點在于輸出以0為中心,網(wǎng)絡訓練起來比Sigmoid()函數(shù)收斂更快,缺點依舊是在網(wǎng)絡層數(shù)不斷增加過程中會出現(xiàn)梯度消失。第25頁共35頁人工智能通識教程ReLU()函數(shù)解決了梯度消失的問題,是近幾年用的最多的激活函數(shù),表達形式如下:當輸入值小于0時,其激活值為0,當輸入值大于等于0時,其激活值等于輸入值的大小。相比于Sigmoid()函數(shù)和Tanh()函數(shù)所涉及到指數(shù)
的復雜函數(shù)表達式,ReLU()函數(shù)是簡單的線性實現(xiàn),所以訓練速度較快。此外,ReLU()
函數(shù)的導數(shù)為1,在一定程度上能有效緩解網(wǎng)絡訓練時出現(xiàn)梯度消失的問題。缺點是在訓練的過程中,可能會出現(xiàn)權重無法更新的情況,也就是說,神經(jīng)元節(jié)點在模型訓練過程中會不可逆的死亡。由于ReLU函數(shù)在進行反向傳播時會出現(xiàn)導數(shù)為零的情況,進而導致神經(jīng)元節(jié)點死亡的問題,因此,研究人員提出來相應的變體函數(shù)LeakyReLU()。第26頁共35頁人工智能通識教程LeakyReLU()函數(shù),其表達形式如式:LeakyReLU()函數(shù)類似于ReLU()
函數(shù),不同之處在于LeakyReLU()函數(shù)
的前半段設為αx而非零,通常α默認取值為0.01,故LeakyReLU()函數(shù)具有ReLU()函數(shù)的所有優(yōu)點,此外,輸入值小于零時,其激活值不為零,解決了ReLU()函數(shù)中神經(jīng)元結點壞死的問題。第27頁共35頁人工智能通識教程在卷積神經(jīng)網(wǎng)絡中,池化層一般在卷積層之后,池化操作也稱為下采樣,其目的在于降低卷積層特征圖的分辨率,用更少的數(shù)據(jù)保留其有用的信息,去除部分冗余信息,防止網(wǎng)絡出現(xiàn)過擬合。在特征圖局部區(qū)域內的像素點互換位置不會導致池化層輸出的改變,故池化層的特征圖具有一定的尺度和空間不變性,能夠增強模型對不同尺度的同一物體的識別能力。常用的池化操作包括最大池化和平均池化,其中,最大池化的是選取滑動窗口內最大特征值作為輸出值;而平均池化則是需要計算出滑動窗口內所有特征值的平均值作為輸出值。
3.池化層第28頁共35頁人工智能通識教程第29頁共35頁人工智能通識教程反向傳播算法是訓練人工神經(jīng)網(wǎng)絡的一種核心且高效率的算法,在算法的前向傳播階段,樣本數(shù)據(jù)通過網(wǎng)絡進行計算,從輸入層逐層傳遞至輸出層,進而產(chǎn)生實際的輸出結果。網(wǎng)絡通過反向傳播計算誤差項,并使用不同的優(yōu)化算法,不斷迭代更新網(wǎng)絡中的每個參數(shù),這個過程主要是為了減小實際輸出與期望輸出之間的誤差,從而提升網(wǎng)絡的性能。在前向傳播過程中,得到了網(wǎng)絡的輸出結果,反向傳播算法則是通過計算損失函數(shù)對網(wǎng)絡傳播過程中參數(shù)的偏導數(shù),來更新對應參數(shù)以最小化損失。反向傳播的過程從輸出層開始,逐層向輸入層傳播誤差信號,通過鏈式法則,每個神經(jīng)元根據(jù)后一層神經(jīng)元的誤差信號和連接權重,計算自己的誤差信號。然后根據(jù)誤差信號和輸入信號的梯度,進而更新連接權重和偏置項,以減小損失函數(shù)的損失值。整個過程迭代進行,直到網(wǎng)絡收斂并達到預定的訓練目標。4.反向傳播第30頁共35頁人工智能通識教程LeNet作為卷積神經(jīng)網(wǎng)絡的開山之作,由YanLeCun于1994年提出,主要用于手寫字符的識別與分類,并在實際應用中取得了顯著成效。
LeNet網(wǎng)絡結共6層,包括卷積層、降采樣的卷積層和全連接層。輸入圖像首先使用6個卷積核提取特征,得到6個特征圖層,然后進行降采樣的池化操作,得到6個14x14的特征圖像,然后繼續(xù)進行卷積操作和降采樣的池化操作,最后使用兩個全連接層將結果映射為10類輸出結果,分別對應0-9共10個數(shù)字。3.2.5常見卷積神經(jīng)網(wǎng)絡第31頁共35頁人工智能通識教程AlexNet在2012年由Hinton的學生AlexKrizhevsky提出,并一舉奪得了Imagenet比賽冠軍。這一成果不僅驗證了卷積神經(jīng)網(wǎng)絡的有效性和強大能力,也確立了其在計算機視覺領域的先驅地位。
AlexNet的網(wǎng)絡結構更為復雜,8層網(wǎng)絡中包括5個卷積層和3個全連接層。第32頁共35頁人工智能通識教程
由牛津大學計算機視覺組和GoogleDeepMind公司共同研發(fā)的VGGNet網(wǎng)絡,以其簡潔而有效的網(wǎng)絡結構取得了良好的識別效果。
該網(wǎng)絡輸入圖片大小固定為為224×224,統(tǒng)一使用3×3的卷積核,并通過堆疊卷積塊的方式構建深層網(wǎng)絡,池化層采用的都是最大池化操作,同時引入了dropout等技術防止過擬合,最后采用SoftMax激活函數(shù)第33頁共35頁人工智能通識教程
當網(wǎng)絡層數(shù)增加到一定程度后,模型訓練的難度會大大提高,因此,如何訓練超級深的神經(jīng)網(wǎng)絡成為了一個亟待解決的問題。何凱明等4名華人學者于2015年提出的殘差網(wǎng)絡:ResNet,通過引入殘差網(wǎng)絡的概念,解決了這個問題,成功訓練了152層的超級深卷積神經(jīng)網(wǎng)絡,并且取得了非常好的效果。第34頁共35頁謝謝THANKYOU第35頁共35頁第
3
章
人工智能基本原理【3.3-3.4】第04講人工智能通識教程3.3其他典型圖像處理神經(jīng)網(wǎng)絡3.4算法評估3.3人工智能倫理治理體系9.4人工智能倫理案例分析人工智能通識教程目錄人工智能通識教程R-CNN(RegionswithCNNfeatures)是物體檢測神經(jīng)網(wǎng)絡的開創(chuàng)性工作,由AlexanderKrizhevsky、IlyaSutskever和GeoffreyHinton于2014年提出。R-CNN通過選擇性搜索等方法提取圖像中的大約兩千個候選區(qū)域,然后對這些區(qū)域使用卷積神經(jīng)網(wǎng)絡提取特征,并通過支持向量機(SVM)進行分類,最后得到對應的分類結果。該方法是一個兩階段算法,即第一個階段先生成和提取候選框,然后在第二個階段確定物體類別和邊界框位置。3.3.1物體檢測神經(jīng)網(wǎng)絡3.3其他典型圖像處理神經(jīng)網(wǎng)絡第38頁共13頁人工智能通識教程YOLO(YouOnlyLookOnce)是由JosephRedmon、SantoshDivvala、RossGirshick和AliFarhadi于2016年提出。針對于兩階段目標檢測算法普遍存在的運算速度慢的缺點,YOLO創(chuàng)造性的提出了單階段目標檢測算法,也就是將物體分類和物體定位在一個步驟中完成。YOLO直接在輸出層回歸檢測框位置和所屬類別,從而實現(xiàn)單極端檢測one-stage。第39頁共13頁人工智能通識教程計算機視覺的核心是分割,它將整個圖像分成一個個像素塊或像素組,然后對其進行標記和分類。語義分割試圖在語義上理解圖像中每個像素的角色(比如,識別它是汽車、摩托車還是其他的類別)。與圖像分類和物體檢測任務不同,在圖像分割中需要用模型對圖像中的每個像素進行預測并進行分類。卷積神經(jīng)網(wǎng)絡在分割任務上取得了巨大成功,通過滑動窗口進行塊分類,利用每個像素周圍的圖像塊,對每個像素分別進行分類。3.3.2圖像分割神經(jīng)網(wǎng)絡第40頁共13頁人工智能通識教程
加州大學伯克利分校提出的全卷積網(wǎng)絡(FCN)解決了這個問題并取得了巨大的成功,該模型設計了端到端的卷積神經(jīng)網(wǎng)絡體系結構,在沒有任何全連接層的情況下進行預測。
全卷積網(wǎng)絡允許針對任何尺寸的圖像生成分割映射,并且速度較快,幾乎后續(xù)所有的圖像分割算法都采用了這種范式。
第41頁共13頁人工智能通識教程
生成對抗網(wǎng)絡是Goodfellow等人在2014年提出的基于深度學習模型的生成算法,可用于各種生成任務,且結構如圖3-18所示。GAN由兩個部分組成,一個生成器(Generator,簡稱G)和一個判別器(Discriminator,簡稱D)。生成器G從先驗噪聲分布pnoise(例如正態(tài)分布)接收作為輸入樣本z并負責將其映
射到數(shù)據(jù)空間x?=G(z),其中滿足模型分布x?~pnoise分類為真實,即D(x)=1,以及生成樣本x?~pnoise為假,即D(x?)=0。生成判別兩個網(wǎng)絡相互競爭,生
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026年活動視頻剪輯服務合同
- 2026年網(wǎng)站維護合同協(xié)議2026
- 土地承包經(jīng)營權合同2026年分配協(xié)議
- 2026年薪資變更合同
- 云服務器租用合同2026年技術支持
- 《信息技術基礎(上冊)》課件 模塊三課題五
- 家用電器和用火安全課件
- 家校社家長培訓課件
- 培訓課件質量要求
- 教練安全道德課件
- (自2026年1月1日起施行)《增值稅法實施條例》的重要變化解讀
- 2025年游戲陪玩分成協(xié)議
- 2026年內蒙古化工職業(yè)學院單招職業(yè)適應性考試參考題庫及答案解析
- 國家事業(yè)單位招聘2024國家水利部小浪底水利樞紐管理中心招聘事業(yè)單位人員擬聘用人員筆試歷年參考題庫典型考點附帶答案詳解(3卷合一)
- 核生化應急救援中心火災預案
- 2026天津市濱海新區(qū)事業(yè)單位招聘25人備考題庫必考題
- 25數(shù)五上數(shù)學人教版期末押題卷5套
- T∕GDAM 005.1-2025 實驗室儀器設備管理規(guī)范 第1部分:總則
- 2025年全面質量管理體系建設項目可行性研究報告
- 光療課件教學課件
- 北師大版二上《參加歡樂購物活動》(課件)
評論
0/150
提交評論