版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領
文檔簡介
摘要論文題目:基于CNN+RNN的實體關系抽取方摘要如今的互聯(lián)網(wǎng)時代,網(wǎng)際網(wǎng)絡中充滿了各式各樣的文本資源,人工智能其中一個焦點便是如何有效率的使用計算機來處理這些文本,并且從中獲取有用的信息。實體關系抽取作為一個熱門的研究話題自然而然地成為了許多專家學者研究的焦點。而本文將著重探討中文人物的關系抽取任務。中文人物關系抽取作為一類特殊的關系抽取任務,擁有重要的意義,其結果可用在智能搜索、智能問答、個性化推薦、內容分發(fā)、權限管理,人力資源管理等領域。傳統(tǒng)的關系抽取方法仍然占了大部分中文人物關系抽取的相關研究中,傳統(tǒng)的關系抽取方法有:基于特征的方法、基于核函數(shù)的方法與基于特征模式的方法。然而傳統(tǒng)的關系抽取方法不免然的有不足之處:基于特征的方法要使用人工來定義特征并且最后結果的好壞是直接依賴于選取特征的好壞;而面對數(shù)據(jù)量大的關系抽取任務時不適合用基于核函數(shù)的方法;基于關系模式的方法則難以全面提取關系模式。基于深度學習模式的關系抽取則沒有上述的缺點,也因此基于深度學習方法的中文人物關系抽取是一個值得探討的課題。本文透過科學實驗方法分析卷積神經(jīng)網(wǎng)絡以及循環(huán)神經(jīng)網(wǎng)絡在中文人物關系抽取中的效果:調整重要參數(shù)后比較神經(jīng)網(wǎng)絡性能,比較在相同參數(shù)下兩種神經(jīng)網(wǎng)絡在中文人物關系抽取中有更好的成果。結果表明循環(huán)神經(jīng)網(wǎng)絡在相同參數(shù)下進行關系抽取任務時的效果比起卷積神經(jīng)網(wǎng)絡的效果要好得多。關鍵詞:卷積神經(jīng)網(wǎng)絡,循環(huán)神經(jīng)網(wǎng)絡,關系抽取目錄TOC\o"1-3"\h\u1.緒論 21.1課題背景與研究意義 21.1.1課題背景 21.1.2研究意義 31.2國內外研究現(xiàn)狀 32.相關理論及技術 42.1神經(jīng)網(wǎng)絡簡介 42.1.1卷積神經(jīng)網(wǎng)絡簡介 42.1.2循環(huán)神經(jīng)網(wǎng)絡簡介 42.2神經(jīng)網(wǎng)絡的基本原理 52.2.1卷積神經(jīng)網(wǎng)絡的特點 52.2.2循環(huán)神經(jīng)網(wǎng)絡的特點 52.2.3卷積神經(jīng)網(wǎng)絡的結構 52.2.4循環(huán)神經(jīng)網(wǎng)絡的結構 52.2.5卷積神經(jīng)網(wǎng)絡的訓練 62.2.6循環(huán)神經(jīng)網(wǎng)絡的訓練 73.神經(jīng)網(wǎng)絡的模型實現(xiàn) 94.中文人物關系抽取的實驗結果 94.1數(shù)據(jù)集 94.2關系抽取的評測指標 104.3卷積神經(jīng)網(wǎng)絡模型的實驗結果 104.3.1訓練總次數(shù)對CNN中文人物關系抽取結果的影響 104.3.2學習率對CNN中文人物關系抽取結果的影響 124.4循環(huán)神經(jīng)網(wǎng)絡模型的實驗結果 144.4.1訓練總次數(shù)對RNN中文人物關系抽取結果的影響 144.4.2學習率對RNN中文人物關系抽取結果的影響 154.4.3卷積神經(jīng)網(wǎng)絡與循環(huán)神經(jīng)網(wǎng)絡的評測指標比較 17緒論1.1課題背景與研究意義1.1.1課題背景在互聯(lián)網(wǎng)時代中,互聯(lián)網(wǎng)充滿了巨量的信息,人工智能的熱點之一便是怎么樣從巨量的信息中獲取知識。自然語言處理研究如何利用機器學習的方法,讓計算機了解自然語言,如此從文本中獲取信息。關系抽取,作為一個熱門的研究話題自然而然地成為了許多專家學者研究的焦點。而識別出文本句子中實體之間的關系便是關系抽取的目標了,在實驗后得到的關系對可以儲存在知識圖譜中,也可以應用在其他人工智能領域的系統(tǒng),如智能問答,信息搜索,個人化推薦等等。中文人物關系抽取作為一類特殊的關系抽取任務,自然也有許多應用。透過中文人物關系抽取所得到的中文人物關系對,能夠用來繪制中文人物關系的知識圖譜,或是中文人物關系間的推理問答等。1.1.2研究意義目前有關中文人物關系抽取的研究仍集中在傳統(tǒng)關系抽取方法上,基本上含括了基于特征的方法、基于核函數(shù)的方法與基于特征模式的方法?;谔卣鞯姆椒ㄒ蕾嚾斯矶x特征,而且選取特征的質量與抽取結果直接相關。基于核函數(shù)的方法雖然不需要耗費人力物力,但在面對大數(shù)據(jù)集的關系抽取時效果欠佳?;陉P系模式的方法則不容易提取全面的關系模式,關系抽取的結果也會因此受到影響。而基于深度學習的關系抽取可以直接將句子當成輸入,并且不依賴人工來定義,面對大數(shù)據(jù)集的關系抽取時也能夠完成,且其效果好于上述的三種方法,因此將深度學習技術應用在中文人物關系抽取擁有重要的研究意義?;谏疃葘W習的關系抽取方法是有監(jiān)督學習方法的一種。而其需要大量的訓練數(shù)據(jù)樣本,若是透過人工標注的方法來訓練樣本會耗費相當大的人力以及物力,但如果能夠使用互聯(lián)網(wǎng)上在線知識庫來獲取關系對,并和自由文本的語料進行對齊,便能夠得到關系抽取任務的訓練樣本,并且解決上述的問題。1.2國內外研究現(xiàn)狀基于深度學習的關系抽取模式主要基于CNN(卷積神經(jīng)網(wǎng)絡,ConvolutionalNeuralNetwork)以及RNN(循環(huán)神經(jīng)網(wǎng)絡,RecurrentNeuralNetwork)兩個模型進行。CNN的優(yōu)點是可以透過卷積操作提取局部的文本特征,RNN的優(yōu)點則是可以對序列數(shù)據(jù)進行建模,RNN衍伸的LSTM(長短時記憶網(wǎng)絡,LongShort-TermMemory)模型也能夠很好的解決長依賴問題,相反的CNN的缺點就是沒有序列刻畫的能力,但RNN與衍伸的LSTM卻是有偏的模型,句子中越靠結尾的詞語的權重比會越多。Zeng等人在2014年第一次使用CNN模型在關系抽取任務上進行建模。基于深度學習的方法跟基于特征的方法不同之處在于CNN的關系抽取任務模型只需要輸入分詞的結果,而并不需要使用其他NLP分析工具的結果,也因此避免了NLP工具出錯時的錯誤傳播。Zeng等人還利用實驗證明了位置矢量可以改善關系抽取任務的結果,也側面說明了關系抽取任務是一個跟詞序相關的問題。Zeng等人又在2015年時提出了用PCNN(分片卷積神經(jīng)網(wǎng)絡,PiecewiseConvolutionalNeuralNetwork)進行關系抽取任務。PCNN與CNN不同的地方在于PCNN會對句子中兩個實體所分割出來的前、中、后三部份分別做最大化池操作(MaxPooling),CNN則是指會對整個句子做最大化池操作。PCNN的分片最大化池操作的細粒度優(yōu)于CNN普通的最大化池操作的細粒度,實驗也證明了PCNN比普通CNN進行關系抽取任務有著更好的效果。關系抽取任務是個長依賴任務但CNN并不能刻畫序列信息面對長依賴信息的效果更是欠佳,因此學者們提出了使用RNN與LSTM模型來進行關系抽取任務。在2015年時Zhang等人使用雙向RNN進行了關系抽取任務。Xu等人則是提出SDP-LSTM模型對實體與實體之間的最短依存路徑(SDP)利用LSTM進行序列建模。相關理論及技術2.1神經(jīng)網(wǎng)絡簡介2.1.1卷積神經(jīng)網(wǎng)絡簡介卷積神經(jīng)網(wǎng)絡是近年發(fā)展起來引起廣泛重視的一種高效識別方法。1960年代Hubel和Wiesel在研究貓腦皮層中用于局部敏感和方向選擇的神經(jīng)元時發(fā)現(xiàn)其獨特的網(wǎng)絡結構可以有用地降低反饋神經(jīng)網(wǎng)絡的復雜性,以此進一步的提出卷積神經(jīng)網(wǎng)絡。今日CNN已然成為了許多科學領域的研究焦點之一,在模式分類領域內更是如此。因為卷積神經(jīng)網(wǎng)絡避免了對圖像復雜的前期預處理,能夠直接輸入圖像來進行任務,所以在圖像識別領域有著更廣泛的應用。K.Fukushima在1980年提出的新識別機是卷積神經(jīng)網(wǎng)絡的第一個實現(xiàn)網(wǎng)絡。此后更多的科研工作者對該網(wǎng)絡進行了改進。其中Alexander和Taylor提出的“改進認知機”更具有代表性,該方法的優(yōu)點是綜合了各種改進方法而且避免了耗時的誤差反向傳播。CNN主要用來識別位移、縮放及其他形式扭曲不變性的二維圖形。因為CNN的特征檢測層透過過訓練數(shù)據(jù)進行學習所以當使用CNN建模時,為了避免顯示的特征抽取,而隱式地從訓練數(shù)據(jù)中進行學習;再因為同一個特征映射面上的神經(jīng)元的權值相同,所以網(wǎng)絡可以并行學習,這也是卷積網(wǎng)絡比起神經(jīng)元彼此相連網(wǎng)絡的一大優(yōu)點。卷積神經(jīng)網(wǎng)絡以其局部權值共享的特殊結構在語音識別和圖像處理方面有著獨特的優(yōu)越性,卷積神經(jīng)網(wǎng)絡的結構更相似于實際的生物神經(jīng)網(wǎng)絡,權值共享降低了網(wǎng)絡的復雜性,特別是多維輸入矢量的圖像能夠直接輸入網(wǎng)絡這一特點避免了特征提取和分類過程中數(shù)據(jù)重建的復雜度。2.1.2循環(huán)神經(jīng)網(wǎng)絡簡介前饋神經(jīng)網(wǎng)絡能夠分成若干層,各層按照傳輸?shù)捻樞蛳群笈帕校趇層的神經(jīng)元只會收到來自i-1層所發(fā)出的信號;各個神經(jīng)元之間并無反饋所以前饋神經(jīng)網(wǎng)絡可以用一個有向無環(huán)路圖演示。而循環(huán)神經(jīng)網(wǎng)絡的處理方式跟前者有著本質上的區(qū)別,循環(huán)神經(jīng)網(wǎng)絡只處理一個單一的輸入單元和上一個時間點的隱藏層信息也因此循環(huán)神經(jīng)網(wǎng)絡獲取輸入的信息是更加自由且動態(tài)的,并不會受到定長輸入空間的限制。對于聲音類似的時間序列信號,傳統(tǒng)神經(jīng)網(wǎng)絡由于網(wǎng)絡的單向無反饋連接方式,只能對輸入信號中包含的時間間隔信號進行處理。除信號中所包含的時間間隔外,通常沒有對信號的參考來處理時間間隔信號,而常見時間序列信號都和它所在時間段前后時間區(qū)間的背景信號有著密切的聯(lián)系。這種潛在能力的產(chǎn)生是由于前向神經(jīng)網(wǎng)絡神經(jīng)元只順序連接,而循環(huán)神經(jīng)網(wǎng)絡具有神經(jīng)元反饋連接。這種形式的連接使得網(wǎng)絡能夠以一種激勵的形式存儲最近時間段的輸入數(shù)據(jù)信息(短時記憶),而網(wǎng)絡的這種潛在意義在實際應用方面著廣泛的意義。2.2神經(jīng)網(wǎng)絡的基本原理2.2.1卷積神經(jīng)網(wǎng)絡的特點CNN擁有極強的適應性,善于挖掘數(shù)據(jù)局部特征并提取全局訓練特征和分類,它的權值共享結構網(wǎng)絡與生物神經(jīng)網(wǎng)絡相當類似,在模式識別各個領域都取得了很好的成果。CNN也有一些傳統(tǒng)技術所不具備的優(yōu)點:較好的容錯率、并行處理能力以及自學習能力,可以處理復雜環(huán)境信息的問題。其通過結合局部感知區(qū)域、共享權重、空間或者時間上的降采樣來充分利用數(shù)據(jù)本身包含的局部性等特征,優(yōu)化網(wǎng)絡結構,并且保證一定程度上的位移和變形的不變性。2.2.2循環(huán)神經(jīng)網(wǎng)絡的特點自然語言處理任務通常都與詞序有著一定的關系,RNN能夠處理序列數(shù)據(jù)的特性使其能夠對許多自然語言處理任務建模,并且取得不錯的結果。 如果把輸入看作一個進入RNN模型的序列數(shù)據(jù),RNN的每一部計算都會處理此序列數(shù)據(jù)中的一個數(shù)據(jù),同時上個步驟的輸出以及此步驟的輸入都會影響著此步驟的輸出。2.2.3卷積神經(jīng)網(wǎng)絡的結構一般來說卷積神經(jīng)網(wǎng)絡通常由輸入層、卷積層、池化層、全連接層以及輸出層所組成,也能夠根據(jù)實際上的需求來增加歸一化層、切分層和融合層。輸入層:數(shù)據(jù)的輸入。卷積層:透過卷積核進行特征提取以及特征映射。池化層:通過池化操作將輸入的各子矩陣進行壓縮,以此縮小矩陣的維度。全連接層:在卷積神經(jīng)網(wǎng)絡的尾部運行,功能是減少特征信息的減少。輸出層:結果的輸出。2.2.4循環(huán)神經(jīng)網(wǎng)絡的結構一個典型的循環(huán)神經(jīng)網(wǎng)絡如下圖所示,循環(huán)神經(jīng)網(wǎng)絡的主體結構A的輸入除了來自輸入層還有一個來自上一時刻的隱藏狀態(tài)。在每一時刻和輸入神經(jīng)網(wǎng)絡的模塊A之后會使其產(chǎn)生新的隱藏狀態(tài),并產(chǎn)生此時刻的輸出。循環(huán)神經(jīng)網(wǎng)絡此時的隱藏狀態(tài)是根據(jù)上一時刻的隱藏狀態(tài)和當前的輸入一起決定的。圖2-1典型循環(huán)神經(jīng)網(wǎng)絡結構下圖為循環(huán)神經(jīng)網(wǎng)絡對長度為N的序列展開后的示意圖,可以視為一個有N個中間層的前饋神經(jīng)網(wǎng)絡,且此前饋神經(jīng)網(wǎng)絡沒有循環(huán)鏈接。對于一組序列數(shù)據(jù),循環(huán)神經(jīng)網(wǎng)絡的輸入層可以依次接收這個序列上不同時刻的數(shù)據(jù),而輸出可以是對序列下一時刻的預測也可以是對當前時刻信息的處理結果。循環(huán)神經(jīng)網(wǎng)絡要求每一個時刻都有一個輸入,但是不一定每個時刻都需要有輸出。圖2-2循環(huán)神經(jīng)網(wǎng)絡按時間展開的結構2.2.5卷積神經(jīng)網(wǎng)絡的訓練卷積神經(jīng)網(wǎng)絡的訓練過程由數(shù)據(jù)從低層次傳向高層次的前向傳播階段以及將誤差從高層次傳向低層次的反向傳播階段所組成。具體訓練過程為:第一步,網(wǎng)絡權值的初始化。第二步,前向傳播階段:輸入數(shù)據(jù)從卷積層、池化層傳向全連階層得到輸出。第三步,求出網(wǎng)絡的輸出值與目標值間的誤差。第四步,當輸出與期望值產(chǎn)生偏差時,將誤差從高層次傳向低層次的神經(jīng)網(wǎng)絡中,依照順序得到全連階層、池化層以及卷積層的各層誤差。由各層的誤差可以得到此卷積神經(jīng)網(wǎng)絡的總誤差,而求出網(wǎng)絡應承擔多少;而當誤差小于等于我們的期望值時則結束訓練。第五步,根據(jù)得到的誤差進行權值更新回到第二步。卷積神經(jīng)網(wǎng)絡的前向傳播階段數(shù)據(jù)通過前向傳播階段來到卷積層后,輸入數(shù)據(jù)進入卷積層中的卷積核進行卷積操作,如下圖所示:此卷積核使用了步長=1的卷積方式,此卷積核的權值為W1、W2、W3、W4。卷積輸入數(shù)據(jù)后,得到局部感受野在跟權值矩陣進行加權和運算透過啟動函數(shù)得到輸出。圖2-3卷積層的前向傳播過程卷積層所得到的特征作為輸入傳到了池化層,透過池化層的池化操作可以把數(shù)據(jù)進行降維操作,能夠避免出現(xiàn)過擬合的現(xiàn)象。常見的池化方式有:最大池化、均值池化以及隨機選取。最大池化是將特征圖中的最大值取出;均值池化則是將特征圖中的數(shù)據(jù)取平均值;而隨機池化方法則是先求出所有的特征值出現(xiàn)在該特征圖中的概率再來以其概率選出特征值來代表此特征圖。特征圖經(jīng)過卷積層以及池化層的特征提取后,將提取出來的特征傳到全連接層中,透過全連接層進行分類進而獲得分類模型得到最后的結果。卷積神經(jīng)網(wǎng)絡的反向傳播階段當卷積神經(jīng)網(wǎng)絡的輸出結果與期望值產(chǎn)生偏差的時候,便會進入反向傳播階段:將書出結果跟期望值的誤差從高層次往低層次傳播得出每層的誤差,再進行權值更新,透過此過程來調整網(wǎng)絡權值,在過程中能夠求得各層對總誤差應該承擔多少的比重。誤差進入全連接層后可以得出在該層提供了多少誤差。由于網(wǎng)絡的誤差是由該網(wǎng)絡的神經(jīng)元所產(chǎn)生的,所以我們需要求出每個神經(jīng)元在該網(wǎng)絡中的誤差。若是要求上一層的誤差則需要找出上一層中哪些節(jié)點與該輸出層連接并用誤差乘以節(jié)點的權值,進而得到每個節(jié)點的誤差。當誤差回到池化層中,若在前向傳播階段采用的是最大池化的方法則直接將此誤差傳回上一層的連接節(jié)點中;若是采用均值池化,誤差則是均勻地返回上一層的連接網(wǎng)絡中。在池化層中只需要將正確的誤差返回到上一層,而不需要進行權值更新。由于卷積層中使用的是局部連接的方式所以和全連接層的誤差傳遞方式不同,在卷積層中誤差的傳遞也是使用卷積核進行傳遞的。在誤差傳遞的過程,需要通過卷積核找到卷積層和上一層的連接節(jié)點。求卷積層的上一層的誤差的過程為:先對卷積層誤差進行一層全零填充,然后將卷積層進行一百八十度旋轉,再用旋轉后的卷積核卷積填充過程的誤差矩陣,并得到了上一層的誤差。2.2.6循環(huán)神經(jīng)網(wǎng)絡的訓練主流的循環(huán)神經(jīng)網(wǎng)絡模型結構如下圖:圖2-4主流神經(jīng)網(wǎng)絡的模型結構圖2-4中左側是神經(jīng)網(wǎng)絡模型沒有按照時間展開的圖,右側則是時間序列展開后的模型。循環(huán)神經(jīng)網(wǎng)絡的訓練與神經(jīng)網(wǎng)絡的訓練一樣是由低層次傳向高層次的前向傳播階段以及將誤差從高層次傳向低層次的反向傳播階段所組成。不同的是循環(huán)神經(jīng)網(wǎng)絡的反向傳播階段使用的算法為BPTT(back-propagationthroughtime)其本質仍然是BP算法,但循環(huán)神經(jīng)網(wǎng)絡是一個處理序列數(shù)據(jù)的模型,所以要基于時間反向傳播。循環(huán)神經(jīng)網(wǎng)絡的前向傳播階段圖2-4中有任意一個序列索引號,可以從隱藏狀態(tài)由和得到:(2-1)其中為RNN的啟動函數(shù)通常是,是線性關系的偏移量,序列索引號的輸出的表達式為:(2-2)最終在序列索引號的預測輸出:(2-3)透過損失函數(shù)能夠量化模型在當前位置的損失即與的差值。循環(huán)神經(jīng)網(wǎng)絡的反向傳播階段RNN反向傳播過程階段即透過梯度下降法一輪輪的迭代,得到合適的RNN模型參數(shù)U,W,V,b,c。一般來說RNN的輸出啟動函數(shù)為softmax函數(shù),隱含層的啟動函數(shù)則是tanh函數(shù)。由于RNN在序列的每個位置都有損失函數(shù)所以最終的損失L是各個位置之和。模型參數(shù)的c與V公式:(2-4)(2-5)而W、U、b則需要先定義序列索引號t的隱藏梯度,然后對此作遞推運算得到:(2-6)進而有W、U、b的梯度計算表達式(2-7)(2-8)(2-9)如果所有U,W,V,b,c的變化值都小于停止迭代閾值?則跳出迭代步驟并輸出。神經(jīng)網(wǎng)絡的模型實現(xiàn)本文的卷積神經(jīng)網(wǎng)絡以及循環(huán)神經(jīng)網(wǎng)絡模型都是使用了python3編程以及深度學習框架pytorch輔助建模,兩種模型的數(shù)據(jù)集來源:/liuhuanyong/PersonRelationKnowledgeGraph中文人物關系抽取的實驗結果4.1數(shù)據(jù)集本文的卷積神經(jīng)網(wǎng)絡以及循環(huán)神經(jīng)網(wǎng)絡模型數(shù)據(jù)集來源:/liuhuanyong/PersonRelationKnowledgeGraph此人物關系數(shù)據(jù)集的規(guī)模如下表所示:項目數(shù)量人物11024關系對35995關系類型1144表4-1數(shù)據(jù)集的規(guī)模此數(shù)據(jù)集中有效的人物關系占總共的百分之六十,而其中的人物關系有:搭檔、好友、隊友、朋友、丈夫、妻子、師傅、兒子、母親、同學、弟弟、女兒、前女友、哥哥、合作以及前男友,具體的頻率分布如下表所示:關系類型頻次頻率累加頻率搭檔46920.13034781642404710.1303478164240471好友37710.104761640182242470.23510945660628957隊友17580.048838759862206910.2839482164684965朋友16810.046699633292588060.3306478497610846丈夫14310.039754417157461940.3704022669185465妻子11980.033281475719524390.4036837426380709師傅9860.027391932436937440.4310756750750083兒子9720.027003000333370370.4580786754083787母親9220.025613957106345150.4836926325147239同學6980.019391043449272140.5030836759639961弟弟6780.018835426158462050.5219191021224581女兒6090.016918546505167240.5388376486276253前女友5940.016501833537059670.555339482164685哥哥5800.016112901433492610.5714523835981776合作5730.015918435381709080.5873708189798867前男友5730.015918435381709080.6032892543615959表5-1關系類型的頻率分布由于此數(shù)據(jù)集的關系過多并且太過復雜,所以將其簡化11種關系:分別為未知(unknown)、父母、夫妻、師生、兄弟姐妹、合作、情侶、祖孫、好友、親戚、同門、上下級。如前文所提到的一樣,此數(shù)據(jù)集的有效關系對只有占總數(shù)據(jù)集的百分之六十。4.2關系抽取的評測指標中文人物關系抽取的評測指標與一般的實體關系抽取評測指標相同,都是采用常用的準確率、召回率以及F值。準確率:抽取準確的實體對數(shù)量和返回的實體對數(shù)量的比值召回率:抽取準確的實體對數(shù)量和所有實體對數(shù)量的比值F值:兩倍的準確率乘以召回率和準確率召回率之和的比值準確率是模型的精準指標,召回率則是模型的查全指標,F(xiàn)值則是顧全兩者的評測指標。準確率與召回率是會互相影響的,最理想的情況是兩項指標均高,但通常來說準確率高的話召回率便會下降,反之亦然。4.3卷積神經(jīng)網(wǎng)絡模型的實驗結果4.3.1訓練總次數(shù)對CNN中文人物關系抽取結果的影響中文人物關系抽取有一定的復雜度,要使得卷積神經(jīng)網(wǎng)絡能夠進行有效率地關系抽取任務需要一定的訓練次數(shù)才能得到。理論上的訓練次數(shù)越多,訓練的結果會越好,但現(xiàn)實的情況是訓練次數(shù)過多會浪費時間還可能使得結果產(chǎn)生過擬合的現(xiàn)象。我選擇了用學習率0.0005,訓練次數(shù)為100次來進行卷積神經(jīng)網(wǎng)絡的訓練,其結果如下圖所示: 訓練1次時準確率為0.0972810128,召回率為0.1020735524 訓練5次時準確率為0.0885069657,召回率為0.113888888 訓練10次時準確率為0.150519827,召回率為0.150519827 訓練20次時準確率為0.336278904,召回率為0.343435054 訓練30次時準確率為0.427303681,召回率為0.412120500 訓練40次時準確率為0.476652059,召回率為0.471627543 訓練50次時準確率為0.495998431,召回率為0.475805946 訓練60次時準確率為0.530082991,召回率為0.508755868 訓練70次時準確率為0.519028714,召回率為0.512969483 訓練80次時準確率為0.526080158,召回率為0.51095070 訓練90次時準確率為0.539262325,召回率為0.511670579 訓練100次時準確率為0.53173187,召回率為0.521259780圖4-1卷積神經(jīng)網(wǎng)絡在學習率0.005準確率以及召回率對應訓練次數(shù)曲線圖 圖4-1中藍線表示著準確率,橘線則是表示召回率。從圖4-1可以看出在訓練次數(shù)20次以前,神經(jīng)網(wǎng)絡的成長速度還是相當快的,僅訓練了20次準確率與召回率便均突破了0.3。在訓練次數(shù)30次后,準確率及召回率成長曲線趨于平緩,并且在訓練次數(shù)50到60次后幾乎沒有成長,準確率及召回率在0.5到0.52之間徘徊,準確率及召回率基本達到上限,接著訓練便會出現(xiàn)過擬合的現(xiàn)象。 可以看出超過訓練次數(shù),并且不考慮過擬合的現(xiàn)象,此卷積神經(jīng)網(wǎng)絡的準確率與召回率最多也只有百分之五十三左右,這個結果是不理想的,但正如本章前文所提到的,這次神經(jīng)網(wǎng)絡訓練所采用的數(shù)據(jù)集本身的有效數(shù)據(jù)人物關系對只占了全部的人物關系對的百分之六十,所以如果將此次的結果除以百分之六十就會得到真實有效的準確率以及召回率。 對結果進行處理后得到: 訓練1次時準確率為0.1621350214,召回率為0.1701225873 訓練5次時準確率為0.1475116096,召回率為0.1898148148 訓練10次時準確率為0.250866379,召回率為0.2568335941 訓練20次時準確率為0.560464841,召回率為0.5723917579 訓練30次時準確率為0.712172803,召回率為0.6868675017 訓練40次時準確率為0.794420099,召回率為0.7860459050 訓練50次時準確率為0.8266640530,召回率為0.7930099113 訓練60次時準確率為0.8834716523,召回率為0.8479264475 訓練70次時準確率為0.8650478573,召回率為0.8549491392 訓練80次時準確率為0.8768002642,召回率為0.851584507 訓練90次時準確率為0.8898843746,召回率為0.8802686489 訓練100次時準確率為0.893152628,召回率為0.8669926969圖4-2卷積神經(jīng)網(wǎng)絡在學習率0.005準確率以及召回率對應訓練次數(shù)有效數(shù)據(jù)曲線圖 圖4-2中藍線表示著準確率,橘線則是表示召回率?;旧蠄D4-2是對圖4-1線性變換后得到的結果,所以圖4-2的曲線成長以及走勢都跟4-1相當。訓練了20次準確率與召回率便都超過了0.5。在訓練次數(shù)30次后,準確率及召回率成長曲線雖然趨于平緩,但由于線性變化的關系比起線性變化關系前的曲線斜率來得大,在訓練次數(shù)50到60次后也因為線性變化使得成長幅度增加,準確率及召回率在0.83到0.86之間徘徊。兩張圖對比后能夠看出訓練次數(shù)在50次以前準確率以及召回率曲線基本上是重合的,在訓練次數(shù)50次后準確率曲線基本上都在召回率曲線之上??梢缘贸鼋Y論:訓練次數(shù)的上升能夠提升模型性能,但超過一定次數(shù)后,基本上沒有意義,甚至會出現(xiàn)過擬合的情況。4.3.2學習率對CNN中文人物關系抽取結果的影響學習率是神經(jīng)網(wǎng)絡中的重要參數(shù)。學習率決定了目標函數(shù)是否能夠收斂到局部最小值以及何時收斂至最小值,若是學習率設置的過小,則收斂的過程會變得十分緩慢,但如果學習率過大的話有可能其值會在最小值來回震蕩甚至發(fā)生無法收斂的現(xiàn)象。由于訓練次數(shù)過多既浪費時間又有可能出現(xiàn)過擬合,所以在這次的訓練中只訓練70次,學習率選擇0.001,將結果做線性變化除以百分之六十后得到有效數(shù)據(jù)的準確率及召回率: 訓練1次時準確率為0.1814128942,召回率為0.1722743870 訓練5次時準確率為0.2093084758,召回率為0.2157407407 訓練10次時準確率為0.458584500,召回率為0.4466223265 訓練20次時準確率為0.779144575,召回率為0.7308620239 訓練30次時準確率為0.845355269,召回率為0.8175208659 訓練40次時準確率為0.853321856,召回率為0.8376630151 訓練50次時準確率為0.861255618,召回率為0.8281755346 訓練60次時準確率為0.885618902,召回率為0.8391757955 訓練70次時準確率為0.881111090,召回率為0.8599895670圖4-3卷積神經(jīng)網(wǎng)絡在學習率0.001時準確率以及召回率對應訓練次數(shù)有效數(shù)據(jù)曲線圖圖4-3中藍線表示著準確率,橘線則是表示召回率。對比圖4-2可以看出當學習率是0.001時準確率及召回率曲線的成長速度都快上許多。同樣訓練次數(shù)等于10的時候,學習率0.001的準確率及召回率已經(jīng)來到了0.45,而學習率0.0005的準確率及召回率只有0.25,若是將兩張圖合并可以看出更明顯的差距。圖4-4卷積神經(jīng)網(wǎng)絡在學習率0.001、0.0005時準確率的曲線圖圖4-5卷積神經(jīng)網(wǎng)絡在學習率0.001、0.0005時召回率的曲線圖圖4-4中藍線表示著學習率在0.0005時的準確率,橘線則是表示學習率在0.001時的準確率。圖4-5中則是藍線對應學習率0.0005的召回率,橘線對應學習率0.001時的召回率。從圖4-4及圖4-5中更能看出學習率是如何影響著神經(jīng)網(wǎng)絡的性能:學習率0.001的曲線成長速度比起學習率0.0005快了非常多,在訓練次數(shù)50以前都是橘色線都是在藍線之上的,但訓練次數(shù)超過50以后,兩條曲線的走勢都慢慢地重合。可以得出結論:增加學習率能夠提升訓練模型前期的效率,并且后期也基本不影響評測指標與結果。4.4循環(huán)神經(jīng)網(wǎng)絡模型的實驗結果4.4.1訓練總次數(shù)對RNN中文人物關系抽取結果的影響與卷積神經(jīng)網(wǎng)絡一開始一樣:選學習率0.0005進行訓練100次,觀察準去率及召回率的曲線,得到結果并且進行線性變化除以百分之六十后的結果如下: 訓練1次時準確率為0.1750773847,召回率為0.1837245696 訓練5次時準確率為0.3553826480,召回率為0.3757563901 訓練10次時準確率為0.517895930,召回率為0.5590310380 訓練20次時準確率為0.725400840,召回率為0.7551643192 訓練30次時準確率為0.836183836,召回率為0.8446335419 訓練40次時準確率為0.858998834,召回率為0.8720526864 訓練50次時準確率為0.913080088,召回率為0.9186424100 訓練60次時準確率為0.936219558,召回率為0.9350938967 訓練70次時準確率為0.920388173,召回率為0.9245239958 訓練80次時準確率為0.936799798,召回率為0.9302556077 訓練90次時準確率為0.946961879,召回率為0.9374608763 訓練100次時準確率為0.95883018,召回率為0.9366914449圖4-6循環(huán)神經(jīng)網(wǎng)絡在學習率0.005準確率以及召回率對應訓練次數(shù)有效數(shù)據(jù)曲線圖 圖4-6中藍線表示著準確率,橘線則是表示召回率。從圖中可以看出在模型訓練10次后準確率及召回率已經(jīng)突破了0.5,曲線走勢在訓練次數(shù)30次后趨于平緩。在模型訓練50次后,準確率以及召回率便超過了0.9。訓練次數(shù)繼續(xù)增加后便沒有了意義,出現(xiàn)了過擬合現(xiàn)象。訓練次數(shù)對循環(huán)神經(jīng)網(wǎng)絡的影響基本與對卷積神經(jīng)網(wǎng)絡的影響相同:訓練次數(shù)的上升依然能夠提升模型性能,但超過一定次數(shù)后便失去意義,甚至會出現(xiàn)過擬合的情況。4.4.2學習率對RNN中文人物關系抽取結果的影響 如前文所提的,適當?shù)膶W習率能使得模型更有效率,學習率的過大或過小都會使得最終的結果不理想。為了節(jié)省時間這次的訓練中訓練70次,學習率選擇0.001,將結果做線性變化除以百分之六十后得到有效數(shù)據(jù)的準確率及召回率: 訓練1次時準確率為0.2020955949,召回率為0.221583202 訓練5次時準確率為0.4786891910,召回率為0.493505477 訓練10次時準確率為0.643845541,召回率為0.691510172 訓練20次時準確率為0.833805894,召回率為0.856025039 訓練30次時準確率為0.894437581,召回率為0.896178925 訓練40次時準確率為0.922511165,召回率為0.916366718 訓練50次時準確率為0.931411537,召回率為0.935380803 訓練60次時準確率為0.948944050,召回率為0.933789775 訓練70次時準確率為0.978823925,召回率為0.952693009圖4-7循環(huán)神經(jīng)網(wǎng)絡在學習率0.001時準確率以及召回率對應訓練次數(shù)有效數(shù)據(jù)曲線圖圖4-7中藍線表示著準確率,橘線則是表示召回率。與卷積神經(jīng)網(wǎng)絡依樣,將圖4-7對比圖4-6后不難發(fā)現(xiàn)當學習率是0.001時準確率及召回率曲線的成長速度都快上許多。同樣訓練次數(shù)等于10的時候,學習率0.001的準確率及召回率分別是0.64,0.69,而學習率0.0005的準確率及召回率只有0.51,0.55,若是將兩張圖合并可以看出更明顯的差距
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
- 4. 未經(jīng)權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
- 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- GB/T 25077.1-2025聲學流阻測定第1部分:靜態(tài)氣流法
- 2025-2026學年陜西省西安市新城區(qū)九年級(上)期末數(shù)學試卷(含答案)
- 【寒假復習】北師大版五年級數(shù)學上冊應用題(含答案)
- 化工企業(yè)培訓課件教學
- 12月轉債月報:轉債|跨年行情如何配置
- (一模)南通市2026屆高三學業(yè)質量監(jiān)測語文試卷(含標準答案)
- 2026山東臨沂市市直部分事業(yè)單位招聘綜合類崗位21人參考考試題庫及答案解析
- 2026福建福州市馬尾區(qū)行政服務中心管委會第一批招聘編外人員1人筆試參考題庫及答案解析
- 元旦活動策劃方案地產(chǎn)(3篇)
- 2026貴州遵義融媒傳媒(集團)有限公司招聘19人備考考試試題及答案解析
- 高速公路bt合同范本
- 2026年《必背60題》酒店前廳接待經(jīng)理高頻面試題包含詳細解答
- 超聲波技術協(xié)議書
- 眼內炎術后護理與康復
- GB/T 5784-2025緊固件六角頭螺栓細桿B級
- 地形測量投標標書技術設計書
- DB51-T 3313-2025 同步攤鋪超薄瀝青混凝土施工技術規(guī)程
- 代建合同安全協(xié)議書
- 浙江省寧波市鄞州區(qū)2024-2025學年三年級上冊期末考試數(shù)學試卷(含答案)
- 2025-2030激光雷達固態(tài)化轉型節(jié)奏預判及技術成熟度評估
- 智能與AI安全培訓課件
評論
0/150
提交評論