版權(quán)說(shuō)明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)
文檔簡(jiǎn)介
基于深度學(xué)習(xí)的BERT-RCNN-Pooling融合模型的真?zhèn)涡侣勛R(shí)別系統(tǒng)分析目錄TOC\o"1-2"\h\u7684摘要 1318321緒論 292511.1研究背景和意義 264911.2國(guó)內(nèi)外研究進(jìn)展與現(xiàn)狀 254071.3本論文主要研究?jī)?nèi)容 3276441.4論文結(jié)構(gòu)安排 313206第二章:介紹了本文所使用的相關(guān)技術(shù)。 3143782背景知識(shí) 462622.1自然語(yǔ)言處理模型 4278792.2注意力機(jī)制 744232.3文本預(yù)處理技術(shù) 8312312.4本章小結(jié) 8198333基于BERT-RCNN-Pooling模型的真?zhèn)涡侣勛R(shí)別 10155093.1BERT預(yù)訓(xùn)練模型 10151863.2循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RCNN) 122173.3本章小結(jié) 13146504實(shí)驗(yàn)過(guò)程與分析 13191084.1實(shí)驗(yàn)數(shù)據(jù) 1398444.2實(shí)驗(yàn)過(guò)程 13255534.3對(duì)比實(shí)驗(yàn) 14303354.4實(shí)驗(yàn)結(jié)果及分析 15262564.5實(shí)驗(yàn)小結(jié) 15175985總結(jié)與展望 16273895.1總結(jié) 1646295.2未來(lái)展望 16摘要隨著信息化社會(huì)的快速發(fā)展,社交媒體平臺(tái)如雨后春筍般發(fā)展起來(lái),新聞在以前所未有的速度傳播著。近年來(lái),因?yàn)樘摷傩侣劧斐蓢?yán)重危害的例子時(shí)有發(fā)生,因此,對(duì)于真?zhèn)涡侣勛R(shí)別的研究迫在眉睫。 虛假新聞是指為了達(dá)成某種目的從而發(fā)布假的信息以達(dá)到欺騙當(dāng)事者的一種輿論。虛假新聞并不能真實(shí)反映事物的本來(lái)面貌,并且還會(huì)帶來(lái)嚴(yán)重的社會(huì)恐慌等不可逆的后果。但新聞文本的主要載體還是文本,所以對(duì)虛假新聞的有效識(shí)別可以抽象為自然語(yǔ)言處理領(lǐng)域內(nèi)的文本分類任務(wù),根據(jù)處理得到的新聞文本的特征,進(jìn)行真假新聞的分類。并且針對(duì)該任務(wù),本文提出了基于深度學(xué)習(xí)的BERT-RCNN-Pooling的融合模型,在輸入上引入字詞結(jié)合的形式,另外充分利用假新聞的關(guān)鍵詞特征進(jìn)行優(yōu)化。并且通過(guò)設(shè)計(jì)的對(duì)比實(shí)驗(yàn),可以更全面地證明本文提出的模型的有效性。關(guān)鍵字:深度學(xué)習(xí),虛假新聞識(shí)別,BERT,RCNN緒論研究背景和意義隨著時(shí)間的推移,互聯(lián)網(wǎng)科技蓬勃發(fā)展,微信、微博、今日頭條等媒體平臺(tái)都在以極快的速度傳播著新聞消息。與電視、報(bào)紙等傳統(tǒng)媒體相比,媒體平臺(tái)發(fā)布或?yàn)g覽新聞往往成本更加低廉,也更加方便快捷,所以在社會(huì)中受到了人們的青睞,得以廣泛使用,同時(shí)也改變著現(xiàn)代人們的生活方式。但同時(shí),一些危害也隨之產(chǎn)生,由于網(wǎng)絡(luò)的匿名性,讓億萬(wàn)用戶都可以時(shí)時(shí)處處地發(fā)表自己的見地和主張,導(dǎo)致海量未經(jīng)證實(shí)的新聞?dòng)咳肷鐣?huì)并迅速傳播,引導(dǎo)輿論,誆騙大眾,給社會(huì)造成了巨大的危害。因此,識(shí)別虛假新聞并加以管理成為了這個(gè)時(shí)代迫在眉睫的問題。然而,依靠人工去識(shí)別虛假新聞,不僅費(fèi)時(shí)成本高,而且整個(gè)識(shí)別過(guò)程有很大的時(shí)延。所以,愈發(fā)多的學(xué)者開始重視虛假新聞的研究,試圖將其與真實(shí)可靠的新聞區(qū)別開。 對(duì)于虛假新聞,在2017年Shu等人給出這樣的定義:虛假新聞是證實(shí)為虛假且故意發(fā)布的新聞報(bào)道,且意在誘導(dǎo)人們,對(duì)社會(huì)以及經(jīng)濟(jì)方面將造成難以挽回的損害【1】。例如,在2016年的美國(guó)大選中,CNN(CounterfietNewsNetwork)、MSNBC(NothingbutCrap)這樣的專業(yè)新聞媒體就制造過(guò)虛假新聞,其結(jié)果直接影響了美國(guó)大選的結(jié)果。并且這種影響往往是永久的,很難恢復(fù)的。尤其是在2020年發(fā)生新型冠狀病毒疫情以來(lái),在利益、政治立場(chǎng)等因素影響下,各類扭曲夸大真相的虛假新聞層出不窮。例如,2020年2月1日下午,一張《人民日?qǐng)?bào)》電子版截圖在微信群和朋友圈流傳,截圖中的新聞顯示“暫免武漢紅十字會(huì)救災(zāi)物資管理”,其實(shí)真相是武漢市紅十字會(huì)從未暫停過(guò)救援物資接收管理。由于新冠疫情的不確定性給虛假新聞提供了可乘之機(jī),而虛假新聞就成為公眾情緒和社會(huì)熱點(diǎn)的另類映射。但是這樣的虛假新聞會(huì)使得社會(huì)動(dòng)蕩不安,嚴(yán)重?fù)p害了政府、權(quán)威部門的公信力。同時(shí),還有人會(huì)利用大眾的善良,借用新冠肺炎疫情求助發(fā)布虛假新聞來(lái)號(hào)召人們的捐款,實(shí)則騙到一定的錢款就會(huì)立即逃跑。長(zhǎng)此以往,人和人的信任也會(huì)慢慢喪失。并且有研究顯示,人們對(duì)于改變已經(jīng)確定了的信念有著較為強(qiáng)烈的抵觸心理,因此對(duì)于許多虛假新聞的澄清很多時(shí)候是無(wú)效的。例如,尼斯湖水怪已經(jīng)被專家在各大平臺(tái)多次表明是一場(chǎng)徹頭徹尾的騙局,但依然很難改變大眾對(duì)它的印象。 社會(huì)各界為了應(yīng)對(duì)這樣虛假信息泛濫的局面采取了很多措施。例如,中國(guó)互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái)的成立,意在及時(shí)地官方遏制虛假新聞的傳播和發(fā)展。同時(shí),微信也推出來(lái)辟謠助手、微博也成立“微博辟謠官方賬號(hào)”來(lái)對(duì)虛假信息進(jìn)行篩查和管理,力求降低虛假新聞帶來(lái)的負(fù)面影響。 但僅靠人工篩查,將會(huì)大量地耗費(fèi)人力物力,卻也不一定能夠得到最好的抑制虛假新聞傳播的效果。而且由于每個(gè)人文化程度不同,對(duì)于新聞所能鑒別的范圍也是有很大的限制,這將會(huì)導(dǎo)致篩查結(jié)果產(chǎn)生極大的誤差。與此同時(shí),人工篩查將帶來(lái)的高延時(shí)性,一般當(dāng)虛假新聞開始傳播之后,才會(huì)引起篩查員的關(guān)注。因此,研究基于深度學(xué)習(xí)的真?zhèn)涡侣勛R(shí)別就變得很有意義。國(guó)內(nèi)外研究進(jìn)展與現(xiàn)狀虛假新聞是一個(gè)在全世界都很嚴(yán)重的問題,即使明白其負(fù)面影響深、造成損害極大,然而真正學(xué)術(shù)研究虛假新聞是近些年才開始的。虛假新聞在西方泛濫,尤其是在2016年時(shí)對(duì)美國(guó)的經(jīng)濟(jì)和政治方面都造成了不可挽回的損失,也正是由此迎來(lái)了對(duì)虛假新聞研究的熱潮。中國(guó)國(guó)內(nèi)對(duì)于虛假新聞的研究在這兩年才開始,與國(guó)外相比,國(guó)內(nèi)對(duì)于虛假新聞研究較少,不論是成因的研究、整理的數(shù)據(jù)集以及識(shí)別方法的研究成果上與國(guó)外都有較大的差距。在深度學(xué)習(xí)興起前,學(xué)者們的研究算法專注于多方面的特征,例如文本特征、情感特征以及用戶特征,并根據(jù)這些特征來(lái)構(gòu)建模型。之后的研究模型就主要分為兩個(gè)方向:深度神經(jīng)網(wǎng)絡(luò)和傳統(tǒng)分類方法。傳統(tǒng)的分類方法一般是機(jī)器學(xué)習(xí)算法,Gravanis等學(xué)者提出了一種虛假新聞檢測(cè)模型,這個(gè)模型基于機(jī)器學(xué)習(xí)算法和內(nèi)容特征【2】。實(shí)驗(yàn)結(jié)果顯示,使用了增強(qiáng)的語(yǔ)言特征集、集成算法、支持向量機(jī)和詞嵌入能夠?qū)μ摷傩侣勥M(jìn)行高精準(zhǔn)度分類。Lukasik等學(xué)者研發(fā)了有監(jiān)督、自動(dòng)化的分類器,其使用多任務(wù)學(xué)習(xí)來(lái)將虛假新聞相關(guān)的推文的立場(chǎng)進(jìn)行分類,可分為否定、贊成或質(zhì)疑?!?】Hinkelmann等學(xué)者提出將知識(shí)工程與機(jī)器學(xué)習(xí)相結(jié)合,幫助檢測(cè)假新聞?!?】隨著近些年計(jì)算能力的突出發(fā)展,深度學(xué)習(xí)回歸到人們的視線當(dāng)中,特別是在自然語(yǔ)言處理領(lǐng)域內(nèi)獲得了特別顯著的成果。因此,學(xué)者們開始將深度學(xué)習(xí)模型和真?zhèn)涡侣勛R(shí)別結(jié)合起來(lái)研究。O‘Brien等學(xué)者通過(guò)使用深層神經(jīng)網(wǎng)絡(luò),捕獲到假新聞和真新聞?wù)Z言中細(xì)微的差異——夸張和其他修辭方式的特征,證明了用深度學(xué)習(xí)從語(yǔ)言模式來(lái)篩查虛假新聞的泛化能力。【5】Chen等在傳統(tǒng)的循環(huán)神經(jīng)網(wǎng)絡(luò)RNN(RecurrentNeuralNetworks)模型基礎(chǔ)上結(jié)合注意力機(jī)制,實(shí)現(xiàn)對(duì)于推文特征的有效提取,取得了較好的結(jié)果【6】。深度學(xué)習(xí)模型比機(jī)器學(xué)習(xí)模型在篩查虛假新聞準(zhǔn)確率方面能取得更好的成果。通過(guò)對(duì)已有真?zhèn)涡侣勛R(shí)別模型分析得出,機(jī)器學(xué)習(xí)模型和深度學(xué)習(xí)模型都能克服傳統(tǒng)特征工程方法上的缺點(diǎn),并取得較好的成效,但深度學(xué)習(xí)表現(xiàn)更勝一籌。本論文主要研究?jī)?nèi)容虛假新聞不僅危害大且人工識(shí)別起來(lái)耗費(fèi)的工作量巨大且慢,本文針對(duì)這樣棘手的情況提出了一種基于深度學(xué)習(xí)的真?zhèn)涡侣勛R(shí)別方案,用來(lái)智能地識(shí)別虛假新聞,減少不必要的經(jīng)濟(jì)損失和麻煩。本文先提出了結(jié)合BERT預(yù)處理模型和RCNN神經(jīng)網(wǎng)絡(luò)模型的方案,并通過(guò)真實(shí)的數(shù)據(jù)集進(jìn)行訓(xùn)練,最后用爬取的數(shù)據(jù)進(jìn)行測(cè)試。并且設(shè)計(jì)對(duì)比實(shí)驗(yàn),與傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)模型相對(duì)比,更加說(shuō)明了本文提出方案的有效性。論文結(jié)構(gòu)安排本論文主要闡述了基于深度學(xué)習(xí)的真?zhèn)涡侣勛R(shí)別共分為四章,結(jié)構(gòu)安排如下: 第一章:介紹了本文的研究背景和內(nèi)容,并且說(shuō)明了國(guó)內(nèi)外發(fā)展現(xiàn)狀和研究的意義。 第二章:介紹了本文所使用的相關(guān)技術(shù)。 第三章:提出了BERT-RCNN-Pooling模型對(duì)文本進(jìn)行處理分析,并詳細(xì)介紹了BERT和RCNN模型的原理。 第四章:介紹了本文的實(shí)驗(yàn)設(shè)計(jì)和實(shí)驗(yàn)結(jié)果分析,基于第二章和第三章的技術(shù),提出了將BERT與訓(xùn)練模型與CNN和RCNN等進(jìn)行結(jié)合,并通過(guò)真實(shí)的數(shù)據(jù)集進(jìn)行對(duì)比試驗(yàn),驗(yàn)證該模型可以有效地進(jìn)行真?zhèn)涡侣勛R(shí)別的任務(wù)。第五章:總結(jié)和展望,對(duì)之前的工作內(nèi)容進(jìn)行歸納和總結(jié),分析此次實(shí)驗(yàn)的不足,并且結(jié)合深度學(xué)習(xí)和真?zhèn)涡侣勔延械难芯楷F(xiàn)狀對(duì)未來(lái)的工作進(jìn)行展望。
背景知識(shí)文本是新聞信息的主要載體,對(duì)新聞文本的研究有助于虛假新聞的有效識(shí)別。虛假新聞文本檢測(cè),具體任務(wù)為:給定一個(gè)新聞事件的文本,判定該事件屬于真實(shí)新聞還是虛假新聞。該任務(wù)可抽象為NLP領(lǐng)域的文本分類任務(wù),根據(jù)新聞文本內(nèi)容,判定該新聞是真新聞還是假新聞。本章會(huì)介紹用于提取文本特征的自然語(yǔ)言處理的相關(guān)模型、深度學(xué)習(xí)中的注意力機(jī)制和文本預(yù)處理所用到的相關(guān)技術(shù)內(nèi)容。自然語(yǔ)言處理模型自然語(yǔ)言處理是人工智能領(lǐng)域與計(jì)算機(jī)科學(xué)領(lǐng)域中的一個(gè)重要方向。它的研究能實(shí)現(xiàn)計(jì)算機(jī)與人之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門結(jié)合了語(yǔ)言學(xué)、數(shù)學(xué)、計(jì)算機(jī)科學(xué)于一體的科學(xué)。本文的自然語(yǔ)言主要是通過(guò)新聞文本來(lái)表現(xiàn),并用計(jì)算機(jī)進(jìn)行處理分類。因此,本章介紹幾種經(jīng)典的自然語(yǔ)言處理模型。循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN) RNN,是時(shí)間遞歸神經(jīng)網(wǎng)絡(luò)(recurrentneuralnetwork)和結(jié)構(gòu)遞歸神經(jīng)網(wǎng)絡(luò)(recursiveneuralnetwork)的總稱,它的神經(jīng)網(wǎng)絡(luò)包含循環(huán),因此解決了信息無(wú)法持久化這一問題。循環(huán)神經(jīng)網(wǎng)絡(luò)包含循環(huán)的原因是它在隱藏層中加入了循環(huán)結(jié)構(gòu),這是RNN的核心所在,這種循環(huán)結(jié)構(gòu)可以通過(guò)順序信息來(lái)存儲(chǔ)之前的時(shí)間步信息,使得同一個(gè)時(shí)間步內(nèi)的輸出相互關(guān)聯(lián)。RNN對(duì)同一個(gè)時(shí)間步內(nèi)的每個(gè)輸入進(jìn)行相同的操作,每一個(gè)操作都受到前一時(shí)刻輸出的影響,并且每一個(gè)神經(jīng)細(xì)胞參數(shù)共享。圖2.1RNN循環(huán)神經(jīng)網(wǎng)絡(luò)模型如圖2.1是一個(gè)典型的RNN循環(huán)神經(jīng)網(wǎng)絡(luò)模型,其中左側(cè)是折疊起來(lái)的RNN模型,h旁邊的箭頭表示此結(jié)構(gòu)中的循環(huán)體現(xiàn)在隱層。右邊是按照時(shí)間步展開的RNN模型,每一個(gè)箭頭代表做一次變換,我們可以看到,隨著時(shí)間的推移,前面的輸出對(duì)右面的結(jié)果是有影響的。圖中x表示輸入,h表示時(shí)間,o代表輸出,l是損失函數(shù),y是此時(shí)刻的真實(shí)值,U,V,W,分別代表隱層的權(quán)值。也就是說(shuō)隨著序列的不斷推進(jìn),隱層之間的影響也是依次傳遞的,損失也是隨著時(shí)間不斷積累的,因此我們才說(shuō)RNN可以使得信息持久化。剛才上文提到的統(tǒng)一時(shí)間步內(nèi)神經(jīng)細(xì)胞參數(shù)共享指的是圖中W,U,V,值分別相等,此外每一個(gè)輸入值都只與它本身的線路連接,不會(huì)和別的神經(jīng)元連接。此時(shí),對(duì)于t時(shí)刻:ht時(shí)刻的輸出為:o最終模型的預(yù)測(cè)為:y?其中?()與σ()表示激活函數(shù) 綜上所述,如果我們把一個(gè)序列依次輸入RNN網(wǎng)絡(luò)中,則前序的時(shí)間步信息可以通過(guò)隱藏層之間的聯(lián)系傳到后續(xù)時(shí)間步信息中去,最終對(duì)結(jié)果造成影響。但是傳統(tǒng)RNN的一個(gè)局限在于,隨著時(shí)間步的不斷擴(kuò)大,層數(shù)的變多以及層數(shù)之間的對(duì)應(yīng)的輸入數(shù)據(jù)的數(shù)量加大,會(huì)帶來(lái)梯度消失(或者梯度爆炸)的情況,這會(huì)導(dǎo)致之前根據(jù)時(shí)間序列得到的信息無(wú)效,因此傳統(tǒng)RNN實(shí)際能夠利用的歷史信息分非常的少。長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM) 長(zhǎng)短期記憶(Longshort-termmemory,LSTM)是一種特殊的RNN,主要是為了解決長(zhǎng)序列訓(xùn)練過(guò)程中的梯度消失和梯度爆炸問題。普通的RNN的作用是將上一時(shí)刻的隱層狀態(tài)傳遞至下一時(shí)刻,并且通過(guò)相關(guān)計(jì)算得出最新狀態(tài)。LSTM便由此衍生而來(lái),并且能夠在更長(zhǎng)的序列中有更好的表現(xiàn),其結(jié)構(gòu)如圖2.2所示。圖2.2LSTM網(wǎng)絡(luò)模型 LSTM是一種門控算法,其主要思想是利用門函數(shù)來(lái)挖掘較長(zhǎng)間隔的時(shí)序變化規(guī)律。其核心結(jié)構(gòu)部件是細(xì)胞單元,并主要通過(guò)輸入門、輸出門還有遺忘門控制數(shù)據(jù)進(jìn)行迭代更新,實(shí)現(xiàn)了消息的傳遞,并且通過(guò)使用門控存儲(chǔ)結(jié)構(gòu),改善了長(zhǎng)距離依賴和梯度不穩(wěn)定的情況。具體公式公式如下,并且其中it表示輸入門、ot表示輸出門、ft表示遺忘門、ct表示當(dāng)下時(shí)刻的單元狀態(tài)、ct-1表示前一時(shí)刻的單元狀態(tài)、ht-1和ht表示前一時(shí)刻和當(dāng)前單元的輸出。具體公式如下:iofcc?卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積神經(jīng)網(wǎng)絡(luò)目前雖然大多數(shù)用于圖像處理,但是其思想是關(guān)注于空間位置關(guān)系,即使用了多種不同卷積核在空間上滑動(dòng)產(chǎn)生不同位置特征,由此可以更好地衡量詞之間的序列特征,進(jìn)而更好的關(guān)注上下文信息。卷積神經(jīng)網(wǎng)絡(luò)的模型結(jié)構(gòu)如圖2.3所示:圖2.3CNN網(wǎng)絡(luò)模型 輸入層為單詞向量組成的矩陣,每一行是代表每個(gè)單詞所對(duì)應(yīng)的詞向量。 之后是卷積層,其核心為卷積核,一般會(huì)使用多種的卷積核對(duì)文本矩陣進(jìn)行不同的處理,進(jìn)而得到位置空間信息。 再之后會(huì)對(duì)接池化層,其作用是對(duì)每個(gè)向量進(jìn)行相同的處理,在本文使用的是最大池化處理,就是在n維向量選擇最大值進(jìn)入到下一層,也就是提取到向量中特征最突出的部分,這樣可以有效減少模型計(jì)算量并且防止過(guò)擬合。 最后是全連接層,全連接層會(huì)將學(xué)到的特征映射到樣本標(biāo)記空間,在整個(gè)卷積神經(jīng)網(wǎng)絡(luò)中起到了“分類器”的作用,最后得出分類的可能性結(jié)果。Transformer模型在transformer沒有誕生之前,大多數(shù)序列模型(Encoder-Decoder)都是基于CNN和RNN的,而Transformer就是基于注意力機(jī)制的,注意力機(jī)制可以解決RNN及其變體存在的長(zhǎng)距離依賴問題,也就是注意力機(jī)制可以有更好的記憶力,能夠記住更長(zhǎng)距離的信息,另外最重要的就是注意力機(jī)制支持并行化計(jì)算。而transformer模型就是完全基于attention機(jī)制的,他完全的拋棄了CNN和RNN的結(jié)構(gòu)。Transformer的結(jié)構(gòu)如下圖2.4:圖2.4Transformer結(jié)構(gòu) Transformer就是一個(gè)基于多頭注意力機(jī)制的模型,TransformerEncoder模型的輸入是一句話的字嵌入表示和其對(duì)應(yīng)的位置編碼信息,模型的核心層是一個(gè)多頭注意力機(jī)制。注意力機(jī)制最初應(yīng)用在圖像特征提取任務(wù)上,比如人在觀察一幅圖像時(shí),并不會(huì)把圖像中每一個(gè)部分都觀察到,而是會(huì)把注意力放在重要的部分,后來(lái)研究人員把注意力機(jī)制應(yīng)用到了NLP任務(wù)中,并取得了很好的效果。多頭注意力機(jī)制就是使用多個(gè)注意力機(jī)制進(jìn)行單獨(dú)計(jì)算,以獲取更多層面的語(yǔ)義信息,然后將各個(gè)注意力機(jī)制獲取的結(jié)果進(jìn)行拼接組合,得到最終的結(jié)果。Add&Norm層會(huì)把Multi-HeadAttention層的輸入和輸出進(jìn)行求和并歸一化處理后,傳遞到FeedForward層,最后會(huì)再進(jìn)行一次Add&Norm處理,輸出最終的詞向量矩陣。注意力機(jī)制注意力機(jī)制是通過(guò)對(duì)資源進(jìn)行合理的分配,從海量的信息中提取到語(yǔ)義特征更加強(qiáng)烈的信息。通過(guò)注意力機(jī)制可以獲得到文本中概括性更強(qiáng)的語(yǔ)句,并且抑制無(wú)關(guān)信息??梢?yàn)榇丝蚣苄璧玫轿谋拘蛄械娜啃畔?,才能生成這樣一個(gè)固定長(zhǎng)度的語(yǔ)義向量,因此需要對(duì)其序列信息實(shí)行更大比率地壓縮,這將會(huì)減少語(yǔ)義向量所包含的序列信息完整性,并且前一時(shí)刻的輸出會(huì)被后一時(shí)刻的輸出所覆蓋,無(wú)法保證最后得出的結(jié)果的準(zhǔn)確性。 Bahdanau等人將注意力機(jī)制引入到Encoder-Decoder框架中【7】,這種改良后的框架會(huì)根據(jù)時(shí)刻信息產(chǎn)生語(yǔ)言的編碼向量,所以這些個(gè)編碼向量是不同的,依據(jù)這些編碼向量,可以獲得后續(xù)輸出對(duì)輸入序列的關(guān)注區(qū)域,這個(gè)框架會(huì)依據(jù)這些關(guān)注區(qū)域繼而獲得下一時(shí)刻的輸出。其結(jié)構(gòu)如下圖2.5:圖2.5注意力機(jī)制文本預(yù)處理技術(shù)Word2vec詞向量模型【8】是Google公司開源的一款用于訓(xùn)練詞向量的軟件工具。主要通過(guò)利用小型的神經(jīng)網(wǎng)絡(luò),然后在大量的文本數(shù)據(jù)中做無(wú)監(jiān)督訓(xùn)練,進(jìn)而將有關(guān)的每個(gè)詞轉(zhuǎn)換為K維向量作為輸出。由于word2vec模型自身也是一種神經(jīng)網(wǎng)絡(luò)的模型,它使用的是分布式表示方法,并且可以自動(dòng)地學(xué)習(xí)詞語(yǔ)上下文的有關(guān)信息。Word2vec詞向量模型主要是使用了兩種模型:CBOW模型和Skip-Gram模型,兩種模型結(jié)構(gòu)如下圖2.6所示:圖2.6CBOW模型和Skip-Gram模型結(jié)構(gòu) 其中,CBOW模型的訓(xùn)練目的是依據(jù)目標(biāo)詞匯的上下文的信息來(lái)計(jì)算并預(yù)測(cè)該目標(biāo)詞匯出現(xiàn)的概率,在這部分的計(jì)算中還需要涉及Huffmantree(哈夫曼樹)的建立,從而使得該目標(biāo)詞匯出現(xiàn)的概率最大。 與此相反,Skip-Gram模型則是使用目標(biāo)詞匯來(lái)預(yù)測(cè)它所在語(yǔ)境的上下文詞語(yǔ),即輸入的是一個(gè)特定詞語(yǔ)的詞向量,但輸出的是特定詞語(yǔ)對(duì)應(yīng)的上下文信息,其輸出的信息大小和提前設(shè)定的窗口大小直接相關(guān)。其中,CBOW模型比較適合于小型的語(yǔ)料庫(kù),Skip-Gram模型則是適合于大型的文本數(shù)據(jù)預(yù)料庫(kù)。本章小結(jié)本章內(nèi)容主要介紹了本文所涉及到的深度學(xué)習(xí)和自然語(yǔ)言處理相關(guān)技術(shù),并且針對(duì)重點(diǎn)內(nèi)容給出了詳盡的描述,大致分為三部分內(nèi)容:首先介紹了提取特征要用到的幾種技術(shù),主要包括基礎(chǔ)的卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò);然后介紹了深度學(xué)習(xí)中的注意力機(jī)制;最終介紹了文本預(yù)處理的相關(guān)技術(shù),包括Word2vec詞向量模型和Transformer模型。 在下面的章節(jié)中,本文將介紹實(shí)驗(yàn)的提出的具體模型。
基于BERT-RCNN-Pooling模型的真?zhèn)涡侣勛R(shí)別近兩年以來(lái),在自然語(yǔ)言處理領(lǐng)域內(nèi),許多項(xiàng)目通過(guò)在預(yù)訓(xùn)練模型的基礎(chǔ)上訓(xùn)練并且對(duì)垂直任務(wù)進(jìn)行微調(diào),這樣的神經(jīng)網(wǎng)絡(luò)訓(xùn)練方式取得了較好的效果。BERT模型是一種新的預(yù)訓(xùn)練模型,自提出以來(lái)其在NLP領(lǐng)域的11個(gè)方向大幅刷新了精度。本文嘗試研究將BERT模型和卷積神經(jīng)網(wǎng)絡(luò)(CNN)還有循環(huán)神經(jīng)網(wǎng)絡(luò)(RCNN)相結(jié)合對(duì)真?zhèn)涡侣勥M(jìn)行分類處理。 本文提出的真?zhèn)涡侣勛R(shí)別的模型框架,如圖3.1所示:圖3.1BERT-RCNN模型 真?zhèn)涡侣勛R(shí)別的主要流程是先將新聞文本輸入到模型當(dāng)中,使用BERT預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練并將其轉(zhuǎn)化為詞向量,將BERT最后一層的輸出,加上各類權(quán)重作為RCNN模型的輸入,并在RCNN模型中對(duì)新聞文本的語(yǔ)義特征進(jìn)行提取,最后輸出識(shí)別結(jié)果。BERT預(yù)訓(xùn)練模型BERT(Bidirectional
Encoder
Representationsfrom
Transformers)的網(wǎng)絡(luò)架構(gòu)使用的是多層雙向的Transformerencoder,它的核心思想是注意力機(jī)制。通過(guò)雙向的Transformerencoder,BERT模型可以學(xué)習(xí)單詞前后兩側(cè)的信息,繼而獲取到更加全面的詞向量特征。Transformer編碼器是encoder-decoder的結(jié)構(gòu),encoder(編碼器)將可變長(zhǎng)度的輸入序列轉(zhuǎn)變成固定長(zhǎng)度的向量,decoder(解碼器)則是將固定長(zhǎng)度的向量解碼成可變長(zhǎng)度的輸出序列。Transformer編碼器的主要結(jié)構(gòu)如圖3.2所示:圖3.2Transformer編碼器結(jié)構(gòu) 編碼器是由6個(gè)一模一樣的層堆起來(lái)的,每一層都有兩個(gè)子層。第一個(gè)子層是Multi-HeadAttention(多頭注意力機(jī)制)層,第二個(gè)子層是一個(gè)簡(jiǎn)易的全連接前向神經(jīng)網(wǎng)絡(luò),并通過(guò)殘差網(wǎng)絡(luò)結(jié)構(gòu)相連接,最后再后接一個(gè)正則化層。 編碼器的中心模塊是自注意力層,它的思想主要是計(jì)算一句話里任一單詞與所有單詞的關(guān)系,并且利用這種關(guān)系來(lái)調(diào)整每個(gè)詞的權(quán)重,由此獲得全新的表達(dá),表示在單詞語(yǔ)義的基礎(chǔ)上還包括了與其他單詞的關(guān)系,可實(shí)現(xiàn)一詞多義的效果。 詞向量組成的值矩陣V、健矩陣K、查詢矩陣Q共同構(gòu)成了自注意力層,并進(jìn)行了如下計(jì)算:Attention 上述公式根據(jù)Q矩陣用來(lái)計(jì)算K中每個(gè)鍵的權(quán)重,K中每個(gè)鍵的向量維度用dk表示,為了防止向量維度過(guò)高時(shí)計(jì)算結(jié)果過(guò)大,所以對(duì)權(quán)重進(jìn)行縮放則是通過(guò)對(duì)dk進(jìn)行開方運(yùn)算進(jìn)行。鍵的權(quán)重得到之后,再與值矩陣相乘最終得到每個(gè)鍵的計(jì)算結(jié)果。 按行對(duì)矩陣進(jìn)行歸一化計(jì)算,并且對(duì)行向量元素進(jìn)行相同比例的壓縮處理,使壓縮后的向量元素總和為1。Softmax 在通過(guò)上述的計(jì)算之后得到了原始輸入語(yǔ)句中的每個(gè)單詞的Attention向量,此刻的向量結(jié)合了其他位置單詞的信息,并將其按照行順序進(jìn)行排列得出的矩陣就是最后輸出的Attention值。 為了更加全面地計(jì)算Attention值,Transformer引入了多頭(Multi-head)注意力機(jī)制。對(duì)于輸入先對(duì)其做多次不同的線性映射地操作,然后計(jì)算縮放的映射結(jié)果的點(diǎn)積注意力,并把每次的計(jì)算結(jié)果稱作一個(gè)頭(head),再將多次運(yùn)算得到了的Attention矩陣橫向地拼接起來(lái),緊接著再乘以一個(gè)權(quán)重矩陣將其壓縮為一個(gè)矩陣,具體公式如下:MultiHeadHead=Attention(QWiQ,WiK,WiV表示第i個(gè)頭所對(duì)應(yīng)的3個(gè)權(quán)重矩陣,Concat()函數(shù)將多個(gè)頭的結(jié)果進(jìn)行連接,W0是連接時(shí)使用的權(quán)重矩陣。在Add&Norm層對(duì)注意力層計(jì)算獲取的結(jié)果進(jìn)行歸一化處理,并且使用殘差連接的思想去避免由于出現(xiàn)網(wǎng)絡(luò)層次過(guò)深進(jìn)而導(dǎo)致的退化問題。公式如下:LN FeedForward層是一個(gè)Relu激活函數(shù)和兩層全連接計(jì)算組成的全連接網(wǎng)絡(luò),公式如下:FNN 對(duì)于全連接網(wǎng)絡(luò)的輸出最后再進(jìn)行一次殘差鏈接處理和歸一化的計(jì)算后將獲得整個(gè)模型的輸出。循環(huán)卷積神經(jīng)網(wǎng)絡(luò)(RCNN)在獲得了新聞文本的語(yǔ)義特征之后,本文將RCNN作為分類器對(duì)真?zhèn)涡侣勥M(jìn)行識(shí)別。RCNN模型【9】將傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)的卷積層更換成內(nèi)部帶有遞歸結(jié)構(gòu)的循環(huán)卷積層,而且還按前饋鏈接去建立深度的網(wǎng)絡(luò)結(jié)構(gòu),循環(huán)卷積層的結(jié)構(gòu)如圖3.3:圖3.3循環(huán)卷積層的結(jié)構(gòu)RCNN的優(yōu)點(diǎn)在可以比較均勻地利用詞語(yǔ)的上下文信息,并且能解決在RNN中位置相對(duì)靠后的詞語(yǔ)比位置相對(duì)靠前的詞語(yǔ)影響力更大的短板,也并不需要像CNN一樣需要調(diào)整窗口的大小來(lái)設(shè)置對(duì)上下文依賴的長(zhǎng)度。將獲得到的特征向量放進(jìn)單層的神經(jīng)網(wǎng)絡(luò)中去,獲得潛在語(yǔ)義向量,再將結(jié)果輸入到池化層,通過(guò)最大池化(max-pooling)處理來(lái)獲取文本中最具特點(diǎn)的關(guān)鍵特征,然后用全連接層進(jìn)行輸出,最后通過(guò)Softmax函數(shù)來(lái)獲取分類的結(jié)果。本章小結(jié) 本章提出了用來(lái)識(shí)別真?zhèn)涡侣劦腂ERT-RCNN-Pooling模型架構(gòu)。首先對(duì)模型整體進(jìn)行描述,包括介紹整個(gè)模型處理文本的流程、計(jì)算細(xì)節(jié)等。本章著重對(duì)BERT、RCNN的模型原理進(jìn)行了介紹,并且結(jié)合公式和模型架構(gòu)圖片進(jìn)行了詳盡的說(shuō)明。下一章將結(jié)合本章和第二章的內(nèi)容,設(shè)計(jì)對(duì)比試驗(yàn)并分析實(shí)驗(yàn)結(jié)果。實(shí)驗(yàn)過(guò)程與分析實(shí)驗(yàn)數(shù)據(jù)為了增加實(shí)驗(yàn)的真實(shí)性以及數(shù)據(jù)量,本次實(shí)驗(yàn)使用一個(gè)公開的真?zhèn)涡侣剶?shù)據(jù)集作為訓(xùn)練集,來(lái)源于智源&計(jì)算所-互聯(lián)網(wǎng)虛假新聞檢測(cè)挑戰(zhàn)賽數(shù)據(jù)集,其中真實(shí)新聞19186條,虛假新聞19285條。同時(shí)自行爬取了環(huán)球網(wǎng)、中國(guó)互聯(lián)網(wǎng)聯(lián)合辟謠平臺(tái)的真?zhèn)涡侣剶?shù)據(jù)共10000條作為測(cè)試集用來(lái)測(cè)試結(jié)果,真?zhèn)涡侣劚壤c測(cè)試集大致相同。 新聞網(wǎng)站會(huì)為了防止被爬蟲頻繁且大量的爬取信息進(jìn)而導(dǎo)致正常用戶無(wú)法訪問,會(huì)設(shè)置反爬機(jī)制,因此本次爬取使用了動(dòng)態(tài)IP代理池,在每次爬取新聞前,都會(huì)請(qǐng)求IP代理池,申請(qǐng)一個(gè)新的IP進(jìn)行新聞數(shù)據(jù)爬取。實(shí)驗(yàn)過(guò)程本次實(shí)驗(yàn)開發(fā)語(yǔ)言是python3.6版本,python3.6的工具包包括了深度學(xué)習(xí)模型以及其常用庫(kù),并且使用的是Pytorch深度學(xué)習(xí)框架。具體開發(fā)環(huán)境如下表1所示:表1環(huán)境配置表名稱版本操作系統(tǒng)Windows10開發(fā)語(yǔ)言Python3.6開發(fā)框架Pytorch開發(fā)平臺(tái)PycharmCPUIntel雙核2.6GHzGPUGeForce940MX 本文選用BERT–BASE,Chinese作為基礎(chǔ)模型,模型大小是110MB。并且同時(shí)使用谷歌官方所提供的中文預(yù)訓(xùn)練模型Chinese_L-12_H-768_A-12.zip。 BERT模型的參數(shù),如下表2所示:表2BERT模型參數(shù)BERT模型參數(shù)參數(shù)值學(xué)習(xí)率5e-5每批訓(xùn)練數(shù)據(jù)大小32隱層神經(jīng)元數(shù)768Transformer編碼器層數(shù)12自注意力頭數(shù)12 CNN模型訓(xùn)練參數(shù),如下表3所示:表3CNN模型參數(shù)CNN模型參數(shù)參數(shù)值詞嵌入緯度768學(xué)習(xí)率5e-5每批訓(xùn)練數(shù)據(jù)大小128隨機(jī)失活率0.1卷積核數(shù)量256卷積核尺寸(2,3,4)RCNN模型訓(xùn)練參數(shù),如下表4所示:表4RCNN模型參數(shù)RCNN模型參數(shù)參數(shù)值詞嵌入緯度768隱藏層節(jié)點(diǎn)數(shù)256學(xué)習(xí)率5e-5每批訓(xùn)練數(shù)據(jù)大小128隨機(jī)失活率0.1對(duì)比實(shí)驗(yàn)為了驗(yàn)證本文提出的BERT-CNN-Pooling和BERT-RCNN-Pooling模型在真?zhèn)涡侣勛R(shí)別任務(wù)上的效果,我們將早期深度學(xué)習(xí)模型和常用的深度學(xué)習(xí)模型進(jìn)行對(duì)比實(shí)驗(yàn)。此次實(shí)驗(yàn)不僅僅要驗(yàn)證基于BERT預(yù)處理模型對(duì)詞向量表示的有效性,并且還需驗(yàn)證CNN、RCNN對(duì)于真?zhèn)涡侣勛R(shí)別的有效性。對(duì)比實(shí)驗(yàn)?zāi)P腿缦拢篵aseline:使用Transformer模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,并且提取文本特征后,接入一個(gè)全連接層并生成對(duì)應(yīng)向量,最后輸入到一個(gè)softmax函數(shù)進(jìn)行計(jì)算輸出分類預(yù)測(cè)結(jié)果。Word2Vec-RNN:使用Word2Vec模型對(duì)新聞數(shù)據(jù)集進(jìn)行訓(xùn)練得到詞向量表示,并將得到的詞向量表示結(jié)果輸入到RNN模型中進(jìn)行分類得到真?zhèn)涡侣勵(lì)A(yù)測(cè)結(jié)果。Word2Vec-CNN:使用Word2Vec模型對(duì)新聞數(shù)據(jù)集進(jìn)行訓(xùn)練得到詞向量表示,并將得到的詞向量表示結(jié)果輸入到CNN模型中進(jìn)行分類得到真?zhèn)涡侣勵(lì)A(yù)測(cè)結(jié)果。Word2Vec-RCNN:使用Word2Vec模型對(duì)新聞數(shù)據(jù)集進(jìn)行訓(xùn)練得到詞向量表示,并將得到的詞向量表示結(jié)果輸入到RCNN模型中進(jìn)行分類得到真?zhèn)涡侣勵(lì)A(yù)測(cè)結(jié)果。BERT:使用BERT模型對(duì)數(shù)據(jù)集進(jìn)行預(yù)訓(xùn)練,并且提取文本特征后,接入一個(gè)全連接層并生成對(duì)應(yīng)向量,最后輸入到一個(gè)softmax函數(shù)進(jìn)行計(jì)算輸出分類預(yù)測(cè)結(jié)果。BERT-RNN:使用BERT預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練并將其轉(zhuǎn)化為詞向量,將BERT最后一層的輸出,加上各類權(quán)重作為RNN模型的輸入,并在RNN模型中對(duì)新聞文本的語(yǔ)義特征進(jìn)行提取,最后輸出識(shí)別結(jié)果。BERT-CNN:使用BERT預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練并將其轉(zhuǎn)化為詞向量,將BERT最后一層的輸出,加上各類權(quán)重作為CNN模型的輸入,并在CNN模型中對(duì)新聞文本的語(yǔ)義特征進(jìn)行提取,最后輸出識(shí)別結(jié)果。BERT-RCNN:使用BERT預(yù)訓(xùn)練模型進(jìn)行訓(xùn)練并將其轉(zhuǎn)化為詞向量,將BERT最后一層的輸出,加上各類權(quán)重作為RCNN模型的輸入,并在RCNN模型中對(duì)新聞文本的語(yǔ)義特征進(jìn)行提取,最后輸出識(shí)別結(jié)果。對(duì)比實(shí)驗(yàn)結(jié)果具體如表5所示:表5實(shí)驗(yàn)結(jié)果模型AccuracyPrecisionRecallF1-scoreTransformer0.92390.92440.92430.9240word2vec-RNN0.93870.93880.93340.9385word2vec-CNN0.93460.93390.93540.9343word2vec-RCNN0.94130.94200.94110.9419BERT0.96150.96180.96100.9611BERT-RNN0.96010.95540.96030.9599BERT-CNN0.96170.96200.96160.9618BERT-RCNN0.96240.96230.96310.9625實(shí)驗(yàn)結(jié)果及分析第二個(gè)模型到第四個(gè)模型進(jìn)行的對(duì)比實(shí)驗(yàn)是為了通過(guò)使用自然語(yǔ)言處理常見的文本詞向量表示模型word2vec的實(shí)驗(yàn)結(jié)果與使用了BERT預(yù)處理模型進(jìn)行對(duì)比,進(jìn)而證明了BERT模型提取文本信息的有效性。而使用word2vec進(jìn)行文本表示時(shí)的模型數(shù)據(jù)指標(biāo)均表現(xiàn)得不是很好,主要原因則是word2vec僅僅只能表現(xiàn)出文本中單詞之間的語(yǔ)義關(guān)系,而并不能對(duì)不
溫馨提示
- 1. 本站所有資源如無(wú)特殊說(shuō)明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。
最新文檔
- 化工分離技術(shù)
- 安徽省淮北市2025-2026學(xué)年七年級(jí)上學(xué)期期末考試語(yǔ)文試題(含答案)
- 化工企業(yè)設(shè)備培訓(xùn)課件
- 2026年上海市松江區(qū)初三上學(xué)期一模數(shù)學(xué)試卷和參考答案
- 第一章第1節(jié)人口分布
- 2026黑龍江齊齊哈爾市龍沙區(qū)五龍街道公益性崗位招聘1人考試參考試題及答案解析
- 2026年上半年云南省青少年科技中心招聘人員(3人)參考考試題庫(kù)及答案解析
- 2026廣東惠州市博羅縣市場(chǎng)監(jiān)督管理局招聘編外人員6人考試參考試題及答案解析
- 2026年甘肅省嘉峪關(guān)市人民社區(qū)衛(wèi)生服務(wù)中心招聘?jìng)淇伎荚囶}庫(kù)及答案解析
- 2026北京印鈔有限公司招聘26人考試參考題庫(kù)及答案解析
- 國(guó)家自然基金形式審查培訓(xùn)
- 2026馬年卡通特色期末評(píng)語(yǔ)(45條)
- NCCN臨床實(shí)踐指南:肝細(xì)胞癌(2025.v1)
- 免租使用協(xié)議書
- 2025 AHA心肺復(fù)蘇與心血管急救指南
- 2026年九江職業(yè)大學(xué)單招職業(yè)適應(yīng)性測(cè)試題庫(kù)帶答案詳解
- ?;穾?kù)區(qū)風(fēng)險(xiǎn)動(dòng)態(tài)評(píng)估-洞察與解讀
- 激光焊接技術(shù)規(guī)范
- 消防聯(lián)動(dòng)排煙天窗施工方案
- 2025年高考物理 微專題十 微元法(講義)(解析版)
- 2025年國(guó)家能源投資集團(tuán)有限責(zé)任公司校園招聘筆試備考題庫(kù)含答案詳解(新)
評(píng)論
0/150
提交評(píng)論