【《基于深度學(xué)習(xí)的新聞分類系統(tǒng)設(shè)計(jì)》14000字】_第1頁(yè)
【《基于深度學(xué)習(xí)的新聞分類系統(tǒng)設(shè)計(jì)》14000字】_第2頁(yè)
【《基于深度學(xué)習(xí)的新聞分類系統(tǒng)設(shè)計(jì)》14000字】_第3頁(yè)
【《基于深度學(xué)習(xí)的新聞分類系統(tǒng)設(shè)計(jì)》14000字】_第4頁(yè)
【《基于深度學(xué)習(xí)的新聞分類系統(tǒng)設(shè)計(jì)》14000字】_第5頁(yè)
已閱讀5頁(yè),還剩27頁(yè)未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請(qǐng)進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡(jiǎn)介

基于深度學(xué)習(xí)的新聞分類系統(tǒng)設(shè)計(jì)摘要從語(yǔ)音識(shí)別到圖像識(shí)別再到自然語(yǔ)言處理,基于深度學(xué)習(xí)的應(yīng)用被廣泛運(yùn)用于醫(yī)療、生活、生產(chǎn)等領(lǐng)域,讓我們的生活更加智能。與傳統(tǒng)機(jī)器學(xué)習(xí)相比,深度學(xué)習(xí)具有高效、易于擴(kuò)展、無(wú)需人工設(shè)計(jì)特征工程等優(yōu)勢(shì)。這些優(yōu)勢(shì)使得越來越多新聞傳播企業(yè)和相關(guān)工作者使用深度學(xué)習(xí)。文本分類是深度學(xué)習(xí)技術(shù)在自然語(yǔ)言處理領(lǐng)域中的重要內(nèi)容,目前已經(jīng)成為新聞傳播企業(yè)處理網(wǎng)絡(luò)新聞文本的主要手段。隨著網(wǎng)絡(luò)新聞更新的速度越來越快,大量的網(wǎng)絡(luò)新聞堆積促使著我們尋求一種新方案對(duì)新聞進(jìn)行高效管理。同時(shí),針對(duì)不同的人群,我們有必要對(duì)新聞進(jìn)行個(gè)性化推送,構(gòu)建一種實(shí)時(shí)、高效、人性化的新聞派送平臺(tái)。本文的主要研究方向?yàn)樯疃葘W(xué)習(xí)在網(wǎng)絡(luò)新聞文本分類中的應(yīng)用,具體內(nèi)容包括:(1)探究與分析結(jié)合深度學(xué)習(xí)技術(shù)的文本分類方法,調(diào)研傳統(tǒng)機(jī)器學(xué)習(xí)和深度學(xué)習(xí)中各分類模型的主要區(qū)別。通過對(duì)網(wǎng)絡(luò)文本分類處理流程進(jìn)行分析。(2)設(shè)計(jì)基于深度學(xué)習(xí)的文本分類系統(tǒng),判斷所分類的新聞是否位于正確的類別,并給出分類準(zhǔn)確率這一指標(biāo)。(3)設(shè)計(jì)與實(shí)現(xiàn)系統(tǒng),首先配置系統(tǒng)環(huán)境,然后敘述新聞獲取模塊、算法選擇模塊和分類模塊三個(gè)系統(tǒng)核心模塊的功能實(shí)現(xiàn)過程,并給岀核心代碼以及關(guān)鍵函數(shù),最后對(duì)實(shí)現(xiàn)結(jié)果進(jìn)行展示。關(guān)鍵詞:新聞文本分類;詞向量;卷積神經(jīng)網(wǎng)絡(luò);深度學(xué)習(xí);第一章□□引言1.1研究背景和意義當(dāng)今,由于互聯(lián)網(wǎng)的在全球范圍的高速發(fā)展,網(wǎng)絡(luò)成為了信息的主要載體。雖然各式各樣的信息豐富了人們的工作和生活,但人們也迫切的需要在海量的信息中找到自己感興趣的信息內(nèi)容。因此,及時(shí)準(zhǔn)確地對(duì)海量信息分類管理,從而簡(jiǎn)化用戶檢索時(shí)對(duì)文本的存取和操作已經(jīng)成為適應(yīng)當(dāng)代信息迅猛發(fā)展的迫切要求。但對(duì)于數(shù)據(jù)量龐大、數(shù)據(jù)類別繁雜、更新速度快的新聞信息而言,想要及時(shí)準(zhǔn)確地對(duì)其進(jìn)行分類無(wú)疑是極具挑戰(zhàn)的。隨著深度學(xué)習(xí)的發(fā)展,文本分類這一技術(shù)為這一難題提供了新的解決方案。通過文本分類技術(shù),我們可以將海量的新聞樣本進(jìn)行分類,不同的類別存儲(chǔ)到不同的數(shù)據(jù)庫(kù)中,再通過對(duì)不同人群的大數(shù)據(jù)調(diào)查,根據(jù)不同人的喜好進(jìn)行個(gè)性化新聞推送。傳統(tǒng)的文本分類技術(shù)僅僅依靠初始特征和規(guī)則進(jìn)行分類,面對(duì)復(fù)雜文本時(shí)精確度往往得不到保障,但深度學(xué)習(xí)技術(shù)快速崛起和發(fā)展,逐漸彌補(bǔ)了這方面的缺陷,使得分類準(zhǔn)確度大大提高。相比于傳統(tǒng)的特征分類法,采用深度學(xué)習(xí)進(jìn)行文本分類能夠顯著提高結(jié)果的準(zhǔn)確率,且此方法更具靈活性。因?yàn)樯疃葘W(xué)習(xí)不需要人工設(shè)計(jì)規(guī)劃和復(fù)雜的特征選擇,只需要通過深層神經(jīng)網(wǎng)絡(luò)來自動(dòng)學(xué)習(xí)文本的表示和特征提取。豐富的模型和算法提供給我們更多的思路和解決方案,這些模型和算法能夠理解文本中的語(yǔ)義和信息,使得文本分類結(jié)果的精確度有了更好的保障。1.2深度學(xué)習(xí)研究現(xiàn)狀深度學(xué)習(xí)是從海量數(shù)據(jù)中對(duì)設(shè)計(jì)的模型進(jìn)行訓(xùn)練,讓模型在無(wú)數(shù)次訓(xùn)練中提取出大部分?jǐn)?shù)據(jù)的內(nèi)在規(guī)律和表示,訓(xùn)練完成的模型對(duì)文字、圖像和聲音的識(shí)別達(dá)到足夠智能的程度。訓(xùn)練完成后當(dāng)用戶再次輸入相同類型的數(shù)據(jù),已訓(xùn)練的模型能夠返回給我們準(zhǔn)確的結(jié)果。因此模型的設(shè)計(jì)與選擇對(duì)實(shí)驗(yàn)結(jié)果的準(zhǔn)確度起著決定性的作用。目前深度學(xué)習(xí)的適用場(chǎng)景主要在于無(wú)人駕駛、人臉識(shí)別、智能客服、文字識(shí)別、語(yǔ)音識(shí)別、目標(biāo)檢測(cè)、圖片分類等領(lǐng)域。以語(yǔ)音識(shí)別為例,完整的語(yǔ)音識(shí)別系統(tǒng)通常包含語(yǔ)音特征提取、聲學(xué)模型與模式匹配、語(yǔ)言模型與語(yǔ)言處理。其中最為關(guān)鍵的聲學(xué)模型即識(shí)別系統(tǒng)的底層模型便是依賴深度學(xué)習(xí)對(duì)機(jī)器進(jìn)行模擬訓(xùn)練,從而保證語(yǔ)音識(shí)別的準(zhǔn)確度。由此可見,深度學(xué)習(xí)網(wǎng)絡(luò)在某些領(lǐng)域已經(jīng)達(dá)到了匹配人腦判斷的水平,人類智能化的道路又進(jìn)了一步。1.3文本分類硏究現(xiàn)狀目前國(guó)內(nèi)外已經(jīng)有許多關(guān)于文本分類的研究,文本分類技術(shù)已經(jīng)形成了成熟穩(wěn)定的生態(tài)體系,已經(jīng)擁有眾多高效實(shí)用的解決方案。傳統(tǒng)文本分類將信息樣本轉(zhuǎn)化為計(jì)算機(jī)能識(shí)別的機(jī)器代碼,同時(shí)附帶能夠識(shí)別出該條樣本類別的標(biāo)志信息。但傳統(tǒng)文本分類存在諸多局限性和不可控性,在海量數(shù)據(jù)且數(shù)據(jù)信息復(fù)雜的分類任務(wù)時(shí)分類的準(zhǔn)確率不高。研究人員試圖從神經(jīng)網(wǎng)絡(luò)模型尋求新的文本分類方法,嘗試著將深度學(xué)習(xí)模型運(yùn)用到自然語(yǔ)言處理領(lǐng)域,并取得了出色的進(jìn)展。相比于傳統(tǒng)文本分類,深度學(xué)習(xí)模型結(jié)合自然語(yǔ)言處理能夠極大程度上提高文本分類的準(zhǔn)確度,面對(duì)海量數(shù)據(jù)也能夠應(yīng)對(duì)自如。卷積神經(jīng)網(wǎng)絡(luò)(CNN)在這個(gè)領(lǐng)域有著很好的表現(xiàn),精準(zhǔn)理解文本或者句子的重要語(yǔ)義是文本分類的重要步驟,而讓機(jī)器精準(zhǔn)理解文本重要語(yǔ)義的方法是抽取文本或句子的關(guān)鍵詞作為特征,以這些特征為輸入進(jìn)行分類器的訓(xùn)練。CNN的卷積層和池化層具有抽取特征的作用。如果機(jī)器能夠準(zhǔn)確抽取關(guān)鍵詞的特征,那么機(jī)器便能精準(zhǔn)的理解文本和句子的重要語(yǔ)義。但是CNN有著長(zhǎng)距離精度丟失的局限性,因此除了CNN,能夠獲取更遠(yuǎn)的上下文信息的循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,簡(jiǎn)稱RNN)在文本分類任務(wù)中也有著良好的效果。循環(huán)神經(jīng)網(wǎng)絡(luò)的技術(shù)要點(diǎn)在于將整個(gè)流程劃分為多個(gè)時(shí)間片,每個(gè)時(shí)間片中包含著部分?jǐn)?shù)據(jù),將這些數(shù)據(jù)輸入模型并得出結(jié)果,得出的結(jié)果進(jìn)一步傳遞給下一個(gè)時(shí)間片,每一個(gè)時(shí)間片都將受到之前結(jié)果的影響,以此來保證長(zhǎng)距離的文本單詞間也能被很好地關(guān)聯(lián),從而提升結(jié)果的準(zhǔn)確度。然而,RNN的這種結(jié)構(gòu)在處理長(zhǎng)文本時(shí),隨著誤差的反向傳播,中間一個(gè)環(huán)節(jié)出現(xiàn)結(jié)果偏離出錯(cuò)將會(huì)導(dǎo)致嚴(yán)重影響后續(xù)結(jié)果的判斷。針對(duì)此,長(zhǎng)短期記憶神經(jīng)網(wǎng)絡(luò)(LongShort-TermMemory,LSTM)應(yīng)運(yùn)而生。LSTM的主要思想是:在每一個(gè)時(shí)間點(diǎn)之間引入“門”的機(jī)制,當(dāng)前一時(shí)刻出錯(cuò)時(shí),通過門對(duì)前一時(shí)刻的輸入進(jìn)行刪除,借此解決RNN誤差的反向傳播。1.3研究?jī)?nèi)容本文研究目標(biāo)是通過對(duì)于文本分類方法和基于深度學(xué)習(xí)相關(guān)知識(shí)的學(xué)習(xí),對(duì)對(duì)各分類算法對(duì)于不同新聞分類場(chǎng)景下的效率和準(zhǔn)確率展開研究,并根據(jù)該實(shí)驗(yàn)結(jié)果采用合適的深度學(xué)習(xí)模型與算法,實(shí)現(xiàn)一款分類精準(zhǔn)且實(shí)用的新聞分類系統(tǒng)。本文的研究?jī)?nèi)容,具體如下:(1)針對(duì)新聞分類建模問題,提出了針對(duì)基于深度學(xué)習(xí)的新聞分類的數(shù)據(jù)模型,并對(duì)數(shù)據(jù)模型進(jìn)行理論考證。(2)設(shè)計(jì)仿真實(shí)驗(yàn),利用開源數(shù)據(jù)集對(duì)這些算法在推薦系統(tǒng)中的性能進(jìn)行比較??疾煨侣劮诸悎?chǎng)景下它們的分類準(zhǔn)確率、效率等指標(biāo),并依此確定各算法的最佳適用場(chǎng)景。(3)結(jié)合所得的實(shí)驗(yàn)數(shù)據(jù),實(shí)現(xiàn)一款分類精準(zhǔn)且實(shí)用的新聞分類系統(tǒng)。1.4論文的組織結(jié)構(gòu)論文共分為五章,內(nèi)容大致如下:第一章:描述了本課題的研究背景和意義,分析了深度學(xué)習(xí)和文本分類的研究現(xiàn)狀,并在本章最后介紹了論文的研究?jī)?nèi)容和組織結(jié)構(gòu)。第二章:本章介紹了本課題所涉及的相關(guān)技術(shù),包括文本處理過程和機(jī)器學(xué)習(xí)算法,其中文本處理過程部分包括:文本預(yù)處理、文本表示方法和特征選擇;機(jī)器學(xué)習(xí)算法部分包括:最近鄰算法、樸素貝葉斯算法、支持向量機(jī)三種傳統(tǒng)分類算法和卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、長(zhǎng)短時(shí)神經(jīng)網(wǎng)絡(luò)三種基于深度學(xué)習(xí)的分類算法。第三章:本章主要對(duì)該課題的研究問題以及CNN模型存在的問題進(jìn)行了描述。描述設(shè)計(jì)運(yùn)用的算法,介紹了基于注意力機(jī)制的CNN新聞分類模型、算法原理、過程和分析。第四章:本章主要進(jìn)行新聞分類系統(tǒng)的整體架構(gòu)與實(shí)現(xiàn),對(duì)實(shí)現(xiàn)的細(xì)節(jié)進(jìn)行了詳細(xì)地描述,包括系統(tǒng)架構(gòu)、開發(fā)環(huán)境搭建、功能實(shí)現(xiàn)和測(cè)試結(jié)果分析。第五章:本章主要對(duì)整個(gè)系統(tǒng)實(shí)現(xiàn)過程進(jìn)行了總結(jié),并對(duì)后續(xù)的研究方向和改進(jìn)方案進(jìn)行了闡述。第二章□□相關(guān)技術(shù)2.1文本分類技術(shù)2.1.1文本表示方法文本由于本身存在著語(yǔ)義,且復(fù)雜度比圖片語(yǔ)音更高,并不能像圖片語(yǔ)音信息一樣直接作為樣本輸入,因此文本分類技術(shù)的前提是需要將文本進(jìn)行特殊的表示,讓計(jì)算機(jī)能夠識(shí)別出文本信息。目前文本的表示方式模型有布爾模型、向量空間模型和Word2vec等,這些模型被廣泛應(yīng)用于文本分類、信息檢索和話題追蹤等領(lǐng)域。1.布爾模型布爾模型REF_Ref8660\n\h[3]作為最基礎(chǔ)有效的深度學(xué)習(xí)模型,將布爾代數(shù)和集合相結(jié)合,被廣泛應(yīng)用于傳統(tǒng)的信息檢索和數(shù)據(jù)庫(kù)系統(tǒng)中。布爾模型的原理為:利用布爾運(yùn)算符連接各個(gè)樣本信息,由計(jì)算機(jī)進(jìn)行邏輯運(yùn)算,從而找出所需要的信息。實(shí)際上,布爾模型就是集合之間的“或”、“與”、“交”等邏輯運(yùn)算,查詢文本是否和檢索信息相匹配。如以下公式所示:wij其中,wij是文本的特征詞的權(quán)重,TFij是文本特征詞的詞頻。該模型的主要優(yōu)點(diǎn)是結(jié)構(gòu)簡(jiǎn)單,運(yùn)算速度快,可以通過擴(kuò)展來包含排序的功能等。而其主要缺點(diǎn)是:門檻過高,對(duì)用戶的語(yǔ)義提取能力和素質(zhì)水平有較高要求;損失精度,簡(jiǎn)單的結(jié)構(gòu)導(dǎo)致定量計(jì)算和分析的缺失。向量空間模型向量空間模型目前最常用的檢索模型。向量空間的主要思想是:通過使用的詞語(yǔ)表示文章的語(yǔ)義,每一個(gè)樣本信息用一個(gè)向量表示,查詢用另一個(gè)向量表示,通過向量的方式計(jì)算相似度。采用向量空間模型能夠有效彌補(bǔ)布爾模型門檻過高和精度損失的缺陷,相比于布爾模型,其采用了非二值實(shí)數(shù)表示相似度,即兩個(gè)文本a1和a2之間的內(nèi)容相關(guān)度,用sim(a1,a2)表示。常用的相似度計(jì)算公式有:歐幾里德距離、向量?jī)?nèi)積和夾角余弦。這些公式分別表示如下:Sim(a1,a2)=DE(a1,a2)=i=1Sim(a1,a2)=d1?d2=i=1nwSim(a1,a2)=cosθ=i=1其中1≤i≤n,w1i、w2i分別是文本a1和a2中的同一特征詞的權(quán)重,n是特征維度。該模型的優(yōu)點(diǎn)是具有較強(qiáng)的文檔分類的能力,不僅考慮特征詞在文檔中的詞頻,同時(shí)還考慮所包含特征詞的文檔數(shù)。但缺點(diǎn)是該模型忽略了文本中詞和詞之間的相聯(lián)性。例如“運(yùn)動(dòng)”和“籃球”,有很大概率會(huì)同時(shí)出現(xiàn),忽略上下文語(yǔ)句之間的關(guān)系,最終的檢索結(jié)果會(huì)受到比較大的影響。Word2vec模型隨著統(tǒng)計(jì)語(yǔ)言模型的不斷完善和發(fā)展,為解決在自然語(yǔ)言建模時(shí)出現(xiàn)維數(shù)災(zāi)難、模型性能等問題,新的Word2vec模型應(yīng)運(yùn)而生。Word2vec是為了通過神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)CBOW和Skip-Gram而產(chǎn)生的中間結(jié)果。CBOW的目標(biāo)是根據(jù)上下文預(yù)測(cè)當(dāng)前詞的概率,而Skip-Gram與之相反,其根據(jù)當(dāng)前詞預(yù)測(cè)上下文的概率。兩者的模型結(jié)構(gòu)圖如圖2.1和2.2所示:圖2.1CBOW模型結(jié)構(gòu)圖圖2.2Skip-Gram模型結(jié)構(gòu)圖CBOW的工作原理:CBOW模型可以分為輸入層、映射層、輸出層三部分,其中輸入層包括當(dāng)前詞和前面的n個(gè)詞以及當(dāng)前詞后n個(gè)詞,映射層將輸入層的若干詞向量相加,輸出層表現(xiàn)為樹結(jié)構(gòu),以語(yǔ)料庫(kù)中出現(xiàn)的詞作為葉子結(jié)點(diǎn)。對(duì)于詞典中的任意詞w,赫夫曼樹中必定存在一條從根節(jié)點(diǎn)到其對(duì)應(yīng)葉子結(jié)點(diǎn)的一條路徑,每個(gè)節(jié)點(diǎn)有兩個(gè)分支,將每一次分類所產(chǎn)生的概率相乘,就能得到最終的詞w在上下文的概率。公式表示如下:p(w|Context(w))=j=2jwp(其中djw的值為1或0,表示某個(gè)詞語(yǔ)在該分支上的編碼,Xw表示輸入詞向量的求和平均,Skip-gram模型可以抽象為一個(gè)單詞對(duì)另一個(gè)單詞進(jìn)行預(yù)測(cè),在實(shí)際輸出中,使用NCE損失,即通過選取一些噪聲單詞來作為負(fù)采樣進(jìn)行分類。負(fù)采樣是指在神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程中,需要輸入訓(xùn)練樣本并且不斷調(diào)整神經(jīng)元的權(quán)重,從而不斷提高對(duì)目標(biāo)的準(zhǔn)確預(yù)測(cè)。2.1.2特征選擇特征數(shù)是我們進(jìn)行文本分類的關(guān)鍵數(shù)據(jù),但特征數(shù)并不是越多越好,較高的特征數(shù)意味著冗余特征的增多,導(dǎo)致特征之間的關(guān)聯(lián)性難以得到保障。因此需要在特征之間進(jìn)行特征選擇,去掉冗余的特征信息。常見的特征選擇方法如下:(1)TF-IDF我們將關(guān)鍵詞在網(wǎng)頁(yè)中出現(xiàn)的次數(shù)除以該網(wǎng)頁(yè)的總字?jǐn)?shù)得到的商稱為“單文本詞頻”,即TF(TermFrequency,TF)。IDF(InverseDocumentFrequency,IDF)被廣泛運(yùn)用于信息檢索領(lǐng)域。TF-IDF的核心思想是找到當(dāng)前樣本出現(xiàn)頻率高且其他樣本出現(xiàn)頻率低單詞,將其作為有效特征。IDF(X)公式如下:IDF式(2-6)式(2-6)中的N表示樣本總數(shù),N(x)代表包含詞X的樣本數(shù)量。TF-IDF值的計(jì)算方法為:TF?IDF((2)信息增益信息增益REF_Ref14343\n\h[5](InformationGain,IG)是指從樣本的所有單詞中找到對(duì)分類結(jié)果影響最大的單詞作為有效特征,計(jì)算公式如下:

IG(t)=?式(2-8)其中,m為類別的數(shù)量,類別Ci的先驗(yàn)概率為P(Ci),P(t)和P(t)表示特征t出現(xiàn)與不出現(xiàn)的概率。P(Ci|t)和P(Ci|t)表示t出現(xiàn)與否時(shí),類別Ci出現(xiàn)的概率。(3)卡方驗(yàn)證卡方檢驗(yàn)REF_Ref14431\n\h[6](Chi-squaretest,CHI)通過計(jì)算特征值t與給定分類C的關(guān)聯(lián)程度來判斷該特征值是否為有效特征。若χ2(t,c)小于給定的檢驗(yàn)標(biāo)準(zhǔn),則判定為冗余特征,否則該特征值為有效特征值。其中t與C的卡方檢驗(yàn)的公式如下:χ2(t,c)=N其中,A、B、C、D分別表示類別C中包括特征t的文檔數(shù),非類別C中包括特征t的文檔數(shù),類別C中不包括特征t的文檔數(shù),非類別C中不包括特征t的文檔數(shù)。文檔集合中包含的文檔數(shù)為N。對(duì)于多分類問題,先計(jì)算特征t在所有類別中的CHI值,在此基礎(chǔ)上求得平均值來χavgχavg2.1.3文本預(yù)處理實(shí)際應(yīng)用中,大多數(shù)樣本數(shù)據(jù)都存在著噪聲、冗余、編碼不一致等問題,因此在文本分類之前進(jìn)行數(shù)據(jù)預(yù)處理是十分必要的?;镜奈谋绢A(yù)處理流程包括分詞、清洗、標(biāo)準(zhǔn)化、特征提取和建模。處理過后的文本具體的操作方法如下:圖*文本預(yù)處理流程分詞:由于中文不能直接像英文一樣使用空格完成分詞操作,所以我們需要使用分詞工具如完成分詞操作,常用中文分詞手段包括:Jieba分詞、LTP、HanNLP等分詞工具文本清洗:文本清洗的數(shù)據(jù)類型種類繁多,根據(jù)不同的需求我們將其分類為大小寫、無(wú)用標(biāo)簽、特殊符號(hào)、停用詞、俚語(yǔ)、編碼轉(zhuǎn)換。其中停用詞指無(wú)意義的詞。例如介詞,通過清除介詞可以有效降低后續(xù)處理的復(fù)雜度。不同的文本可能編碼方式存在著差異,為了更好的進(jìn)行數(shù)據(jù)分析,必須讓所有的數(shù)據(jù)保持如UTF8等標(biāo)準(zhǔn)的編碼格式。標(biāo)準(zhǔn)化:標(biāo)準(zhǔn)化主要是針對(duì)英文單詞的不同變化和變形。標(biāo)準(zhǔn)化的包括詞干提取和詞形還原兩種方法。其中詞干提取是將詞還原成詞干或者詞根的過程。詞形還原負(fù)責(zé)去除檔次的詞綴,提取單詞的主要部分。特征提取和特征選擇:我們將機(jī)器學(xué)習(xí)算法不能識(shí)別的原始數(shù)據(jù)轉(zhuǎn)化為算法可以識(shí)別的特征的過程稱為特征提取。將去掉無(wú)關(guān)特征,保留相關(guān)特征的過程稱為特征選擇。特征選擇本質(zhì)上是降維的過程,不產(chǎn)生新的特征。常見的特征提取方法包括:主成分分析(PCA)、線性判別分析法(LDA)、多維尺度分析發(fā)(MDS)等,常見的特征選擇方法包括:按搜索策略分類和按評(píng)價(jià)準(zhǔn)則分類。2.2機(jī)器學(xué)習(xí)技術(shù)2.2.1傳統(tǒng)文本分類算法最近鄰算法(KNN)KNN是一種最基礎(chǔ)文本分類算法,常常被應(yīng)用在圖像識(shí)別、字符識(shí)別、文本分類等場(chǎng)景,其原理如下:特征空間中的一個(gè)樣本,在其周圍存在K個(gè)最相鄰樣本,這K個(gè)樣本如果屬于同一個(gè)類別,那么該樣本也大概率屬于該類別。即這K+1個(gè)樣本組成同一個(gè)類別,并具有該類別的所有相同屬性REF_Ref16616\n\h[7]。在確定分類決策中,該方法僅基于最鄰近的一個(gè)或多個(gè)樣本的類別來確定待分樣本所屬的類別。該方法可用以下公式表示:f(d,Ci)=j∈KNN(d,x由于KNN算法在進(jìn)行文本分類時(shí)僅僅局限于K個(gè)有限樣本,并且要求選取該樣本周圍的數(shù)據(jù)樣本,而不是依賴范圍內(nèi)的取樣規(guī)則在確定類別,所以KNN算法的適用場(chǎng)景大多數(shù)在重疊部分的待分類樣本集合。在KNN算法中,決定算法精確度的關(guān)鍵在于k的取值。由于訓(xùn)練模型的過程通常需要大量的樣本支撐,如果K的值過小,就不能代表輸入樣本的普遍規(guī)律,得出的結(jié)果也是不可靠的;但如果k值過大,對(duì)于樣布數(shù)據(jù)的篩選錄入是一個(gè)很大的挑戰(zhàn),一些不相關(guān)的樣本很容易被錄入到該模型中,導(dǎo)致整體的精度下降。2.樸素貝葉斯算法樸素貝葉斯算法的核心思想是在給定待分類項(xiàng)中找到各個(gè)分類出現(xiàn)的概率。樸素貝葉斯分類器的實(shí)現(xiàn)分為以下兩個(gè)階段:準(zhǔn)備工作階段:根據(jù)具體情況確定特征屬性,并對(duì)每個(gè)特征屬性進(jìn)行適當(dāng)劃分,對(duì)一部分待分類項(xiàng)進(jìn)行分類,形成訓(xùn)練樣本集合。分類器訓(xùn)練階段:計(jì)算每個(gè)類別在訓(xùn)練樣本中的出現(xiàn)頻率以及每個(gè)特征屬性劃分對(duì)每個(gè)類別的條件概率估計(jì),并記錄結(jié)果。樸素貝葉斯其公式如下:p式(2-12)

樸素貝葉斯算法適用的前提是樣本數(shù)據(jù)集屬性之間是相互獨(dú)立的,只有屬性相互獨(dú)立,以上樸素貝葉斯公式才能夠成立,即屬性之間獨(dú)立性越高,由樸素貝葉斯分類器得出的結(jié)果差異性越低REF_Ref17563\n\h[9]。樸素貝葉斯分類器在樣本數(shù)據(jù)集屬性相互關(guān)聯(lián)時(shí)不適用,而數(shù)據(jù)屬性關(guān)聯(lián)也是絕大多數(shù)樣本無(wú)法避免的情況,因此樸素貝葉斯分類器在使用場(chǎng)景存在著一定的局限。3.支持向量機(jī)(SVM)V.N.Vapnik于1964年提出支持向量機(jī),在二十世紀(jì)90年代之后得到快速發(fā)展,在圖像識(shí)別、文本分類等領(lǐng)域有廣泛應(yīng)用。支持向量機(jī)REF_Ref21573\n\h[9]是一種基于統(tǒng)計(jì)學(xué)的機(jī)器學(xué)習(xí)方法,它的主要思想是,在高維空間尋找一個(gè)超平面可以將數(shù)據(jù)集分成兩個(gè)類別,以保證最小的分類錯(cuò)誤率。這個(gè)超平面為:w?x+b=0式其中,w?x是內(nèi)積,b是標(biāo)量。我們將這兩個(gè)類別分別類別A和類別B,通過超平面將A、B進(jìn)行分隔,距離分隔超平面最近的樣本稱為支持向量(SupportVector,簡(jiǎn)稱SV)。超平面的尋找依據(jù)是訓(xùn)練集中的點(diǎn)距離超平面盡可能的遠(yuǎn),即在類別A、B之間尋找一個(gè)分類面使兩側(cè)的空白區(qū)域最大。類平面的公式如式(2-14)所示:Margin=2||w||圖2.2類平面示意圖2.2.2深度學(xué)習(xí)分類算法1.卷積神經(jīng)網(wǎng)絡(luò)(CNN)卷積神經(jīng)網(wǎng)絡(luò)是在神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上提出的改進(jìn)算法,通過引入卷積操作縮減參數(shù)數(shù)目,解決參數(shù)過多導(dǎo)致的過擬合并降低硬件的內(nèi)存壓力。卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)包括卷積層CONV、池化層POOL以及全連接層FC。此外我們通常會(huì)在卷積層和池化層之間加上激勵(lì)層RELU,使用激勵(lì)函數(shù)將線性輸出轉(zhuǎn)化為非線性輸出。2.循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)RNN是一種將序列數(shù)據(jù)作為輸入并在序列的演進(jìn)方向上進(jìn)行遞歸的的神經(jīng)網(wǎng)絡(luò),它在自然語(yǔ)言領(lǐng)域展現(xiàn)了很大的潛力。在RNN中,神經(jīng)元的輸出可以在下一時(shí)間段直接作用到自身,其每一層不僅輸出給下一層,同時(shí)還輸出一個(gè)隱狀態(tài),給當(dāng)前層在處理下一個(gè)樣本時(shí)使用。如圖2.3所示:圖2.3循環(huán)神經(jīng)網(wǎng)絡(luò)示意圖從圖可知,上一時(shí)刻的隱藏層對(duì)當(dāng)前時(shí)刻的隱藏層是有影響的。V和U分別代表隱藏層到輸出層的權(quán)重矩陣和輸入層到隱藏層的權(quán)重矩陣。W代表隱藏層的輸出作為此次輸入的權(quán)重。o和s是兩個(gè)向量,分別代表輸出層和隱藏層的值。f是激活函數(shù),b是偏置值。所以我們可以通過以下公式計(jì)算s(t)和o(t):

s(t

o(t)=g由公式可知,當(dāng)前時(shí)刻的隱藏層不僅取決于當(dāng)前時(shí)刻的輸入層,還取決于上一時(shí)刻的隱藏層。雖然RNN在處理與時(shí)序相關(guān)的問題時(shí)有不錯(cuò)的效果,但是我們發(fā)現(xiàn),隨著網(wǎng)絡(luò)層度的增加,RNN會(huì)出現(xiàn)“長(zhǎng)時(shí)依賴問題”和“梯度消失”問題。3.長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(LSTM)LSTM(LongShort-TermMemory)是由Hochreiter等人REF_Ref23614\n\h[11]提出的一種長(zhǎng)期記憶神經(jīng)網(wǎng)絡(luò),能夠有效解決RNN模型的梯度消失問題,其主要思想是:在傳輸帶傳遞數(shù)據(jù)的同時(shí),引入“門”機(jī)制完成信息的刪除、增加操作。這些門分別為輸入門、遺忘門和輸出門,LSTM以此來控制信息流。LSTM的工作原理:首先,LSTM最重要的設(shè)計(jì)是傳輸帶,通過傳輸帶將過去的信息直接傳送給下一個(gè)時(shí)刻,可以有效避免梯度消失的問題。其次,LSTM中的“門”決定了信息通過的方式,每個(gè)門包含了一個(gè)Sigmoid神經(jīng)網(wǎng)絡(luò)和一個(gè)Pointwise操作,Sigmoid層負(fù)責(zé)將輸入數(shù)據(jù)輸出為只有0到1之間的數(shù)字,點(diǎn)乘決定了多少數(shù)據(jù)能夠傳送出去。給定一個(gè)序列x=(x1,.....xk),輸出為y。LSTM在1到k時(shí)間下的輸出zp如下:i?fpapcp=op=zp=op其中,σ代表激活函數(shù);ip、fp、op、ap、cp分別是p時(shí)刻輸入門、遺忘門、輸出門、存儲(chǔ)單元輸入激活、存儲(chǔ)單元狀態(tài)向量的輸出,它們的大小與zp相同。Wci、Wcf和Wco是窺視孔連接的對(duì)角權(quán)矩陣,τ和θ是激活函數(shù),一般為tanh[16]。tanh激活函數(shù)的曲線圖如圖2.4所示:圖2.4tanh激活函數(shù)曲線圖對(duì)于文本分類時(shí),公式如下:y=softmax(其中αy和βy分別為softmax函數(shù)的權(quán)值和偏置。此外,LSTM可以通過在上疊加多個(gè)LSTM層來達(dá)到深層結(jié)構(gòu),如圖2.6所示。對(duì)于深層LSTM,其下面的LSTM層的輸出zp作為上面的LSTM層的輸入xp。這種深度LSTM網(wǎng)絡(luò)可以靈活地學(xué)習(xí)長(zhǎng)期上下文,在一些自然語(yǔ)言領(lǐng)域的數(shù)據(jù)集上,與圖2.5所示的淺層數(shù)據(jù)集相比,性能有了明顯的提高。圖2.5LSTM網(wǎng)絡(luò)結(jié)構(gòu)圖2.6具有兩個(gè)LSTM層的深層LSTM的結(jié)構(gòu)2.2.5注意力機(jī)制注意力機(jī)制本質(zhì)上是一種模擬人腦的注意力資源分配模型,目前已經(jīng)逐漸發(fā)展成神經(jīng)網(wǎng)絡(luò)中不可或缺的一部分。以人類視覺研究為例,當(dāng)人類在觀察事物時(shí),視覺系統(tǒng)會(huì)快速掃描事物的整體外觀并獲得其主要特征。之后,人類會(huì)重點(diǎn)關(guān)注該主要特征并篩選出幫助自己判斷的重要信息,忽略不相關(guān)的信息。例如我們需要判斷一個(gè)人的性情是否開朗,我們會(huì)著重觀察這個(gè)人的面部表情和肢體動(dòng)作,而忽略其他無(wú)關(guān)的特征。注意力機(jī)制的主要思想是:選擇出需要關(guān)注的重要部分,并將有限的資源分配給這些重要部分。對(duì)于新聞分類,首先在各個(gè)新聞標(biāo)題和正文引入注意力機(jī)制,提取出新聞內(nèi)容中的關(guān)鍵信息,再次引入注意力機(jī)制對(duì)所獲得的關(guān)鍵信息進(jìn)行篩選,最終獲得新聞文本的關(guān)鍵信息并對(duì)新聞文本數(shù)據(jù)集進(jìn)行分類。將注意力機(jī)制引入分類模型,有利于模型根據(jù)權(quán)重分配資源來增加對(duì)關(guān)鍵信息的關(guān)注,從而提高新聞文本分類準(zhǔn)確度。注意力模型的使用更多是在自然語(yǔ)言處理領(lǐng)域,在機(jī)器翻譯等序列模型應(yīng)用上有著更為廣泛地應(yīng)用。其中最為經(jīng)典的是由BahdanauREF_Ref24329\n\h[12]等人構(gòu)建的Encoder-Decoder框架。如圖2.7所示為基于注意力機(jī)制的機(jī)器翻譯模型結(jié)構(gòu)。圖2.7基于注意力機(jī)制的機(jī)器翻譯模型結(jié)構(gòu)2.3本章小結(jié)本章主要介紹了與網(wǎng)絡(luò)新聞文本相關(guān)的理論知識(shí)與技術(shù)。首先介紹文本表示方式模型,基本的模型包括:布爾模型、向量空間模型、以及概率模型。然后介紹文本預(yù)處理的具體流程包括消除噪聲、去停用詞、中文分詞。還介紹了KNN、樸素貝葉斯兩種傳統(tǒng)文本分類算法和SVM機(jī)器學(xué)習(xí)算法以及CNN、RNN、LSTM三種基于深度學(xué)習(xí)的文本分類算法。最后介紹了注意力機(jī)制。在這些理論知識(shí)和技術(shù)的基礎(chǔ)上,利用已有的模型實(shí)現(xiàn)基于深度學(xué)習(xí)的新聞分類系統(tǒng)。第三章基于注意力機(jī)制的CNN的新聞分類模型問題描述:傳統(tǒng)機(jī)器學(xué)習(xí)的基本過程包括:文本預(yù)處理,文本特征工程,分類模型構(gòu)建。傳統(tǒng)機(jī)器學(xué)習(xí)算法通過采用分而治之的思想,將問題整體拆分成無(wú)數(shù)個(gè)單元,對(duì)每個(gè)單元進(jìn)行解決,最后將各部分的結(jié)果統(tǒng)一起來得到最終的答案,這種方式并不能很好挖掘文本中更深層的信息。深度學(xué)習(xí)采用集中資源的方式來解決問題,無(wú)需對(duì)問題進(jìn)行拆分。深度學(xué)習(xí)網(wǎng)絡(luò)簡(jiǎn)化傳統(tǒng)機(jī)器學(xué)習(xí)的步驟,只需將數(shù)據(jù)直接傳遞到網(wǎng)絡(luò),完全消除了整個(gè)過程復(fù)雜的特征工程階段。卷積神經(jīng)網(wǎng)絡(luò)能夠最大限度地減少特征工程中的難度,但是對(duì)于大規(guī)模的問題存在著明顯的劣勢(shì)。為了對(duì)卷積神經(jīng)網(wǎng)絡(luò)分類算法進(jìn)行合理的改進(jìn),我們將注意力機(jī)制引入TextCNN以建立分類模型,從而探討比CNN更有效的文本分類模型。接下來,這一章詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)原理以及在其中加入注意力機(jī)制的方法,進(jìn)而提升分類的效果。3.1模型結(jié)構(gòu)與算法過程概述相比于CNN,YoomKim提出的文本分類模型TextCNN針對(duì)CNN在輸入層做了一些變形,使其擁有更簡(jiǎn)單的網(wǎng)絡(luò)結(jié)構(gòu)以及更快的訓(xùn)練速度。TextCNN的流程是先將文本分詞做embeeding得到詞向量,將詞向量經(jīng)過一層卷積,一層max-pooling,最后將輸出外接softmax來做n分類。雖然最基礎(chǔ)的TextCNN模型具有良好的分類效果,但TextCNN模型可解釋性不強(qiáng),因?yàn)門extCNN中沒有特征重要度的概念,所以很難去評(píng)估每個(gè)特征的重要度。因此,可以將注意力機(jī)制引入TextCNN中。本章提出了基于注意機(jī)制的TextCNN文本分類模型,其工作流程如圖3.1所示圖3.1圖3.1中的具體工作流程如下:首先將輸入層的樣本數(shù)據(jù)進(jìn)行預(yù)處理,這一步的目的是將不同編碼方式或表現(xiàn)形式的文本信息統(tǒng)一化,同時(shí)通過引入詞向量作為輸入向量,這樣不僅可以極大程度的保留新聞樣本的語(yǔ)義,還可以避免獨(dú)熱編碼造成的文本語(yǔ)義稀疏。接著對(duì)k-maxpooling和avgpooling這兩種特征獲得的語(yǔ)義特征信息進(jìn)行不同的權(quán)重分配,其中k-maxpooling表示文本的代表性特征,而avgpooling表示文本的整體性特征,最后將文本特征輸出到softmax進(jìn)行n分類得出分類結(jié)果。通過以上過程使分類模型對(duì)細(xì)化后的文本特征信息進(jìn)行自動(dòng)學(xué)習(xí),有效地提高了新聞分類系統(tǒng)模型的效果。3.2注意力模型結(jié)構(gòu)原理及過程(1)輸入層在文本類中輸入層的作用,就是把文本類數(shù)據(jù)處理成計(jì)算機(jī)能夠識(shí)別的向量形式。因?yàn)槲谋緮?shù)據(jù)不同于圖像類數(shù)據(jù),圖像類由像素點(diǎn)構(gòu)成矩陣,本身具有稠密性??梢灾苯舆M(jìn)行CNN操作,文本數(shù)據(jù)本身具有稀疏性,使用卷積神經(jīng)網(wǎng)絡(luò),需要通過文本向量轉(zhuǎn)化,改變文本數(shù)據(jù)稀疏性。本文輸入層,先設(shè)置固定長(zhǎng)度文本,對(duì)于超過設(shè)定長(zhǎng)度文本進(jìn)行截?cái)嗖僮?,?duì)于長(zhǎng)度不夠文本進(jìn)行補(bǔ)0填充操作。目的是為了保證文本數(shù)據(jù)的格式標(biāo)準(zhǔn)化REF_Ref1779\n\h[17]。一般來說,文本向量轉(zhuǎn)換有兩種形式分別是One-hot編碼和詞向量編碼。One-hot編碼REF_Ref2403\n\h[18]的基本思想是用一個(gè)長(zhǎng)度為N的向量唯一對(duì)應(yīng)一個(gè)詞,N的長(zhǎng)度代表詞典的大小,且向量中只有一個(gè)分量為1,其余位置的分量都為0,1的位置對(duì)應(yīng)這個(gè)詞在詞典中的位置。區(qū)別于One-hot編碼,詞向量編碼的每一個(gè)K維向量都對(duì)應(yīng)著一個(gè)詞,實(shí)數(shù)相同的向量代表著各自的特征也相同,特征相同的單詞會(huì)被劃分到同一向量空間中去,每個(gè)詞語(yǔ)轉(zhuǎn)化成低維、稠密向量。卷積層卷積層在CNN中擔(dān)任著重要的角色。在卷積操作期間,它通過權(quán)重共享和局部連接來完成特征提取的任務(wù)。權(quán)重共享指卷積神經(jīng)網(wǎng)絡(luò)同一通道所有像素共享同一組權(quán)重系數(shù),而局部連接指神經(jīng)元的相鄰部分連接。卷積神經(jīng)網(wǎng)絡(luò)中,局部連接、權(quán)值共享都具有正則化的作用,提高了網(wǎng)絡(luò)結(jié)構(gòu)的穩(wěn)定性和泛化能力,避免過度擬合。在文本分類中,卷積層選用多尺度卷積核,它的好處可以快速提取到不同尺度文本信息。下圖3.6為文本分類中多尺度卷積核結(jié)構(gòu)圖。圖3.2多尺度卷積核結(jié)構(gòu)圖當(dāng)CNN在處理自然語(yǔ)言時(shí),輸入層使用詞向量矩陣將文中的詞語(yǔ)映射成對(duì)應(yīng)的詞向量。文本分類中的卷積操作如下,輸入層是一個(gè)n×k維的矩陣,n對(duì)應(yīng)文章單詞數(shù),k為詞向量維度。卷積操作是在文本向量矩陣的垂直方向上進(jìn)行的,高度h為訓(xùn)練時(shí)設(shè)置的超參數(shù),可以表示為矩陣w。對(duì)于被表示成矩陣的文本,卷積操作可以被表示為以下公式:?i=w?xi其中,xi:i+h?1代表大小為h×k的滑動(dòng)矩陣窗口,加上非線性激活函數(shù)f和偏置參數(shù)b后得到所需的特征cici=f(?i+b)公式卷積核對(duì)輸入特征進(jìn)行卷積操作后形成一個(gè)新的特征映射,輸入數(shù)據(jù)的局部特征能夠有效地表征在這個(gè)特征映射的數(shù)據(jù)上。尺寸不同的卷積窗口會(huì)導(dǎo)致特征圖的大小不同,因此有必要對(duì)每個(gè)特征圖使用池化函數(shù)。池化函數(shù)的作用是將單點(diǎn)結(jié)果轉(zhuǎn)化為區(qū)域的特征圖統(tǒng)計(jì)量,從而實(shí)現(xiàn)特征的過濾。(3)池化層池化層的作用在于獲取從卷積層提取的特征信息,并進(jìn)行特征的選擇和過濾。通過池化函數(shù)將單點(diǎn)結(jié)果轉(zhuǎn)化為區(qū)域的特征圖統(tǒng)計(jì)量。池化操作一般情況包括平均池化、最大池化以及K-max池化,多類型池化操作如下圖3.9所示:多類型池化操作示意圖(4)注意力層本文對(duì)卷積層提取的初步特征,通過池化做降維的操作,池化層選用2-max池化和平均池化兩種池化操作,以達(dá)到對(duì)于初步特征的更高層次的整合。對(duì)于這兩種池化操作后特征,加入注意力操作,通過一個(gè)權(quán)重分配給予2-max池化和平均池化各自不同權(quán)重參數(shù),并把權(quán)重的更新放在文本訓(xùn)練中。以保證通過兩種池化得到特征得到很好的整合。(5)全連接層全連接層中的每個(gè)神經(jīng)元都完全連接到上一層中的所有神經(jīng)元。全連接層可以把前一層中具有類別區(qū)分的局部信息組合成更完整的特征。全連接層采用ReLU函數(shù)作為激勵(lì)函數(shù),用公式表示成以下形式:ReLU(x全連接層的作用主要是實(shí)現(xiàn)分類,全連接層的結(jié)構(gòu)如下圖3.11所示:全連接層結(jié)構(gòu)示意圖最終所得的標(biāo)簽類別可用公式表示如下:Label[i]=其中Label[i]為標(biāo)簽類別,F(xiàn)c為全連接層,Softmax為分類函數(shù),P為精煉整合后深層特征。3.3本章小結(jié)本章節(jié)針對(duì)CNN模型尚存的問題及解決該問題現(xiàn)實(shí)意義進(jìn)行了敘述。并對(duì)基于注意力機(jī)制的CNN模型、原理、過程和方法進(jìn)行研究分析。第四章□基于深度學(xué)習(xí)的新聞分類系統(tǒng)構(gòu)建與實(shí)現(xiàn)4.1系統(tǒng)設(shè)計(jì)4.1.1系統(tǒng)架構(gòu)基于深度學(xué)習(xí)的新聞分類系統(tǒng)的設(shè)計(jì),運(yùn)用CNN和LSTM模型和基于注意力機(jī)制的CNN和LSTM四種學(xué)習(xí)算法進(jìn)行新聞文本分類,并通過測(cè)試集數(shù)據(jù)進(jìn)行模型準(zhǔn)確率評(píng)估。系統(tǒng)首先采用Tensorflow深度學(xué)習(xí)庫(kù)進(jìn)行模型配置,再將Tensorflow訓(xùn)練好新聞文本分類模型,運(yùn)用Django自身所集成的網(wǎng)頁(yè)開發(fā)組件,最后為分類結(jié)果設(shè)計(jì)了展示接口。該系統(tǒng)的功能模塊包括可視化界面、新聞獲取模塊、文件上傳模塊、文本分類模塊。具體如圖4.1所示:4.1新聞分類功能模塊4.2功能模塊實(shí)現(xiàn)過程介紹了新聞文本分類系統(tǒng)的功能模塊后,下面就各個(gè)模塊的實(shí)現(xiàn)過程與細(xì)節(jié)進(jìn)行詳細(xì)地闡述。4.2.1新聞文本獲取模塊由于獲取的原始實(shí)驗(yàn)數(shù)據(jù)類型為GBK編碼的XML格式,與我們所期望的UTF8編碼的json格式有出入,所以在訓(xùn)練模型之前有必要對(duì)數(shù)據(jù)樣本的格式進(jìn)行轉(zhuǎn)換。通過解析文件里面的標(biāo)簽,得到每個(gè)新聞的URL、標(biāo)題以及新聞內(nèi)容。給文本添加類別標(biāo)簽對(duì)所下載的數(shù)據(jù)進(jìn)行分類,分類完成后才能提供符合測(cè)試要求的測(cè)試數(shù)據(jù)。新聞文本獲取模塊設(shè)計(jì)如圖4.2所示:圖4.2新聞文本獲取模塊設(shè)計(jì)框圖4.2.2算法選擇及分類模塊分類模塊是本系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)的重要任務(wù)。因?yàn)榉诸惖恼_與否直接影響了推送給用戶的新聞信息是否準(zhǔn)確。因此將分類的準(zhǔn)確率即分類成功的樣本占總樣本的比例作為本系統(tǒng)優(yōu)化的重要指標(biāo)。本設(shè)計(jì)運(yùn)用CNN和LSTM以及基于注意力機(jī)制的CNN和LSTM四種深度學(xué)習(xí)算法進(jìn)行新聞文本分類,首先對(duì)新聞數(shù)據(jù)集進(jìn)行模型訓(xùn)練,再通過測(cè)試集進(jìn)行測(cè)驗(yàn)。根據(jù)測(cè)驗(yàn)結(jié)果,最后對(duì)各分類模型進(jìn)行整體評(píng)估。在分類模塊中,首先對(duì)獲取到的新聞數(shù)據(jù)進(jìn)行文本預(yù)處理,使用jieba分詞器將新聞文本進(jìn)行切分,設(shè)置模型文本矩陣的行列參數(shù),將新聞文本長(zhǎng)度固定為250,對(duì)文本長(zhǎng)度超過250的新聞文本截取至最大長(zhǎng)度,長(zhǎng)度不足的新聞文本則用0進(jìn)行填充,使得輸入文本的長(zhǎng)度得到統(tǒng)一;然后輸入訓(xùn)練集的新聞文本和新聞標(biāo)題,選擇分類模型進(jìn)行訓(xùn)練,得到訓(xùn)練模型;然后對(duì)訓(xùn)練模型輸入測(cè)試數(shù)據(jù)就可以評(píng)估整個(gè)模型的準(zhǔn)確率;分類結(jié)果通過制作前端table表格呈現(xiàn),使分類結(jié)果更加清晰、明確。算法選擇及分類模塊設(shè)計(jì)如圖4.3所示:圖4.3算法選擇及分類模塊設(shè)計(jì)框圖4.3基于深度學(xué)習(xí)的新聞分類系統(tǒng)實(shí)現(xiàn)4.3.1數(shù)據(jù)集選擇與系統(tǒng)開發(fā)環(huán)境本文采用的數(shù)據(jù)集來自搜狗實(shí)驗(yàn)室。該數(shù)據(jù)集來自搜狐新聞2017年10月—12月期間國(guó)內(nèi)外體育、美食、旅游、政府、股票等多個(gè)領(lǐng)域的新聞數(shù)據(jù),總共包括114000條新聞標(biāo)題,其中78000條用作訓(xùn)練集,18000條用作驗(yàn)證集,剩下的18000條用作測(cè)試集。14個(gè)新聞?lì)悇e的訓(xùn)練集有2500條新聞標(biāo)題,其余4個(gè)類別的訓(xùn)練集有1000條新聞標(biāo)題,所有類別的驗(yàn)證集和測(cè)試集都各有1000條新聞標(biāo)題。表4.1實(shí)驗(yàn)環(huán)境配置開發(fā)工具配置環(huán)境操作系統(tǒng)Windows深度學(xué)習(xí)庫(kù)TensorflowGPUGTX1070內(nèi)存16G硬盤1T本文使用的深度學(xué)習(xí)庫(kù)Tensorflow進(jìn)行文本分類,Tensorflow基于Python語(yǔ)言編寫而成。Tensorflow是Google公司在其神經(jīng)網(wǎng)絡(luò)算法庫(kù)DistBelief的基礎(chǔ)上進(jìn)行研發(fā)的開源深度學(xué)習(xí)平臺(tái),支持多種神經(jīng)主流網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練,而且具有便捷、高效的優(yōu)點(diǎn)。實(shí)驗(yàn)環(huán)境配置如表4.1所示。4.3.2新聞文本獲取模塊實(shí)現(xiàn)新聞文本獲取模塊主要是對(duì)新聞數(shù)據(jù)進(jìn)行采集,以及對(duì)原始新聞數(shù)據(jù)進(jìn)行轉(zhuǎn)碼、整理。原始數(shù)據(jù)如圖4.4所示:圖4.4原始數(shù)據(jù)通過以下代碼完成對(duì)文件標(biāo)簽的解析,得到每個(gè)新聞的URL、標(biāo)題、新聞內(nèi)容,如圖4.5所示:圖4.5文件標(biāo)簽解析代碼實(shí)現(xiàn)數(shù)據(jù)集的新聞沒有直接提供標(biāo)題的分類,但是每個(gè)URL的前綴都代表了不同分類下的標(biāo)題,如gongyi就代表公益。所以通過下面這段代碼對(duì)分類做轉(zhuǎn)換,如圖4.6所示:圖4.6分類轉(zhuǎn)換代碼實(shí)現(xiàn)4.3.3算法選擇模塊實(shí)現(xiàn)算法選擇模塊主要是為了實(shí)現(xiàn)多種分類模型的選擇。前端算法選擇頁(yè)面如圖4.7所示:圖4.7前端算法選擇頁(yè)面前端算法選擇頁(yè)面可用以下代碼實(shí)現(xiàn),如圖4.8所示:圖4.8前端算法選擇頁(yè)面代碼實(shí)現(xiàn)當(dāng)用戶點(diǎn)擊“提交”按鈕時(shí)就會(huì)帶著算法名稱去請(qǐng)求后臺(tái)服務(wù)。后臺(tái)用django框架實(shí)現(xiàn),在urls.py里面做了請(qǐng)求路由配置。所以點(diǎn)擊“提交”就會(huì)匹配到view.run這個(gè)函數(shù)去處理,如圖4.9所示:圖4.9調(diào)用view.run函數(shù)run函數(shù)會(huì)根據(jù)選擇的不同的算法名稱,調(diào)用相應(yīng)的算法做算法分析,然后返回結(jié)果,轉(zhuǎn)發(fā)到result.html頁(yè)面,代碼實(shí)現(xiàn)如圖4.10所示:圖4.10run函數(shù)代碼實(shí)現(xiàn)result頁(yè)面展示了所選模型進(jìn)行文本分類后的準(zhǔn)確率,然后繪制了一個(gè)表格展示分類結(jié)果數(shù)據(jù),代碼實(shí)現(xiàn)如圖4.11所示:圖4.11分類結(jié)果展示代碼實(shí)現(xiàn)4.3.4分類模塊實(shí)現(xiàn)首先對(duì)已經(jīng)分類好的新聞文本進(jìn)行分詞處理,本設(shè)計(jì)使用jieba分詞來實(shí)現(xiàn),如圖4.12所示:圖4.12分詞處理代碼實(shí)現(xiàn)得到分詞后的結(jié)果,如圖4.13所示:圖4.13分詞結(jié)果分類模塊的實(shí)現(xiàn),把處理好文本數(shù)據(jù)輸入所選擇的分類模型,并將模型給出的結(jié)果進(jìn)行展示,如圖4.14所示:圖4.14分類結(jié)果展示4.4本章小結(jié)本章詳細(xì)介紹了新聞文本分類系統(tǒng)的整體架構(gòu)和設(shè)計(jì)過程。對(duì)各個(gè)功能模塊進(jìn)行了詳細(xì)地介紹,并對(duì)最終的分類結(jié)果進(jìn)行了展示,比較了不同模型下的分類準(zhǔn)確率。第五章□總結(jié)與展望5.1論文總結(jié)本文的研究方向?yàn)樾侣勎谋净谏疃葘W(xué)習(xí)的分類模型研究以及新聞分類系統(tǒng)的實(shí)現(xiàn)。通過對(duì)國(guó)內(nèi)外相關(guān)研究進(jìn)行考察,對(duì)傳統(tǒng)分類模型與基于深度學(xué)習(xí)的分類模型進(jìn)行分析和探討?;谏疃葘W(xué)習(xí)分類模型,設(shè)計(jì)新聞分類系統(tǒng),對(duì)網(wǎng)絡(luò)新聞文本進(jìn)行分類,并給出分類的準(zhǔn)確率。通過對(duì)cnn、knn、svm、lstm,、word_vector_cnn、word_vector_lstm、svm_word2vec七種分類模型,設(shè)計(jì)并且實(shí)現(xiàn)了新聞分類系統(tǒng)。在本系統(tǒng)中,用戶可以選擇需要進(jìn)行分類的分類模型,并獲得最終的分類結(jié)果。雖然本文實(shí)現(xiàn)了基于深度學(xué)習(xí)的新聞分類系統(tǒng),但是我們依舊要考慮分類模型對(duì)于新聞文本的分類效率以及新聞文本多標(biāo)簽問題,希望未來的工作可以對(duì)此有所優(yōu)化。5.2工作展望隨著信息獲取渠道的多樣化,我們可以從各種電子產(chǎn)品獲取推送的信息,網(wǎng)絡(luò)新聞的讀者用戶也在不斷增加,如何將新聞文本進(jìn)行更加優(yōu)質(zhì)的分類一直是自然語(yǔ)言處理領(lǐng)域的重點(diǎn)。雖然本文對(duì)基于深度的新聞文本分類做了許多研究,但仍然有許多改進(jìn)的空間。由于本系統(tǒng)沒有使用網(wǎng)頁(yè)爬取功能,系統(tǒng)功能有限。所以在未來的工作中,我們計(jì)劃為系統(tǒng)增加更多信息獲取功能和設(shè)計(jì)構(gòu)建更加高效的分類模型,通過模型融合,將各分類模型的優(yōu)點(diǎn)結(jié)合起來,提高新聞分類的速度和準(zhǔn)確率以及解決新聞文本多標(biāo)簽問題。結(jié)束語(yǔ)在設(shè)計(jì)期間,因?yàn)閷?duì)實(shí)現(xiàn)系統(tǒng)所使用的匯編語(yǔ)言的不熟悉,造成了很多錯(cuò)誤,耗費(fèi)了大量時(shí)間。但是每一次挫折都是自己前進(jìn)的動(dòng)力,經(jīng)過一次次反復(fù)調(diào)試和實(shí)驗(yàn)使我對(duì)軟件的操作水平得到了提升,對(duì)深度學(xué)習(xí)領(lǐng)域的相關(guān)模型和算法有了更為深入的理解?;谏疃葘W(xué)習(xí)的新聞文本分類這一技術(shù),在如今這個(gè)信息量爆炸的時(shí)代具有重要的學(xué)術(shù)研究?jī)r(jià)值和商業(yè)價(jià)值。文本分類技術(shù)以其獨(dú)特的技術(shù)優(yōu)勢(shì)、創(chuàng)新的價(jià)值理念和廣泛的應(yīng)用場(chǎng)景逐漸成為高價(jià)值的前沿領(lǐng)域。我們的生活已經(jīng)離不開網(wǎng)絡(luò)新聞,網(wǎng)絡(luò)新聞成為了我們了解這個(gè)世界和社會(huì)的一種重要工具。在我們平??此坪?jiǎn)單的新聞頁(yè)面背后,是許多個(gè)模型和算法將海量實(shí)時(shí)信息在進(jìn)行精準(zhǔn)分類和篩選。這次畢業(yè)設(shè)計(jì)給我留下了難忘的回憶,也正是因?yàn)檫@次畢業(yè)設(shè)計(jì),讓我深刻的明白了獨(dú)自思考、獨(dú)自試驗(yàn)的重要性。從中,也讓我明白了要想做好一件事情,首先要定下目標(biāo),并為之付出努力。只有付出了百分之百的努力,最終才能實(shí)現(xiàn)目標(biāo)。參考文獻(xiàn)HochreiterS,SchmidhuberJ.Longshort-termmemory[J].Neuralcomputation,1997,9(8):1735-1780.萬(wàn)圣賢,蘭艷艷,郭嘉豐,等.用于文本分類的局部化雙向長(zhǎng)短時(shí)記憶[J].中文信息學(xué)報(bào),2017,31(3):62-68.ScellsH,ZucconG,KoopmanB,etal.Automaticbooleanqueryformulationforsystematicreviewliteraturesearch[C]//ProceedingsofTheWebConference2020.2020:1071-1081.AggarwalCC,ZhaiCX.Asurveyoftextclassificationalgorithms[M]//Miningtextdata.Springer,Boston,MA,2012:163-222.LingW,DyerC,BlackAW,etal.Two/toosimpleadaptationsofword2vecforsyntaxproblems[C]//Proceedingsofthe2015ConferenceoftheNorthAmericanChapteroftheAssociationforComputationalLinguistics:HumanLanguageTechnologies.2015:1299-1304.GhoshS,DesarkarMS.ClassspecificTF-IDFboostingforshort-textclassification:Applicationtoshort-textsgeneratedduringdisasters[C]//CompanionProceedingsoftheTheWebConference2018.2018:1629-1637.GrinbergN.Identifyingmodesofuserengagementwithonlinenewsandtheirrelationshiptoinformationgainintext[C]//Proceedingsofthe2018WorldWideWebConference.2018:1745-1754.ZhaiY,SongW,LiuX,etal.Achi-squarestatisticsbasedfeatureselectionmethodintextclassification[C]//2018IEEE9thInternationalConferenceonSoftwareEngineeringandServiceScience(ICSESS).IEEE,2018:160-163.GouJ,MaH,OuW,etal.Ageneralizedmeandistance-basedk-nearestneighborclass

溫馨提示

  • 1. 本站所有資源如無(wú)特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請(qǐng)下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請(qǐng)聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁(yè)內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫(kù)網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請(qǐng)與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論