【《基于深度神經(jīng)網(wǎng)絡(luò)的垃圾廣告識(shí)別分析案例》4900字】_第1頁
【《基于深度神經(jīng)網(wǎng)絡(luò)的垃圾廣告識(shí)別分析案例》4900字】_第2頁
【《基于深度神經(jīng)網(wǎng)絡(luò)的垃圾廣告識(shí)別分析案例》4900字】_第3頁
【《基于深度神經(jīng)網(wǎng)絡(luò)的垃圾廣告識(shí)別分析案例》4900字】_第4頁
【《基于深度神經(jīng)網(wǎng)絡(luò)的垃圾廣告識(shí)別分析案例》4900字】_第5頁
已閱讀5頁,還剩8頁未讀, 繼續(xù)免費(fèi)閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進(jìn)行舉報(bào)或認(rèn)領(lǐng)

文檔簡介

基于深度神經(jīng)網(wǎng)絡(luò)的垃圾廣告識(shí)別分析案例目錄TOC\o"1-3"\h\u10532基于深度神經(jīng)網(wǎng)絡(luò)的垃圾廣告識(shí)別分析案例 1194401.1文本表示 1317301.1.1詞嵌入 1290971.1.2詞嵌入的實(shí)現(xiàn)(Word2Vec) 2211221.1.3Word2Vec存在的問題 3123951.1.4文本表示結(jié)果 35181.2文本分類 5177001.2.1TextCNN原理 597721.2.2實(shí)驗(yàn)結(jié)果 8傳統(tǒng)文本分類問題的文本表示大多是高緯度、高稀疏的,特征表達(dá)能力很弱,神經(jīng)網(wǎng)絡(luò)很不擅長對(duì)這一類的數(shù)據(jù)進(jìn)行處理;此外傳統(tǒng)文本分類需要人工進(jìn)行特征工程,成本較高。應(yīng)用深度學(xué)習(xí)的方式解決大規(guī)模文本分類問題首先需要解決文本表示,再使用CNN、RNN等網(wǎng)絡(luò)結(jié)構(gòu)自動(dòng)獲取文本的特征表達(dá)能力,去掉步驟繁瑣的人工特征工程,解決文本分類問提。本章節(jié)通過文本表示[22]和文本分類兩方面內(nèi)容,探討深度神經(jīng)網(wǎng)絡(luò)[24]文本分類方法在垃圾廣告識(shí)別中的效果和作用。1.1文本表示通常來說,傳統(tǒng)的離散式文本表示主要通過one-hot編碼以及tf-idf編碼等方式完成,但是采用這種方式往往會(huì)導(dǎo)致以下問題:1)對(duì)詞向量之間存在的關(guān)系無法進(jìn)行衡量。2)隨著語料庫的不斷擴(kuò)大,詞表的維度也會(huì)不斷增長。3)n-gram詞序會(huì)隨著語料庫的增長呈現(xiàn)指數(shù)式的膨脹,增長速度十分快。4)采用離散的數(shù)據(jù)來表示文本會(huì)造成數(shù)據(jù)稀疏的問題,這會(huì)導(dǎo)致丟失了文本中的部分信息,可能導(dǎo)致其與原本文本的信息不同。為了解決存在的這些離散式文本表示造成的問題,深度學(xué)習(xí)方法采用文本分布式的表示方法來進(jìn)行文本處理。文本的分布式表示的中心思想是將每個(gè)單詞表示為n維稠密的、連續(xù)的、深度學(xué)習(xí)方法擅長處理的實(shí)數(shù)向量。這種表示方法的最大優(yōu)點(diǎn)在于它擁有非常強(qiáng)大的文本表達(dá)能力,對(duì)于n維向量每個(gè)維度的k個(gè)值,可以表達(dá)出k的n次方種不同的概念。1.1.1詞嵌入將所有的單詞都投影到一個(gè)維度為K的向量空間,對(duì)于每個(gè)單詞都使用一個(gè)K維向量進(jìn)行表示,這種表示方法就稱作詞嵌入。利用這種方式表示的詞向量,可以很容易求得向量之間的距離,從而判斷單詞和單詞之間在語義上的相似性,解決了使用one-hot方法表示兩個(gè)單詞,會(huì)導(dǎo)致兩個(gè)單詞之間相互獨(dú)立的問題。詞嵌入具有良好的泛化能力,即便測試樣本中的單詞沒有出現(xiàn)在訓(xùn)練樣本之中,它也可以根據(jù)訓(xùn)練樣本中的單詞,找出與測試樣本中的單詞具有相同類別的單詞。通過這樣的做法,即使測試樣本中的單詞沒有在訓(xùn)練樣本之中出現(xiàn)過,它也可以使用泛化的方式對(duì)單詞進(jìn)行預(yù)測。在文本分類中,詞嵌入對(duì)于命名實(shí)體識(shí)別、文本解析和指代消解任務(wù)都有不錯(cuò)的效果。1.1.2詞嵌入的實(shí)現(xiàn)(Word2Vec)Word2Vec[25][26](WordtoVector)是由Google公司在2013年開放的一款專門用來對(duì)詞向量進(jìn)行訓(xùn)練的軟件工具。其可以根據(jù)指定的語料庫,使用優(yōu)化過的訓(xùn)練模型快速、有效地將一個(gè)單詞轉(zhuǎn)化成向量形式表達(dá)。大多數(shù)的機(jī)器學(xué)習(xí)模型,都可以歸納總結(jié)為式(5-1):fx在自然語言處理中,把x看作一個(gè)文本中的一個(gè)單詞,y是這個(gè)單詞在文本中的上下文單詞,那么這里的f便是自然語言處理中經(jīng)常會(huì)出現(xiàn)的語言模型。這個(gè)語言模型的目的,就是去判斷(x,y)這個(gè)組合樣本是否符合自然語言的規(guī)則。Word2Vec模型借助了這個(gè)思想,但它并不關(guān)心語言模型的訓(xùn)練效果,只關(guān)心模型訓(xùn)練完成后產(chǎn)生的副產(chǎn)物——模型參數(shù)(即神經(jīng)網(wǎng)絡(luò)的權(quán)重),并且將這些模型參數(shù)作為輸入x的一種向量化的表示,這個(gè)向量化表示就是詞向量。Word2Vec使用的一種訓(xùn)練模型為跳字模型(Skip-Gram),其核心思想是:給定一個(gè)單詞,生成這個(gè)單詞在文本序列中位于其周圍的詞。跳字模型如式(5-2):Oc上式就是對(duì)于輸入每個(gè)單詞的one-hot向量,通過嵌入矩陣的方式,經(jīng)過計(jì)算獲得詞嵌入向量,然后使用softmax處理每一個(gè)詞嵌入向量,最終獲得預(yù)測的目標(biāo)詞的結(jié)果。其中,每個(gè)單詞被預(yù)測到的概率計(jì)算方法如式(5-3):Softmax:pt|c上式就是通過使用softmax求得的目標(biāo)詞出現(xiàn)的概率,softmax分類器使用了相同的原理。其中θt是一個(gè)和輸出t有關(guān)的參數(shù),代表某個(gè)單詞和預(yù)測類別相符合的概率。損失函數(shù)就是softmax的損失函數(shù),如式(5-4):Ly通過不斷對(duì)模型進(jìn)行上述訓(xùn)練,最后可以獲得效果較好的參數(shù)矩陣,這就是需要使用的嵌入矩陣。除了跳字模型,Word2Vec還存在另一種模型:連續(xù)詞袋模型(CBOW,ContinuousBag-Of-WordsModel),該模型與跳字模型思路相反,通過獲取中間單詞兩邊的上下文,來預(yù)測中間的單詞。對(duì)于小型語料庫,連續(xù)詞袋模型訓(xùn)練效果較好。對(duì)于大型語料庫,應(yīng)用跳字模型可以取得更好的效果。本實(shí)驗(yàn)中將使用跳字模型進(jìn)行訓(xùn)練。1.1.3Word2Vec存在的問題由于Word2Vec對(duì)于單詞和生成的向量是單一映射的關(guān)系,所以其無法解決多義詞的問題。該方法是一種靜態(tài)的方式,雖然通用性很強(qiáng),但是無法針對(duì)特定任務(wù)進(jìn)行動(dòng)態(tài)優(yōu)化。另外,目前已經(jīng)有其他效果更好的訓(xùn)練方法出現(xiàn),想要達(dá)到最好的訓(xùn)練效果,可以不使用Word2Vec。1.1.4文本表示結(jié)果使用Word2Vec對(duì)4萬條垃圾廣告評(píng)論和4萬條正常評(píng)論構(gòu)成的訓(xùn)練集進(jìn)行分詞處理,限制單詞類型只能是中文單詞或英文單詞,刪除掉文本中的數(shù)字、符號(hào)等類型的詞,同時(shí)刪除掉長度為1的單詞,避免連詞、助詞、語氣詞等的干擾。訓(xùn)練結(jié)果如圖5-1所示:圖5-1分詞結(jié)果展示對(duì)于4萬條垃圾廣告評(píng)論和4萬條正常評(píng)論,經(jīng)過5輪迭代,刪除掉文本中不符合條件的單詞后,總共獲取了131663個(gè)有效詞,生成了一個(gè)131663行100列的嵌入矩陣。圖中rawwords代表總詞數(shù),effectivewords代表經(jīng)過處理后的有效詞數(shù)。部分分詞結(jié)果即對(duì)應(yīng)的向量化結(jié)果如圖所示:圖5-2部分分詞結(jié)果展示圖5-3部分單詞向量化結(jié)果展示圖5-4部分單詞向量化結(jié)果展示圖5-5部分單詞向量化結(jié)果展示1.2文本分類詞向量解決了文本表示的問題,接下來只需要使用深度學(xué)習(xí)網(wǎng)絡(luò)及其變體的文本分類模型解決自動(dòng)特征提取的問題。文本分類也是自然語言處理中的一個(gè)基本任務(wù),本文中主要對(duì)用戶評(píng)論進(jìn)行文本分類,判斷評(píng)論是否為垃圾廣告評(píng)論。本章中將使用目前較為流行的幾種文本分類方法進(jìn)行實(shí)驗(yàn)。1.2.1TextCNN原理2014年,YoonKim[27]針對(duì)CNN(卷積神經(jīng)網(wǎng)絡(luò),即ConvolutionalNeuralNetwork)的輸入層進(jìn)行了一些變形,提出了專門用來進(jìn)行文本分類的模型,即TextCNN[28]。在網(wǎng)絡(luò)結(jié)構(gòu)上,TextCNN并沒有任何變化,但是其只有一層卷積,一層Max-Pooling,最后將得到的輸出外接到SoftMax分類器上來進(jìn)行分類。CNN的輸入數(shù)據(jù)為圖像,圖像是二維數(shù)據(jù),其卷積核是通過從左到右、從上到下滑動(dòng)的方式來進(jìn)行特征提取的。但是TextCNN的輸入數(shù)據(jù)為自然語言,自然語言是一維數(shù)據(jù),盡管自然語言通過詞向量映射成了二維向量,但是對(duì)詞向量使用從左到右滑動(dòng)的方式來進(jìn)行卷積并沒有意義,例如某一個(gè)詞對(duì)應(yīng)的向量是[0,0,0,0,1],按照大小為1*2的窗口滑動(dòng)的方式求得的結(jié)果為[0,0],[0,0],[0,0],[0,1]這四個(gè)新的向量,該向量對(duì)應(yīng)的仍然是這個(gè)單詞,所以進(jìn)行這種滑動(dòng)的方式不存在意義。使用YoonKim對(duì)TextCNN的結(jié)構(gòu)描述,如圖5-6所示:圖5-6TextCNN的結(jié)構(gòu)在輸入層(embeddinglayer)中,TextCNN使用預(yù)先訓(xùn)練好的詞向量作為輸入。由于數(shù)據(jù)集中的所有單詞都可以分別表示為一個(gè)詞向量,因此可以獲得一個(gè)嵌入矩陣,這個(gè)矩陣的每一行都是一個(gè)詞向量,它可以是靜態(tài)的,即固定不變的矩陣,也可以是非靜態(tài)的,通過反向傳播進(jìn)行更新。在卷積池化層(convolutionandpooling)中,首先會(huì)對(duì)輸入的一個(gè)文本進(jìn)行切詞,然后對(duì)于獲得的每個(gè)單詞,通過上一層中獲得的嵌入矩陣獲得詞向量。假設(shè)獲得的單詞數(shù)量為n,且每一個(gè)詞向量具有d個(gè)維度,那么就可以使用一個(gè)n行d列的矩陣來表示這個(gè)文本。在池化層(pooling)中,不同尺寸的卷積核得到的特征(featuremap)的大小一般不同,因此需要對(duì)每一個(gè)特征使用池化函數(shù),使得這些特征的維度相同。通常情況下使用1-maxpooling,提取出特征最大的那個(gè)值。這樣每一個(gè)卷積核都可能得到一個(gè)特征值,對(duì)所有的卷積核使用1-maxpooling,再進(jìn)行級(jí)聯(lián),就可以得到最終的特征向量,然后將這個(gè)特征向量輸入分類器中進(jìn)行分類。YoonKim對(duì)于TextCNN的詳細(xì)過程描述如圖5-7所示:圖5-7TextCNN的運(yùn)行過程由上圖可知,TextCNN的整個(gè)運(yùn)行過程如下:(1)這里采用的詞向量維度為5,對(duì)于一句話,可以轉(zhuǎn)換成一個(gè)7行5列的矩陣。(2)TextCNN有6個(gè)卷積核,尺寸分別為2行5列,3行5列和4行5列,每個(gè)尺寸各有兩個(gè)。(3)用文本矩陣分別有6個(gè)卷積核進(jìn)行卷積計(jì)算,再使用激活函數(shù)進(jìn)行激活。這樣,每個(gè)卷積核都求得了一個(gè)特征向量。(4)使用1-maxpooling提取出每個(gè)計(jì)算出的特征向量的最大值,然后在級(jí)聯(lián)以求得最終的特征表達(dá)。(5)將最終的特征表達(dá)輸入softmaxlayer中進(jìn)行分類。TextCNN的網(wǎng)絡(luò)結(jié)構(gòu)十分簡單,其本身需要的參數(shù)較少,極大地減少了計(jì)算量,加快了模型訓(xùn)練速度。但是在max-pooling中丟失了文本的結(jié)構(gòu)關(guān)系,這使得文本中存在的語義信息和轉(zhuǎn)折關(guān)系無法表達(dá)。TextCNN只能知道某個(gè)關(guān)鍵詞在文本中是否出現(xiàn)過,以及不同關(guān)鍵詞之間是否相似,但無法獲得關(guān)鍵詞出現(xiàn)的次數(shù)和順序。1.2.2實(shí)驗(yàn)結(jié)果為了使TextCNN擁有比較好的識(shí)別效果,需要對(duì)其進(jìn)行參數(shù)配置,初始參數(shù)配置如圖5-8所示:圖5-8TextCNN的參數(shù)配置以該參數(shù)配置為初始狀態(tài),使用4萬條垃圾廣告評(píng)論和4萬條正常評(píng)論組成訓(xùn)練集,對(duì)模型進(jìn)行訓(xùn)練,之后使用8千條垃圾廣告評(píng)論和8千條正常評(píng)論組成測試集,對(duì)訓(xùn)練好的模型進(jìn)行測試,測試結(jié)果如圖5-9所示:圖5-9TextCNN測試結(jié)果對(duì)于該測試集,test_loss=0.11,test_acc=91.59%。其中對(duì)于正常評(píng)論檢測的精確率達(dá)到94.61%,召回率達(dá)到96.70%,對(duì)于垃圾廣告評(píng)論檢測的精確率達(dá)到96.63%,召回率達(dá)到94.49%??紤]垃圾廣告評(píng)論的特點(diǎn),其特征的表達(dá)程度、讀取的文本長度等都應(yīng)該對(duì)實(shí)驗(yàn)結(jié)果有不同程度的影響,因此需要繼續(xù)進(jìn)行分析和實(shí)驗(yàn)。詞向量維度是衡量單詞特征的一個(gè)重要指標(biāo),通常情況下,詞向量的維度越高,其對(duì)單詞特征的表達(dá)就越多,越能夠準(zhǔn)確地將不同單詞進(jìn)行區(qū)分。但是過高的詞向量維度會(huì)導(dǎo)致單詞之間的關(guān)系降低,并且對(duì)于單詞特征區(qū)分度的提高也不會(huì)太明顯。采用100、128和256三種詞向量維度,對(duì)垃圾廣告評(píng)論進(jìn)行分詞、訓(xùn)練和測試,結(jié)果如圖:圖5-10詞向量維度為100圖5-11詞向量維度為128圖5-12詞向量維度為256以垃圾廣告評(píng)論為正項(xiàng),以正常評(píng)論為負(fù)項(xiàng),整理以上數(shù)據(jù),結(jié)果如表5-1:表5-1不同詞向量維度測試結(jié)果對(duì)比詞向量維度TPTN準(zhǔn)確率精確率召回率1007559773691.59%96.63%94.49%1287523773891.38%96.63%94.04%2567472777391.28%97.05%93.40%隨著詞向量維度的提高,TextCNN對(duì)于垃圾廣告評(píng)論的識(shí)別效果逐漸下降,對(duì)于正常評(píng)論的識(shí)別效果逐漸提高。導(dǎo)致這種情況的原因,一方面是垃圾廣告評(píng)論較為簡短,分詞后產(chǎn)生的單詞數(shù)量少于正常評(píng)論,過高的詞向量維度可以表現(xiàn)出語義的復(fù)雜度,對(duì)正常評(píng)論的單詞進(jìn)行更好的區(qū)分,因此提高了正常評(píng)論識(shí)別的精度;另一方面,垃圾廣告評(píng)論的單詞之間可能存在一定的關(guān)系,過高的詞向量維度淡化了這種關(guān)系,使得對(duì)于垃圾廣告評(píng)論的識(shí)別效果下降。所以,在當(dāng)前訓(xùn)練集和測試集上,詞向量維度為100已經(jīng)可以滿足要求。之后的實(shí)驗(yàn)中,將固定詞向量維度為100。序列長度決定了文本的長度上限,考慮序列長度對(duì)于實(shí)驗(yàn)的影響,當(dāng)文本的長度大于序列長度時(shí),會(huì)被裁剪到相同長度,這可能會(huì)丟失部分關(guān)鍵信息;當(dāng)文本的長度小于序列長度,會(huì)被補(bǔ)充到相同長度,這可能會(huì)淡化部分關(guān)鍵信息。因此,保持其他參數(shù)不變,分別設(shè)定序列長度為10、20、30、40和50進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如圖:圖5-13序列長度為10圖5-14序列長度為20圖5-15序列長度為30圖5-16序列長度為40圖5-17序列長度為50對(duì)以上測試結(jié)果進(jìn)行匯總,如表5-2:表5-2不同序列長度測試結(jié)果對(duì)比序列長度TPTN準(zhǔn)確率精確率召回率107535774891.52%96.76%94.19%207548771791.41%96.39%94.35%307564773091.59%96.55%94.55%407559773691.59%96.63%94.49%507502779591.61%97.34%93.77%由上表分析可知,當(dāng)序列長度規(guī)定為從10到30時(shí),對(duì)于垃圾廣告評(píng)論識(shí)別的準(zhǔn)確率逐漸提升,當(dāng)序列長度超過30時(shí),垃圾廣告評(píng)論識(shí)別的準(zhǔn)確率逐漸下降。對(duì)于正常評(píng)論識(shí)別的準(zhǔn)確率,基本上呈逐漸上升趨勢。這是由于垃圾廣告評(píng)論大多是短文本,需要使用簡短的語句快速表達(dá)出重要的信息,結(jié)合章節(jié)二中對(duì)于垃圾廣告評(píng)論長度占比的統(tǒng)計(jì),證明垃圾廣告評(píng)論的長度大多在20到30之間,因此設(shè)定序列長度為30可以獲得對(duì)垃圾廣告評(píng)論較好的檢測效果。而正常評(píng)論通常需要表達(dá)出發(fā)言人的主題、觀點(diǎn)和情感,因此篇幅一般比垃圾廣告評(píng)論長,所以隨著序列長度的

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會(huì)有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲(chǔ)空間,僅對(duì)用戶上傳內(nèi)容的表現(xiàn)方式做保護(hù)處理,對(duì)用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對(duì)任何下載內(nèi)容負(fù)責(zé)。
  • 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時(shí)也不承擔(dān)用戶因使用這些下載資源對(duì)自己和他人造成任何形式的傷害或損失。

評(píng)論

0/150

提交評(píng)論