【《基于傳統(tǒng)文本分類方法的垃圾廣告識別分析案例概述》5700字】_第1頁
【《基于傳統(tǒng)文本分類方法的垃圾廣告識別分析案例概述》5700字】_第2頁
【《基于傳統(tǒng)文本分類方法的垃圾廣告識別分析案例概述》5700字】_第3頁
【《基于傳統(tǒng)文本分類方法的垃圾廣告識別分析案例概述》5700字】_第4頁
【《基于傳統(tǒng)文本分類方法的垃圾廣告識別分析案例概述》5700字】_第5頁
已閱讀5頁,還剩5頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于傳統(tǒng)文本分類方法的垃圾廣告識別分析案例概述目錄TOC\o"1-3"\h\u30622基于傳統(tǒng)文本分類方法的垃圾廣告識別分析案例概述 1150661.1文本特征工程 1311.1.1文本預處理 147551.1.2特征提取 3181451.1.3文本表示 4285841.2分類器 4189921.2.1樸素貝葉斯算法 426061.2.2實驗結(jié)果 6文本分類問題是自然語言處理[16][17][18]領(lǐng)域中的一個十分經(jīng)典的問題,其相關(guān)研究最早可以追溯到20世紀50年代。伴隨著統(tǒng)計學習方法的發(fā)展,尤其是90年代后互聯(lián)網(wǎng)在線文本數(shù)量飛速增長和機器學習學科的快速興起,逐漸形成了一種解決大規(guī)模的文本分類問題的經(jīng)典思路,結(jié)合人工特征工程和淺層分類模型完成文本分類。本章節(jié)通過文本特征工程和分類器兩方面內(nèi)容,探討傳統(tǒng)文本分類方法在垃圾廣告識別[19][20]中的效果和作用。1.1文本特征工程通常來說,在機器學習中,特征工程[21]往往會消耗大量的時間和資源。在文本分類中,機器學習問題就是把文本轉(zhuǎn)換成向量,再通過向量進行識別的過程。特征工程就是把文本轉(zhuǎn)換成向量的過程,其轉(zhuǎn)換的結(jié)果決定了分類效果的上限。然而特征工程與分類器不同,它不具有很強的通用性,有時候需要結(jié)合對于自然語言領(lǐng)域特有的特征處理邏輯的理解進行工作,傳統(tǒng)文本分類方法[22]的大部分重點也在這里。文本特征工程一般分為文本預處理、特征提取、文本表示三個方面內(nèi)容,其最終目的是將文本轉(zhuǎn)換成計算機可以理解的格式,并封裝足夠可以用來進行文本分類的信息,即較強的特征表達能力。1.1.1文本預處理文本預處理是對文本提取關(guān)鍵詞來表示文本的過程,中文文本處理中一般包括分詞、去除停用詞兩個階段。之所以需要對文本進行分詞,是因為當特征粒度為詞粒度時效果遠好于字粒度;另一方面,由于大部分分類算法并不會去考慮次序信息,基于字粒度顯然會造成許多“n-gram”信息的丟失。而停止詞一般都是文本中高頻率出現(xiàn)的代詞、介詞、連詞、語氣詞等對于文本分類沒有意義的詞,所以通常情況下會維護一個停用詞表,在特征提取的過程中去除掉停用詞表中的詞。1)分詞采用目前比較流行的jieba庫進行分詞。jieba是支持Python的一種高性能、高準確率、可擴展性強的中文開源分詞包,其屬于概率語言模型分詞,即從全切分后得到的所有切分結(jié)果中,求一個切分方案S,使得P(S),即切分概率最大,計算公式如(4-1):PS其中PWi為Wi在分詞中,jieba會首先加載字典,生成一個trie樹。然后對于需要分詞的文本,使用正則來獲取連續(xù)的中文字符和英文字符。接著將文本切分成單詞列表,并且對每個單詞使用查字典和動態(tài)規(guī)劃的方式,求得最大概率路徑。對于沒有從字典中查到的單詞,組合成一個新的文本片段,使用HMM模型進行分詞,這一過程也稱作識別未錄用詞。最后,生成一個單詞列表,并返回每個單詞。jieba支持三種分詞模式,分別為精確模式(嘗試將文本最精確地切分,適用于文本分析)、全模式(將文本中所有可以組成的單詞全部掃描出來,處理速度較快,但是存在歧義的問題)和搜索引擎模式(在精確模式的基礎(chǔ)上,對長單詞再次切分,提高召回率)。三種分詞結(jié)果分別如圖:圖4-1精確模式分詞結(jié)果展示圖4-2全模式分詞結(jié)果展示圖4-3搜索引擎模式分詞結(jié)果展示如上圖所示,精確模式成功地拆分出了部分垃圾廣告評論的特征詞,具有一定的可信度;全模式盡管也可以成功地拆分出特征詞,但是更容易引入一些中性詞,可能會影響垃圾廣告評論識別的精確率;搜索引擎模式比較符合人們在網(wǎng)絡(luò)上的交流語序,這可能會對垃圾廣告評論識別起到一些積極作用。2)停用詞處理查找漢字詞性詞典,加入常用的標點符號,人工維護一個停用詞列表,刪除掉分詞中提取出的出現(xiàn)在停用詞列表中的單詞,分別對三種模式的分詞結(jié)果進行處理,部分處理結(jié)果如圖:圖4-4去除停用詞后的精確模式結(jié)果展示圖4-5去除停用詞后的全模式結(jié)果展示圖4-6去除停用詞后的搜索引擎模式結(jié)果展示如上圖所示,去除掉停用詞后,分詞結(jié)果少了符號、單個英文字母的干擾,提升了分詞效果,減少了無用的干擾項,使得分詞結(jié)果更為準確。1.1.2特征提取特征提取一般分為特征選擇和計算特征權(quán)重兩部分內(nèi)容。特征選擇的思想是根據(jù)某個特征評價指標對原始特征詞進行獨立的評分和排序,之后從中選擇一些得分較高的特征項,并過濾掉其他得分較低的特征項。常用的評價指標有文本頻率、信息增益、互信息等。特征權(quán)重的計算主要使用較為經(jīng)典的TF-IDF算法及其的擴展算法,主要思想是一個單詞的重要性與其在文本中出現(xiàn)的頻率成正比,與其在所有文本中出現(xiàn)的次數(shù)成反比。本次實驗中,采用TF-IDF的方法進行特征提取。1.1.3文本表示文本表示的主要目的是把文本特征轉(zhuǎn)換成計算機可以理解的方式,其決定了文本分類質(zhì)量的上限。傳統(tǒng)的文本表示方法經(jīng)常使用詞袋模型(BOW,BagOfWords)或者向量空間模型(VectorSpaceModel),但是會忽略單詞在文本中存在的上下文關(guān)系,使每個單詞之間彼此獨立,無法體現(xiàn)語義信息。本次實驗中,TF-IDF算法會對每一個文本中的每一個單詞對應詞匯表的索引處進行填值,對于詞匯表中存在的索引,使用TF-IDF值進行填充,詞匯表中沒有的索引,使用0進行填充。1.2分類器分類器基本上都采用了統(tǒng)計分類方法,分類過程中需要做的工作就是把每一條等待分類的項目劃分到對應的類別之中。一般情況下需要預先知道各個類別的信息,并且所有等待分類的項目都默認其擁有對應的類別。垃圾廣告評論識別是一個典型的二元文本分類問題,在本節(jié)中,將規(guī)定垃圾廣告評論為正項,正常用戶評論為負項,采用不同的分類器,對垃圾廣告評論和正常評論進行分類。1.2.1樸素貝葉斯算法樸素貝葉斯算法(Na?veBayes)是以貝葉斯定理為基礎(chǔ)、在貝葉斯分類中最簡單和常見的一種分類方法。貝葉斯分類是由ThomasBayes[23]提出的,他認為,一個事件發(fā)生的概率不應該僅僅由于其頻率決定,外界的其他因素有可能會對這種概率造成影響。頻率派認為,需要推斷的事件A是一個未知的固定常數(shù),即事件A發(fā)生的概率是未知的,但是一定是一個固定的值,同時樣本X的數(shù)量是隨機的,所以頻率派的研究重點是樣本空間,所有的概率計算都是圍繞樣本X的分布進行的。而貝葉斯派認為事件A是一個隨機變量,而樣本X的數(shù)量是固定的,他們的研究重點是事件A的分布。簡單來說,貝葉斯派既然將事件A作為一個隨機變量,那么想要計算事件A的分布,就必須提前知道事件A的無條件分布,即在事件A發(fā)生前,其不受任何其他干擾所發(fā)生的概率。這種在事件發(fā)生前決定的屬于前提條件的分布稱作先驗分布,也就是無條件分布。針對貝葉斯問題,貝葉斯派提出了解決方法的固定方式如(4-2):先驗分布π上述計算方法表示,已知的事件A的概率將隨著新得到的樣本信息X而改變。貝葉斯定理以此為基礎(chǔ),其公式表達如(4-3):P(B|A)=P其中P(B|A)代表條件概率,指事件B在事件A已經(jīng)發(fā)生了的情況下發(fā)生的概率。根據(jù)條件概率的定義,可以得出P(B|A)的計算方法如(4-4):P(B|A)=P其中PA∩B樸素貝葉斯算法對貝葉斯定理進行了一定的簡化,其預先假定給定目標值的屬性之間相互獨立,互不干擾。假定目前存在一個數(shù)據(jù)集ad,存在兩個特征值k1和k2,若要對文本T進行分類,則存在計算公式如(4-5):P(ad|T)=P其中P(ad|T)表示文本T屬于類別ad的概率,由于具有特征值k1和k2,因此PadT=P(ad|(k1,k2樸素貝葉斯算法假設(shè)多個特征之間不存在相互關(guān)系,無法互相影響,那么對PkPk在垃圾廣告評論識別方面,由于待分類的文本只有兩類,垃圾廣告評論和正常評論,記為ad和te,那么對于文本T的分類問題,就可以轉(zhuǎn)化為對P(ad|T)和P(te|T)兩個概率的求解,當PadT>P(te|T)樸素貝葉斯算法具有三種常用形式,分別為伯努利樸素貝葉斯、多項式樸素貝葉斯和高斯樸素貝葉斯。前兩種都適用于離散型數(shù)據(jù),但是對于先驗分布和條件概率的計算方法并不相同。伯努利樸素貝葉斯模型的特征變量為布爾型,符合0/1分布。它以一個文本為粒度,規(guī)定某個關(guān)鍵詞如果出現(xiàn)在文本中,即為1,反之則為0。而多項式樸素貝葉斯模型統(tǒng)計的是一個關(guān)鍵詞在文本中出現(xiàn)的次數(shù),若其在一個文本中出現(xiàn)的次數(shù)越多則越重要,在所有文本中出現(xiàn)的次數(shù)越多則重要性降低。高斯樸素貝葉斯模型適用于符合高斯分布的連續(xù)型數(shù)據(jù),其假定所有的特征在各個類別下都服從正態(tài)分布,使用正態(tài)分布的概率密度函數(shù)來計算概率。樸素貝葉斯算法有優(yōu)秀的數(shù)學理論支撐和穩(wěn)定的分類效果,對缺失的數(shù)據(jù)不敏感,在文本分類的問題中有很多應用。但是其預先設(shè)定的假設(shè)在實際分類中往往并不存在,當文本的特征詞個數(shù)較多時,有可能會對文本的語義進行一定的影響,這些特征詞具有的相互關(guān)系會被樸素貝葉斯算法忽略,因為導致精確率下降,同時由于該算法需要通過先驗分布和樣本信息來確定后驗分布,在分類決策方面可能會存在一定的錯誤率。1.2.2實驗結(jié)果使用4萬條垃圾廣告評論和4萬條正常評論組成訓練集,經(jīng)過jieba的三種分詞模式分詞后,分別對多項式樸素貝葉斯模型進行訓練,之后使用8千條垃圾廣告評論和8千條正常評論組成測試集,規(guī)定垃圾廣告評論為正項,正常評論為負項,測試結(jié)果如圖:圖4-7精確模式分類結(jié)果圖4-8全模式分類結(jié)果圖4-9搜索引擎模式分類結(jié)果對以上三種不同分詞模式的結(jié)果進行統(tǒng)計,統(tǒng)計結(jié)果如表4-1:表4-1測試結(jié)果對比分詞類型TPTN準確率精確率召回率精確模式7083781993.14%97.51%88.54%全模式7036774392.37%96.48%87.95%搜索引擎模式7088780893.10%97.36%88.60%根據(jù)上表中的信息,全模式分詞的整體效果都略差于其他兩種方式,這是由于全模式會提取出句子中所有可能組成的詞,引入了許多的干擾項,使得分類器錯誤地將本不屬于某個類別的特征詞誤認為是該類別的特征詞,降低了識別的準確率。與精確模式相比,搜索引擎模式對于垃圾廣告評論的識別效果有所提升,但是對于正常評論的識別效果略微下降。這是其對于精確模式中的長詞再次劃分導致的,對垃圾廣告評論中的長詞進行拆分仍然是垃圾廣告評論的特征詞,但是對于正常評論中的長詞進行拆分卻有可能產(chǎn)生原本屬于垃圾廣告評論的特征詞,對實驗結(jié)果造成影響。整體來看,精確模式具有較為穩(wěn)定的效果,搜索引擎模式在對垃圾廣告評論識別的方面優(yōu)于精確模式,但是容易對正常評論進行錯誤的分類,全模式的效果最差。但是三種分詞的方式對于垃圾廣告評論的識別效果都比對于正常評論的識別效果差,這一點的原因仍然需要進行實驗分析。之后的實驗中將采用搜索引擎模式進行分詞。在樸素貝葉斯模型的測試過程中,如果遇到的一個單詞在訓練的文本中沒有出現(xiàn)過,那么這個單詞的概率就是0。但是訓練集中的文本只是所有文本的一部分,無法窮盡所有情況,實驗中不能因為訓練集中不存在某個單詞,就認為該單詞出現(xiàn)的概率為0。為了解決這種問題,需要對該單詞進行平滑處理,樸素貝葉斯模型引入了平滑參數(shù)alpha來完成這個方式。樸素貝葉斯模型有兩種平滑處理方式,即Laplace平滑和Lidstone平滑。當alpha等于1時,即Laplace平滑,它會對所有的單詞次數(shù)加一,使用這種方式,當訓練的文本比較大時,增加的次數(shù)對概率的影響可以忽略不計,并且可以有效避免0概率的發(fā)生。當alpha大于0小于1時,即Lidstone平滑,它是前者的一種更普通的形式,但是它不會加一,而是增加一個小于1的正數(shù)。對于Lidstone來說,alpha的取值越小,其進行的迭代次數(shù)也就越多,結(jié)果的精度就越高,在實驗中,通常取alpha為0.001。使用兩種不同的平滑參數(shù)對于結(jié)果的影響如下:圖4-10Laplace平滑分類結(jié)果圖4-11Lidstone平滑分類結(jié)果對以上兩種不同平滑方式的結(jié)果進行統(tǒng)計,統(tǒng)計結(jié)果如表4-2:表4-2不同平滑方式結(jié)果對比平滑方式TPTN準確率精確率召回率Laplace平滑7284791091.96%98.78%91.05%Lidstone平滑7217783991.10%97.82%90.21%不使用平滑7088780893.10%97.36%88.60%對上表數(shù)據(jù)分析可知,無論使用哪一種平滑方式,最終結(jié)果都優(yōu)于不使用平滑。由于搜索引擎模式會對精確模式中的長詞進行切分,更容易產(chǎn)生沒有在訓練集中出現(xiàn)過的單詞,所以對模型使用平滑可以極大地提高測試的精度。與使用Lidstone平滑相比,使用Laplace平滑后,樸素貝葉斯模型對于垃圾廣告評論和正常評論識別的正確率都有了更多的提高,這可能是由于訓練樣本的數(shù)量不夠大導致的,對單詞出現(xiàn)的次數(shù)加1對識別結(jié)果有了較大的影響。實驗中,對于正確評論識別的準確率仍然高于對于垃圾廣告評論識別的準確率,因此需要對其進行繼續(xù)研究。之后的實驗將采用Lidstone進行平滑處理??紤]樸素貝葉斯模型常用的三種形式,分別對模型進行訓練和測試,最終結(jié)果如圖:圖4-12多項式樸素貝葉斯結(jié)果圖4-13伯努利樸素貝葉斯結(jié)果圖4-14高斯樸素貝葉斯結(jié)果統(tǒng)計以上三種形式對于分類結(jié)果的影響,如表4-3:表4

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論