【《基于機器學習的中文文本分類分析》10000字】_第1頁
【《基于機器學習的中文文本分類分析》10000字】_第2頁
【《基于機器學習的中文文本分類分析》10000字】_第3頁
【《基于機器學習的中文文本分類分析》10000字】_第4頁
【《基于機器學習的中文文本分類分析》10000字】_第5頁
已閱讀5頁,還剩21頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認領(lǐng)

文檔簡介

基于機器學習的中文文本分類研究摘要隨著互聯(lián)網(wǎng)的普及和迅速發(fā)展,網(wǎng)絡(luò)上出現(xiàn)了海量的中文文本文件,如何對大量的中文文本進行自動分類變得越來越重要。本文通過對常用的文本分類技術(shù)進行分析,在樸素貝葉斯算法的基礎(chǔ)上進行拓展,建立了基于貝葉斯算法的中文文本分類模型,即中文文本分類和簡單的情感分析進行緊密的結(jié)合,同時通過引入語料庫提供數(shù)據(jù)作為實驗文本樣本,加入了文本空間向量和TF-IDF權(quán)值計算,將這個文本中比較有鮮明特色的詞形成空間向量并計算向量之間的差距,改善模型的性能。使公安機關(guān)應(yīng)用大數(shù)據(jù)展開信息提取過程中,一方面減少工作復(fù)雜程度,節(jié)省其分類時間,另一方面提高信息提取的工作效率。關(guān)鍵詞:文本分類;文本向量;語料庫;貝葉斯算法;分類模型 目錄1引言 引言1.1研究背景隨著互聯(lián)網(wǎng)大時代的迅速發(fā)展,尤其是網(wǎng)絡(luò)在全球的普及,特別是中文全球性的發(fā)展、呈噴涌式增長的文本信息。面對大量的文本信息,出現(xiàn)了部分文本雜亂無章、無序等問題,所以人們開始研究智能化信息處理,其中文本分類是其重要的基礎(chǔ),而中文文本又是其中最重要的文本分類之一。為了更加高效的實現(xiàn)中文文本分類,如何利用機器實現(xiàn)中文文本的自動分類得到了人們的高度關(guān)注,有研究表明機器學習是解決中文文本分類問題較為理想的辦法。選擇對文本分類算法進行研究,可以通過分類提高對數(shù)據(jù)的分析和應(yīng)用效率等。目前,隨著人工智能的迅猛發(fā)展,文本分類在多個領(lǐng)域取得了巨大的成就,比如中文文本研究,文本處理等。因此這項研究能更加清晰高效的實現(xiàn)預(yù)期目標。1.2研究目的及研究意義在信息高速發(fā)展的時代,人們每天都會在網(wǎng)絡(luò)中面對海量的信息,如何高效率、準確的獲取自身所需要的相關(guān)信息顯得十分重要,所以中文文本分類技術(shù)無疑會為人們的工作、生活帶來極大的便利,利用文本分類算法在軟件中實現(xiàn)文本的自動分類,極大的提升了信息處理的效率,這正是基于機器學習的中文文本分類的研究意義所在。在公安工作中中文文本的分類尤為重要,例如,我們將警察根據(jù)辦案種類和職能進行分類,例如按照辦案職能分為刑偵、技偵、經(jīng)偵等,按照案件種類也可以分為殺人、搶劫、詐騙、盜竊等,可以大幅度的提高警察搜索內(nèi)容的速度,也可以對一些數(shù)據(jù)進行系統(tǒng)的分類、整理,讓其他使用者在查詢時更加方便、清晰,從而使工作更加高效、事半功倍。1.3國內(nèi)外研究現(xiàn)狀國內(nèi)對于語言文本形式分類的理論研究起步較慢,這主要是采用中文語言文本的形式分類處理方法主要相對于用英文語言文本的形式分類來說,步驟更加復(fù)雜。國內(nèi)許多相關(guān)專家學者也開始紛紛加強對于此類文本合理分類的研究。1995年,漢語未來語料自動識別分類處理系統(tǒng)被創(chuàng)立[1],它在自動分類系統(tǒng)基礎(chǔ)上主要根據(jù)不同語料之間的內(nèi)在相關(guān)性和作用系數(shù),搭配其所需要使用的漢語字頻、詞頻及常見的動詞搭配,使用不同的詞語停用和動詞表示的方式一并去掉非漢語特征詞,兩種方式對未來自動進行不同語言詞和文本的自動分類。中文的文本句子與英文不同,沒有明顯的空格分隔符,在我們開始進行一個文本的分類時就可能需要先對兩個文本中的詞句之間進行一次性的預(yù)處理,直至我們得到一個逐字化的單詞后才能夠真正開始進行文本分類。2019年由中科院計算所的李曉黎及史忠植研發(fā)的超文本信息分類處理系統(tǒng)的分析精度和處理準確率都可以達到較高質(zhì)量的標準,利用協(xié)調(diào)推理分類網(wǎng)絡(luò)技術(shù)來直接進行超文本信息分類的處理操作:中科大范眾等十余人首先成功提出了超文本分類協(xié)調(diào)推理分類器,它與新的KNN[2]、貝葉斯算法[3]相互的結(jié)合,通過對于不同文本的信息相似性分析做出有效率的處理[4]。隨著機器深度學習,人工智能學習[5]的迅速深入發(fā)展,當下我們對除了中文以及文字以外文本信息進行完全自動化的編輯分類處理可以說已經(jīng)是逐漸變得比以往高效輕松。在很多高校和學術(shù)研究科學機構(gòu)中也都已經(jīng)建立了漢字實驗室,它專門從事各種漢字相關(guān)學術(shù)領(lǐng)域的科學研究,并且已經(jīng)取得了較傲人的學術(shù)成就。最早的國外研究始于20世紀50年代末,早期的文本分類主要有基于知識產(chǎn)權(quán)工程,即通過使用人工確定一些分類的標準和技術(shù)來對其中的文本內(nèi)容進行分類,這種方法既費時又耗力,同時還需要學者和專家對特定的領(lǐng)域具備充足的認識和了解,才能夠制定出適當?shù)姆诸愐?guī)則[6]。盧恩在這一研究領(lǐng)域首先就該問題進行了深入的理論研究,他將應(yīng)用語言文本詞頻分類計算這一理論思想融入到語言分類中,在這一時期,他主要從事的就是對語言分類計算理論的深入研究,并將其中的分類理論應(yīng)用于對文本信息的分類檢索[7],一年的時間便為我們的研究提出了很多非常新且經(jīng)典的對語言文本信息分類的應(yīng)用數(shù)學計算模型。例如賽爾頓就已經(jīng)提出了通過描述使用文字空間長度向量的一個模型[8]使它可以對一些文字符號進行精確描寫。20世紀80年代,這一技術(shù)發(fā)展于新階段的相關(guān)知識處理分類構(gòu)造儀器[9]主要原因是由于采用了比較傳統(tǒng)的相關(guān)知識處理分類構(gòu)造工程技術(shù),根據(jù)科學專家們所研究提供的相關(guān)知識分類規(guī)律而手動地對其進行分類構(gòu)造。同期,信息因子檢索分析技術(shù)的逐步成熟也給相關(guān)文本信息分類分析技術(shù)的不斷發(fā)展進步提供了許多新的科學技術(shù)基礎(chǔ)支撐,20世紀90年代后期,文本數(shù)據(jù)分類的理論研究與應(yīng)用發(fā)展也就開始被了解,隨著目前我國國內(nèi)大規(guī)模的大型電子文本行業(yè)數(shù)據(jù)分類資源的迅速涌現(xiàn)以及移動機器人以及深度人工學習的迅速深入發(fā)展,大規(guī)模的電子文本數(shù)據(jù)分類也已經(jīng)開始逐步被廣大的分類學者所重視與廣泛關(guān)注,在本世紀的今天,國外已經(jīng)相繼出現(xiàn)了由SSAS、KSEN等多家公司共同開發(fā)的各種大型電子商務(wù)數(shù)據(jù)挖掘處理軟件。目前國外基于云和機器深度學習的大型中文網(wǎng)絡(luò)文字庫和文本信息歸集與數(shù)據(jù)分類處理技術(shù)已相對成熟,對于中文網(wǎng)絡(luò)信息內(nèi)容的收集管理、監(jiān)測和用于過濾網(wǎng)絡(luò)有害信息的數(shù)據(jù)分析檢測技術(shù)也相對穩(wěn)定,文本自動分類研究階段也愈發(fā)成熟穩(wěn)定。2文本分類相關(guān)技術(shù)概述隨著時代的演變,基于機器學習[10]的中文文本分類方法多種多樣,分類的技術(shù)逐步成熟,下面筆者從機器學習的大框架逐步剖析了解文本分類的相關(guān)技術(shù)[11]。2.1文本分類過程整個訓練集對文本處理以及文本分類的全部過程大體工作流程圖詳細介紹出來,主要顯示內(nèi)容應(yīng)該包括一個訓練集對于一個文本的分類處理,對于被文本處理之后文本向量的一個文本降維,然后通過對整個訓練集中的文本測試集以及語料庫[12]的基本結(jié)構(gòu)設(shè)計進行了一次仿真,文本處理分類的整個流程具體如圖1。圖1文本分類過程2.2文本分類常用技術(shù)2.2.1KNN算法概述KNN算法(即K-鄰近算法),這是一種受歡迎的算法。通過找相鄰的點計算各點與判定對象點的距離,找出最近的點,判定對象點屬于該點的范疇。如圖2所示。圖2KNN臨近點KNN優(yōu)點之一就是模型非常容易被人們理解,不用通過過多的調(diào)整和操作,就可以獲得不錯的性能。構(gòu)建模型的速度一般很快,但是如果訓練集具體的預(yù)測率很大,可能就會比較緩慢。使用該算法時,對于數(shù)據(jù)集和特征進行先期的預(yù)處理也是很重要的,這一算法對于具有很多特征的數(shù)據(jù)集效果往往不是很好,對于大多數(shù)具有特征的數(shù)據(jù)集來說,這一算法的效果也不佳[13]。2.2.2支持向量機分類器SVM算法,即一種支持向量機[14]的算法,由于該算法需要使用空間矢量或空間超平面,因此在處理測量相對較大的矢量機時可能更有效。缺點就是對于大規(guī)模培訓樣品的難度很高,解決多分類問題也存在著困難。2.2.3決策樹分類器決策樹分類器[15]并沒有在技術(shù)上簡單地了解任何一個領(lǐng)域的認識,也沒有必須進行任何參數(shù)配置,所以它尤其適宜于探究性的知識開掘。此外,這個分類器還能夠?qū)崟r地處理高維的數(shù)據(jù),而且所采用的方法就是一種類似于樹這樣的形式,也特別直觀及易于人們理解。所以決策樹已經(jīng)成為許多領(lǐng)域獲取數(shù)據(jù)的重要依據(jù)。其缺點是不穩(wěn)定,當值發(fā)生變化時,決策樹就會相應(yīng)的發(fā)生改變,此外也并不適用很多不相關(guān)的變量。2.2.4貝葉斯分類器貝葉斯分類器[16]是概率最小、規(guī)定價格下平均風險最小的分類器,利用貝葉斯公式分類可以直接計算出來得出其后期先驗的最大概率,選取一個對象具有最大后期先驗函數(shù)概率的小分類可用來直接組成該一類中的對象對其所屬的先驗概率的分類,優(yōu)點是支持增量式訓練,分類器相對簡單。缺點是無法處理變化結(jié)果。2.3文本分類的應(yīng)用領(lǐng)域2.3.1互聯(lián)網(wǎng)應(yīng)用把對搜索文本的進行分類,通過統(tǒng)計分析系統(tǒng)進行綜合整理起來例如放在網(wǎng)絡(luò)搜索結(jié)果引擎之類,可以極大地提高了網(wǎng)絡(luò)搜索的工作效率和搜索準確性,目前大部分的網(wǎng)絡(luò)搜索引擎都做的是通過對需要查找的一些關(guān)鍵詞文本進行了分類匹配,這樣搜索的結(jié)果準確性和搜索速度都不是那么高,速度等方面因為都是需要遍歷很多的一篇文章,速度快的也并非非常迅捷。例如我們使用了一個全新引入的目標文本內(nèi)容分類查詢系統(tǒng)[17],當我們發(fā)現(xiàn)需要自動查詢一個目標關(guān)鍵詞的內(nèi)容時候,可以自動直接判定一個與之密切關(guān)系相關(guān)的目標文件內(nèi)容類別,基于對文件內(nèi)容分類進行的自動查詢,可以直接將一個目標文件命中,查詢的執(zhí)行速度和查詢準確率都已經(jīng)能夠在我們實際操作中能夠得到有極大的改善。2.3.2網(wǎng)絡(luò)圖書館應(yīng)用書可以使人類走向文明,走向進步。一個國家圖書館擁有大量的館藏圖書信息涉及成千上萬的資源,如果我們沒能將其有效的將其分門別類,大量圖書便可能變得雜亂無章,我們浪費了圖書館工作人員大量的精力來對其內(nèi)容進行分類,以及內(nèi)容的搜索收集整理和進行查詢,所以我們不僅可以通過分類系統(tǒng)使電子文本圖書進行合理的分類,還通過搜索引擎工具來快速實現(xiàn)對各種電子圖書分類信息的分門別類,更加方便的進行圖書管理[18],也使得圖書信息的分類查詢清晰化。2.3.3網(wǎng)絡(luò)安全層面在平時的公安工作中,除了傳統(tǒng)的偵查技術(shù)。例如:技術(shù)偵查、經(jīng)濟偵查,網(wǎng)絡(luò)安全管理也方興未艾,逐步成為了新型犯罪的主戰(zhàn)場。隨著移動互聯(lián)網(wǎng)的快速發(fā)展和不斷普及,人們的隱私信息越來越透明,有些網(wǎng)絡(luò)泄露人們大量的信息,直接的影響到互聯(lián)網(wǎng)用戶在網(wǎng)絡(luò)上的安全,除了威脅用戶的安全,各種各樣雜亂的信息也充斥著網(wǎng)絡(luò),如果把這些文本信息分類搜索引擎文本導出連接到用于綠色用戶上網(wǎng)的文本功能中,對于綠色用戶一些需要經(jīng)常訪問的文本內(nèi)容事先對它做出文本分析,去除其中無用的一些垃圾文本信息,就已經(jīng)完全可以給綠色用戶上網(wǎng)提供許多方便,相信其上網(wǎng)效果一定會再上一個新的高度。3基于貝葉斯算法的中文文本分類模型本章對基于機器學習的特征分析進行了研究,設(shè)計出基于貝葉斯算法的中文文本分類模型,該模型正是針對一些內(nèi)容復(fù)雜的中文文本,尤其是針對既想要將文本進行分類,又想要在此基礎(chǔ)上對文本內(nèi)容是否危險進行分析,使公安工作中對文本進行分類時,還能夠?qū)ζ湮kU性的內(nèi)容加以掌握,使得公安工作者在工作中可以提高效率,也可以在第一時間掌握該信息的大體內(nèi)容與方向。3.1語料庫3.1.1文本分類語料庫介紹語料庫指經(jīng)科學取樣和加工的大規(guī)模電子文本庫,其中存放的是在語言的實際使用中真實出現(xiàn)過的語言材料。比較常見的語料庫有復(fù)旦大學語料庫如圖3所示、今日頭條標題數(shù)據(jù)、搜狐新聞數(shù)據(jù)、搜狗實驗室等。在實驗過程中都是隨機選取其中的文章進行試驗,沒有外界因素的打擾,所以隨機性的結(jié)果可以得到保證。圖3復(fù)旦大學語料庫3.1.2文本分類的主要步驟(1)定義類別集合W={W1,W2,···Wm},如果本語料庫共有8個類別,則m的值為8。(2)文本集合Wm={S1,S2,······Sn},Sn表示某個類別中的一個文章,各文章Sn分別有所屬的類別Wm,例如Sn為計算機類時,相應(yīng)的就存在了標識。(3)處理訓練集中的所有中文文本并建立空間文本向量,根據(jù)該特征向量及其文本所屬類別,這樣就形成了分類器。3.2文本向量空間的形成3.2.1詞典詞典是Python編程語言中十分重要的內(nèi)置數(shù)據(jù)類型,它把文本通過映射轉(zhuǎn)換成對應(yīng)數(shù)值,便于實驗的運算分析。由于本研究需通過對中文文本進行結(jié)構(gòu)化分析,所用數(shù)據(jù)集大多是中文字符,因此不僅需要有相應(yīng)數(shù)據(jù)集作為支撐,還需要通過數(shù)據(jù)集分析得到相應(yīng)的詞典展開進一步實驗,提高模型魯棒性需要有效的數(shù)據(jù)集。通過Jieba庫把案件文本分詞后,由于數(shù)據(jù)集文本采用的編碼是中文編碼,但所需詞典將分詞結(jié)果的是UTF-8編碼,需要將所有的中文結(jié)果轉(zhuǎn)換成UTF-8編碼后進研究,每當我們在工作中遇到新詞題時,詞典的總長度會增加,正是因為詞典的加入,每當網(wǎng)站上出現(xiàn)新詞時,將網(wǎng)站中的新詞爬取分類后,通過上述算法加入到詞典中就能夠解決相應(yīng)問題,由于Jieba庫中只有通識性的詞典,無法高效的判斷出公安案件,故根據(jù)公安工作中往年的案件,將案件中的關(guān)鍵詞進行提取,將其加入到具有公安特色的詞典中。因此綜上所述,根據(jù)公安工作中的特殊專業(yè)詞匯建立具有公安特色的詞典,其中包含了代表此類案件性質(zhì)特征的詞匯如圖4所示,給實驗研究的詞典撞庫帶來高準確率和整體系統(tǒng)的魯棒性。圖4公安特色詞典3.2.2VSMVSM稱為向量空間模型,即根據(jù)單詞在文本中出現(xiàn)的頻率,將文本圖像轉(zhuǎn)換為長度向量,詞匯中的單詞和矢量的總大小相同。因此,計算機不理解的文本被轉(zhuǎn)換為計算機熟悉的矢量形式。然后,通過比較矢量間的相似性,或者分析識別矢量間的差異來進行分類。最后,文章轉(zhuǎn)換為向量空間的一個點,兩個文檔之間的相似性問題轉(zhuǎn)變成了兩個向量之間的相似性問題。3.2.3權(quán)值計算方法TF-IDF是統(tǒng)計方法的一種,越能被該詞證明,表示權(quán)值越高,相反權(quán)值越低,越不能被表示,用這種方法來評估一個詞的重要性。詞數(shù)和反文檔頻率的大致想法是,一個單詞與這篇文章的重要性和在本文中出現(xiàn)的頻率成正比,如果語料庫整體出現(xiàn)的次數(shù)過多,該單詞的表達作用就會成反比降低。TF(詞頻)計算見公式(3.1):TFi這里,Mi表示某詞首次出現(xiàn)的次數(shù),Q表示句中出現(xiàn)的總詞數(shù),同一詞第二次出現(xiàn)時Q不重疊。舉例:在一篇公安報道文章中如圖5所示,文中“槍”出現(xiàn)了9次,文章中總詞數(shù)一共是1000次,那“槍”這個詞的詞頻就為:TF=9/1000=0.9%圖5案例文本IDF(反文檔頻率)計算見公式(3.2):IDFi其中,D表示語料庫的文章總數(shù),S表示D所含單詞的文章件數(shù)。在總語料庫中,文章中含有槍的出現(xiàn)了10次,文章總數(shù)為1000,那么槍這個詞的反文檔頻率為:IDF=lg(1000/10)=3。TF-IDF最后得到i的權(quán)值公式見公式(3.3):wi=T舉例:綜上所述,那么槍這個詞,在語料庫中的權(quán)值為:TF*IDF=0.006*3=0.018TF-IDF計算權(quán)值的優(yōu)點:相比較而言如果不使用該計算方法,比如說“國家的槍”這句短語,對其進行分詞“國家”、“的”、“槍”這三個分詞出現(xiàn)了6次、100次和3次,如果說內(nèi)容中有一千個詞,最終這三個分詞的值分別為:0.006,0.100,0.003。由此可得,“的”這個詞的值顯然很大,它的總貢獻度為0.109,但是“的”在內(nèi)容的比例非常的高,但是看到這個詞并不能很好的初步了解這個文章。相反而言,國家與槍這兩個詞基本能對內(nèi)容起到一個很好的表達,但是所占的比例卻相當?shù)男?。于是,IDF引入至關(guān)重要,上述的問題就能得完美的解決:還是以“國家”、“的”、“槍”為例,控制變量讓這三個詞出現(xiàn)次數(shù)跟上面的一模一樣。有關(guān)的文本為:含有“國家”的值為102,含有“的”的值為105,含有“槍”的值為103將數(shù)值代入公式。這樣計算,得出的結(jié)果“的”的權(quán)值為0,“國家”和“槍”分別占了0.018和0.006,這種結(jié)果與上述猜想的內(nèi)容一致。3.3基于貝葉斯算法的中文文本分類模型基于貝葉斯分類器,采用貝葉斯算法是該模型的設(shè)計思路,首先找到一個帶有大量中文文本的語料庫,進行數(shù)據(jù)的加載,并利用中文文本中形成其文本向量空間,對其語料庫的訓練集中陌生的詞語進行收集加載并生成詞典,增加機器學習的容量,然后通過TF-IDF計算權(quán)重,生成詞頻向量來提高該中文文本分類的可塑性與正確性,最后在中文文本分類的基礎(chǔ)上對其文本進行簡單的情感分析,結(jié)合公安工作,對正?;蛭kU內(nèi)容進行判斷,提高公安工作者的工作效率。3.3.1貝葉斯算法原理英國數(shù)學家貝葉斯提出了表示兩個條件概率之間的關(guān)系,P(A|B)和P(B|A)。按照乘法法則見公式(3.4):P(A∩B)=P(A)*P(B|A)=P(B)*P(A|B)公式(3.4)可以導出貝葉斯定理見公式(3.5):P(A|B)=P(B|A)*P(A)/P(B)公式(3.5)如上公式也可變形見公式(3.6):P(B|A)=P(A|B)*P(B)/P(A)公式(3.6)3.3.2基于貝葉斯與情感分析結(jié)合分類器樸素貝葉斯分類的步驟:設(shè)x={a1,a2,...,am}為待分類項,每個a為x的屬性特征。類別集合C={y1,y2,...,yn}.計算P(y1|x),P(y2|x),...,P(yn|x)。如果P(yk|x)=max{P(y1|x),P(y2|x)P(yn|x)},則x∈yk。在將中文文本按樸素貝葉斯分類器分類后,在該分類器的基礎(chǔ)上進行簡單的情感分析,即在大量中文文本中具有錯綜復(fù)雜、多種多樣的特點,例如按照公安案件的種類進行分類,文本內(nèi)容除了公安案件可能還會存在一些與其無關(guān)的文本,機器學習通過分類會將這些無關(guān)樣本分到其他類中,但其他類文本中就可能存在正常的文本內(nèi)容和存在危險情況的內(nèi)容,所以通過簡單的情感分析可以進行進一步的細化,也可以更好的判斷出文本內(nèi)容的性質(zhì)。如果一個中文文本其內(nèi)容具有搶劫、錢、槍等危險的特征,則這個中文文本就會被認定為危險,以此來判定該文本內(nèi)容是否為危險內(nèi)容或者是正常內(nèi)容。3.3.3分類器總結(jié)通過上述內(nèi)容,原則上來說是通過對多種分類器的對比,比較它們的優(yōu)點和缺點,最終比較確定了該模型的建立,但是只改進單一的分類器又顯得過于單薄,使它在應(yīng)用于各個領(lǐng)域中略顯無力,最終應(yīng)用到實踐中并不能很好的解決問題,所以我的思路轉(zhuǎn)移到另一個方向,也就是將兩類分析的技術(shù)進行結(jié)合,讓一加一達到大于二的成效,于是進行分類后我們得知道先驗的概率,精準度將被大幅度提高,通過實驗的結(jié)果調(diào)整來改變其中的各項參數(shù)。在最后提交一個新型文本的分析過程中由于樸素貝葉斯分類,并且不能真正準確地進行判斷并給出這個新文本屬類,容易導致分析不精準,即使再用新的分析方式,雖然大大降低了錯誤的發(fā)生概率,但最終由于各個分類方法的加入也很容易會出現(xiàn)錯誤。所以思路是先對上述的中文文本進行合理的分門別類,在大體上將其細化,讓其他使用者一目了然,從而使得工作的效率使其事半功倍。其次在通過簡單的情感分析來判斷該內(nèi)容或者文本的危險性,這樣可以通過一個模型的設(shè)計達到兩項工作的同時進行。跟公安工作相結(jié)合后,可以使公安工作者在處理繁雜的事務(wù)中可以得到些許的緩解??梢詾樗麄兊木o張工作貢獻自己的綿薄之力。4文本分類實驗驗證根據(jù)上述設(shè)計的模型,其理論性的內(nèi)容已經(jīng)初步形成。為了驗證上述模型的可行性以及合理性,充分進行了思考并設(shè)計相關(guān)的實驗,來完成上述模型的建立,大致的實驗思路如圖6所示。圖6實驗思路4.1中文文本分類實驗4.1.1實驗文本的采集本次實驗準備選用復(fù)旦大學語料庫的內(nèi)容,但內(nèi)容與公安工作無關(guān),所以在復(fù)旦大學語料庫框架基礎(chǔ)上根據(jù)公安案件信息搭建了結(jié)合公安工作的語料庫(split語料庫)如圖7所示,按照公安工作的案件性質(zhì)分類如圖8所示。作為本次實驗的文本樣本,該語料庫分為訓練集和測試集,其中訓練集9803篇,測試集9301篇,語料庫根據(jù)日常公安工作案件性質(zhì)分為殺人、強奸、盜竊、搶劫、詐騙和其他六類。圖7split語料庫 圖8split語料庫4.1.2數(shù)據(jù)加載在進行split語料庫中測試集數(shù)據(jù)的分類之前首先要將該語料庫中的訓練集中的所有文本進行加載。如圖9所示,該文本屬于訓練集中眾多文本之一。圖9數(shù)據(jù)加載4.1.3實驗環(huán)境搭建本實驗采用jieba分詞庫、numpy庫、sklearn機器學習庫、TfidfTransformerTF-IDF向量轉(zhuǎn)換類、TfidfVectorizerTF_IDF向量生成類、MultinomialNB多項式貝葉斯算法,來進行實驗環(huán)境的搭建,如圖10所示。圖10實驗環(huán)境搭建4.1.4生成分詞并導入公安特色詞典中文分詞指的是將一個漢字字序切分成一個個獨立的詞。我們知道英文中單詞之間是以空格作為自然分界符的,而中文只是字、句段能通過分界符來簡單劃界,唯獨詞沒有一個形式上的分界符。中文分詞不僅是中文文本分類的一大問題,也是中文自然語言處理的核心問題之一。所以引入segText函數(shù)是用于讀出分詞結(jié)果。1.獲取主目錄路徑,然后遍歷主目錄中各個文件夾;2.保存主目錄中每個文件夾目錄,便于遍歷二級文件;3.將分詞結(jié)果文件存入的目錄,獲取每個文件夾中的各個文件;4.for循環(huán)遍歷每個文件夾中的子文件,獲得每個文件路徑。5.調(diào)用上面函數(shù)讀取內(nèi)容,采用默認方式分詞,分詞結(jié)果用空格隔開,最后調(diào)用上面函數(shù)保存文件,如圖11所示。將一段中文文本信息如圖12所示,按照上述方法進行分詞,分詞結(jié)果如圖13所示。將分詞后的中文文本,通過算法生成公安案件的詞典,把已經(jīng)通過jieba分詞后的數(shù)據(jù)集關(guān)鍵詞與詞典進行對比驗證,生成具有公安特色的詞典,并與之比對識別出關(guān)鍵詞詞云如圖14所示。圖11運用segText函數(shù)圖12分詞前文本狀態(tài)圖13jieba分詞后文本狀態(tài)圖14關(guān)鍵詞詞云4.1.5生成詞頻向量運用bunchSave函數(shù)用于輸出分詞向量:獲取主目錄路徑,并將類別保存到Bunch對象中;遍歷主目錄中各個文件夾,再遍歷二級目錄中的每個子文件;對文件進行分類標簽并保存當前文件的路徑及文件詞向量如圖15所示。圖15輸出分詞向量4.1.6貝葉斯預(yù)測種類運用bayesAlgorithm函數(shù)用于貝葉斯預(yù)測種類:調(diào)用readBunch函數(shù)將file中的對象序列化讀出;調(diào)用MultinomialNB類,其中alpha越小,迭代次數(shù)越多,精度越高,設(shè)置alpha的值為0.001接著對bat文件進行處理,調(diào)用saveFile函數(shù)保存矩陣形式的train_set.txt,文本形式的train_set.txt,如圖16所示。圖16結(jié)果輸出輸入訓練集:segText函數(shù)用來讀入數(shù)據(jù),讀入分詞結(jié)果;bunchSave函數(shù)用來讀入分詞結(jié)果,輸出分詞向量;stopWordList為停用詞表;getTFIDFMat函數(shù)用來讀入分詞的詞向量,獲取停用詞表,idf詞頻空間向量的dat文件,輸出詞頻信息txt文件,輸出詞頻矩陣txt文件,輸出單詞txt文件,如圖17所示。圖17輸入訓練集最后執(zhí)行clf.predict(testSet.tdm)對文本進行預(yù)測,然后輸出預(yù)測的結(jié)果,并計算預(yù)測的錯誤率,預(yù)測結(jié)果如圖18所示,預(yù)測錯誤率為9%。圖18訓練集預(yù)測結(jié)果4.1.7輸入測試集其中segText函數(shù),bunchSave函數(shù)與輸入訓練集時調(diào)用的函數(shù)一樣,增加了getTestSpace函數(shù)用于構(gòu)建測試集TF-IDF向量空間,bayesAlgorithm函數(shù)用于貝葉斯預(yù)測種類,如圖19所示。圖19輸入測試集4.2實驗結(jié)果針對以上實驗,最終將語料庫訓練集中的文本樣本進行分類,得出預(yù)測類別,與訓練集中的實際類別比較建立訓練庫模型,檢測結(jié)果中錯誤率為9%。其次根據(jù)實驗方案將語料庫測試集中待檢測的樣本txt文件導入該模型運行實驗程序,得出相應(yīng)的分類結(jié)果如圖20所示。最后對檢測的文本內(nèi)容進行簡單的情感分析,分析其是否具有危險性,分析結(jié)果如圖21所示。圖20測試集分類結(jié)果圖21簡單情感分析結(jié)果4.3結(jié)果分析本實驗以復(fù)旦大學語料庫的架構(gòu)作為基礎(chǔ),結(jié)合公安案件搭建split語料庫,并按照公安案件性質(zhì)進行分類,同時搭建基于貝葉斯算法的中文文本分類模型,進行實驗驗證后,發(fā)現(xiàn)可以將其進行有效的文本分類,同時輸出的結(jié)果可以了解到文本內(nèi)容的危險性,對其進行簡單的情感分析,最終可以通過機器學習以實現(xiàn)文本分類,可以有效實現(xiàn)基于貝葉斯算法的中文文本分類模型進行文本結(jié)果的分類設(shè)計。從而有效的通過機器學習將中文文本進行高效而又系統(tǒng)的分類,特別是使公安工作在面對大量中文文本時,可以通過機器學習的形式高效率的進行分類,加強了公安工作的準確性,高效性,精準性。本章從貝葉斯算法著手并基于該算法進行了結(jié)合與改進,通過不同測試,最后對結(jié)果、數(shù)據(jù)都進行了統(tǒng)計和分析比較,各種變量對劃分別的作用和影響,這次實驗文本較少,結(jié)果也會有一定程度影響。說明仍然有許多問題,國內(nèi)基層公安文本分類技術(shù)尚未成熟,如果真正應(yīng)用必須努力研究和發(fā)現(xiàn)完善,任何完美的軟件、應(yīng)用都不是一次就能夠完美運行的,畢業(yè)設(shè)計也是如此。我們一定要不斷地進行完善,不斷地更新,做出最有利于公安工作的設(shè)計。使其更好地適應(yīng)那些擁有繁重工作的大型基層公安工作者的需求,同時也更好地適應(yīng)與之相對應(yīng)的市場需求。5結(jié)論在大數(shù)據(jù)呈現(xiàn)噴涌式爆發(fā)的背景下,中文作為使用人數(shù)較多的語言之一,中文文本也越來越多,如果仍然用人為分類會浪費大量的人力物力,運用機器學習可以在公安工作中對公安案件進行有效分類,本設(shè)計在樸素貝葉斯分類器的基礎(chǔ)上加以改進,通過中文文本進行分詞、自定義公安特色詞典、搭建基于貝葉斯算法的中文文本分類模型,希望能夠高效率的對中文文本進行分類并對其進行簡單的情感分析。針對當下的公安工作,機器學習對中文文本進行分類,讓公安對文本信息的把控,對案件性質(zhì)的研判有了初步快速的斷定提供幫助。雖然這次模型的建立并不是很完美,但是我認為我邁出了探索的第一步,千里之行始于足下,我相信在今后我們不斷地進行探索,可以挖掘出越來越多讓我們?nèi)祟愡M步的思想、技術(shù)。全球的發(fā)展看我們這代年輕人,我們更要加倍努力,作為預(yù)備警官在結(jié)合公安工作的基礎(chǔ)上,要讓常年忙碌在一線的民警們得以事半功倍的能力,讓他們在忙碌中得到一絲放松,也為公安工作的建設(shè)貢獻自己的一點綿薄之力。參考文獻吳軍,王作英,禹鋒,等.漢語語料的自動分類[J].中文

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
  • 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責。
  • 6. 下載文件中如有侵權(quán)或不適當內(nèi)容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論