版權(quán)說明:本文檔由用戶提供并上傳,收益歸屬內(nèi)容提供方,若內(nèi)容存在侵權(quán),請進行舉報或認(rèn)領(lǐng)
文檔簡介
1、畢業(yè)設(shè)計(論文)任務(wù)書 畢業(yè)設(shè)計(論文)題 目 中文文本分類算法的設(shè)計及其實現(xiàn) 電信 學(xué)院 計算機 系 84 班學(xué)生姓名 豐成平 學(xué) 號 指導(dǎo)教師 相明 設(shè)計所在單位 西安交通大學(xué)計算機系 2013 年 6 月系 ( 所 ) 計算機科學(xué)與技術(shù) 系 (所) 主任 批 準(zhǔn) 日 期 畢業(yè)設(shè)計(論文)任務(wù)書 電信學(xué) 院 計算機 系 84 班 學(xué)生 豐成平 畢業(yè)設(shè)計(論文)工作自 2013 年 2 月 21 日起至 2013 年 6 月 20 日止畢業(yè)設(shè)計(論文)進行地點: 西安交通大學(xué) 課題的背景、意義及培養(yǎng)目標(biāo) 隨著文本文件的增多,對其自動進行分門別類尤為重要。文本分類是指采用計算機程序?qū)ξ谋炯凑?/p>
2、一定的分類體系進行自動分類標(biāo)記。文本分類器 的設(shè)計通常包括文本的特征向量表示、文本特征向量的降維、以及文本分類器的設(shè)計與測試三個方面。本畢設(shè)論文研究文本分類器的設(shè)計與實現(xiàn)。通過該畢業(yè)設(shè)計,可使學(xué)生掌握文本分類器設(shè)計的基本原理及相關(guān)方法,并通過具體文本分類算法的設(shè)計與編程實現(xiàn),提高學(xué)生的實際編程能力。 設(shè)計(論文)的原始數(shù)據(jù)與資料 1、文本語料庫(分為訓(xùn)練集與測試集語料庫)。 2、關(guān)于文本分類的各種文獻(包括特征表示、特征降維、以及分類器設(shè)計)以及資料。 3、中科院文本分詞工具(nlpir)。 4、文本分類中需要用到的各種分類方法的資料描述。 課題的主要任務(wù) 1學(xué)習(xí)文本特征向量的構(gòu)建方法及常用的
3、降維方法。 2學(xué)習(xí)各種分類器的基本原理及其訓(xùn)練與測試方法。 3設(shè)計并編程實現(xiàn)文本分類器。 4、對試驗結(jié)果進行分析,得出各種結(jié)論。 5、撰寫畢業(yè)論文。 6、翻譯一篇關(guān)于文本分類的英文文獻。 課題的基本要求(工程設(shè)計類題應(yīng)有技術(shù)經(jīng)濟分析要求)1、程序可演示。 2、對源代碼進行注釋。 3、給出完整的設(shè)計文檔及測試文檔。 完成任務(wù)后提交的書面材料要求(圖紙規(guī)格、數(shù)量,論文字?jǐn)?shù),外文翻譯字?jǐn)?shù)等)1、提交畢業(yè)論文 2、提交設(shè)計和實現(xiàn)的系統(tǒng)軟件源程序及有關(guān)數(shù)據(jù) 3、提交外文資料翻譯的中文和原文資料 主要參考文獻:自然語言處理與信息檢索共享平臺:/?action-view
4、news-itemid-103Svm(支持向量機)算法:/zhenandaci/archive/2009/03/06/.html基于神經(jīng)網(wǎng)絡(luò)的中文文本分析(趙中原):/p-7.htmlTF-IDF的線性圖解:/blog-6014.html東南大學(xué)向量降維文獻:/p-6.html 指導(dǎo)教師 相明 接受設(shè)計(論文)任務(wù)日期 2013-02-212013-06-20 學(xué)生簽名: 西 安 交 通 大 學(xué)畢業(yè)設(shè)計(論文)考核評議書 院 系(專業(yè)) 班
5、級 指導(dǎo)教師對學(xué)生 所完成的課題為 的畢業(yè)設(shè)計(論文)進行的情況,完成的質(zhì)量及評分的意見: 指導(dǎo)教師 年 月 日 畢業(yè)設(shè)計(論文)評審意見書 評審意見: 評閱人 職稱 年 月 日 畢業(yè)設(shè)計(論文)答辯結(jié)果 院 系(專業(yè)) 畢業(yè)設(shè)計(論文)答辯組對學(xué)生 所完成的課題為 的畢業(yè)設(shè)計(論文)經(jīng)過答辯,其意見為 并確定成績?yōu)?畢業(yè)設(shè)計(論文)答辯組負責(zé)人 答辯組成員 年 月 日摘要論文題目:中文文本分類算法的設(shè)計及其實現(xiàn)學(xué)生姓名:豐成平指導(dǎo)教師:相明 摘要隨著當(dāng)今社會,計算機的普遍使用,出現(xiàn)了連綿不斷的文本文件,如何對這些毫無邏輯、毫無層次的文件進行分門別類的整理,做到井井有條,層次鮮明呢?文本自動分
6、類就是針對上述情況,采用機器,通過一定的約束條件和一些分類算法,自動的對這些文件進行遍歷,從而實現(xiàn)分門別類。這樣用機器代替人來“閱讀”文章,用機器代替人來“整理”文章,不僅減輕了工作人員的負擔(dān),而且大大節(jié)省了時間,工作人員可以去做更多有意義的事情。 文本分類主要有以下三個方面:第1、 文本的空間向量表示:由于計算機并不能識別真正的文本,本質(zhì)上只懂得0,1,因此若要對文本進行分類,首先要讓計算機能夠“讀懂”每篇文章,引入文本空間向量表示,將文章里面的特征詞形成空間向量,通過計算向量之間的差距,來實現(xiàn)分門別類。第2、 文本特征的降維:由于中文詞匯成千上萬,那么形成的文本向量肯定也很長,計算起來會很
7、麻煩,因此要對向量進行處理。第3、 文本分類器的設(shè)計:文本分類方法例如:KNN、樸素貝葉斯、SVM、決策樹,BP神經(jīng)網(wǎng)絡(luò),運用這些算法設(shè)計分類器,從而處理文本向量之間的關(guān)系,實現(xiàn)對文本的分門別類。最后,將文本分類運用于眾多領(lǐng)域,例如:信息過濾、文檔管理、網(wǎng)絡(luò)安全、電子圖書整理、網(wǎng)絡(luò)圖書館,搜索引擎,這樣則不是通過關(guān)鍵字過濾,而是基于文本內(nèi)容的過濾或者是搜索,能大大提高過濾的可靠性以及搜索的準(zhǔn)確性,無疑使文本領(lǐng)域的一項重大的突破關(guān) 鍵 詞:文本向量;特征降維;分類算法;分類器設(shè)計。1Title: The design and implementation of Chinese text clas
8、sification algorithmName: Feng ChengpingSupervisor: Xiang Ming ABSTRACT With todays society, the widespread use of computers, the continuous of the text file, how about these no logic, no level of sort, classify files on do in perfect order, hierarchy and bright? Text automatic classification is acc
9、ording to the above situation, using the machine, through a certain constraint condition and some classification algorithm, automatic to traverse these files, so as to realize classify. So using machines instead of people to read, to finish, replacing workers with machines not only reduce the burden
10、 of the staff, and greatly saves time and staff to do more meaningful things.Text classification is mainly has the following three aspects: First, Text space vector said: because of the computer and cant identify the real text, essentially understand only 0, 1, so if you want to categorize text, fir
11、st of all, allow the computer to read each article, introduction of text vector space, said the article in the formation of key space vector, vector by calculation, the gap between to classify. Second, Text feature dimension reduction: due to the hundreds of thousands of Chinese vocabulary, then for
12、m the text vector is also very long, calculate it will be very trouble, so want to deal with vector. Third,Text classifier design: text classification method for example: KNN, naive bayes, the SVM and the decision tree, BP neural network, using these design classifier algorithm, to process the text
13、vector, the relationship between the implementation of text categorization. Finally, the text classification used in many fields, such as: information filtering, document management, network security, electronic books and network library, search engine, it is not by keyword filtering, but based on t
14、ext content filter or search, can greatly improve the accuracy of the reliability of the filter and search, no doubt make a significant breakthrough in the field of textKey words: text vector; Characteristics will be; Classification algorithms; Classifier design.Key words: text vector; feature reduc
15、tion; Classification algorithms; Classifier design.1目錄 目錄第一章 緒論61.1、文本分類背景和意義61.2、文本分類的應(yīng)用領(lǐng)域61.2.1、Internet上面應(yīng)用61.2.2、網(wǎng)絡(luò)圖書館方面的應(yīng)用71.2.3、網(wǎng)絡(luò)安全方面71.2.4、電子郵件方面71.3、目前國內(nèi)外研究現(xiàn)狀71.4、文本分類的發(fā)展趨勢展望81.5、本章小結(jié)8第二章 文本分類主要過程92.1、文本分類的過程圖92.2、關(guān)于語料庫102.2.1、文本分類語料庫介紹102.2.2、文本分類,訓(xùn)練階段的主要步驟102.2.3、文本分類,分類(測試)階段的主要過程102.3、關(guān)
16、于文本分詞102.4、文本空間向量的形成112.4.1、VSM(Vector Space Model)112.4.2、常見的權(quán)值計算方法、布爾框架(Booolean weighting)、TF-IDF計算權(quán)值算法122.4.3、詞典、用戶詞典、停用詞詞典142.5、常用的降維方法142.5.1、信息增益方法152.5.2、互信息方法162.5.3、期望交叉熵方法172.5.4、X2統(tǒng)計方法172.5.5、文本證據(jù)權(quán)方法182.6、本章小結(jié)18第三章 常用的文本分類方法193.1、k臨近分類器193.1.1、KNN算法概述1
17、93.1.2、KNN算法用于文本分類器構(gòu)造193.1.3、KNN算法用于分類203.1.4、KNN算法效果評價203.2、支持向量機分類器213.2.1、SVM算法概述213.2.2、SVM構(gòu)造分類器、線性可分、線性不可分、映射函數(shù)(核函數(shù))233.2.4、SVM分類評價243.3、決策樹算法分類器243.3.1、決策樹概述243.3.2、決策樹分類器的構(gòu)造263.3.3、決策樹分類器的構(gòu)造273.4、樸素貝葉斯分類器273.4.1、貝葉斯算法原理273.4.2、貝葉斯分類器283.4.3、貝葉斯進行分類283.5、BP神經(jīng)網(wǎng)絡(luò)分類器293
18、.5.1、BP神經(jīng)網(wǎng)絡(luò)原理293.5.2、BP神經(jīng)網(wǎng)絡(luò)分類器303.5.3、BP神經(jīng)網(wǎng)絡(luò)進行分類313.6、本章小結(jié)31第四章 試驗結(jié)果分析統(tǒng)計324.1、試驗結(jié)果評估指標(biāo)簡介324.2、使用KNN分類算法部分結(jié)果分析324.2.1、訓(xùn)練總篇數(shù)對分類結(jié)果的影響324.2.2、不同的K值對分類結(jié)果的影響334.2.3、降維深度對分類結(jié)果的影響354.2.4、采用不同的降維方法對試驗結(jié)果的影響364.2.5、分而統(tǒng)計各個類別的詳細信息364.3、使用SVM分類算法結(jié)果分析374.3.1、訓(xùn)練總篇數(shù)對分類結(jié)果的影響374.3.2、降維深度對分類結(jié)果的影響384.3.3、采用不同的降維方法對試驗結(jié)果的
19、影響394.3.4、分而統(tǒng)計各個類別的詳細信息404.4、本章小結(jié)41總結(jié)與展望42參考文獻44致謝45附錄46 第一章 緒論1.1、文本分類背景和意義 互聯(lián)網(wǎng)發(fā)展,網(wǎng)上電子圖書(txt文檔、pdf文檔、微小說、期刊論文等等),企業(yè)公司內(nèi)部文件整理,電子文檔的增加,為了高效訪問和使用這些文檔數(shù)據(jù),如果人為的對這些文件信息進行處理,不僅需要花費大量的時間翻閱每一篇文章,了解每篇文章的大體內(nèi)容,而且要付出很大的精力去統(tǒng)計。畢竟人的大腦工作能力有限,長期處于這種工作環(huán)境中,會造成大腦極大的負擔(dān),很可能由于一時疏忽而出現(xiàn)了錯誤,甚至信息量太過龐大,人腦不可能記錄這么多類別信息,在最后評估的時候也有可能
20、做出錯誤的判斷。不僅耽誤時間,而且不能實現(xiàn)分布式管理,如果由多人進行這項工作,很可能導(dǎo)致意見不同而導(dǎo)致糾紛等等。甚至同一個人,在不同的時間不同的地點,對一篇文章的分類頁不盡相同,這樣,很多嚴(yán)峻的問題隨之而來。文本自動分類就是針對上述情況,采用機器,通過一定的約束條件和一些分類算法,自動的對這些文件進行遍歷,從而實現(xiàn)分門別類。這樣用機器代替人來“閱讀”文章,用機器代替人來“整理”文章,不僅減輕了工作人員的負擔(dān),而且大大節(jié)省了時間,這樣工作人員就有更多的時間來處理其他的事情。用機器代替人來工作,這樣在整理的過程中也不會出現(xiàn)一時疏忽而出現(xiàn)錯誤,更可以夜以繼日的進行分類,一旦有新的文章進入,就可以通過
21、機器“讀取”這篇文章,然后自動的進行處理,可以帶來很多的方便1.2、文本分類的應(yīng)用領(lǐng)域1.2.1、Internet上面應(yīng)用 把文本分類系統(tǒng)結(jié)合到搜索引擎(谷歌、百度)之類,可以大大提高搜索的準(zhǔn)確性,目前大部分搜索引擎是通過查找關(guān)鍵字進行匹配,用這種方法必須要遍歷每篇文章,找出其中的關(guān)鍵字,然后統(tǒng)計結(jié)果輸出,這種查詢的精度不是很高,速度方面由于要遍歷很多文章,速度當(dāng)然不會很快。如用引入文本分類系統(tǒng),當(dāng)查詢某個關(guān)鍵字的時候,可以自動判定與之相關(guān)的文件類別,基于內(nèi)容的查詢,可以直接命5第一章 緒論中目標(biāo),查詢速度和精度能得到有效的提升1.2.2、網(wǎng)絡(luò)圖書館方面的應(yīng)用 任何一個圖書館的館藏資源成千上萬
22、,如果沒能很好的分門別類,大量的圖書便會雜亂無章,不僅浪費工作人員的時間進行整理和查詢,而且讀者在找尋自己想要的圖書方面也會花費很大的時間。因此可以使用文本分類引擎實現(xiàn)電子圖書的分門別類,使管理更加方便,是查詢更加簡單。1.2.3、網(wǎng)絡(luò)安全方面 internet的普及,人們上網(wǎng)瀏覽信息,很多是對讀者有用的,但是也有不法分子將不健康的信息通過internet進行傳播,不僅影響了讀者的時間,更會影響讀者的情緒,影響工作效率。如果將文本分類引擎引入綠色上網(wǎng)功能中,對用戶要訪問的內(nèi)容事先進行分析,去除沒有用的垃圾信息,就可以為用戶帶來很多方便。目前 電信綠色上網(wǎng),360綠色上網(wǎng)等都可以考慮引入此引擎,
23、相信效果會更上一層樓。1.2.4、電子郵件方面 可以自動為用戶預(yù)處理郵件,將郵件分門別類,而且必要的時候,可以自動屏蔽一些沒有用的垃圾郵件,給用戶帶來了很多方便。1.3、目前國內(nèi)外研究現(xiàn)狀 國外主要的研究單位:CMU、斯坦福。國內(nèi)主要的研究單位有:上海復(fù)旦大學(xué)、中科院計算所等,國內(nèi)的方法一般是在了解國外已有分類算法或者分類方法之后,在此基礎(chǔ)上進行創(chuàng)新和改進,以進一步適應(yīng)中文文本分類的需求。 到目前為止,文本自動分類在國外大致經(jīng)歷了三個發(fā)展階段: 預(yù)測分析階段(1958-1964)判斷文本分類是否能夠真正的在現(xiàn)實社會中起到作用 實際運用構(gòu)思階段(1965-1974)主要進行文本分類的初步構(gòu)思,形
24、成大概的理論和框架。 開發(fā)應(yīng)用階段(1975-至今)進行實際使用和運用階段,在電子郵件分類、網(wǎng)絡(luò)安全、信息過濾等方面取得較為廣泛的應(yīng)用。 我國文本分類的研究工作始于20世紀(jì)80年代,大體經(jīng)歷了可行性探討、輔助分類7系統(tǒng)、自動分類系統(tǒng)三個階段??傮w來書,中文文本分類還處于在試驗研究階段,正確分類率約為60%90%,目前已經(jīng)在國內(nèi)受到重視,相關(guān)的學(xué)術(shù)研究成果也層出不窮,相信不久以后,文本分類將涉及到中文的各個領(lǐng)域,發(fā)揮自己的一技之長。1.4、文本分類的發(fā)展趨勢展望 只要漢語甚至語言文字依舊在使用,那么文本分類將永遠有自己的重要性,而且隨著文字?jǐn)?shù)目的增多,文件類別的加劇,文本分類引擎將會越來越得到各
25、界人士的關(guān)注,運用領(lǐng)域?qū)絹碓綇V泛,重要性也會越來越高。相信在不就的將來,nternet方面、電子郵件、網(wǎng)絡(luò)圖書館、綠色上網(wǎng)安全方面,都會運用文本分類引擎以達到更好的效果,研究文本分類,必定會發(fā)展自己的獨特優(yōu)勢,為用戶帶來更多的方便。1.5、本章小結(jié) 本章主要從文本分類的背景以及應(yīng)用方面入手,提出了文本分類的研究的歷史背景,以及對應(yīng)的應(yīng)用領(lǐng)域,敘述了眾多文本分類的好處,通過對比國內(nèi)外的相關(guān)研究成果,分析國內(nèi)目前文本分類的現(xiàn)狀對文本分類的前景趨勢進行展望。19第二章 文本分類的主要過程 第二章 文本分類主要過程2.1、文本分類的過程圖 首先把文本分類的總體流程圖展示出來,主要包括對文本的處理,
26、對處理之后向量的降維,然后對訓(xùn)練集測試集語料庫進行仿真,文本分類過程圖如圖所示。開始訓(xùn)練集、測試集語料庫輸入文本采用中科院nlpir分詞文本分詞TF-IDF計算權(quán)值空間文本向量降維方法向量降維分類方法:svm/決策樹.進行文本分類Weka、C+、matlab仿真最終結(jié)果 圖2-1 文本分類過程圖第二章文本分類的國主要過程2.2、關(guān)于語料庫2.2.1、文本分類語料庫介紹 本次試驗中采用復(fù)旦大學(xué)語料庫,分為訓(xùn)練集與測試集,訓(xùn)練集20個類別,共計9804篇,測試集20個類別,共計9833篇。由于計算時間的關(guān)系,如果全部語料庫用來測試,那么逐篇文章遍歷,生成空間向量,需要太長的時間,因此試驗過程中為了
27、研究某些統(tǒng)計特征,只是從語料庫中隨機抽取樣本進行測試,分析最后結(jié)果。 復(fù)旦大學(xué)語料庫提供的預(yù)料有20個類別,但是各個類別里面的文章數(shù)差別太大,有的累里面有一千多篇,但是有的類別只有幾十篇,此處從中抽取樣本數(shù)較多的10個類別進行分析研究,10個類別分別是:環(huán)境、計算機、經(jīng)濟、軍事、歷史、農(nóng)業(yè)、太空、藝術(shù)、運動、政治,在實驗過程中都是隨機選取其中的文章進行試驗,沒有人為的對實驗結(jié)果進行定向干涉,保證了結(jié)果的隨機性。也就是說,在試驗的過程中,盡可能減少人的主觀性思維,盡量避免實驗者的主觀因素去影響試驗結(jié)果,力求結(jié)果的可靠性、可認(rèn)證性。2.2.2、文本分類,訓(xùn)練階段的主要步驟(1) 定義類別集合C=C
28、1,C2,CiCm,在本次實驗中一共有10個類別,那么m的值為10,分別是:環(huán)境、計算機、經(jīng)濟、軍事、歷史、農(nóng)業(yè)、太空、藝術(shù)、運動、政治。(2) 文本集合Cm=S1,S2,SjSn,Sn表示某個類別里面的一片文章,每篇文章Sn都有所屬的類別Cm,例如Sn屬于環(huán)境類,那么就有標(biāo)識。(3) 對于訓(xùn)練集中的所有文本,對其進行處理,形成空間文本向量,然后根據(jù)該特征向量和該文本所屬的類別,依據(jù)特定訓(xùn)練分類規(guī)則,形成分類器。這樣分類器就形成了2.2.3、文本分類,分類(測試)階段的主要過程(1) 對于某個等待分類的文本,先對該文本進行分詞形成空間向量,然后根據(jù)分類器采用的規(guī)則判斷該文本屬于訓(xùn)練集中的哪一類
29、。(2) 然后輸出所有分類的文本的類別,并對結(jié)果進行統(tǒng)計。2.3、關(guān)于文本分詞第二章 文本分類的主要過程對于隨意給出的一篇文章,或者一則短消息,要獲取消息或者文章的內(nèi)容,須從中提取關(guān)鍵詞語,因此使用中科院張華平教授研發(fā)的中文分詞工具:NLPIR(原名:ICTCLAS)漢語分詞工具,把文章分詞.關(guān)于nlpir:NLPIR漢語分詞系統(tǒng),主要功能包括中文分詞;詞性標(biāo)注;命名實體識別;用戶詞典功能;新增微博分詞、新詞發(fā)現(xiàn)與關(guān)鍵詞提取;張華平博士先后傾力打造十余年。為何要對文章進行分詞,詞是構(gòu)成文章的基礎(chǔ),計算機去識別一篇文章就是需要先對文章進行分詞,進而將詞表示成空間向量的形式,這樣才能進行計算,因此
30、分詞的好壞直接影響到最后的分類結(jié)果的好壞,一個好的分詞工具當(dāng)然是詞分的越細越好,詞語提取的越準(zhǔn)確越好,nlpir的分詞效果,較一般的分詞工具分的更準(zhǔn)確,更權(quán)威。如下圖是對語料庫里面的一篇文章的分詞處理結(jié)果: 圖2-2 一篇文章的分詞展示 有了分詞工具之后,接下來就是怎樣將一篇文章形成一個空間向量。2.4、文本空間向量的形成2.4.1、VSM(Vector Space Model) 俗稱向量空間模型。根據(jù)一篇文章中詞或者字出現(xiàn)的頻率,以及權(quán)值,將文本形象的轉(zhuǎn)化為一個很長維的向量,向量的總維數(shù)長度與字典里面的詞字個數(shù)相同,如果某個詞在該文章中并沒有出現(xiàn),那么相應(yīng)的此處的值為0,如果出現(xiàn)次數(shù)比較多,
31、權(quán)重比較高,則為:1,2,3(實際計算形成的權(quán)值一般是實數(shù),很少是整數(shù)).等等。 這樣就把文本轉(zhuǎn)化為計算機可以處理計算的向量形式。然后通過比較向量之間的相似度,或者通過分析向量之間的差別來進行文本的識別。 最后,一篇文章就被轉(zhuǎn)化為一個n維向量空間中的一個點,n可以理解為詞典中包括的總詞/短語數(shù)。用數(shù)學(xué)公式表示為:N=(W1,W2,W3,W4.WiWn),其中Wi為某個詞/短語的權(quán)值。 說明:、向量是有順序的,如果在詞典中未出現(xiàn),那么該位標(biāo)記為0或者在該向量形成的時候,前面做標(biāo)記位進行識別。 、詞典是包含了所有語料庫中出現(xiàn)的詞根/詞/短語 ,沒有重復(fù)字詞。 、即使是一篇很短的文章,也可能形成維數(shù)
32、很長的向量。2.4.2、常見的權(quán)值計算方法、布爾框架(Booolean weighting) 對于某個特征詞i,布爾框架對其權(quán)值的定義為: 權(quán)值定義為:1 特征詞i出現(xiàn)在文檔k中 (2-1) Wik =0 特征詞i未出現(xiàn)在文檔k中 分析:此種方法只是顯示了特征詞是否存在,但是出現(xiàn)的次數(shù)不能得到很好的統(tǒng)計,當(dāng)然對分類結(jié)果也不能達到很好的要求,因此在實驗過程中,不選擇此種框架,而采用另外一種框架TF-IDF框架、TF-IDF計算權(quán)值算法 TF-IDF(term frequencyinverse document frequency),TF-IDF是一種統(tǒng)計方法,即根據(jù)某
33、個詞/短語在自身文章中出現(xiàn)的比例,以及該短語在總體語料庫中出現(xiàn)的比例,來計算該詞/短語的權(quán)值,權(quán)值越高,證明該詞越能表示這篇文章的類別,相反權(quán)值越低,該詞對文章的貢獻度越小,用這種方法來評估一個字詞對于一篇文章或一個語料庫的重要程度。詞頻與反文檔頻率的大體思想是:一個字詞對這篇文章的重要性隨著它在本篇文章中出現(xiàn)的次數(shù)正比例增加,但是相對整體語料庫而言,如果在整體語料庫中出現(xiàn)的次數(shù)太多,該字詞的表征作用會呈反比例下降。 TF(詞頻)計算公式 (2-2)其中Mi表示某個詞在該篇文中中出現(xiàn)的次數(shù),Q表示文中出現(xiàn)的總詞數(shù),相同的詞第二次出現(xiàn)則Q不會疊加,Q統(tǒng)計的總次數(shù),不存在重復(fù)。 舉例1:在一篇科普
34、類文章中,地球在文中出現(xiàn)次數(shù)為7,文章中的總詞數(shù)是1000,那么地球這個詞的詞頻為:TF=3/1000=0.7% IDF(反文檔頻率)計算公式 (2-3) 其中D表示語料庫文章總數(shù),Si表示在D的樣本中,包含詞i的文章篇數(shù)。 舉例2:在總語料庫中,含有地球的文章數(shù)量為100,總文章數(shù)為,那么地球這個詞的反文檔頻率為:IDF=lg(/100)=3 。TF-IDF最后得到i的權(quán)值公式為 (2-4) 舉例3:綜合例1,例2,那么地球這個詞,在語料庫中的權(quán)值為:TF*IDF=0.007*3=0.021TF-IDF計算權(quán)值的好處分析 首先,如果不使用此方法,例如地球的公轉(zhuǎn),“地球” 、“的”、 “公轉(zhuǎn)”
35、 在文章中出現(xiàn)的次數(shù)分別為7、100、5,如果只是統(tǒng)計詞頻,假設(shè)文章有一千詞,那么三個詞的詞頻分別為:0.007 ,0.100 ,0.005 顯然,“的”的詞頻很大,三個詞總共的貢獻度為0.112,但是“的”占了絕大部分,顯然這個詞不能表示本文的特征,反之,地球與公轉(zhuǎn)這兩個詞能表征文本大意,但是所占的比例卻相當(dāng)?shù)男 ?其次,引入IDF,此問題就能得到很好的解釋:如上例子,還是以“地球” 、“的”、 “公轉(zhuǎn)”為例,出現(xiàn)次數(shù)如上所示。語料庫含有的總文章數(shù)為:105 ,含有“地球”文章數(shù)為102,含有“的”的文章數(shù)為105,含有“公轉(zhuǎn)”的文章數(shù)為103,那么根據(jù)DF-IDF計算公式,計算得出 W(地
36、球)=0.007*lg(105/102)=0.021 W(的)=0.100*lg(105/105)=0 W(公轉(zhuǎn))=0.005*lg(105/103)=0.010這樣計算,得出的結(jié)果“的”的權(quán)值為0,而地球和公轉(zhuǎn)分別占了0.021和0.010,這樣的結(jié)果符合正常的邏輯情況。2.4.3、詞典、用戶詞典在對語料庫中所有的文章進行分詞之后,勢必會有很多的字以及詞語,每當(dāng)產(chǎn)生一個新的詞語的時候,相應(yīng)的用戶詞典就會把這個詞加入進去,每當(dāng)有新詞進入的時候,詞典的長度就會加一,這樣對于訓(xùn)練集,訓(xùn)練集越大形成的詞典也就越大,相應(yīng)的對各篇文章的區(qū)分度會更好,有詞典的存在,每當(dāng)出現(xiàn)新詞的時候,用戶也不用擔(dān)心,加入詞典就可以。最終的詞典長度和空間向量的長度是相同的。、停用詞詞典 停用詞,顧名思義,就是文本分類過程中不需要用到的詞語,這些詞語千篇一律,不僅對文章沒有表征作用,而且會增加處理的復(fù)雜度,如果把這些詞加入計算,會影響計算的時間,因此
溫馨提示
- 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
- 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權(quán)益歸上傳用戶所有。
- 3. 本站RAR壓縮包中若帶圖紙,網(wǎng)頁內(nèi)容里面會有圖紙預(yù)覽,若沒有圖紙預(yù)覽就沒有圖紙。
- 4. 未經(jīng)權(quán)益所有人同意不得將文件中的內(nèi)容挪作商業(yè)或盈利用途。
- 5. 人人文庫網(wǎng)僅提供信息存儲空間,僅對用戶上傳內(nèi)容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內(nèi)容本身不做任何修改或編輯,并不能對任何下載內(nèi)容負責(zé)。
- 6. 下載文件中如有侵權(quán)或不適當(dāng)內(nèi)容,請與我們聯(lián)系,我們立即糾正。
- 7. 本站不保證下載資源的準(zhǔn)確性、安全性和完整性, 同時也不承擔(dān)用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。
最新文檔
- 2026吉林松原市生態(tài)環(huán)境局所屬事業(yè)單位選拔10人參考考試題庫及答案解析
- 2026山東青島西海岸新區(qū)部分事業(yè)單位招聘8人筆試備考試題及答案解析
- 飛機氣源系統(tǒng)培訓(xùn)課件
- 2026浙江杭州市廣播電視監(jiān)測中心招聘編外工作人員1人參考考試題庫及答案解析
- 2026山東聊城市眼科醫(yī)院引進博士研究生3人備考考試試題及答案解析
- 全場珠寶活動策劃方案(3篇)
- 獸醫(yī)質(zhì)量管理制度圖片(3篇)
- 分管工程的管理制度(3篇)
- 國家衛(wèi)健委管理制度(3篇)
- 涂娃娃活動策劃方案(3篇)
- 北師大版八年級上冊數(shù)學(xué)期末考試試卷及答案
- 電力設(shè)施圍欄施工方案
- 學(xué)習(xí)《教師法》和《嚴(yán)禁教師違規(guī)收受學(xué)生及家長禮品禮金等行為的規(guī)定》心得體會
- 2023年廣西區(qū)考公務(wù)員錄用考試《行測》真題及答案解析
- GB/T 23444-2024金屬及金屬復(fù)合材料吊頂板
- 應(yīng)用麻醉鎮(zhèn)痛技術(shù)施行負壓吸宮術(shù)技術(shù)規(guī)范
- 國家電網(wǎng)公司招聘高校畢業(yè)生應(yīng)聘登記表
- 見證取樣手冊(智能建筑分部)
- DZ∕T 0353-2020 地球化學(xué)詳查規(guī)范(正式版)
- 醫(yī)療衛(wèi)生輿情課件
- 2023-2024學(xué)年宜賓市高一數(shù)學(xué)上學(xué)期期末質(zhì)量監(jiān)測試卷附答案解析
評論
0/150
提交評論